Плененный граббером ABBYY

Евгений Козловский протестировал программу-распознаватель текста, предназначенную для коммуникаторов с операционной системой Android.

Автор: Евгений Козловский

 

(Ворчалка № 230)

Двадцать (20!) лет назад фирма ABBYY, которую тогда по старой памяти многие звали еще BIT, выпустила программу – распознавалку текстов, которая в те времена показался мне совершенно потрясающим, FineReader.

Реально программа заработала только года через три, начиная с версии 3.0, да и сканеры поначалу были дорогим удовольствием. Потом сканеры подешевели и стали совершенными, однако возникла другая проблема: они привязаны к компьютерам, и с собою их не слишком потаскаешь.

В девятой версии FineReader’а появилась возможность (скажем мягко: теоретическая возможность) подавать на распознание тексты, снятые цифровыми фотоаппаратами. Конечно, и аппараты должны были быть достаточно умелыми, и сам процесс требовал обдумывания и навыков. Однако возможность все же появилась.

Но по нынешним временам и фотоаппарат стал лишней обузой, повседневное фотографирование перешло на коммуникаторы или, изредка, планшеты.

И их мощность, сравнимая, а чаще превосходящая мощность былых настольных компьютеров, и их работа со встроенными фотокамерами просто не могли не подвигнуть ABBYY на следующий шаг: выпустить вариант FineReader’а для коммуникаторов.

ABBYY Text Grabber + Translator в Google PlayMarket

С iOS ABBYY работает давно и плотно, но, не имея ни iPhone, ни iPad’а, я мог знать об этом только понаслышке. А тут появился наконец простенький (но более чем рабочий) вариант для Android’а: начиная с версии 2.3 и требующий не менее чем 3-мегапиксельного фотомодуля. Что – и то, и другое, – довольно давно стало средней нормой для коммуникатора.


Программа называется "ABBYY Text Grabber + Translator" и легко обнаруживается в Google PlayMarket, и стоит около полутораста рублей.

На мой вкус, даже с учетом бесплатности основной массы программ под Android, не так дорого. Особенно, если нужна ее функциональность.

© РИА НовостиABBYY Text Grabber + Translator. Главное окно и About
ABBYY Text Grabber + Translator. Главное окно и About

Главное отличие Text Grabber’а от полноценного, под большие компьютеры, FineReader’а – это неумение давать на выходе ни включенных в текст картинок, ни форматирования. Только голый текст, даже не разбитый на абзацы и иногда с торчащими в середине слов переносами. Понятное дело, что никаких таблиц. То есть их содержание выцарапать можно, но что относится к чему – в этом придется разбираться.

Дело понятное. Распознавание текста хоть и не является задачей для искусственного интеллекта, но отбирает достаточно и памяти, и процессорной мощности, особенно в части форматирования и картинок. А у андроидных (и вообще – карманных) аппаратов существуют определенные ограничения. Text Grabber и так занимает в дистрибутиве немало: 16,9 Мб.

Настроек у программы совсем чуть-чуть: язык текста распознания (там их 40, и можно "подкачать" и дополнительные модули, причем можно задавать до трех языков в одном распознаваемом документе; установка возможности и шага обрезки страниц (если в кадр вдруг попало больше, чем было надо), сохранять или нет распознанный текст, – вот, кажется, и все. Отдельно можно задавать параметры и направления перевода, Text Grabber умеет и это, но не сам, а при помощи гугловского переводчика. Которому для этого нужно быть в Сети. Кстати заметить, вся распознавальная часть Text Grabber’а, включая словари, находится на самом коммуникаторе и Сети для работы не требует.

ABBYY Text Grabber + Translator. Настройки

Результаты распознавания можно отправить буквально в сотню мест, – от почты до установленных на коммуникаторе приложений типа Papirus, SMS/MMS, Bluetooth, и даже в Переводчик Google, который вроде и так сопряжен с Text Grabber’ом. Правда, надо иметь в виду, что эти посланные тексты теряют красные пометки неуверенных распознаваний, которые расставляет Text Grabber. Однако, если вам нужен совсем чистый текст, это можно поправить сразу, после распознавания.

Процесс распознавания идет очень быстро, причем Text Grabber’у совершенно все равно, лежит он на снимке нормально или повернут на любой бок. Главное, чтобы угол поворота был близок к 90 градусам. Впрочем, перекосы градусов в 3-5 Text Grabber’у практически не мешает.

Что же касается качества распознавания… Оно очень зависит от качества фотографии.

© РИА НовостиABBYY Text Grabber + Translator. Снимок-шевеленка и его распознание
ABBYY Text Grabber + Translator. Снимок-шевеленка и его распознание

Если было темновато и камера выставила настолько большую выдержку, что текст очевидно смазался, – может не распознаться вообще ничего, или текст покроется красным ковром пометок. Если текст велик и вы сняли его целиком, то распознание будет зависеть от разрешения камеры и качества ее матрицы, так что порой удобнее снять его двумя или даже тремя частями.

© РИА НовостиABBYY Text Grabber + Translator. Пол-страницы (тени не помешали) и 98-процентно точное ее распознание
ABBYY Text Grabber + Translator. Пол-страницы (тени не помешали) и 98-процентно точное ее распознание

Однако при хороших условиях фотографирования и понимании, как и для чего это делать, распознание идет практически на уровне сканера большого компьютера. Без ошибок.

Иной раз возникают проблемы, если и текст, и его фон – цветные, если бумага сильно бликует, если, наконец, вы делаете снимок с экрана монитора. Но последнее, на мой вкус, – чисто извращение: можно сделать скриншот и распознавать уже его, особенно на Windows 8, где скриншотить можно прямо в файл.

Кстати, программа позволяет брать оригинал не только непосредственно с камеры, но и с сохраненных картинок. Я, например, пользуясь Nexus’ом со сравнительно посредственной камерой и Lumia 920, с великолепной камерой, но невозможностью установить на нее Text Grabber (его для WP8 на сегодня просто нет), при необходимости их просто комбинирую: снимаю на одной и перекидываю – для распознания – на другую.

Если вы хотите сохранить не только результат распознания, но и оригинал, вам лучше всего будет поступать именно так: снимать отдельно, распознавать отдельно, ибо Text Grabber картинок не сохраняет.

Так или иначе, тем, кому такое молниеносно-карманное распознавание "бумажных" текстов нужно (каждый сам про себя это знает), – появление на рынке Text Grabber’а – большой подарок. К тому же, есть предчувствие, что он мало помалу будет совершенствоваться.

А вынесенную в заголовок подпись "Captured by ABBYY TextGrabber", TextGrabber ставит в конце распознанных текстов. Как подпись.

Мнение автора может не совпадать с позицией редакции

Колумнисты
Комментарии
2 пользователя оставили 2 комментария
интересная вещь. особенно для "мобильных" юзеров.
Полностью согласен с автором. Приложение шикарное! На моем HTC One X все прекрасно распознается почти при любых условиях. В свое время аналогично облизывался на FineReader под PC. Для меня стал невероятным перенос почти того же функционала на мобильное устройство. Все супер!
Наверх
Авторизация
He правильное имя пользователя или пароль
Войти через социальные сети
Регистрация
E-mail
Пароль
Подтверждение пароля
Введите код с картинки
He правильное имя пользователя или пароль
* Все поля обязательны к заполнению
Восстановление пароля
E-mail
Инструкции для восстановления пароля высланы на
Смена региона
Идет загрузка...
Произошла ошибка... Повторить
правила комментирования материалов

Регистрация пользователя в сервисе РИА Клуб на сайте Ria.Ru и авторизация на других сайтах медиагруппы МИА «Россия сегодня» при помощи аккаунта или аккаунтов пользователя в социальных сетях обозначает согласие с данными правилами.

Пользователь обязуется своими действиями не нарушать действующее законодательство Российской Федерации.

Пользователь обязуется высказываться уважительно по отношению к другим участникам дискуссии, читателям и лицам, фигурирующим в материалах.

Публикуются комментарии только на тех языках, на которых представлено основное содержание материала, под которым пользователь размещает комментарий.

На сайтах медиагруппы МИА «Россия сегодня» может осуществляться редактирование комментариев, в том числе и предварительное. Это означает, что модератор проверяет соответствие комментариев данным правилам после того, как комментарий был опубликован автором и стал доступен другим пользователям, а также до того, как комментарий стал доступен другим пользователям.

Комментарий пользователя будет удален, если он:

  • не соответствует тематике страницы;
  • пропагандирует ненависть, дискриминацию по расовому, этническому, половому, религиозному, социальному признакам, ущемляет права меньшинств;
  • нарушает права несовершеннолетних, причиняет им вред в любой форме;
  • содержит идеи экстремистского и террористического характера, призывает к насильственному изменению конституционного строя Российской Федерации;
  • содержит оскорбления, угрозы в адрес других пользователей, конкретных лиц или организаций, порочит честь и достоинство или подрывает их деловую репутацию;
  • содержит оскорбления или сообщения, выражающие неуважение в адрес МИА «Россия сегодня» или сотрудников агентства;
  • нарушает неприкосновенность частной жизни, распространяет персональные данные третьих лиц без их согласия, раскрывает тайну переписки;
  • содержит ссылки на сцены насилия, жестокого обращения с животными;
  • содержит информацию о способах суицида, подстрекает к самоубийству;
  • преследует коммерческие цели, содержит ненадлежащую рекламу, незаконную политическую рекламу или ссылки на другие сетевые ресурсы, содержащие такую информацию;
  • имеет непристойное содержание, содержит нецензурную лексику и её производные, а также намёки на употребление лексических единиц, подпадающих под это определение;
  • содержит спам, рекламирует распространение спама, сервисы массовой рассылки сообщений и ресурсы для заработка в интернете;
  • рекламирует употребление наркотических/психотропных препаратов, содержит информацию об их изготовлении и употреблении;
  • содержит ссылки на вирусы и вредоносное программное обеспечение;
  • является частью акции, при которой поступает большое количество комментариев с идентичным или схожим содержанием («флешмоб»);
  • автор злоупотребляет написанием большого количества малосодержательных сообщений, или смысл текста трудно либо невозможно уловить («флуд»);
  • автор нарушает сетевой этикет, проявляя формы агрессивного, издевательского и оскорбительного поведения («троллинг»);
  • автор проявляет неуважение к русскому языку, текст написан по-русски с использованием латиницы, целиком или преимущественно набран заглавными буквами или не разбит на предложения.

Пожалуйста, пишите грамотно — комментарии, в которых проявляется пренебрежение правилами и нормами русского языка, могут блокироваться вне зависимости от содержания.

Администрация имеет право без предупреждения заблокировать пользователю доступ к странице в случае систематического нарушения или однократного грубого нарушения участником правил комментирования.

Пользователь может инициировать восстановление своего доступа, написав письмо на адрес электронной почты moderator@rian.ru

В письме должны быть указаны:

  • Тема – восстановление доступа
  • Логин пользователя
  • Объяснения причин действий, которые были нарушением вышеперечисленных правил и повлекли за собой блокировку.

Если модераторы сочтут возможным восстановление доступа, то это будет сделано.

В случае повторного нарушения правил и повторной блокировки доступ пользователю не может быть восстановлен, блокировка в таком случае является полной.

Чтобы связаться с командой модераторов, используйте адрес электронной почты moderator@rian.ru или воспользуйтесь формой обратной связи.

Заявка на размещение пресс-релиза
Компания
Контактное лицо
Контактный телефон или E-mail
Комментарий
Введите код с картинки
Все поля обязательны к заполнению. Услуга предоставляется на коммерческой основе.
Заявка успешно отправлена