Как пользоваться программой abbyy finereader 11. Как распознать текст с помощью ABBYY FineReader: пошаговая инструкция
Определение структуры документа
ABBYY FineReader представляет революционно новый подход к распознаванию документов. Теперь документ анализируется и обрабатывается целиком, а не постранично, что позволяет FineReader понять такие элементы его внутренней структуры, как верхние и нижние колонтитулы, сноски, подписи к картинкам и диаграммам, стили, шрифты и т.д. Элементы исходного документа восстанавливаются в результирующем документе. Например, при сохранении в Word верхние и нижние колонтитулы, сноски воспроизводятся как соответствующие объекты в Word.
Отличное качество распознавания и точное сохранение оформления
Система оптического распознавания ABBYY FineReader точно распознает и максимально полно сохраняет исходное оформление любого документа (в том числе с текстом на фоне картинок, с цветным текстом на цветном фоне, с обтеканием картинок текстом и т.д.)
Распознавание многоязычных документов
ABBYY FineReader распознаёт документы на 188 языках, включая русский, английский, немецкий, французский, испанский, итальянский, шведский, финский, болгарский, венгерский, словацкий, чешский, башкирский, белорусский, казахский, китайский, украинский и др. Текст документа может быть составлен на двух и более языках. Пользователь может указать свой язык распознавания для каждого блока типа или для каждой ячейки таблицы.
Интеллектуальное распознавание PDF-документов
Как известно, некоторые PDF-файлы содержат так называемый текстовый слой, причём его содержимое может не полностью соответствовать видимому на экране документу. FineReader предварительно анализирует содержимое файла и для каждого текстового блока принимает решение: распознать его или извлечь соответствующий текст из текстового слоя. Таким образом удаётся увеличить качество распознавания и сократить время обработки.
Распознавание цифровых фотографий документов
Теперь для распознавания необязательно оснащать компьютер сканером. ABBYY FineReader позволяет распознавать фотографии документов, сделанные цифровой камерой (рекомендуется использовать цифровой фотоаппарат с разрешением матрицы 4 Мпикс и выше).
Существует множество случаев, когда для получения изображения удобнее использовать фотоаппарат, нежели сканер. Например, во время деловой встречи вне офиса, при распознавании вывесок или объявлений, в библиотеке, особенно при работе с толстыми или старинными книгами. Не говоря уже о том, что цифровой фотоаппарат работает в несколько раз быстрее любого сканера.
Распознавание гиперссылок
Такие документы могут быть сохранены в форматах Microsoft Word, PDF и HTML. Кроме того, в распознанный текст можно добавлять собственные гиперссылки.
При распознавании PDF-файлов, помимо внешних ссылок, восстанавливаются и внутренние (на другие страницы того же документа).
Распознавание скриншотов
В комплект поставки системы включен ABBYY Screenshot Reader. Это простое и удобное приложение предназначено для распознавания текста с любой области экрана. ABBYY Screenshot Reader переводит в редактируемый формат такие тексты, которые нельзя скопировать обычным способом - системные сообщения, надписи во Flash-роликах и т.д. Как распознанный текст, так и снимок экрана могут быть сохранены в виде файла или переданы в буфер обмена.
Распознавание штрих-кодов
ABBYY FineReader поддерживает распознавание штрих-кодов, в том числе двухмерных типа PDF-417.
Перевод текста в цифровой формат — довольно распространенная задача для тех, кто работает с документами. Программа Abbyy Finereader поможет сохранить немало времени, автоматически переводя надписи из растровых картинок или «читалок» в редактируемый текст.
В данной статье рассмотрим, как использовать Abbyy Finereader для распознавания текстов.
Как распознать текст с картинки при помощи Abbyy Finereader
Для того, чтобы распознать текст на растровом изображении, достаточно просто загрузить его в программу, и Abbyy Finereader автоматически распознает текст. Вам остается только редактировать его, выделив нужное и сохранить в требуемом формате или скопировать в текстовый редактор.
Распознать текст можно прямо с подключенного сканера.
Более подробно читайте на нашем сайте.
Как создать документ PDF и FB2 при помощи Abbyy Finereader
Программа Abbyy Finereader позволяет конвертировать изображения в универсальный формат PDF и формат FB2 для чтения на электронных книгах и планшетах.
Процесс создания таких документов схож.
1. В главном меню программы выберите раздел E-Book и нажмите FB2. Выберите тип исходного документа — сканирование, документ или фотография.
2. Найдите и откройте требуемый документ. Он загрузится в программу постранично (это может занять некоторое время).
3. Когда процесс распознавания завершится, программа предложит выбрать формат для сохранения. Выбираем FB2. При необходимости, заходим в «Опции» и вводим дополнительную информацию (автор, название, ключевые слова, описание).
После сохранения можно остаться в режиме редактирования текста и перевести его в формат Word или PDF.
Особенности редактирования текста в Abbyy Finereader
Для текста, который распознал Abbyy Finereader предусмотрено несколько опций.
В исходом документе сохраните картинки и колонтитулы, чтобы они перенеслись в новый документ.
Проведите анализ документа, чтобы знать какие ошибки и проблемы могут возникнуть в процессе преобразования.
Редактируйте изображение страницы. Доступны опции кадрирования, фотокоррекции, изменения разрешения.
Вот мы и рассказали как пользоваться Abbyy Finereader. Он обладает довольно широкими возможностями редактирования и конвертирования текстов. Пусть эта программа поможет в создании любых нужных вам документов.
Итак, на компьютере у нас установлен FineReader. Включаем сканер и оцифровываем какой-нибудь многостраничный документ. Назовем его, условно, "Договор".
Укладываем на стекло сканера первую страницу документа, закрываем крышку. Запускаем программу FineReader. Кликаем кнопку "Сканировать", или клавишами давим сочетание "Ctrl+K". Открывается окно "Сканирование ABBYY FineReader". При оцифровке обычной текстовой страницы набраной шрифтом в 11-12 пунктов оставляем настройки в окне по умолчанию и нажимаем кнопку "Просмотр".
Сканер работает и через несколько секунд видим нашу страницу в окошке просмотра. Здесь мы можем изменить размер скана, если надо. И потом нажимаем кнопку "Сканировать".
FineReader начинает процесс распознавания текста и в течение минуты изображение страницы открывается в окне программы. Правая часть окна делится теперь на три раздела. В левом разделе "Изображение" мы можем редактировать изображение. Подробнее о редактировании изображения можно почитать в уроке: Сканирование книги . В правом разделе "Текст" можно сразу вносить изменения в текст - редактировать содержание страницы еще до его сохранения. Это очень удобно, когда нужно, например, быстро изменить в документе даты, реквизиты, фамилии.
В левой части окна "Страницы" появляется пиктограмма распознанной страницы:
Если редактировать ничего не надо, заменяем первую страницу на стекле сканера второй страницей и повторяем технологию. Один раз настроив размеры скана в окне "Сканирование ABBYY FineReader" в режиме "Просмотр" для первой страницы, теперь сразу кликаем кнопку "Сканировать". Установленные для первой страницы настройки сохраняются, и последующие страницы сканируем без предварительного просмотра. Так сканируем все страницы нашего документа.
Закончили, и теперь, поочередно кликая по пиктограммам открываем страницы, проверяя правильную их последовательность.
После этого, в левой части окна "Страницы" выделяем все пиктограммы кнопкой: "Правка – Выделить все" или клавиатурным сочетанием: "Ctrl+A". Затем, в выпадающем списке рядом с кнопкой "Сохранить" выбираем команду: "Сохранить как документ PDF":
Хлопаем теперь по самой кнопке и сохраняем документ с именем "Договор.pdf" в папку «Договор»:
В итоге получаем многостраничный текстовый документ pdf-формата - электронную версию нашего документа с условным названием "Договор".
Так, FineReader’ом оцифровываем текстовые документы.
Изменив режим сканирования на "цветной" в окне "Сканирование ABBYY FineReader" также легко оцифруем цветные картинки и фотографии.
А, задав в контекстном меню, например, команду: "Сохранить как документ Microsoft Word 2007" преобразуем наш проект в единый многостраничный редактируемый вордовский документ.
Вобщем, программа легко усвояемая, интуитивно понятная и везде всплывающие подсказки.
История Abbyy FineReader насчитывает уже более 20 лет. Юбилейный 2013 г. компания отметила выпуском полновесного (по сравнению с Express Edition от 2009 г.) Abbyy FineReader Pro для Mac, а через пару месяцев, в феврале 2014 г., свой «подарок» получили и пользователи Windows - Abbyy FineReader 12 Professional и Corporate. Напомню, что предыдущая версия появилась еще в 2011 г. , а два с половиной года срок немалый - давайте разбираться, насколько существенны изменения.
Общая информация
Системные требования для новой версии совершенно не изменились. Платформой может служить Windows или Windows Server начиная от XP и 2003 соответственно. Аппаратные запросы по нынешним временам и подавно скромны: процессор любой разрядности с частотой от 1 ГГц, оперативной памяти не менее 1 ГБ плюс по 512 МБ на каждое вычислительное ядро и т. п. Несколько увеличилась только потребность в дисковом пространстве - теперь для установки требуется не 700, а 850 МБ (плюс, по-прежнему, еще 700 МБ для рабочих файлов).
Естественно, речь идет о минимальных требованиях; полностью возможности Abbyy FineReader 12 Professional раскроются только на сравнительно современных системах. В частности, напомню, что программа умеет эффективно распараллеливать обработку отдельных страниц, задействует при этом все процессорные ядра и загружает любой процессор почти на 100%. А вот к оперативной памяти она действительно не жадная, и даже остается 32-разрядной.
Не претерпела изменений и процедура установки: минимум вопросов и опций. В комплекте с Abbyy FineReader 12 Professional по-прежнему идет Abbyy Screenshot Reader, который становится работоспособным только после регистрации пользователя.
После этого также откроется доступ к техподдержке.
Даже на основе этой скромной информации можно предположить, что перед нами результат эволюции. Соответственно, в дальнейшем я сосредоточусь на описании изменений по сравнению с предыдущей версией, которые условно можно разделить на две основные группы: работа с программой (интерфейс, вспомогательные инструменты, удобство использования) и OCR (качество и производительность собственно распознавания).
Работа с программой
Abbyy FineReader 12 Professional демонстрирует некоторые доработки в части пользовательского интерфейса. Это сразу же заметно на окне Задачи, которое по умолчанию открывается при запуске программы. Оно, очевидно, имитирует концепцию плиток Windows 8.x и адаптировано для управления пальцами, тем более, что в программе также поддерживаются и основные жесты вроде прокрутки и масштабирования. На деле же, изменения коснулись только «фасада», да и то отчасти - рядом с плитками соседствуют обычные элементы управления и в процессе настройки любого сценария придется иметь дело со стандартными диалоговыми окнами. Работать с ними пальцами довольно проблематично, особенно на экранах 8-10″, которые становятся популярными у Windows-планшетов.
Представить же, что пользователь такого планшета, оснащенного камерой, может захотеть быстро «на ходу» ввести какой-то печатный документ, действительно несложно. Между тем вся история Windows, начиная с первой редакции Tablet PC, подтверждает бессмысленность адаптации к сенсорному управлению стандартного настольного интерфейса. По-видимому, для этих целей гораздо правильнее создавать специальную оболочку, соответствующую всем канонам Metro, но использующую тот же «движок». Примером подобного решения служит Internet Explorer из Windows 8.x. К тому же, у Abbyy даже имеется некий задел в виде Abbyy FineReader Touch для Windows 8, который использует облачный сервис компании.
Если же отвлечься от сенсорного ввода, то найдутся еще изменения данного класса - от вполне ожидаемого обновления окон открытия/сохранения документов, которые, среди прочего, обеспечивают простой доступ к облачным хранилищам (при наличии в системе соответствующего агента и его папки), до нескольких более важных и полезных.
Обработка страниц в Abbyy FineReader 12 Professional теперь выполняется в фоновом режиме. Это подразумевает отсутствие прежнего модального окна со статусом операций (теперь данную роль играет строка статуса внизу экрана) и, соответственно, наличие доступа к интерфейсу. Таким образом пользователь имеет возможность работать с программой параллельно процессу распознавания (если он, конечно достаточно длительный), к примеру, копировать фрагменты полученного текста или даже корректировать разметку страниц - последние при этом будут поставлены в очередь и обработаны заново.
В отличие от прежней версии, также не происходит перелистывания страниц по мере распознавания или при начальной загрузке документа, если автоматическое распознавание отключено. В Abbyy FineReader 12 Professional документ загружается и разбивается на страницы практически мгновенно, а их эскизы строятся только по мере ручного пролистывания в левой панели. Кроме всего прочего, тем самым экономятся вычислительные ресурсы, причем, довольно ощутимо на больших многостраничных документах.
Остальные изменения данного класса не столь интересны, хотя и могут пригодиться в каких-то сценариях, поэтому о них кратко.
Если нужно не обработать документ целиком, а лишь процитировать отдельные места, то можно отключить все автоматические операции и выбирать необходимые фрагменты любых типов, сразу же копируя их в буфер обмена - при этом анализ и распознавание будут выполняться на лету.
Для получения результата с более простой структурой, чем у оригинала, можно отключать воссоздание колонтитулов, сносок и других элементов макета. Это может пригодиться, к примеру, при подготовке электронных книг.
Продолжая об электронных книгах - в Abbyy FineReader 12 Professional поддерживаются форматы EPUB 2.0.1 и 3.0.
Расширены параметры преобразования в XLSX, к примеру, появилась возможность очищать форматирование или сохранять картинки.
При сохранении результирующих документов в PDF с текстовым слоем теперь можно воспользоваться новой технологией Abbyy Precise Scan, которая заключается в сглаживании символов на оригинальных изображениях страниц. Доступна она, кстати, только в цветном режиме.
Эффект от ее работы достаточно заметен, хотя и не всегда, скажем так, «академичен». Впрочем, читабельность сглаженных символов в любом случае должна быть выше, а в данном примере оригинал действительно очень низкого качества.
OCR
Теперь давайте разберемся, какие улучшения произошли в механизмах собственно распознавания.
Разработчики сообщают об очередном этапе совершенствования технологии ADRT, которая, напомню , анализирует и воссоздает логическую структуру документа. Декларируется, что она стала работать гораздо точнее, особенно с таблицами, списками, диаграммами. Продемонстрировать это адекватными примерами не так просто, но не невозможно. Вот, к примеру, результаты распознавания (с настройками по умолчанию) одной и той же страницы в Abbyy FineReader 11 Professional (вверху) и Abbyy FineReader 12 Professional (внизу).
Старая версия выделила и обработала только основной текстовый блок, возможно, из-за низкого качества оригинала сочтя остальные элементы «мусором». Новая, напротив, корректно опознала список и попыталась его воссоздать. Результат, правда, не идеален: то что распознаны не все маркеры можно, опять же, отнести на качество изображения, но программа, по-видимому, все же не поняла, что перед ней содержание, иначе не интерпретировала бы цифры как буквы. Тем не менее, прогресс налицо и на более качественных оригиналах подобных претензий, возможно, не было бы.
А вот как обрабатывается «неявная» таблица без разделительных линий - Abbyy FineReader 11 Professional (вверху) и Abbyy FineReader 12 Professional (внизу).
Хорошо видно, что старая версия, в отличие от новой, вообще не увидела здесь табличной структуры и ограничилась набором несвязанных между собой текстовых блоков. Не поленитесь щелкнуть на изображениях и сравнить результаты распознавания - у Abbyy FineReader 12 Professional он близок к идеалу.
К сожалению, так происходит не всегда и уже на соседних страницах Abbyy FineReader 12 Professional показал результаты, аналогичные Abbyy FineReader 11 Professional. Хотя именно ADRT должна была бы отследить одинаковые «шапки» и понять, что перед ней своеобразная перетекающая таблица.
Но все равно хорошо заметно, что обновленные алгоритмы обращают внимание на большее количество деталей чем ранее. В процессе тестирования Abbyy FineReader 12 Professional наблюдалась, к примеру, даже попытка интерпретировать как таблицу картинку с упорядоченным размещением на нем текстовой информации. Гораздо чаще также новая версия пытается воссоздавать различные диаграммы и схемы на основе фонового рисунка, а не из отдельных графических и текстовых блоков.
Есть еще несколько новинок, призванных повысить в Abbyy FineReader 12 Professional качество распознавания. Как известно, одной из предпосылок для этого является качество оригинала, особенно если он получен с помощью не сканера, а фотокамеры. Именно поэтому в свое время в FineReader появились средства предварительной обработки оригиналов. В новой версии их список расширен, добавились обрезка по краям страниц, осветление и выравнивание яркости фона, удаление цветных элементов. Последнее может пригодиться, к примеру, для обработки документов с печатями и штампами. Кроме того, теперь пользователь может подключать различные методы индивидуально.
Улучшена также языковая поддержка. Во-первых, появился русский алфавит с ударениями, во-вторых, декларируется повышение качества распознавания китайского, японского и корейского (до 20%), арабского (до 60%), иврита (до 10%) - достигнуто это, по-видимому, за счет совершенствования и дополнительной тренировки классификаторов .
Ну и наконец, один из наиболее животрепещущих вопросов для многих читателей: выросла ли скорость работы программы? Аргументированно ответить на этот вопрос, тем более с цифрами, не так-то просто - слишком много языков, каждый из которых имеет свои нюансы; слишком велико разнообразие оригиналов; слишком много неизвестных нам факторов влияния на работу алгоритмов. Поэтому даже сами разработчики достаточно сдержанно говорят о росте производительности Abbyy FineReader 12 Professional на 10-15%.
Подобные цифры обычно получаются по результатам обработки достаточно больших массивов документов и, соответственно, представляют собой нечто вроде «средней температуры по больнице». Поэтому полезно подробнее изучить какие-нибудь показательные частные случаи, к примеру, подобные двум следующим:
- отсканированные в цвете с разрешением 300 dpi 10 страниц полноцветного буклета формата A4. Качество хорошее, языки русский и английский, макет сложный;
- PDF с графическими изображениями 138 страниц книги, содержащей небольшое количество цветных и черно-белых иллюстраций, несколько таблиц. Качество низкое (начиная, по-видимому, со «слепой» печати в бумажной книге), языки украинский и русский, макет простой.
Оба документа распознавались в цветном режиме, а второй также и в черно-белом, что имело целью имитировать процесс подготовки электронной книги. Все настройки по умолчанию оставлялись без изменений, за исключением набора языков и, соответственно, режимов работы. В качестве тестового полигона использовался ПК с процессором i5-3450 и 8 ГБ памяти. Результаты представлены в следующей таблице:
Как видно, для PDF ускорение даже превышает обещанные 15% - возможно, это как раз один из особых случаев, хорошо подходящих для последних оптимизаций в алгоритмах распознавания. При этом надо иметь в виду, что программы, вообще говоря, проделали разный объем работы. Взгляните хотя бы на иллюстрации выше к обработке таблиц - трудно сказать, какой из версий пришлось сложнее.
Что касается количества ошибок, то оно у обеих версий практически совпадало, хотя было заметно, что иногда сомнения вызывают разные фрагменты и символы - это, по-видимому, является свидетельством тренировки алгоритмов. В любом случае, большинство неуверенно распознанных символов абсолютно корректно идентифицировалось с помощью словарей, а «грубые» ошибки (некорректная интерпретация специальных и декоративных символов, текста на графике и пр.) совпадали. Так что разницу и вовсе можно считать исчезающей.
Другой вопрос, насколько подобное повышение производительности вообще имеет значение? По-видимому, выигрыш в полминуты на 138 страницах, которые все равно нужно проверять и, возможно, корректировать, немногого стоит. Если работы, подобные тестовым заданиям, предполагается выполнять от случая к случаю, то о производительности можно точно не переживать. Другое дело, если речь идет об автономной обработке больших объемов документов, которая доступна в Abbyy FineReader 12 Corporate. В таком случае экономия 15% времени уже вполне ощутима.
Резюме
Несмотря на то, что новый Abbyy FineReader 12 Professional не обещал ничего революционного, по крайней мере несколько изменений в нем заслуживают всяческой похвалы. Прежде всего, это усовершенствования технологии ADRT в части распознавания таблиц, диаграмм и вообще логической структуры страниц, что в некоторых случаях позволяет получать кардинально лучшие результаты, а также фоновый режим обработки, который открывает новые возможности для интерактивной работы с большими документами.
Других изменений также немало, хотя они и менее значимы. Движение в сторону поддержки сенсорного управления сегодня безусловно оправдано, однако путь выбран порочный - обеспечить в одном интерфейсе одинаково удобную работу мышью и пальцами вряд ли возможно. Впрочем, пока Windows-планшеты только пытаются пробиться на рынок, и у разработчиков из Abbyy еще есть время.
Цены на Abbyy FineReader 12 Professional:
- коробочная версия: 4990 руб.;
- версия для скачивания: 4490 руб.;
- обновление: 2690 руб.
Как обычно, ответ на вопрос «стоит ли менять старую версию на новую?» зависит от ситуации. В любом случае стоит учитывать, что жизненный цикл у FineReader достаточно продолжительный, и если какое-то из описанных улучшений играет для вас сколько-нибудь существенную роль, то за 2-3 года затраты на обновление наверняка окупятся - если не материально, то морально. Решить же для себя этот вопрос окончательно поможет .
Для того чтобы воспользоватся программой ABBYY FineReader которая предназначена для распознавания текста с нередактируемых и графических форматов. необходимо для начала скачать ее и установить на компьютер, а после посмотреть ролик представленный ниже здесь все подробно рассказано о данной программе.
Данная программа, предназначена для сканирования текста и произведения, его распознавания.
Использована она конечно же может быть, а для осуществления этого пользования, можно не выходя из самой програмке Finereader, в раках которой вы работаете, распознать текст файла и в дальнейшем трансформировать его из скано-копии документа, в классический формата, программы Word. Дальше она получится что будет в вашем пользовании.
Finereader - это программа для сканирования и распознавания текста с экспортом информации в популярные офисные пакеты. Принцип работы с ним в двух словах можно описать так: берем бумажный лист с напечатанным текстом, сканируем его сканером, получаем некий графический файл растрового формата. Потом не выходя из программы Finereader распознаем текст файла и следующим шагом делаем из скано-копии документ формата Word. Перед этим распознанный текст можно просмотреть и отредактировать. Полученный word-овский документ можно уже дальше дополнять и редактировать.
Программа Abbyyfinereader бесспорно является лидером среди подобных программ.
Она обладает очень широкими возможностями по распознаванию текста с нередактируемых и графических форматов.
Программа сможет распознать текст с таких основных форматов как (нередактируемых pdf,цифровые форматы файлов jpeg, jpg, Djvu, gif, png и т.д.).
Также программа ABBYY FineReader неплохо работает практически со всеми моделями сканеров.
Основными функциями программы являются:
Сканирование документов в форматы: Microsoft Word, Microsoft Excel, Pdf, сканирование и сохранение изображений, PDF или изображение в Microsoft Word, конвертировать фото в Microsoft Word.
Рабочая область программы ABBYY Finereader:
Для добавления новой задачи, необходимо нажать на кнопку **новое задание **, которая находится в левой верхней части, рабочей области программы.
Откроется окно новое задание
В открывшемся окне необходимо выбрать ту задачу которую нужно выполнить.
Допустим у нас есть фотография документа который мы хотим конвертирывать в формат документа Microsoft Word. Для этого в окне новое задание находим активную надпись Конвертировать фото в Microsoft Word и нажимаем на эту надпись. Откроется окно проводника программы с предворительным просмотром :
В открывшемся окне выбираем фото текстового файла которое необходимо распознать и конвертировать в нужный вам формат.
Откроется окно со шкалой процесса распознования :
После того как программа обработает фото и попытается распознать текст.
Вы увидите следующее :
Здесь вы сможете выбрать область вашего фото для распознования текста.
После выбора области нажмите кнопку распознать которая находится в верхнем меню программы. Программа приступит к конвертации выбранного фото в текст. После обработки изображения нажмите на стрелку рядом скнопкой сохранить и выберите нужный формат для создания текстового документа:
Мощная и функциональная программа ABBYY FineReader , предназначена для качественного сканирования и точного распознавания (это зависит от разрешения, выставленного при сканировании) различных бумажных носителей информации с печатным текстом (книг, журналов, газет и т.п.), а также изображений цифрового формата.
Программа поддерживает различные языки распознавания, умеет сохранять в: Microsoft Word, PDF, форматы изображений и другие форматы. Так как программа имеет интуитивно-понятный интерфейс, работать с ней удобно.
Итак, первым делом нужно сначала выставить настройки и отсканировать документ, получим изображение, текст которого следует программе распознать . После распознавания можно подкорректировать текст (если есть какие-либо неточности) и сохранить его в желаемый формат.