Как быстро распознать отсканированный текст?

1 1 1 1 1 1 1 1 1 1 Rating 4.67 (15 Votes)

В работе довольно часто сталкиваюсь с необходимостью распознать текст. Будь то отсканированная книга, PDF-документ или же нужно просто вытянуть текст с картинки. В статье хочу рассказать, как я это делаю, и поделиться некоторым опытом. Надеюсь, советы в статье смогут помочь начинающим пользователям научиться качественно распознавать текст из отсканированных картинок или других графических файлов. Я расскажу о недостатках и преимуществах онлайн распознания. А также посмотрим, какую программу нужно установить и как ее использовать для качественного распознавания текста на изображениях.

Что мы имеем в виду под словами «распознать текст»?

Распознать текст – это перевести текст из картинки в текст или символы представления в компьютере. Если на отсканированном изображении есть текст, тогда после распознания вы получите его в виде документа (PDF, MS Word, Excel, Html, Rtf, txt), который можно редактировать. Распознавание, например, используется для конвертации отсканированных книг или документов в электронный вид. Созданный файл будет в точности повторять структуру исходного документа, будет сохранено расположение таблиц, колонок и названия шрифтов. В таком распознанном виде намного легче работать с текстом, а также передавать по сети.

Нужно быстро распознать отсканированный текст?

Онлайн сервисы вам в помощь. Довольно часто в своей практике я пользовался возможностью распознать текст онлайн. Очень удобно пользоваться услугами онлайн распознавания, если вы к примеру не на работе. Даю некоторые ссылки:

OCRconvert.com – это бесплатный онлайн сервис, который позволяет распознать текст из PDF-файлов JPEG файлов и т.д. в общем, любые отсканированные изображения можете конвертировать в текст.

Кое-что о минусах:

  • Распознанный текст нужно самому копировать из веб-страницы. Нет функции экспорта в *.doc или *.docx. Как вы понимаете, не о каком сохранении форматирования речи бить не может – только текст. Если вам это не суть важно – тогда нет проблем.

OnlineOCR.ru – позволяет распознать текст из простой картинки, сканированного документа или фотографии. Результат можно получить в любом из 6 поддерживаемых форматов.

Кое-что о минусах:

  • Нужно зарегистрироваться.
  • А в последнее время сервис стал платным. Вот что написано в моем аккаунте: «Недостаточно кредитов для полнофункционального распознавания. Возможен демонстрационный режим (распознается только часть текста). Купить кредиты».

FineReader Online – с помощью этого сервиса вы можете перевести полученные изображения в электронный формат, удобный для редактирования и хранения.

Кое-что о минусах:

  • Нужно зарегистрироваться.
  • Лимит на количество документов для распознания
  • А в последнее время сервис стал платным. Вот что написано в моем аккаунте: « У вас недостаточно страниц для распознавания. Пожалуйста, посетите наш магазин и купите 20 страниц».

Можете воспользоваться их услугами в том случае, если нужно распознать текст из всего одной или нескольких картинок – не более. В таком случае, возможно и нет смысла устанавливать программы для распознания текста.

Недостатки всех онлайн сервисов:

  • Нужно регистрироваться в системе
  • Лимит на количество документов для распознания
  • Нет возможности настроить процесс распознания. Если сложные страницы, где переплетены картинки формулы и текст на разных языках – очень сложно получить достойный результат распознания.
  • Зависим от интернета.

Как распознать отсканированный текст при помощи программы.

Если недостатки онлайн сервисов для вас критичны – тогда нужно скачать программу и установить на компьютер для стационарного распознавания текста. Таких программ довольно много. Но лучшим решением для распознавания отсканированного текста я считаю программу ABBYY FineReader. Программа предназначена для качественного распознавания текста, позволяет быстро и точно переводить любые изображения (не только со сканера, но и с цифровых фотоаппаратов или мобильных телефонов) а также PDF-файлы – в электронные, редактируемые форматы и у вас не будет необходимости перепечатывать все «вручную».

Основные возможности ABBYY FineReader:

  • Точность распознавания и сохранение форматирования документа.
  • Понятный интерфейс – программа очень проста в использовании.
  • Распознавание цифровых изображений с любых источников.
  • Перевод в популярные электронные форматы – DOCX, XLSX, PDF и другие.
  • Есть инструменты для улучшения качества фотографий документов.
  • Типовые сценарии для перевода в самые популярные форматы.
  • Запуск напрямую из офисных приложений Microsoft Word, Excel, Outlook.
  • Поддержка 179 языков распознавания.

Пример: как распознать текст из картинки

Устанавливаем и запускаем программу. Далее нам нужно открыть в программе те изображения, текст с которых нужно распознать и сохранить как документ Microsoft Word.

 

FineReader сразу же предлагает выбрать сценарий, по которому мы будем работать. В нашем случае уже есть изображение (скрин офф-сайта ABBYY FineReader), поэтому я выберу «изображение в Microsoft Word». В вашем случае может быть иной сценарий.

 

В моем примере снимок имеет довольно небольшое разрешение. И программа вывела предупреждение. Вы должны знать – чем больше разрешение изображения, тем меньше будет ошибок. Это следует учитывать, если вы пользуетесь не сканером а, к примеру, мобильным телефоном.

 

 

Как только я указал изображение, которое нужно распознать программа в автоматическом режиме определила расположение элементов и попыталась распознать текст на странице. Если вас не устраивает то, как программа определила блоки с текстом и картинками – можете удалить то, что выделила программа и, воспользовавшись панелью инструментов самостоятельно указать, что нужно распознать как текст или таблицу, а что оставить как картинку.

 

Для примера хедер сайта (на картинке) имеет и рисунок, и текст, но его не нужно распознавать, поэтому я его всего выделю как картинку. Так сделайте со всеми блоками изображения. Выделите, что есть картинка, а что нужно распознать как текст.

 

Как только вы укажите настройки области распознания, язык текста (или оставьте по умолчанию «Автовыбор» языка) – нужно заново распознать рисунок.

 

После повторного распознания всех страниц программа выведет результат в виде документа Microsoft Word. Если нужно сохранить в другом формате – во вкладке «Сохранить» просто выбираете нужный формат. Таким образом, можно создавать pdf файлы из отсканированных картинок и т.д.

 

Как видим, после правильной настройки области распознавания (то, чего нет в онлайн сервисах) результат просто потрясающий! Программа справилась с таким сложным заданием на 5+!!! Как всегда – FineReader радует надежностью и качеством работы!

Вот и все! Мы на примере увидели, как можно качественно распознать текст, практически с любых изображений. Надеемся, Вам будут полезными и другие статьи на нашем сайте. Успехов!

Комментарии   

 
+2 #2 Отсканированный текстАлександр 26.08.2015 12:35
Советую еще попробовать сервис http://img2txt.com/ появился недавно...
Цитировать
 
 
+3 #1 RE: Как быстро распознать отсканированный текст?Дмитрий 07.11.2014 02:43
огромное спасибо за статью! :lol: помогла прога ABBYY FineReader!!!пр осто супер!а то мучился печатал текст вручную, а тут вуаля все готово!!!! :lol:
Цитировать