Автоматическое чтение текста. Системы распознавания электронных документов

Автор: Пользователь скрыл имя, 19 Января 2011 в 13:15, реферат

Описание работы

В настоящее время наиболее известными программами для обработки и распознавания текстов являются соответственно Word и Fine Reader.
В данной работе я хочу рассмотреть Word 97, как самый надежный; и сравнить Fine Reader 5.0 и Cuneiform 2000, как конкурирующие программы. Рассмотрим их по порядку.

Работа содержит 1 файл

реферат.doc

— 142.50 Кб (Скачать)

   Наиболее точно и близко к оригиналу у нас оказался Fine Reader 5.0, но все же не совсем так, как бы

хотелось. Cuneiform 2000 вообще решил, что в таблице  вся сетка должна быть полностью видимой - после таких распознаваний придется еще повозиться с таблицей достаточно основательно. Тем более Cuneiform 2000 еще не совсем точно распознал текст в самой таблице.

    

   Для того чтобы хорошо и наиболее точно распознавалась таблица, можно самому отредактировать вертикальные и горизонтальные линии таблицы до распознавания текста. Это доступно в обеих программах.

   Проведя исследование на распознавание таблиц, мы переходим к формам. Что же мы в данном случае под ними понимаем? А все очень просто: анкеты, договора и прочие документы, содержащие достаточно сложное оформление. Если у вас возникает вопрос, а зачем такое исследование проводить, то очень просто привести пример из жизни. Вам нужно изменить текст договора или анкеты имеющегося у вас образца, а в электронном виде его у вас нет. Время на набор и оформление ограничено, поэтому приходится использовать программу распознавания.

   Итак, покончим с лирикой и возьмемся за дело. Образцом для нашего теста послужит стандартный договор найма.

   При автоматической разметке страницы на блоки возникает примерно такая же ситуация, как при определении сложной таблицы, поэтому мы всю страницу определяем единым текстовым блоком вручную. Это приходится делать, поскольку в Fine Reader страница разделяется на три блока, а в Cuneiform 2000 – порядка пятнадцати.

   В Fine Reader спустя 50 с мы получаем уже готовый договор, ну а в Cuneiform 2000 ждем всего 10 с, но документ в результате требует исправлений. Например, некоторые точки распознались запятыми, а вместо символа номер (№) получаем пару других символов, и точность распознавания самого текста немного страдает. Однако само форматирование договора в обеих программах сохранилось достаточно точно.

   Результаты: при распознавании простой таблицы Cuneiform 2000 оказался лучше, чем Fine Reader 5.0.

   При работе со сложной таблицей пришлось вручную определять блок таблицы, т.к. при автоматическом определении блоков обе программы ее не опознали вообще как таблицу. Когда это, наконец, произошло, обе полученные таблицы требовали довольно серьезной редакции, но все-таки Fine Reader показал лучший результат.

   При распознавании договора (или формы) он же вышел на первое место, правда, при этом затратил в пять раз больше времени, чем Cuneiform 2000, зато распознал более точно, и нам меньше надо было бы править (достойное применение для работы этих программ).

    

Блоки 

   Не последнее место при работе с программами распознавания занимает автоматическая разбивка на блоки. В автоматическом режиме на разбивку тратится несколько секунд, а в ручном - гораздо больше времени.

   Для начала возьмем изображение нашего договора. Как уже говорилось, Cuneiform 2000 разбил этот единый документ на множество блоков, а Fine Reader только на 3 части, и в них не вошли лишь последние точки в документе (ей можно в принципе доверять). Для нормального распознавания в наших программах таблицы в тексте (тем более, если она не простая) лучше всего ее выделять самостоятельно. Ну а если она похожа на первый образец, то можно спокойно не обращать на нее внимание, т. к. она правильно определится обеими программами.

   И все-таки программа Fine Reader здесь тоже выходит на первое место: она наиболее точно определяет тип распознаваемых блоков и распределяет их тоже не плохо.

   Для примера возьмем разворот учебника с картинками и посмотрим, как справятся наши программы с разбивкой на блоки.

   Cuneiform 2000 нашел таблицу и около 30 текстовых блоков, причем некоторые выделяли область рисунков. После этого мы ожидали увидеть примерно такую же картину и в Fine Reader 5.0, но все иллюстрации были распознаны правильно (хотя и не совсем точны были определены границы), текстовые блоки были выделены тоже достаточно корректно, ну а мифических таблиц эта программа не обнаружила, т. к. их действительно не было.

   Да, для того чтобы нормально распознать текст в Fine Reader, нужно всего лишь немного поправить границы блоков и удалить ненужные, а в Cuneiform 2000 лучше задавать их вручную.

   Проведенное испытание показало, что иногда лучше самому расставить и определить блоки, т. к. программе может быть не совсем понятно к какому типу относить получившийся блок. Наши программы в принципе неплохо справились с задачей, особенно Fine Reader, который не совершил грубых ошибок при распознавании блоков.

    

Распознавание цвета 

   Раньше программы распознавания требовали только черно-белых (1-битовых) изображений в разрешениях, близких к 300ґ300 dpi. Теперь программы фирм ABBYY и Cognitive Technologies Ltd., позволяют распознавать серые и цветные изображения с разрешениями от 200 до 600 dpi. Осталось только проверить, насколько хорошо они это делают.

   Для проведения данного теста мы возьмем первую страницу цветной газеты, отсканируем ее в 24-битном режиме (16,5 млн цветов) и постепенно будем уменьшать цветность. В данном тесте нас будут интересовать результаты времени распознавания и качество, а также их зависимость от количества цветов.

   Теперь полученный 23-мегабайтный файл загружаем в наши программы распознавания. Сначала разбиваем его на блоки автоматическим путем. Смотрим, что у нас получилось: Fine Reader без особого труда с маленьким недочетом (упустил одну букву) определил все блоки, причем правильно, а Cuneiform 2000 опять нашел несуществующую таблицу, но в целом все остальное определил неплохо.

   Переходим ко второй стадии - распознаванию. Fine Reader - 34 с, Cuneiform - 52 с! Невероятно, но факт. Fine Reader, помимо высокой скорости, еще и очень качественно распознал данную страницу (совершив всего несколько ошибок, распознав даже белый текст на черном фоне), особенно по сравнению с Cuneiform, который не смог распознать большую часть текста. Кроме того, Fine Reader вырезал картинку без примеси текста! Таких результатов от Fine Reader мы не ожидали.

   Теперь понижаем цветность с 16,5 млн до 256 цветов и смотрим, изменится ли картина распознавания. Для Fine Reader ситуация с определением блоков не изменилась, а вот у другой тестируемой программы проблема - она, похоже, не нашла текст. Будем считать, что программа Cuneiform 2000 провалила данный тест. Скорость распознавания у Fine Reader изменилась в сторону уменьшения: получилось около 27 с. Да, кстати, на этот раз программа вообще не ошиблась при определении блоков.

   Ну и, наконец, последнее распознавание этого же изображения в режиме 256 градаций серого. С Cuneiform 2000 опять та же проблема - не находит текст, опять провал. А вот Fine Reader не ударил в грязь лицом и спокойно распределил блоки с той же точностью. Процесс распознавания занял всего 24 с - превосходный результат!

   Ну а теперь можно подвести итоги проделанной работы. Бесспорным лидером нашего теста оказался Fine Reader 5.0 Pro, который победил почти во всех тестах программу Cuneiform 2000 Master. Качество распознавания у победителя бесспорно выше, особенно при плохих оригиналах. Скорость у него не сильно отстает, а иногда и превосходит своего конкурента. Как показали последние два теста, у Fine Reader отличная система распознавания блоков и цветного изображения.

   Есть, конечно, и некоторые неудобства в обеих программах: надо проверять, а иногда и исправлять распознанные блоки, при больших объемах страниц. А в общем обе программы достаточно конкурентоспособны и еще будут бороться за первое место, но на данном этапе, как видите, Fine Reader лучше. 

Заключение. 

   В настоящее время всё больше людей используют компьютеры в повседневной жизни, даже работа с текстами проходит через машины. А программы для работы с текстом улучшаются на глазах. Написав эту работу, я делаю вывод – что следует выбирать надежность и качество при выборе ПО для каждого компьютера и ни в коем случае не спешить с этим делом.

    

Информация о работе Автоматическое чтение текста. Системы распознавания электронных документов