Автоматическое чтение текста. Системы распознавания электронных документов

Автор: Пользователь скрыл имя, 19 Января 2011 в 13:15, реферат

Описание работы

В настоящее время наиболее известными программами для обработки и распознавания текстов являются соответственно Word и Fine Reader.
В данной работе я хочу рассмотреть Word 97, как самый надежный; и сравнить Fine Reader 5.0 и Cuneiform 2000, как конкурирующие программы. Рассмотрим их по порядку.

Работа содержит 1 файл

реферат.doc

— 142.50 Кб (Скачать)

   Щелкнув имя автора, можно мгновенно перейти к соответствующей части документа.

3. Доступ  к данным адресной книги, относящимся  к указанному в сообщении имени Поиск в адресной книге сведений о любом отправителе или получателе сообщения при чтении или написании сообщения. Щелкните имя правой кнопкой мыши и выберите команду Сведения об адресе в контекстном меню.

     4. Автоматическое форматирование неформатированных сообщений WordMail Автоматическое форматирование неформатированных входящих сообщений электронной почты при первом открытии. Это упрощает последующий обмен сообщениями: для оформления заголовков используются определенные стили, к репликам добавляются отступы, сообщения разных авторов выделяются разными цветами и т. п.

     5. Шаблоны WordMail

   Быстрое составление сообщения электронной почты.     Предлагается 10 шаблонов сообщений с различными стилями оформления. Например, с помощью шаблона срочного сообщения можно составить срочное сообщение электронной почт. 

Совместная  работа нескольких пользователей 

   В Word 97 появились новые возможности и средства, повышающие производительность и эффективность работы членов рабочих групп.

     1. Создание версий

   Ведение истории работы над документом. Это дает возможность точно определить время, характер и автора изменений, внесенных в документ. Кроме того, к каждой версии документа могут быть добавлены произвольные заметки. Все сведения о версиях документа хранятся в самом документе, что избавляет от необходимости хранить несколько копий документа. Кроме того, можно установить

режим автоматического  сохранения текущей версии документа  в конце каждого сеанса работы с ним. Это позволяет определить автора любой версии документа.

     2. Слияние документов

   Объединение всех изменений и примечаний, внесенных несколькими рецензентами, в один документ с помощью одной простой операции. Нескольким рецензентам можно предоставить для проверки отдельные копии документа, после чего все исправленные копии объединяются в итоговый документ. Или, например, можно унести домой копию документа, исправить ее там, а затем вернуть исправленную копию и автоматически объединить внесенные изменения с исходным документом.

     3. Примечания и всплывающие подсказки

   Быстрый просмотр на экране примечаний любых рецензентов непосредственно в документе без открытия отдельной области. Примечания легко обнаружить в документе — текст, снабженный примечанием, выделяется желтым цветом. При установке указателя на этот текст над ним появляется всплывающая подсказка, содержащая текст примечания и имя рецензента.

     4. Панель рецензирования

   Теперь все обычные средства рецензирования документа находятся на одной панели инструментов: запись и просмотр изменений, вставка и просмотр примечаний, выделение текста цветом, сохранение версий и отправка документа по электронной почте. 

Многоязыковая поддержка 

   В Word 95 было реализовано автоматическое переключение шрифта и языка при переключении клавиатуры, что сделало возможным использование текста на нескольких языках в документе и некоторых диалоговых окнах. В Word 97 еще более упростились создание и просмотр документов, содержащих текст на различных европейских языках. Кроме того, предусмотрена возможность просмотра документов, созданных с помощью дальневосточных версий Word, в американской версии Word.

     1. Переключение клавиатуры

   Автоматическое переключение шрифтов в документе при переключении клавиатуры (набор используемых шрифтов определяется текущей раскладкой клавиатуры).

   Переключение клавиатуры вызывает также переключение языка и, следовательно, обеспечивает проверку текста на другом языке, например, греческом, средствами проверки именно этого языка.

     2. Поддержка текстов на нескольких языках в диалоговых окнах Стали возможными редактирование и просмотр текста на нескольких языках в локализованных версиях Word. Например, в качестве условия поиска файлов в диалоговом окне Поиск файлов можно указать греческое имя автора.

    3. Открытие документов с текстом на нескольких языках в локализованной версии Word 

Правильное  отображение текста документа, созданного в локализованной версии 

   Word, при наличии в системе соответствующих шрифтов. Например, документы, созданные в японской версии Word, можно открывать и просматривать в американской версии Word. Следует отметить, что эта возможность не распространяется на языки, в которых направление письма может меняться (иврит, арабский и т. п.).

     4. Копирование и вставка текста в формате Unicode

   Существует возможность копирования текста на греческом, русском или любом другом европейском языке из американской версии Word и вставка его в лист Microsoft Excel. Кроме того, допускается копирование и вставка текста в формате Unicode в поля некоторых диалоговых окон (Найти, Заменить и т. п.).

     5. Сортировка

   Существует возможность указать язык и, тем самым, порядок сортировки, который следует использовать при сортировке текста в документе. Например, двойные буквы венгерского языка, такие как “cz”, правильно сортируются в американской версии Word, если в качестве языка сортировки указан венгерский.

     6. Вставка символов

   Для получения возможности вставки символов и букв, используемых в конкретном языке, достаточно выбрать соответствующий набор символов шрифта Unicode в диалоговом окне Символ (меню Вставка). Например, чтобы вставить в текст русские буквы, следует выбрать набор “Кириллица”.

     Рассмотрев Word, давайте сравним программы для распознавания текста.

   В последние несколько лет стали очень популярны программы распознавания текста. Используются они не только в офисах для перевода документов в электронный вид, но и дома для распознавания различного вида текстов для написания рефератов и курсовых, что облегчает жизнь студентам и научным сотрудникам. Проблема выбора программного продукта для решения какой-либо задачи всегда стояла перед пользователем. Для того чтобы разрешить ее, необходимо было сравнить хотя бы несколько программ одного назначения. При этом тратились время и деньги, и достаточно часто выбор был далеко не оптимальным. На данный момент всего два программных продукта - Fine Reader 5.0 и Cuneiform 2000 - предлагают решение данной проблемы. Рассмотрим их.

     Обе программы предлагают несколько  дополнительных возможностей помимо распознавания текста:

     проверка      орфографии  для различных языков;

      сканирование;     

      сохранение в различных форматах и передача в   другие программы распознанного документа;

      обработка      картинок;

      пакетная обработка множества изображений;

      форматирование      текста.

    Но нас интересуют не столько предлагаемые функции (они практически одинаковые), сколько отличия для пользователя в работе данных программ. Для этого мы проведем исследование по пунктам, которые являются основными для пользователя.

    

Скорость  и качество 

   Эти характеристики являются одними из самых критичных в применении данных программ, т. к. распознавание должно экономить время, затраченное на страницу текста, а складывается оно в итоге из скорости и качества. Скорость – это время, необходимое самой программе на распознавание, а от качества зависит, придется ли вам исправлять полученный текст и насколько время исправления меньше времени набора того же самого текста. Как показывает опыт, качество напрямую зависит от исходного материала, а также от уровня интеллекта

программы распознавания.

   Для начала мы посмотрим, как программы будут распознавать страницу, не содержащую ничего, кроме обычного текста. Затем рассмотрим несколько вариантов различной сложности.

   Для этого мы берем лист формата А4 с текстом, распечатанным на лазерном принтере, сканируем его в черно-белом режиме с разрешением 300 точек на дюйм и сохраняем в формате TIFF (с этими параметрами будут отсканированы и остальные образцы, взятые для тестов).

   Теперь мы открываем это изображение в Fine Reader 5.0, выделяем область для распознавания и нажимаем кнопку "Распознать". На этот процесс у программы уходит около 4 с. Производим подобную операцию в Cuneiform 2000 и спустя 8 с получаем распознанный текст.

   Таким образом, Fine Reader 5.0 работает быстрее, чем Cuneiform 2000. Теперь о качестве: первая программа совершила только одну ошибку, ну а вторая

ошиблась  только поставив ненужный пробел.

   Теперь давайте посмотрим, какая картина будет, если мы возьмем для распознавания разворот учебника с формулами.

   Производим распознавание и видим, что Fine Reader затратил около 43 с, а Cuneiform - порядка 18 с.

   Интересно: Fine Reader здесь показал не лучший результат по скорости, но по качеству - у него преимущество. Судите сами: в основном ошибки распознавания оказались только в формулах, а Cuneiform умудрился совершить их и в тексте.

   Другой не менее интересный тест на скорость и качество – распознавание ксерокса учебника, причем для него мы возьмем два варианта: хорошего и плохого качества.

   При распознавании хорошего ксерокса Fine Reader вновь оказался впереди - 4 с, а Cuneiform - 5 с.

   Посмотрев на распознанный текст, можно сказать, что Fine Reader не на много, но все же лучше справился с задачей. Cuneiform не смог распознать правильно букву "Ц", а цифру ноль посчитала буквой "О".

   Теперь давайте посмотрим, какие результаты у нас получатся, если распознавать ксерокс плохого качества.

   Fine Reader - 1 мин 48 с, а Cuneiform - около 30 с. Тут явно проиграл Fine Reader. Посмотрим, что же удалось распознать нашим участникам. Картина явно меняется: Cuneiform за 30 с со всей страницы едва ли распознал правильно более одного-двух десятков слов. С Fine Reader, несмотря на плохое качество исходного материала, было получено максимальное количество распознанного текста, который, имея оригинал, можно было бы привести в нормальный вид. А пользователям Cuneiform пришлось бы набирать весь текст вручную. Тише едешь - дальше будешь.

   Итак, показатель времени распознавания у программ совершенно разный, и сказать, какой из них быстрее, довольно сложно. Однако нельзя не заметить, что у Fine Reader 5.0 время распознавания напрямую зависит от качества оригинала: она старается распознать максимально много и поэтому затрачивает больше времени на распознавание изображения плохого качества. Ну а у Cuneiform 2000 время распознавания не настолько зависит от качества оригинала, поэтому распознавание занимает меньше времени, но из-за этого страдает качество. Вывод: Fine Reader 5.0 лучше всего использовать при распознавании как хорошего, так и плохого исходного материала. Ну, а Cuneiform 2000 в лучшем свете выглядит при распознавании среднего и чуть выше среднего качества оригиналов, т. к. при этом он тратит время на распознавание гораздо меньше, а качество лишь немного уступает победителю данного теста - Fine Reader.

    

Таблицы и формы 

   На этом этапе мы рассмотрим, насколько точно будет производиться определение таблиц и форм. Для того чтобы провести его более точно, мы возьмем два основных вида таблиц и один документ договора.

   Таким образом, мы получили две идентичные таблицы (за исключением форматирования), недостатки которых в наших программах следующие: в Fine Reader 5.0 каждая ячейка заканчивается ненужным вводом), а Cuneiform 2000 сохраняет разбивку на строки за счет вставки символа "конец строки" (Shift+Enter в MS Word). Теперь можно взять более сложную таблицу.

   При попытке разметить ее автоматически только Fine Reader нашла здесь какое- то подобие таблицы, ну а Cuneiform 2000 вообще решил, что здесь находится только текст. И только после того как вручную выделили табличный блок, программы решили распознавать таблицу.

Информация о работе Автоматическое чтение текста. Системы распознавания электронных документов