Системы автоматизированного перевода

Автор: Пользователь скрыл имя, 02 Июня 2013 в 12:57, реферат

Описание работы

Жизнь современного человека трудно представить без технических достижений. Люди уже не могут представить себя без телефона в кармане, навигатора в автомобиле или персонального компьютера в руке. Что касается переводчиков, то для них вопрос современных технологий стоит еще более актуально. Сложно представить человека, профессионально занимающегося переводами, который ни разу не пользовался электронными словарями, программами перевода или просто компьютером. Развитые современные технологии помогают переводчику экономить время, повысить качество и скорость работы.

Работа содержит 1 файл

Системы автоматизированного перевода.doc

— 144.00 Кб (Скачать)

 

 

 

 

 

 

 

 

Доклад на тему:

Системы автоматизированного  перевода

 

 

 

 

 

 

 

Магистр ИЯ и  МК

.

 

 

 

 

 

 

 

ВВЕДЕНИЕ

Жизнь современного человека трудно представить без  технических достижений. Люди уже  не могут представить себя без  телефона в кармане, навигатора в  автомобиле или персонального компьютера в руке. Что касается переводчиков, то для них вопрос современных технологий стоит еще более актуально. Сложно представить человека, профессионально занимающегося переводами, который ни разу не пользовался электронными словарями, программами перевода или просто компьютером. Развитые современные технологии помогают переводчику экономить время, повысить качество и скорость работы.

За последние  несколько лет переводческая  отрасль претерпела существенные изменения, связанные с появлением новых технологий. Для отрасли, которая растет все более быстрыми темпами и испытывает острую нехватку квалифицированных переводчиков, компьютерные технологии, позволяющие увеличить эффективность работы переводчиков, стали настоящим спасением.

Работа переводчика в современном мире становится профессиональным занятием, ориентированным на рынок, что требует применения к ней единых стандартов обеспечения качества и выполнения переводов в сжатые сроки.

Первым инструментом, позволившим ускорить работу переводчика, была обыкновенная печатная машинка, но более значительным прорывом стала замена печатной машинки на персональный компьютер. Появились крайне важные для переводчика инструменты, в том числе электронные словари и глоссарии, программы для записи голоса и, в конце концов, накопители переводов (CAT-программы).

1 Понятие  САТ- программ

САТ- программы (от англ. Computer Aided Translation) – программы, которые помогают переводить текст на компьютере.

Также можно  сказать, что САТ- программы – это средства для автоматизированной работы переводчика.

И так что  такое автоматизированный перевод?

Автоматизированный  перевод – перевод текстов на компьютере с использованием компьютерных технологий.

Таким образом, говоря об автоматизированном переводе, мы также имеем в виду CAT.

2 Виды  САТ-программ

Все существующие программы, обеспечивающие автоматизацию  перевода, можно разделить на следующие  группы:

- электронные  словари 

- программы  и системы памяти переводов (TM-программы)

- программы  машинного перевода 

2.1 Электронные словари

Электронный словарь — словарь в компьютере или другом электронном устройстве. Позволяет быстро найти нужное слово, часто с учетом морфологии и возможностью поиска словосочетаний (примеров употребления), а также с возможностью изменения направления перевода (например, англо-русский или русско-английский)

По сути он является аналогом бумажного словаря. Современный  рынок предлагает огромное количество электронных словарей. Наиболее известные  это словари Lingvo от компании ABBYY, Мультилекс, Мультитран, Oxford Advanced Learner’s Dictionary и др.

Работа со словарем не вызывает никаких сложностей. Можно  ввести искомое слово в главном  окне словаря и получить варианты его перевода. Помимо этого у большинства  словарей есть функция быстрого перевода, которая позволяет выделив слово в редактируемом документе или на интернет -странице при помощи специальной комбинации клавиш получить его перевод. Для интернет - браузеров есть, так называемое, всплывающее окно перевода, которое появляется на экране, при наведении курсора на слово.

 

 

2.2 Программы машинного перевода

В процессе своей  деятельности случается так, что  переводчику приходиться пользоваться программами, которые делают уже  готовый перевод. Такие программы  как PROMT, Сократ, Pragma 5.x и др. Все их также можно отнести к CAT – программам, с той только разницей, что после выполнения перевода программой, переводчику следует проводить подробный и тщательный разбор.

Работа программы-переводчика  осуществляется по следующему алгоритму:  

  • На первом этапе осуществляется ввод текста и поиск входных слов в конкретной грамматической форме (например дательного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). Машина осуществляет синтаксический анализ предложения без опоры на значения составляющих его слов, с использованием информации только об их грамматических свойствах.
  • Второй этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа in case of, in accordance with получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, их роли в данном предложении и пр.), производимое в рамках входного языка. Также на данном этапе происходит разрешение неоднозначности (скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом), поэтому машина должна решить к какой части речи относится каждое конкретное слово. Помимо этого, второй этап характеризуется анализом и переводом слов. Обычно на данном этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей значения.
  • Третий этап - окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани, ножницы глагол должен стоять в форме множественного числа, притом, что в оригинале может быть и единственное число).
  • И наконец, последний этап включает в себя синтез выходных словоформ и предложения в целом на языке перевода. В память машины помимо наборов синтаксических правил для каждого языка «вкладывают» и правила преобразования синтаксических структур. К этому добавляют правила перехода от уже преобразованной структуры к предложению того языка, на который делается перевод.

В зависимости  от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера .

Действующие системы  машинного перевода, как правило, ориентированы на конкретные пары языков (например, французский и русский  или японский и английский) и используют, как правило, переводные соответствия либо на поверхностном уровне, либо на некотором промежуточном уровне между входным и выходным языком.

Для переводчика  перевод, выполненный при помощи такой программы, может быть использован для поверхностного ознакомления с содержанием текста. В этом случае он может использоваться как сигнальная информация и не требует тщательного редактирования.  Если же переводчик пользуется данной программой для того, чтобы, например, сэкономить время, то после обработки машиной, необходим обязательный анализ и редактирование «человеческой» рукой.

Качество машинного  перевода зависит от объема словаря, объема информации, приписываемой лексическим  единицам, от тщательности составления  и проверки работы алгоритмов анализа и синтеза, от эффективности программного обеспечения. 

2.3 Программы памяти переводов (ТМ-программы) - (ПП, англ. translation memory, TM иногда называемая «Накопитель переводов»)

- база данных, содержащая набор ранее переведенных текстов. Одна запись в такой базе данных соответствует «единице перевода» (англ. translation unit), за которую обычно принимается одно предложение (реже — часть сложносочинённого предложения, либо абзац).

Если очередное предложение  исходного текста в точности совпадает  с предложением, хранящимся в базе (точное соответствие, англ. exact match), оно может быть автоматически подставлено в перевод. Новое предложение может также слегка отличаться от хранящегося в базе (неточное соответствие, англ. fuzzy match). Такое предложение может быть также подставлено в перевод, но переводчик будет должен внести необходимые изменения.

    Помимо ускорения  процесса перевода повторяющихся  фрагментов и изменений, внесенных  в уже переведенные тексты (например, новых версий программных продуктов  или изменений в законодательстве), системы Прогаммы памяти перевода также обеспечивают единообразие перевода терминологии в одинаковых фрагментах, что особенно важно при техническом переводе. С другой стороны, если переводчик регулярно подставляет в свой перевод точные соответствия, извлеченные из баз переводов, без контроля их использования в новом контексте, качество переведенного текста может ухудшиться.

     В каждой  конкретной системе программы памяти перевода данные хранятся в своем собственном формате (текстовый формат в Wordfast, база данных Access в Deja Vu), но существует международный стандарт TMX (англ. Translation Memory eXchange format), который основан на XML и который могут порождать практически все системы проргаммы памяти перевода. Благодаря этому результаты работы переводчиков можно обменивать между приложениями, то есть переводчик работающий с OmegaT может использовать ПП, созданную в ТРАДОСе и наоборот.

      Большинство  систем ПП как минимум поддерживают создание и использование словарей пользователя, создание новых баз данных на основе параллельных текстов (англ. alignment), а также полуавтоматическое извлечение терминологии из оригинальных и параллельных текстов.

Популярные программные системы программы памяти перевода

К наиболее популярным системам относятся:

  • Deja Vu
  • OmegaT (бесплатная система, распространяемая по лицензии GNU)
  • SDLX
  • Trados (наиболее популярная программа, долгое время бывшая стандартом ПП)
  • Star Transit
  • MemoQ,
  • ABBYY Aligner.
  • Wordfast (реализована как набор макросов для MS Word)

 

 

 

3. Обзор современных программ памяти переводов

Для того, чтобы  проверить каким образом работают САТ- программы и являются ли они реально удобными и полезными для переводчика - рассмотрим механизм их работы на практике.

Основным объектом практического исследования станут самые известные и широко используемые в настоящее время программы, использующие память перевода (ТМ-программы) – WordFast и Trados.

3.1 Анализ работы ТМ-программ на примере Wordfast

Выбирая САТ- программу, переводчик должен руководствоваться тремя основными правилами: цена, удобство использования и количество времени, необходимое для того, чтобы научиться пользоваться программой.

Wordfast отвечает этим требованиям. К тому же Wordfast является бесплатной программой, что выгодно её отличает от дорогостоящих Trados и DejaVu. Принцип работы программы тот же самый, как и других ТМ-программ. Единственным отличием является то, что Wordfast разработан в качестве надстройки для Microsoft Word, то есть, данная программа встраивается прямо в окно Microsoft Word. Такая функция, на мой взгляд, является очень удобной. Нет необходимости выполнять работу в одном окне, затем копировать весь переведенный материал в Word. Использование такой вставки экономит время, а более того, позволяет строить переведенный текст, меняя шрифт, цвет, обозначая абзацы и.т.д., то есть, всю ту работу, которую в других программах нужно делать только после выполнения перевода.

В качестве объекта  для перевода используем аннотации к лекарственным средствам. Вот содержание первой из них (аннотация к аспирину):

Программа Wordfast после открытия данного текста делит  его на сегменты (чаще всего предложения  или фразы), причем не весь текст  сразу, а по мере выполнения перевода.

Таким образом, от сегмента к сегменту осуществляется перевод текста. После того как перевод всего текста закончен, документ выглядит следующим образом: слева идет первоначальный вариант на исходном языке, рядом в той же строке идет уже переведенный вариант:

 

{0>Medical Annotation<}0{>Инструкция по применению<0}

{0>Active ingredient (in each tablet) 375 mg<}0{>Активные вещества (в каждой таблетке) 375г<0}

{0>Purpose<}0{>Основное действие<0}

{0>Pain reliever/fever reducer<}0{>Облегчение боли и уменьшение жара<0}

 

Каждая фраза  заключена, как видно из примера, в кавычки с цифрами. Цифры  обозначают процент совпадения с памятью перевода. Память перевода формируется автоматически, как только вы начинаете работать с программой.

Естественно, что  пользуясь данной программой впервые, у меня не было своей накопленной  базы переводов, именно поэтому во всех случаях процент совпадения равнялся нулю.

После завершения перевода первой аннотации у меня образовалась определенная база перевода, составленная из тех фрагментов, которые были переведены. Очевидно, что она ничтожно мала, но для того, чтобы перевести схожий текст, полученная база перевода уже сможет помочь.

 

Переведём текст аннотации другого лекарственного средства:

При переводе второй аннотации, случаев совпадения вариантов перевода было достаточно. Чаще всего варианты совпадали на 100 %, но были фрагменты и с меньшим процентным соотношением совпадений. Однако варианты перевода, которые предлагались, полностью подходили для данного контекста.

{0>Medical Annotation<}100{>Инструкция по применению<0}

{0>Purpose<}100{>Основное действие<0}

{0>Pain reliever/fever reducer<}100{>Облегчение боли и уменьшение жара<0}

{0>Warnings<}100{>Меры предосторожности<0}

{0>Ask a doctor or pharmacist before use if you are<}89{>Проконсультируйтесь с доктором перед применением, если вы

{0>Directions<}100{>Указания<0}

 

Таким образом, осуществив перевод двух текстов, используя САТ – программу на основе памяти перевода, можно сделать вывод, что программа обладает удобным, понятным интерфейсом. Преимущества таких программ заключаются в следующем:

Информация о работе Системы автоматизированного перевода