История обработки естественного языка

Автор: Пользователь скрыл имя, 19 Января 2012 в 12:04, реферат

Описание работы

Для античности был характерен синкретизм мышления. Человек понимался как часть природы и общества. Человек отождествлялся мышлению, а мышление миру. Мир можно познавать через слова, поэтому речь также отождествлялась с мышлением. Мышление понималось только в словесно-логической форме. Языковое и мыслительное содержание не различались. Центральным понятием античного учения о языке был Логос – то, при помощи чего боги вступают в разговор с людьми.

Содержание

1. Предыстория.
2. История компьютерной лингвистики на Западе.
2.1. АОТ с 40-х годов XX века по 1965 г.
2.2. АОТ с 1966 по 1980 годы.
2.3. АОТ в 80-е и 90-е годы.
2.4. Современные результаты компьютерной лингвистики.
3. История компьютерной лингвистики в СССР и России.
3.1. До теории «Смысл↔Текст».
3.2. Теория «Смысл↔Текст».
3.3. 70-80-е годы.
3.4. Современное коммерческие системы.
4. Послесловие.
5. Использованная литература и другие источники.

Работа содержит 1 файл

История обработки естественного языка.docx

— 68.91 Кб (Скачать)
 

 

Содержание.   

1. Предыстория.

2. История  компьютерной лингвистики на  Западе.

    2.1. АОТ с 40-х годов XX века по 1965 г.

    2.2. АОТ с 1966 по 1980 годы.

    2.3. АОТ в 80-е и 90-е годы.

    2.4. Современные результаты компьютерной  лингвистики.

3. История  компьютерной лингвистики в СССР  и России.

    3.1. До теории «Смысл↔Текст».

    3.2. Теория «Смысл↔Текст».

    3.3. 70-80-е годы.

    3.4. Современное коммерческие системы.

4. Послесловие.

5. Использованная  литература и другие источники.    
 

1. Предыстория 

Для античности был характерен синкретизм мышления. Человек понимался как часть  природы и общества. Человек отождествлялся мышлению, а мышление миру. Мир можно  познавать через слова, поэтому  речь также отождествлялась с  мышлением. Мышление понималось только в словесно-логической форме. Языковое и мыслительное содержание не различались. Центральным понятием античного  учения о языке был Логос –  то, при помощи чего боги вступают в  разговор с людьми. Логос – это  и слово, правильно выражающее мысль, и мысль, правильно выраженная в  слове. В этом периоде поднимается  вопрос о том, что первично для  языка – человеческое сознание или  внешняя объективная данность. Аристотелем  впервые вводится логика для исследования речи и языка, а позднее Квинтилиан вводит разделение искусств на грамматику, логику и риторику.

 

 В  более позднее время влияние  римской империи привело к  тому, что в Европе больше чем  на тысячу появился общий язык  – латынь, а центральной проблемой  в учении о языке стал спор  реалистов и номиналистов. Реалисты  утверждали, что универсальные понятия  (человек, лошадь и т.д.) существуют  в действительности, независимо  и первично по отношению к  физической реальности. Номиналисты  заявляли, что различные объекты  имеют независимое существование.  Посредством универсальных понятий  в языке помечаются понятия,  существующие лишь в сознании, абстрактные понятия.

 

 В  1453 году пал Константинополь.  Латинская лингвистика ограничилась  рамками Италии. Но возродился  интерес к работам греческих  и римских классиков. Европа  была политически разделена. Чтобы  иметь возможность управлять,  правительства отдельных государств  использовали местные языки в  качестве общенациональных. Потребность  в латыни снизилась.

 

Средневековье вводит понятие грамматики (грамматика Порт-Ройаль), которая подразделяется на морфологию, синтаксис и прагматику. Локк вводит разделение понятий 

Концепт (понятие как таковое) и его  Выражение. Кондиак выделяет минимальные  смысловые единицы речи. Язык описывается  как единство структуры и смысла. Для целей книгопечатания вводятся стандарты языка, разработанные  Кэкстоном. Изобретение книгопечатания Гуттенбергом решающим образом повлияло на характер изучения языка.

  

 Центральной  проблемой учения о языке Нового  времени стал поиск Истинного  Языка. Европейские ученые обратили  свое внимание на санскрит, древний  язык с сильно развитым словоизменением  и более сложный, чем греческий.  Гумбольдт выдвигает гипотезу  о существовании в древности  протоиндоевропейского языка. Дарвинизм  дал толчок изучению языков  первобытных племен и представлениям  о эволюции языка.

    

Основоположником  современной лингвистики принято  считать Соссюра.Согласно Фердинанду де Соссюру, идеи подобны Вселенной, из которой ничто не может быть выделено в независимое состояние. Ничто не может быть идентифицировано (однозначно определено) до возникновения  языка. Знаки ( в частности звуки  и слова), приписываемые человеком  вещам и явлениям изначально произвольны. Для Соссюра то, что может быть извлечено путей изучения прошлого языка, имеет мало практического  значения. Более важным для его  учения является прояснение структуры  языка. Соссюр доказывает, что вопросы, касающиеся отношений языка и  мира не являются основой учения о  языке.

Языком (la langue) он называл общий для всех говорящих набор средств, используемых при построении фраз; речью (la parole) – конкретные высказывания индивидуальных носителей языка. Лингвистика по Соссюру изучает структуру языка (la langue).

Большинство современных разработок в области  АОТ являются продолжением теории Соссюра  и основываются на изучении языка, добавляя к нему исследование речи.

 

До Соссюра  язык рассматривался как именование природных объектов (Теория Имен). Соссюр предположил, что природа в хаотическом  состоянии может быть разделена  только когда язык вводит ссылки на ее объекты, так чтобы каждый объект мог быть распознан. Это был поворот  на 180 градусов по отношению к общепринятому  воззрению. Другими словами, предполагалась автономия языка. Изучение языка  превращалось в науку о предмете, независимом от мира природы.

 

 Тезис  об автономности языка Соссюр  развил в понятиях «означающего»  и «означаемого». Языковой знак  состоит из акустического образа («означающего») и понятия («означаемого»)  и имеет два основных свойства. Во-первых, между означаемым и  означающим нет внутренней, естественной  связи – связь произвольна.  Во-вторых, означающее обладает протяженностью  только в одном измерении (во  времени). Означаемое и означающее  не устанавливаются извне –  они внутренне присущи языку. 

     

    В то время как Соссюр предлагал  противопоставление означаемого  и означающего вкупе с произвольностью  природы языка, Чарльз Сандерс  Пирс изучал человеческие познавательные  процессы. 

Пирс  вводит понятие «интерпретации», чтобы  иметь возможность обращаться с  языком в конкретном контексте. Были предложены три структуры (абстракция возрастает слева направо):  

икона индекс символ
абдукция индукция дедукция
термин предположение аргументация
Соссюр  исключил понятия этой колонки из своего учения ради идеи независимости  языка «означающее»  у Соссюра «означаемое»  у Соссюра
 

 

    Дедукция (лат. deductio — выведение) — метод мышления, при котором новое положение выводится чисто логическим путем из предшествующих, вывод осуществляется по правилам логики, подразумевает цепь умозаключений (рассуждение), звенья которой (высказывания) связаны отношением логического следования. Началом (посылками) дедукции являются аксиомы, постулаты или просто гипотезы, имеющие характер общих утверждений («общее»), а концом — следствия из посылок, теоремы («частное»). Если посылки дедукции истинны, то истинны и ее следствия. Дедукция — основное средство доказательства. Противоположно индукции.

    

    Индукция (лат. inductio — наведение) — процесс логического вывода на основе перехода от частного положения к общему. Индуктивное умозаключение связывает частные предпосылки с заключением не столько через законы логики, а скорее через некоторые фактические, психологические или математические представления.

    

    Абдукция - рассуждение, имеющее  дело с  гипотезами. Гипотезы, относящиеся к реальному миру, получаются согласованием правил  и достигнутых результатов. Абдукция в логике — силлогизм (рассуждение, состоящее из трёх простых атрибутивных высказываний: двух посылок и одного заключения), вид редуктивного вывода, с той особенностью, что из посылки, которая является условным высказыванием, и заключения вытекает вторая посылка. Пример: Первая посылка - Все люди смертны. Заключение - Сократ - смертен. Мы можем предположить, с помощью абдукции, что вторая посылка - Сократ - человек.

     Язык рассматривается и как  способ умозаключения, и как  некто, основанное на определенных  аксиомах, и как зеркало реального  мира.      
 
 
 

2. История компьютерной  лингвистики на  Западе.    

      Автоматической обработке текстов  на естественном языке (АОТ)  достаточно много лет. Использование  компьютера для расчетов артиллерийских  таблиц и расшифровки шифров  уже не казались чем-то очень  уж важным через несколько  лет после окончания второй  мировой войны. Мирное время  дало исследователям возможность  пофантазировать и на другие  темы. Впрочем, до 1960-го года в  области АОТ было сделано достаточно  небольшое количество работ, так  что вполне нетрудно было бы  написать их исчерпывающий обзор.  Настоящая революция произошла  в 60-е годы.  

2.1. АОТ с 40-х годов  XX века по 1965 г.  

       Образцы механических переводчиков  языков существовали еще до  изобретения компьютера. Первой  работой, которую можно было  бы отнести к нашей области,  была система поиска по словарю,  разработанная в колледже Беркбек  в Лондоне в 1948 году.

Первые  интерес в США к этой теме обычно датируют выходом в 1949 году меморандума  Уоррена Уивера. Во время второй мировой войны Уивер был вовлечен в работы по расшифровке шифров. Его идея была проста: все люди одинаковы (несмотря на то, что говорят на разных языках), поэтому текст любого языка можно рассматривать как некую  шифровку или код. Если этот код разгадан, становится возможным вывести любой документ на другом языке. С его точки зрения немецкий язык – это зашифрованный английский.

      

     Исследователи быстро ухватили  эту идею. Ее пытались  развить  в исследовательских группах  США, Великобритании, Франции и  Советского Союза. Ранние американские  системы концентрировали свое  внимание на переводе с немецкого  на английский, так как после  войны осталось много потенциально  полезной немецкой технической  документации. Со временем интерес  переместился на перевод с  русского на французский и  английский и с французского  и английского на русский. Таким  образом Холодная война оказала  влияние и на машинный перевод.

  

    Ранние системы машинного перевода  были явно неудачными. Хуже того, они в конечном итоге привели  к враждебности  власть имущих  и тех, от кого зависело финансирование  исследований, к разработчикам этих  систем. Меморандум Уоррена Уивера 1949 года вдохновил разработчиков  многих проектов, многим из которых  пришлось теперь спуститься с  небес на землю: в АОТ не  было получено никакой теоретической  базы и никаких знаний о  методиках, которые можно было  бы в дальнейшем применять  и развивать. Первые исследователи  были зачастую математиками, а  их усилия во многом сводились  к борьбе с примитивностью  современных им ЭВМ. Немногие  разработчики были двуязычными.  В основном это были немцы,  иммигрировавшие в США. Ожидалось,  что их знания по крайней  мере помогут получать удовлетворительный  перевод технических текстов.  Однако скоро стало очевидным,  что задачу они поставили перед  собой чрезвычайно трудную. Язык  оказался гораздо более сложным  явлением, чем они себе представляли.

Кроме того знания двух языков было недостаточно: нужно было умение кодировать свои знания в виде компьютерной программы.

      

    Вопрос, который стоял перед компьютерной  лингвистикой накануне когнитивной  революции, был: может ли наука  о языке быть основана на  дедуктивной системе, подобной  физике. Индуктивный анализ обеспечивается  только посредством данных. Возможности  компьютеров на тот момент  были очень ограниченными. Кроме  того возможности развития индуктивного  подхода были ограничены недостатком  алгоритмических моделей.

      

Информация о работе История обработки естественного языка