Документальная информационная система

Автор: Пользователь скрыл имя, 26 Февраля 2011 в 12:29, реферат

Описание работы

Документальные информационные системы (ДИС). Поисковых характер документальных информационных систем. Семантически-навигационные ДИС. Системы ДИС на основе индексирования. Классификация системе индексирования. Схеме ДИС на основе индексирования. Поисковый образ запроса и поисковый образ документа. Релевантность.

Работа содержит 1 файл

Документальные информационные системы.doc

— 63.00 Кб (Скачать)

     Документальные  информационные системы (ДИС). Поисковых характер документальных информационных систем. Семантически-навигационные  ДИС. Системы ДИС  на основе индексирования.  Классификация системе  индексирования. Схеме  ДИС на основе индексирования. Поисковый образ запроса и поисковый образ документа. Релевантность.

  Информационно-поисковый  язык (ИПЯ). Понятие  ИПЯ. Основные  элементы ИПЯ. Требования к ИПЯ. 

           Документальная  информационная система (ДИС) – единое хранилище документов с инструментарием поиска и выдачи, необходимых пользователю документов.

     Элементом данных в документальных ИС является документ. Обычно под документом понимается текстовый файл.

     Основной  задачей документальных информационных систем является хранение и предоставление пользователю документов, содержание которых соответствуют его информационным потребностям.

     Первоначальным  направлением в развитии СУБД стала  разработка и использование фактографических ИС, которые ориентированны на разработку структурированных данных. Однако создание фактографических ИС требует предварительной структуризации данных, например электронных таблиц, что влечет за собой большие накладные расходы. Вместе с тем накапливается большой объем неструктурированной информации, представление такой информации в фактографических системах экономически не выгодно.

     Поисковый характер документальных информационных систем определил еще  одно название –  информационно-поисковые  системы (ИПС).

     В зависимости от особенностей реализации хранилища документов и механизмов поиска, ДИС можно разделить на две группы:

     - системы на основе индексирования;

      - семантически-навигационные системы. 

    Семантически-навигационные  системы ДИС.

Семантика –  значение единиц языка.

     В семантически-навигационных (гипертекстовых) системах документы, помещаемые в хранилище документов, оснащаются специальными навигационными конструкциями (гиперссылками), соответствующими смысловым связям между различными документами или отдельными фрагментами одного документа.

     В системах на основе индексирования исходные документы помещаются в базу без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство.

       Процесс отображения документа  в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса – координаты в поисковом пространстве.

     Формализованное представление индекса документа называется поисковым образом документа (ПОД). Пользователь выражает свои информационные потребности, посредством специального языка, формируя поисковый образ запроса (ПОЗ) к базе документов.

     На  основе определенных критериев ДИС  осуществляет поиск и выдачу документов, поисковые образы которых соответствуют поисковым образам запроса пользователя.

     Соответствие  найденных документов запросу пользователя называется релевантностью. 
 
 
 
 

     Схема ДИС на основе индексирования.

     

                                         отражение 
 
 
 
 

           Отражение 
 
 
 
 

     Система индексирования (СИ) – совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ.

     Классификация систем индексирования.

     1. По степени автоматизации  процесса индексирования  выделяют системы:

     - ручного пользования;

     - автоматического индексирования;

     - автоматизированного индексирования.

     2. По степени контролируемости  различают системы:

     - без словаря;

     - с жестким словарем;

     - со свободным словарем.

     3. По характеру алгоритма  отбора слов текста  выделяют системы:

     - с последовательным просмотром текста (отбираются все полнозначные слова);

     - с эвристическими процедурами  выбора слов текста (слова отбираются  интуитивно или по заданной  процедуре);

     - со статистическими процедурами  выбора слов (отбираются слова  в соответствии с распределением частот их употребления).

     4. По характеру лексикографического  контроля:

     - без лексикографического контроля;

     - с полным контролем;

     - с промежуточным контролем.

     5. По характеру морфологического  анализа слов:

     - с использованием морфологических  словарей;

     - с использованием основных лексических словарей;

     - с использованием морфологического  анализа с усечением слов.

     Информационно-поисковый  язык (ИПЯ) представляет собой некоторую формализованную семантическую систему, предназначенную для выражения содержания документа и поискового запроса.

     Основными элементами ИПЯ являются алфавит, лексика и грамматика.

     Алфавит ИПЯ – система знаков, используемых для записи слов и выражений ИПЯ.

     Лексика, или словарный  состав, ИПЯ – совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ.

     Грамматика  ИПЯ – совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика включает морфологию и синтаксис.

     Требования  к ИПЯ.

     1. располагать лексико-грамматическими  средствами для точного отображения темы документа и запроса;

     2. не содержать полисемии, синонимии  и омонимии;

     Омонимия  – это совпадение слов по написанию или звучанию и несовпадение по смыслу.

     Полисемия слова состоит в том, что одно и то же слово выражает пучок родственных понятий.

     Синонимия – это совпадение слов по значению и несовпадение по смыслу.

     3. отображать только объективные  характеристики предметов и отношений между ними;

     4. быть удобным для алгоритмического  сопоставления поисковым образом документа (ПОД) и поисковым образом запроса (ПОЗ).

     Построение  выражений ИПЯ требует решения, по крайней мере, двух проблем.

     Первая  из них связана с выбором лексических единиц ИПЯ, необходимых для построения выражений.

     Выбор слов определяется их смыслом, обусловленным  парадигматическими отношениями между предметами и явлениями, которые они определяют.

     Парадигматические отношения – это отношения, обусловленные наличием логических связей между предметами и явлениями, обозначенными данными словами.

     В ИПЯ недопустима многозначность, поэтому необходимо учитывать отношения синонимии и омонимии слов естественного языка, используемых в ИПЯ.

     Вторая  проблема построения фраз ИПЯ связана с определением последовательности выбранных слов.

     Синтагматические  отношения – отношения слов при  соединении их в словосочетания и фразы.       

     Типы  информационно-поисковых  языков (классификационные  и дескрипторные). Дескрипторы. Тезаурус. Критерии оценки документальных систем. Полнота и  точность информационного  поиска. Информационный шум системы. Программные средства реализации документальных ИС.  Полнотекстовые информационные системы.

     По  способу организации понятий  различают следующие ИПЯ:

     Предкоординироваемые (классификационные) ИПЯ.

     Предкоординация – это предварительное построение сложных классов путем логического умножения простых классов.

       Классификация – это группировка  объектов по признакам.

     Словарный запас задается в виде фиксированного списка слов. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов, т.е. при создании языка.

     К классификационным языкам относят:

     1) информационно-поисковый язык  иерархического  типа;

     2) ИПЯ фасетного типа;

     3) алфавитно-предметную классификацию.

     Информационно поисковые каталоги, основанные на  классификации ведений определенной области, были первыми системами  информационного поиска документов. Первоначальные подходы к классификации  тематики основывались на основании списка предметных заголовков располагаемых в алфавитном порядке. Каждая предметная рубрика получала определенно цифровой или буквенно-цифровой код. Содержание документов индексировались перечислением кода тех рубрик, которые отражали темы документов. Это перечислительная классификация.   

     При систематизированной классификации  список предметных рубрик строится как  иерархическая структура, в виде перевернутого дерева. Вся предметная область разбивается на ряд взаимоисключающих (непересекающихся) рубрик. Недостатком иерархической и перечислительной классификации является принципиальная невозможность заранее перечислить все возможные темы документов. 

     Фасетная  классификация – не связана подобными ограничениями. Ее идея состоит в том, что вся предметная область разбивается на ряд исходных рубрик – фасет – по семантическому принципу, отражающему специфику предметной области.

     Фасеты  выступают в роли элементов, из которых  можно сконструировать самую сложную и узкую предметную рубрику. Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно-иерархическому принципу.

     Основное  достоинство фасетной классификации  заключается в возможности небольшим перечнем фасетных рубрик отразить большое количество специализированных рубрик, т.е. более точно и полно проиндексировать содержание документов.

     Дескрипторные (посткоординируемые) ИПЯ.

     Дескрипторные языки основаны на методе координатного  индексирования, который полагает, что основное смысловое содержание документа может быть выражено списком ключевых слов.

     К ключевым словам относятся так называемые полнозначные слова – существительные, прилагательные, глаголы, наречия, числительные, местоимения. Ключевыми словами не могут быть предлоги, союзы, связки, частицы.

     Основными элементами ДИПЯ являются:

     1) словарь лексических единиц;

     2) правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов с естественного языка на ИПЯ;

     3) правила построения ИПЯ.

     В качестве логических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы.

     Дескриптор – понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов (имя класса синонимов). В качестве дескрипторов могут быть использованы код, слово или словосочетание.

     Разработка  дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса.

Информация о работе Документальная информационная система