Информационные технологии документационного обеспечения управленческой деятельности

Автор: Пользователь скрыл имя, 01 Мая 2012 в 19:52, реферат

Описание работы

Основной задачей документальных информационных систем явля­ется хранение и предоставление пользователю документов, содержа­ние которых соответствуют его информационным потребностям.
Документальная информационная система (ДИС) — единое храни­лище документов с инструментарием поиска и выдачи необходимых пользователю документов.

Работа содержит 1 файл

Документ Microsoft Word.doc

— 147.00 Кб (Скачать)

 

Словари лексических единиц делятся на две группы:


 

    *основные лексические словари, составляющие лексику ИПЯ;

*  морфологические словари, обеспечивающие морфологический
анализ и нормализацию слов.

В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы.

Дескриптор — понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. Дескриптор — это имя класса си­нонимов. В качестве дескрипторов могут быть использованы код, сло­во или словосочетание .

Разработка дескрипторного языка фактически сводится к разработ­ке информационно-поискового тезауруса (ИПТ).

Тезаурус (от греч. «хранилище», «сокровищница») в узком смысле представляет собой специальный словарь-справочник, в котором пе­речислены ключевые слова — дескрипторы определенной предметной области, указаны их синонимы, установлены способы устранения си­нонимии, омонимии, полисемии, определены родо-видовые и ассоци­ативные связи дескрипторов.

Наиболее важными парадигматическими отношениями ИПТ явля­ются:

* соподчинение;

*  род-вид;

*  часть—целое;

*  причина—следствие;

*  функциональное сходство.

 

Обобщенная структура ИПТ включает как минимум три составля­ющих: словарную часть, семантическую карту, руководство по исполь­зованию.

Словарная часть — алфавитный список дескрипторов с их словар­ными статьями.

Семантическая карта — система тематических классов дескрипто­ров, представленная в виде графической схемы или таблицы.

Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографиче­ского контроля и редактирования ПОД и ПОЗ, а также правила веде­ния ИПТ.

Отличием информационно-поисковых тезаурусов от информаци­онно-поисковых каталогов на основе предметной иерархической руб­рикации является то, что в тезаурусах, помимо классификационной схемы, присутствуют сами ключевые слова и дескрипторы, объединя­емые под названием классов, рубрик и т. д. В каталогах же присутству­ют только лишь обозначения (названия) классов.

Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности индексирования документов в рамках дескрипторного подхода. Иначе говоря, в системах на основе ИПТПОД представлен набором дескрипторов. Однако в процессе инде­ксирования документов учитываются семантические отношения меж­ду дескрипторами, что, в конечном счете, обеспечивает более адекват­ныйсодержанию документа ПОД и повышает эффективность поиска документов.

Форма представления тезауруса включает алфавитное перечисле­ние статей по каждому дескриптору (термину) в следующем виде:

реферат:

с: резюме;

     в: свертывание информации;

     н: реферат авторский:

реферат графический;

реферат информативный;

реферат «телеграфного стиля»;

реферат указательный;

реферирование;

     а: аннотация

В качестве буквенных обозначений здесь выступают следующие:

с — термины-синонимы;

в — термины, подчиняющие заглавный термин;

н — термины, подчиненные заглавному;

а — термины, ассоциированные с заглавным термином.

Различают базовые и рабочие тезаурусы. Базовые тезаурусы вклю­чают основной набор лексики предметной области. Рабочие тезауру­сы строятся на основе базовых тезаурусов и дополняются в процессеиндексирования документов новыми терминами.

 


 

4. Системы индексирования

Система индексирования (СИ) — совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с за­данным набором словарей лексических единиц и с правилами приме­нения ИПЯ

Рассмотрим классификацию систем индексирования.

1. По степени автоматизации процесса индексирования выделяют системы:

•  ручного индексирования;

•  автоматического индексирования;

•  автоматизированного индексирования.

2.     По степени контролируемости различают системы:

•   без словаря;

•   с жестким словарем;

•   со свободным словарем.

3.     По характеру алгоритма отбора слов текста выделяют системы:

•   с последовательным просмотром текста (отбираются все полнозначные слова);

•   с эвристическими процедурами выбора слов текста (слова от­бираются интуитивно или по заданной процедуре);

•   со статистическими процедурами выбора слов (отбираются
только информативные слова в соответствии с распределением частот их употребления).

4. По характеру лексикографического контроля различают системы:

•   без лексикографического контроля;

•   с полным контролем;

• с промежуточным контролем.
Лексикографический контроль предусматривает :

*  устранение синонимии, полисемии и омонимии на основе норма­тивных словарей лексических единиц с парадигматическими от­ношениями между ними;

*  нормализацию слов на основе морфологических нормативных
словарей.

5.    По характеру морфологического анализа слов различают системы:

*  с использованием морфологических словарей;

*  с использованием основных лексических словарей;

*  с использованием морфологического анализа с усечением слов.

Возможны системы индексирования без морфологического анализа.

Процесс свободного индексирования состоит в следующем. Инде­ксатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ с ручным индексированием.

Процесс полусвободного индексирования аналогичен вышеописан­ному, но слова для ПОД берутся только из словаря.

При жестком индексировании слова берутся только из текста.

Поначалу индексирование осуществлялось специально подготов­ленными специалистами-экспертами в предметной области, которые могли осуществлять глубокий анализ смыслового содержания доку­мента и относить его (индексировать) к тем или иным классам, руб­рикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифици­рованных специалистов-индексаторов. Кроме того, процесс индекси­рования в некоторой мере был субъективным. Поэтому возникла за­дача автоматизации индексирования документов.

Существуют два подхода к автоматическому индексированию. Пер­вый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуще­ствляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого ин­декса — прямой и инвертированный.

Прямой тип индекса строится по схеме «документ—термины». По­исковое пространство в этом случае представлено в виде матрицы раз­мерностью nxm. Строки этой матрицы представляют поисковые обра­зы документов.

Инвертированный тип индекса строится по обратной схеме — «тер­мин—документы». Поисковое пространство соответственно представ­лено аналогичной матрицей, только в транспонированной форме. По­исковыми образами документов в этом случае являются столбцы матрицы.


Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс за­носится информация обо всех словах текста документа (отсюда и на­звание «полнотекстовые»).

5. Полнотекстовые информационно-поисковые системы

Процессы компьютеризации деятельности предприятий привели к накоплению большого объема неструктурированной текстовой ин­формации. Возникла потребность в программном обеспечении, реали­зующем эффективный поиск информации.

Информационно-поисковые каталоги, фасетные и тезаурусные си­стемы не могли быть в полной мере использованы в массовой персо­нальной автоматизации. Потребовались средства, которые бы в мак­симальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и за­тратных процедур индексирования при накоплении текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий . В результате на рынке программных продуктов появились полнотекстовые ИС.

 Полнотекстовые ИС строятся на основе информационно-поиско­вых языков дескрипторного типа. Информационно-технологическая структура полнотекстовых ИС включает:

*  хранилище документов;

*  глобальный словарь системы;

*  инвертированный индекс документов;

* интерфейс ввода документов в систему;

* механизм индексирования;

*интерфейс запросов пользователя

* механизм поиска документов;

* механизм извлечения найденных документов.

    Хранилище документов может быть организовано как единая ло­кально сосредоточенная информационная структура в виде специаль­ного файла с текстами документов.

Глобальный словарь системы может быть статическим и динами­ческим.

Статические словари определяются заранее и не зависят от содер­жания документов, вошедших в хранилище.

Динамические словари определяются набором словоформ, имеющих­ся в документах хранилища. Изначально такой словарь пуст, но с каж­дым новым документом в него помещаются новые словоформы.

Элементы глобального словаря выступают в качестве дескрипторов ИПЯ-системы. Поступающие через интерфейс ввода-вывода докумен­ты подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полнотекстовых И С полностью автома­тизирован и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером из глобального словаря.

Существенное влияние на эффективность полнотекстовых ИС ока­зывает морфологический разбор при индексировании документов и запросов. Морфологический разбор позволяет выделять общую дляоднокоренных слов словоформу, а также выделять лексемы, т. е. сло­ва, отличающиеся окончаниями, приставками и суффиксами.

В результате индексирования поисковый образ каждого нового до­кумента представляется набором словоформ из глобального словаря, присутствующих в тексте документа, и поступает в виде соответству­ющего двоичного вектора для дополнения индекса системы.


 

 


 

Индекс строится по инвертированной схеме и в двоичном виде отражает весь (полный) текст учтенных или накопленных документов.

При удалении документа из системы соответственно удаляется и поисковый образ документа.

Через интерфейс запросов пользователь в терминах ИПЯ делает запрос, который обрабатывается поисковой машиной. Механизм по­иска основывается на тех или иных алгоритмах и критериях сравне­ния поискового образа запроса с поисковыми образами документов, образующими индекс системы. Результатом поиска является опреде­ление номеров документов, поисковые образы которых соответствуют поисковому образу запроса. Далее специальная подсистема на основе установленных в хранилище указательных конструкций извлекает и доставляет соответствующие документы пользователю.

Примером полнотекстовых информационно-поисковых систем яв­ляются автоматизированные информационные системы по законода­тельству.

Автоматизированная информационная система по законодатель­ству (АИСЗ) — это программный комплекс, включающий в себя мас­сив правовой информации и инструменты для работы с ним . Этиинструменты позволяют производить поиск документов, формировать подборки документов, печатать документы.

АИСЗ являются частью следующих типов информационных сис­тем .

1. Справочно-информационные системы общего назначения, ори­ентированные на доступ пользователей к нормативно-правовым
актам. К этим системам относятся «Консультант Плюс», «Га­рант», «Кодекс» и др.

2. Глобальные информационные службы (хост-системы), предоставляющие доступ удаленным пользователям к библиографи­ческой, полнотекстовой или другой информации. Крупнейшей в мире коммерческой службой, обеспечивающей доступ к юриди­ческой информации, является система LEXIS (США).

3. Системы информационной поддержки деятельности .правотвор­ческих органов. Спецификой таких систем является необходи­мость хранения и поиска многих версий и редакций нормативно-правовых документов, с учетом вносимых поправок и изменений.

4. Системы автоматизации делопроизводства судов, милиции и других правоохранительных органов.

 

Основными особенностями АИСЗ являются :

    *необходимость предоставления адресного доступа к полным тек­стам;

*  в информационных языках для поиска в БД по законодательству
необходим учет контекстных связей, регламентированных при­лагательных (типа «обязательный», «произвольный» и др.);

* тексты нормативных актов должны подвергаться так называемой юридической обработке, при которой тексту приписываются не только классификационные индексы, ключевые слова или де­скрипторы (как при обычном индексировании), но и коммента­рии специалистов, ссылки на предшествующие версии, связан­ные документы, решения судов и др.

 

В 1992 году образовалось НПП «Гарант-Сервис». В этом же году была создана общероссийская сеть«Консультант Плюс», которая охва­тила множество городов России. В настоящее время наиболее распро­странена АИСЗ «Консультант Плюс». Система «Гарант» занимает второе место в России по количеству пользователей.

На третьем месте находится достаточно популярный продукт — информационно-поисковая система «Кодекс», которая разработана малым государственным предприятием «Центр компьютерных разра­боток».

На российском рынке АИСЗ представлены также следующие про­дукты, созданные государственными предприятиями для обеспечения потребностей в правовой информации государственных ведомств:

Информация о работе Информационные технологии документационного обеспечения управленческой деятельности