Анализ технологий поиска информации в WWW

Автор: Пользователь скрыл имя, 29 Декабря 2010 в 16:38, курсовая работа

Описание работы

Стремление поисковых систем охватить «Великую Сеть» осталось в прошлом. Информационное пространство World Wide Web растет и обновляется намного быстрее, чем любая поисковая система, заполняет свои указатели новой информацией. Даже поисковые указатели, выполняющие поиск по ключевым словам, сегодня не избавлены от однобокости и ограниченности. В поисковые системы поступают все новые и новые Web-страницы, и поисковые работы не перестают «бороздить просторы Сети», но все больше и больше страниц ускользает от их внимания.

Содержание

Введение ……………………………………………………………………
Глава 1. Теоретические основы поисковых систем интернет
§ 1. Поисковые системы как информационный ресурс……………….

§ 2. Общий вид обобщенной поисковой машины. …………………...
§ 3. Критерии качества поиска. ………………………………………..
§ 4. Анализ языка гипертекстовой разметки. …………………………

Глава 2. Анализ технологий поиска информации в WWW

§ 1. Развитие поисковых систем……………………………………….
§ 2. Основные поисковые системы. ……………………………………

§ 3. Приемы поиска информации. ……………………………………..

§ 4. Технология и результат поиска в WWW. ………………………...

Заключение ………………………………………………………………..

Литература ………………………………………………………………...

Ресурсы Интернет…………………………………………………………

Приложение 1………………………………………………………………

Приложение 2………………………………………………………………

Приложение 3………………………………………………………………

Работа содержит 1 файл

Диплом_2_редак.doc

— 1.27 Мб (Скачать)

     В этом списке представлены ссылки на различные  Web-страницы, причем ссылки располагаются по степени убывания встреченных на данной странице слов, совпадающих с ключевыми словами. При просмотре списка необходимо выбрать те страницы, которые нужно просмотреть. Некоторые системы составляют список ссылок по степени свежести страниц, другие же – по степени вероятности того, что данные страницы окажутся искомыми. Вычисление вероятности основывается на данных о том, как скоро на странице встречается искомое слово. Первыми в таком списке идут ссылки на те страницы, у которых ключевые слова встречаются уже в названии.

     Поисковые каталоги предоставляют доступ к  меньшему количеству страниц, чем поисковые  указатели (индексы), но они точнее показывают на основные ресурсы в Сети. Поэтому  при первичном поиске информации целесообразно использовать поисковые каталоги. А квалифицированным пользователям Internet более полезны поисковые указатели (индексы). Они позволяют разыскать малоизвестные и узкоспециализированные ресурсы. Многие современные поисковые системы сочетают в себе оба указанных способа.

     Наиболее  убедительной попыткой обуздать информационный хаос в Internet является культивирование поисковых машин самого широкого профиля. В их функции входит автоматическое или полуавтоматическое сканирование (просмотр) узлов Сети, сопровождающееся индексированием (созданием баз данных) и классификацией их ресурсов (построением каталогов, структурированных по различным критериям) с возможностью последующего обслуживания поисковых запросов клиентов. Общий вид функциональной цепочки обобщенной поисковой машины следующий:

Сканирование     индексирование      классификация    обслуживание

     В процессе сканирования ресурсов Сети принимают участие специальные  программы, которые способны путешествовать по Web-узлам Internet, просматривать Web-страницы и копировать их содержание на центральный сервер поисковой системы. Такие агентские программы называют «червяками», «пауками», «поисковыми роботами», «поисковыми машинами», «краулерами» и т. п. Многообразие названий связано с тем, что каждая поисковая система создает свою собственную, неповторимую программу и дает ей свое имя, которое впоследствии становится нарицательным. Большинство современных поисковых систем начинались с того, что в 1993-94 годах в университетских лабораториях были разработаны экспериментальные программы для мониторинга Сети.

     Работа  таких программ обычно происходит в  автоматическом режиме и состоит  в последовательном обходе узлов  Сети на основе заданного алгоритма, который может отдавать определенные предпочтения тем или иным хостам (узлам) как на основе их географической или профильной принадлежности, так и частоты изменения находящихся на них ресурсов. Учитываются и интересы компаний, стремящихся включить свои серверы в индексную базу данной поисковой машины и проинформировать о них широкий круг пользователей Сети. В отношении сказанного важной характеристикой машины является число уже отсканированных узлов и скорость работы сканирующих программ.

     Если  при чтении Web-страницы поисковый  робот находит на ней ссылки на другие страницы того же Web-узла, он переходит по этим ссылкам, читает их содержание и так далее, проникая в самые отдаленные закоулки WWW.

     Второй  этап работы поисковой системы —  индексация.

     Собрать на центральном сервере образы сотен миллионов Web-страниц — это одно дело, а суметь выбрать те из них, которые нужны клиенту, сформировавшему запрос, — совсем другое. Отвечать надо очень быстро, а для этого данные надо хранить не как попало, а в виде специальных структур. Процесс преобразования данных из той формы, в которой они хранятся на Web-страницах, в другие формы, удобные для быстрого просмотра, называется индексацией. В результате индексации и образуется база данных, которую называют поисковым указателем (индексом).

     У каждой поисковой системы свои приемы и методы индексации. Перед индексацией большинство систем очищают документ от зарезервированных слов (stop-words), к которым относятся артикли, предлоги, союзы, местоимения и другие слова, имеющие менее 4 символов. Однако не только короткие слова могут быть зарезервированными. Очень распространенные слова, такие как Computer и Internet тоже резервируются. Искать что-то по ним бесполезно, так как они встречаются повсеместно.

     Специализированные  поисковые службы могут использовать и другие слова в качестве зарезервированных. Например, если служба занимается поиском книг, то слово книга для нее может считаться зарезервированным.

     На  этапе подготовки к индексации может  происходить нормализация слов за счет отбрасывания суффиксов и окончаний. После такой «зачистки» фраза типа «Мы с братом любим смотреть кино» превращается в ' нечто похожее на «брат люб смотр кин». Исходный документ может быть найден при поиске по ключевым словам «брат», «любовь», «смотреть», «кино», но никогда по словам «мы» или «с».

     Некоторые системы производят нормализацию всегда. Ряд систем могут действовать как тем образом, так и другим. Служба Alta Vista не производит нормализацию никогда, и это ее уникальная особенность, которая активно используется для контекстного поиска.

     На  основе «зачищенного» документа готовится индекс. Существует множество методов индексации. Разумеется, они не разглашаются. Как и поисковый робот, алгоритм индексации составляет коммерческую тайну поисковой службы, поэтому в качестве примера приведем лишь простейший тип индекса — так называемый обратный файл.

     Суть  обратного файла состоит в  том, что составляется словарь из всех слов, встреченных во всех документах, собранных поисковым роботом, а  затем для каждого слова записывается группа чисел, указывающих на то, в  каких документах оно встречается, насколько часто, а также кое-какая служебная информация.

     Информационные  объекты нетекстового характера (графика, видео, аудио) также могут идентифицироваться и быть представлены в соответствующих  базах данных.

     Классификация ресурсов является дополнительной функцией поисковой машины, которая предполагает, например, присвоение при индексировании пометки о принадлежности данного информационного объекта к определенному типу.

     Обслуживание  пользователя той или иной поисковой  машиной строится на разработке информационно-поискового языка, естественным образом связанного со структурой базы данных. Типичными являются два основных подхода:

  • пользователю предоставляется возможность вести поиск интересующей его информации либо путем осмысленного на каждом таге перемещения по дереву иерархического каталога, уже построенного и жестко определенного системой;
  • либо путем реализации собственного поискового запроса в рамках поддерживаемого системой поискового языка.

     Конечной  точкой обоих путей является локализация и извлечение соответствующего информационного объекта.

     Лучшие  поисковые системы в ответ  на запрос просматривают свои индексы  за десятые доли секунды и немедленно возвращают списки ссылок, ведущих к затребованным ресурсам. Работа происходит следующим образом.

     Система анализирует ключевые слова, которые  клиент использовал в запросе. С ними производятся те же операции освобождения от зарезервированных слов и нормализации, после чего выполняется поиск совпадений с содержимым поисковых индексов. Эти операции в большинстве поисковых систем происходят примерно одинаково, но самая последняя операция, когда по найденным совпадениям формируется итоговый список ссылок, всегда различается. У каждой поисковой системы своя политика формирования результирующего списка.

     Если  найдено очень много ссылок на ресурсы, удовлетворяющие запросу, то встает проблема их упорядочения. Здесь  важно, какие ссылки дать в начале списка, а какие — в конце, то есть, надо вводить какой-то рейтинг. Разные поисковые системы имеют  разные рейтинговые системы. При исчислении рейтинга учитывается множество параметров. За некоторые начисляются положительные баллы, а за некоторые — наоборот штрафные. Положительный рейтинг начисляется при следующих обстоятельствах:

  • если разыскиваемые слова встречаются на Web-странице неоднократно (но не слишком часто, и не подряд);
  • если они расположены близко к началу страницы;
  • если эти слова присутствуют в заголовке страницы;
  • если Web-страница имеет иллюстрацию, альтернативный текст которой тоже содержит слова, введенные пользователем.

     Лучшие  поисковые системы недавно ввели  новый подход к рейтингованию. Они  учитывают количество ссылок в проиндексированном пространстве Web, ведущих к данному ресурсу. Это естественно, ведь чем больше публикаций ссылаются на данную страницу, тем она популярнее и тем выше вероятность того, что она будет полезной автору запроса. В традиционном библиотечном деле такой подход известен. Например, в США давно издается многотомный ежегодный «Индекс цитирования» (Citational Index), в котором каталогизируются ссылки разных авторов на первоисточники. Это непростой технически, но очень полезный для клиентов метод индексации ресурсов. 

     § 3. Критерии качество поиска.

     У каждого из двух основных типов поисковых  служб есть достоинства и недостатки. Поисковые каталоги формируются вручную с помощью живых людей. Поэтому если находим в них нужный ресурс, то этот ресурс — один из лучших в Сети. Он не обязательно самый лучший и, может быть, лишь входит в первую двадцатку, но он явно не случаен и может рассматриваться как рекомендованный. Ответственные редакторы поискового каталога, имеющие солидное образование в большинстве областей науки, техники и культуры, не будут включать в свой каталог очевидную ерунду. Поисковые каталоги удобнее и тем, что там не бывает десятков ссылок на один и тот же ресурс, размещенный в разных местах или проиндексированный в разное время. Таким образом, если надо быстро найти лучший источник по какой-то теме, надо начинать поиск с поискового каталога.

     Недостатком поисковых каталогов является их слабое знание о подлинных ресурсах WWW, которое с каждым днем падает в относительном измерении. Крупнейший поисковый каталог Yahoo! за шесть лет своей работы довел количество обработанных ресурсов до миллиона, в то время как каждый год появляются сотни миллионов новых Web-страниц.

     Поисковые указатели черпают свою исходную информацию от поисковых роботов, день и ночь ползающих по просторам  WWW. Процесс сбора информации полностью автоматизирован, поэтому объем проиндексированного пространства намного больше, чем у поисковых каталогов. Сегодня этот показатель превышает 25% общего пространства Сети. С другой стороны, отсутствие человеческого фактора сказывается на качестве того, что можно найти через поисковые указатели. Для робота совершенно все равно, написана ли статья по физике академиком или школьником. При рейтинговании робот может даже поставить страницу школьника выше.

     Поэтому поисковые каталоги лучше использовать для ознакомительного поиска, когда  тема известна, а предпочтений нет. Каталог быстро выведет на Web-узел, на котором либо найдете то, что хотели, либо получите ссылки на другие полезные ресурсы. А поисковые указатели стоит использовать для более глубоких или экзотических розысков.

     Достоинства поисковых каталогов являются недостатками поисковых указателей и наоборот. Основных параметров, с помощью которых оценивают качество поисковых систем, всего два: коэффициент попадания и коэффициент охвата.

     Коэффициент попадания показывает, какой процент ссылок, выданных поисковой системой, действительно относится к той теме, которая интересует клиента. Для поисковых каталогов этот коэффициент очень высок. Поскольку их составляют люди, появление «мусорной» ссылки — редкость. Обычно она возникает только когда за время, прошедшее после регистрации, Web-страница перестает существовать. Для каталогов этот коэффициент составляет порядка 70-80%, не должен быть менее 50%.

     Для поисковых указателей этот коэффициент  печально низок. Если не предпринимать  специальных мер, он составляет единицы процентов. Причина лежит, во-первых, в том, что автоматические средства не могут точно выявлять тематическую принадлежность Web-страниц на основе формальных признаков, а во-вторых, в том, что большинство клиентов не умеют пользоваться всеми возможностями поисковых систем и формируют задание на поиск далеко не оптимально.

     Коэффициент охвата показывает, насколько база данных поисковой системы отражает истинное количество информации, имеющейся по данной теме в мире. Здесь впереди поисковые указатели. Самые совершенные из них имеют коэффициент охвата порядка 25%. Поисковые каталоги, наоборот, не охватывают и одного процента всех наличных ресурсов.

     С точки зрения пользователя качество поиска означает стремление получить как можно больше ссылок по интересующей его теме, но так, чтобы в результирующем списке было как можно меньше ссылок, не имеющих прямого отношения к объекту поиска. Пользователь желает, чтобы каждый из коэффициентов был близок к 100%. Его субъективная оценка качества поисковой системы напоминает произведение коэффициента попадания на коэффициент охвата. Сегодня же и для поисковых каталогов, и для поисковых указателей это произведение составляет десятые доли процента.

     В стремлении повысить качество работы поисковых служб есть попытки совместить оба подхода. При этом возможны два варианта: поисковые каталоги привлекают возможности поисковых указателей, переадресовывая им запрос. Например, до последнего времени поисковый каталог Yahoo! переадресовывал особо сложные запросы поисковому указателю Alta Vista. Сегодня Yahoo! привлекает средства другого партнера — Inktomi.

Информация о работе Анализ технологий поиска информации в WWW