Анализ технологий поиска информации в WWW

Автор: Пользователь скрыл имя, 29 Декабря 2010 в 16:38, курсовая работа

Описание работы

Стремление поисковых систем охватить «Великую Сеть» осталось в прошлом. Информационное пространство World Wide Web растет и обновляется намного быстрее, чем любая поисковая система, заполняет свои указатели новой информацией. Даже поисковые указатели, выполняющие поиск по ключевым словам, сегодня не избавлены от однобокости и ограниченности. В поисковые системы поступают все новые и новые Web-страницы, и поисковые работы не перестают «бороздить просторы Сети», но все больше и больше страниц ускользает от их внимания.

Содержание

Введение ……………………………………………………………………
Глава 1. Теоретические основы поисковых систем интернет
§ 1. Поисковые системы как информационный ресурс……………….

§ 2. Общий вид обобщенной поисковой машины. …………………...
§ 3. Критерии качества поиска. ………………………………………..
§ 4. Анализ языка гипертекстовой разметки. …………………………

Глава 2. Анализ технологий поиска информации в WWW

§ 1. Развитие поисковых систем……………………………………….
§ 2. Основные поисковые системы. ……………………………………

§ 3. Приемы поиска информации. ……………………………………..

§ 4. Технология и результат поиска в WWW. ………………………...

Заключение ………………………………………………………………..

Литература ………………………………………………………………...

Ресурсы Интернет…………………………………………………………

Приложение 1………………………………………………………………

Приложение 2………………………………………………………………

Приложение 3………………………………………………………………

Работа содержит 1 файл

Диплом_2_редак.doc

— 1.27 Мб (Скачать)

          В 1997 году Ларри Пейдж и Сергей Брин, студенты Стэндфордского университета, начали претворять в жизнь свой исследовательский проект, в результате чего была разработана поисковая система Google, которая на сегодняшний день является мировым лидером в области поиска.

В том  же 1997 году в сентябре месяце 23 числа  было официально анонсировано создание Российской поисковой системы Яндекс, которая и по сей день лидирует на рынке поисковых услуг в русскоязычном сегменте сети.

         На сегодняшний день существует всего 3 поисковых системы международного уровня, это MSN Search, Yahoo и Google, которые имеют свои собственные базы и поисковые алгоритмы. Большая часть всех остальных поисковых систем в качестве основы используют результаты трёх вышеперечисленных. К примеру, поисковые системы: Mail.ru базируются на поисковике Yandex и search.aol.com базируются на поисковике Google, а такие поисковики как Lycos, AltaVista и AllTheWeb используют базу поисковой системы Yahoo.

         Лидирующей поисковой системой рунета на сегодняшний день является Яндекс, на втором месте располагается Rambler, далее идут Google, Mail.ru, Aport и KM.ru. 
 

     §2. Основные поисковые системы

     AltaVista (http://www.altavista.com/). Некоммерческая поисковая машина Alta Vista поддерживается в Сети корпорацией Digital Equipment Corporation. Имеется также и расширение ее возможностей для коммерческого использования, которое существует в виде Business extension Program. Огромный объем охвата Web-пространства и мощный набор поисковых команд делают эту систему излюбленным средством поиска для большинства пользователей. Система была запущена в эксплуатацию в декабре 1995 г. Для начинающих система имеет упрощенную службу, которая называется Ask Alta Vista. В своей работе эта служба привлекает другую поисковую службу — Ask Jeeves.

     Индекс поисковой машины обновляется ежедневно с помощью специальной программы Scooter, причем частота посещения одного узла Сети зависит от частоты изменения информации на нем. На текущий момент Alta Vista дает доступ к 30 млн. WWW-страниц, расположенных на более чем 275600 серверах, и к 4 млн. статей из 16000 телеконференций Usenet news. При отсутствии дополнительной информации система индексирует все слова документа, за исключением комментариев, и использует несколько первых слов документа в качестве краткой аннотации. В процессе поиска Alta Vista реализует алгоритм ранжирования, согласно которому каждому документу, содержащему совпадения по заданному термину, присваивается ранг, определяющий порядковый номер документа в списке результатов поиска. Ранг приписывался на основе частоты употребления термина в документе, области документа, а так же близости терминов друг к другу при комбинированном поиске. Позволяет осуществлять поиск на русском, английском, немецком и многих других языках.

     Ask Jeeves (http://www.askjeeves.com/). Эта система представляет образец человеческого (неавтоматизированного) подхода к индексации и хранению информации о Web-документах. Ее цель не в том, чтобы выдать в ответ на запрос как можно больше возможных ссылок, а в том, чтобы они были наиболее точны. В идеале система должна направить именно к той Web-странице, которая нужна. Система была введена в эксплуатацию в июне 1997 г. Результаты поиска в этой системе используются и при размещении запроса в Alta Vista.

     Direct Hit (http://www.directhit.com/). Систему Direct Hit можно назвать системой «рафинирования» результатов поиска, выдаваемых другими поисковыми системами. Она контролирует, какими результатами поисков клиенты пользуются наиболее часто и, тем самым, создает некий рейтинг популярности Web-страниц. Этот рейтинг она предоставляет другим поисковым системам, и они учитывают его при выдаче результатов. Технология Direct Hit напрямую используется поисковой системой HotBot. Она также учитывается системами Lycos, LookSmart и MSN Search.

     Excite (http://www.excite.com/) - одна из популярных поисковых систем World Wide Web. Она имеет указатель среднего размера и кроме поиска Web-страниц предоставляет услуги по поиску других материалов, например сведений о компаниях или результатов спортивных соревнований. Система была создана в конце 1995 г., прошла этап бурного развития и в 1996 г. поглотила двух ближайших конкурентов: систему Magellan и WebCrawler, хотя те по-прежнему сохраняют свои торговые марки и предоставляют поисковые услуги как самостоятельные службы.

     FAST Search (http://www.alltheweb.com/). Эта система, принадлежащая норвежской компании, ранее называлась All The Web. Несмотря на то, что она была запущена в мае 1999 г., перед ней ставится задача обогнать конкурентов в полноте коллекций ссылок на Web-страницы. Кажется, ей это удается. Летом 1999г. FAST Search первое перешагнула 200-миллионный рубеж проиндексированных Web-докумеатов. Кроме системы FAST Search та же компания контролирует подразделение системы Lycos, занимающееся поиском музыкальных файлов в формате МРЗ.

     Go/Infoseek (http://www.go.com/) — это сочетание известной в прошлом поисковой системы Infoseek (была основана в 1995 г.) и современного портала Go (создан в 1999 г. и принадлежит небезызвестной Walt Disney Co). Кроме поисковых возможностей Infoseek портал предоставляет зарегистрированным пользователям возможность персональной настройки среды, бесплатную электронную почту и другие полезные cepвисы. Пользователи этой системы отмечают высокое качество ссылок, возвращаемых системой, что объясняется специальным «фирменным» алгоритмом поиска. Кроме автоматизированного указателя система имеет также обширный каталог Web-узлов, составляемый вручную.

     GoTo (http://www.goto.com/). Поисковая служба GoTo не имеет отношения к порталу Go , и известна тем, что формирует результаты поиска на коммерческой основе. Компании, владеющие Web-узлами, за определенную плату могут договориться, чтобы ссылки на них появлялись на более высоких местах в списках итоговых результатов. При формировании списка служба берет оплаченные ссылки из собственной базы данных, а неоплаченные черпает от поисковой системы Inktomi. Служба была запущена в 1997 г. В ее основу был положен Web-краулер World Wide Web Worm, приобретенный у разработчика — университета штата Колорадо. С его помощью собиралась первичная база указателя. В 1998 г. служба перешла на «коммерческую» модель обслуживания и начала использовать систему Inktomi в качестве генератора «некоммерческих» ссылок.

     Google (http://www.google.com/). Служба Google известна тем, что при генерации списка ссылок в первую очередь выдает ссылки на те Web-страницы, к которым из других документов ведет наибольшее количество ссылок. Это дает очень интересный эффект. На большинстве поисковых систем совершенно бесполезно искать информацию по таким тривиальным словам как Cars (Автомобили), Internet, WWW, Games (Игры). Поиск по этим словам вернет столько ссылок, что среди них невозможно найти самые полезные. Служба Google при проведении поиска по тривиальным словам дает отличные результаты, поскольку руководствуется мнением других пользователей, ранее осуществлявших подобный поиск.

     HotBot (http://hotbot.lycos.com/). По популярности среди сетевой общественности HotBot приближается к Alta Vista. Как и Alta Vista, эта служба имеет огромный поисковый указатель и много полезных функций. При генерации первой страницы ссылок HotBot использует результаты, поступающие от системы Direct Hit. При генерации последующих страниц используется система Inktomi, услугами которой пользуются и другие поисковые службы. Кроме поиска по ключевым словам служба предоставляет также возможность поиска по тематическому каталогу. Данные для каталога черпаются из проекта Open Directory.

     Служба HotBot была создана в мае 1996 г. компанией  Wired Digitals, которую в 1998 г. перекупила поисковая служба Lycos. Несмотря на это, HotBot продолжает функционировать как самостоятельная поисковая служба, параллельно с Lycos.

     Inktomi (http://www.inktorm.com/). Ядро поисковой системы Inktomi было разработано в университете Калифорнии в Беркли. Несколько позже создатели системы учредили одноименную компанию и сформировали указатель ссылок Inktomi, который был использован в качестве основы службой HotBot. Сегодня этот указатель используют и некоторые другие поисковые службы. Несмотря на то, что при ответе на запрос пользователя все подключенные службы обращаются к одной и той же базе данных, результаты выдаются разные. Это связано с тем, что хотя Inktomi и обеспечивает партнерам доступ к общей базе указателей, система различает партнеров и применяет системы рейтингования и фильтрации результатов в соответствии с их идеологией.

     LookSmart (http://www.looksmart.com/). Служба LookSmart — ближайший последователь концепции Yahoo! в том, что касается «человеческого фактора» при составлении каталогов Web-ресурсов. Она предоставляет доступ к своему каталогу службе Alta Vista и другим партнерам. В тех случаях, когда поиск по архивам LookSmart не дает результата, ей помогает своими указателями Alta Vista. Служба LookSmart была создана в 1996 г. при финансовой поддержке концерна Reader's Digest, но примерно через год ее учредители откупили службу, и сегодня она независима.

     Lycos (http://www.lycos.com/). Первоначально служба Lycos была запущена как поисковая система, основанная на программе-роботе, собирающей информацию из WWW. Запущенная в эксплуатацию еще в мае 1994 г., сегодня она считается одной из старейших поисковых служб. Однако в 1999 г. служба перешла на другую модель, похожую на Yahoo! и основанную на каталогизации Web-узлов. Свои основные каталоги служба получает от проекта Open Directory, а дополнительные возможности поиска опираются на мониторинг WWW с помощью программ-роботов. В качестве альтернативной услуги Lycos ведет еще один каталог — каталог Web-узлов Lycos Community Guides.

     Название  компании образовано из латинского словосочетания, которое можно перевести примерно как волкопаук. В 1998 г. служба Lycos выкупила акции своего ближайшего конкурента HotBot, который продолжает автономную работу под общим управлением Lycos.

     MSN Search (http://search.msn.com/). Служба MSN Search, принадлежащая компании Microsoft была создана в 1998 г. и является порталом, на котором представлены и другие поисковые службы. В основу результатов поиска, выдаваемых службой, положен указатель, поставляемый системой Inktomi.

     Yahoo! (http://www.yahoo.com/). Данная система появилась в Сети одной из первых, и сегодня Yahoo! сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Она является достаточно мощной поисковой машиной Сети с организацией доступа к информации не только по поисковому запросу, но и путем непосредственной навигации по тематически организованному в рамках Yahoo! иерархическому каталогу. Ее каталог был запущен в эксплуатацию еще в 1994 г. Секрет успеха Yahoo! в «человеческом факторе». На службу работают около 150 редакторов, неустанно улучшающих и пополняющих множество тематических разделов огромного каталога. В каталоге содержатся данные по одному миллиону Web-узлов. Если поиск по собственному каталогу не дает результата, привлекаются ресурсы поискового указателя Inktomi.

     Итак, поисковая система Lycos дает весьма поверхностный обхват Internet. Относительно новые поисковые системы Google и AllTheWeb, действительно дают возможность искать в Internet, а не в какой-то его части. Alta Vista судя по всему обладает самым грамотным обеспечением, однако уступает в мощности, например, системе Google.

     На  долю русскоязычных пользователей Internet выпало суровое испытание – использование нескольких различных кодировок для кириллицы, ориентированных при создании на определенные операционные системы. Это влечет за собой ряд неприятных моментов, в лучшем случае таких, как постоянное использование дополнительных операций перекодировки текста в рабочей области броузера, в худшем – просто невозможность получить загруженную страницу в читабельном виде. Все вышеупомянутые трудности автоматически приводят к осложнениям при сканировании русскоязычной части Web-пространства поисковыми машинами, однако и здесь существует определенный прогресс. Компания Digital Equipment Corporation, поддерживающая в Сети одну из наиболее мощных поисковых машин AltaVista, приготовила приятный сюрприз пользователям Internet, говорящим по-русски, реализовав версию программы, которая позволяет искать информацию во всех русскоязычных кодировках.

     Другой  немаловажный аспект, зачастую сводящий на нет эффективность поиска документов, набранных в кириллице, по ключевым словам, состоит в том, что морфология русского языка не дает правильного числа совпадений с терминами в документе, если грамматическая форма термина в поисковом запросе и в документе отличаются. В этом смысле несомненный интерес представляет разработка поисковых систем, учитывающих морфологию русского языка.

     Нужно отметить, что российский сектор Internet развивается очень бурно. Сегодня ситуация такова, что даже если западный сектор по каким-либо причинам «прикажет долго жить», российский сектор достаточно автономен, чтобы развиваться самостоятельно и достойно обслуживать отечественных клиентов.

     Важную  роль в становлении и развитии отечественного сектора Internet сыграли отечественные поисковые службы. Не знаем, смогли ли они к сегодняшнему дню подойти к самоокупаемости, но в первые годы без сомнения работали на энтузиазме, доброй воле своих сотрудников и вере в будущее. В России есть как универсальные, так и специализированные поисковые службы. Как и везде в мире, в первую очередь развиваются поисковые указатели и рейтинговые системы, но имеется и полноценный каталог — @Rus, в прошлом «Ау'». Рассмотрим некоторые русскоязычные поисковые системы.

Информация о работе Анализ технологий поиска информации в WWW