Анализ технологий поиска информации в WWW

Автор: Пользователь скрыл имя, 29 Декабря 2010 в 16:38, курсовая работа

Описание работы

Стремление поисковых систем охватить «Великую Сеть» осталось в прошлом. Информационное пространство World Wide Web растет и обновляется намного быстрее, чем любая поисковая система, заполняет свои указатели новой информацией. Даже поисковые указатели, выполняющие поиск по ключевым словам, сегодня не избавлены от однобокости и ограниченности. В поисковые системы поступают все новые и новые Web-страницы, и поисковые работы не перестают «бороздить просторы Сети», но все больше и больше страниц ускользает от их внимания.

Содержание

Введение ……………………………………………………………………
Глава 1. Теоретические основы поисковых систем интернет
§ 1. Поисковые системы как информационный ресурс……………….

§ 2. Общий вид обобщенной поисковой машины. …………………...
§ 3. Критерии качества поиска. ………………………………………..
§ 4. Анализ языка гипертекстовой разметки. …………………………

Глава 2. Анализ технологий поиска информации в WWW

§ 1. Развитие поисковых систем……………………………………….
§ 2. Основные поисковые системы. ……………………………………

§ 3. Приемы поиска информации. ……………………………………..

§ 4. Технология и результат поиска в WWW. ………………………...

Заключение ………………………………………………………………..

Литература ………………………………………………………………...

Ресурсы Интернет…………………………………………………………

Приложение 1………………………………………………………………

Приложение 2………………………………………………………………

Приложение 3………………………………………………………………

Работа содержит 1 файл

Диплом_2_редак.doc

— 1.27 Мб (Скачать)

     Aport (http://www.aport.ru/) Один из первых поисковых указателей российского Интернета — детище компании «Агама» (http://www.agama.ru/). В прошлом служба предоставляла традиционные общепринятые средства поиска, но в конце 1999 года внедрила новую систему («Апорт 2000») и сделала большой шаг вперед, особенно в том, что касается представления результатов поиска.

     Особенностью  Апорта является возможность использования  англо-русского и русско-английского on-line перевода запросов и результатов  поисков. Пользователи имеют уникальную возможность поиска документов, даже не обладая знаниями языка первоисточника. Правда системы перевода до сих пор несовершенны. При сложных поисках следует критически подходить к полученным результатам. Помимо этого к преимуществам “Апорта” можно отнести автоматическую проверку орфографии запроса, а также сохранение параметров поиска и определенного числа предыдущих запросов пользователя. Все это облегчает работу с системой, которая и без того не требует особых навыков.

     Сегодня владение самым большим проиндексированным пространством Web уже не является самоцелью. Главное — наилучшим образом обеспечить потребности пользователя, простейший путь к этому лежит не в безмерном увеличении индекса, а в применении новых технологий при обработке результатов. Прежде всего следует отметить, что системе «Апорт 2000» удается мастерски сочетать «машинный» и «человеческий» факторы. Это достигнуто за счет тесной интеграции с партнерским каталогом @Rus. Например, когда по результатам поиска выводится адрес Web-страницы, он может сопровождаться кратким описанием Web-узла, взятым из каталога @Rus. Хотя пользователь и не видит глубинных процессов, но система «Апорт 2000» уделяет особое внимание рейтингованию результатов поиска. Она использует наиболее эффективную сегодня систему рейтингования по количеству ссылок, ведущих к данному ресурсу (по индексу цитирования). По способу представления результатов поиска служба «Апорт 2000" в настоящее время является одной из самых передовых не только в России, но и в мире. Страница результатов поиска доставляет настоящее эстетическое удовольствие, хотя и требует разрешения экрана не менее, чем 600х800 точек.

     Атрус (@Rus) (http://www.atms.ru/) Популярнейший отечественный поисковый каталог, известный в прошлом под именем «Ау!» (http://www.au.ru/). Каталог разработан компанией «Web Tech» в сотрудничестве с компанией «Агама». При его наполнении активно используются средства поисковой системы «Апорт 2000», а результаты поиска могут предоставляться как самостоятельно через службу @Rus, так и в составе результатов поиска, проведенного службой «Апорт 2000». Кроме средств поиска служба @Rus предоставляет удобный каталог-портал Мой @Rus. Пользователь может настроить его на быстрое получение наиболее нужной ему информации. Средства настройки каталога позволяют также отключить все лишнее на основной странице поисковой системы, что делает работу с ней особенно быстрой и удобной.

     Rambler (http://www.rambler.ru/). Поисковая система Rambler содержит информацию о более чем 12 млн. документов, расположенных на серверах России и стран СНГ. Эта поисковая система поддерживается в Сети компанией Stack Ltd. (г.Пущино), которая предоставляет возможность поиска как в Web, так и в системе телеконференций при распознавании всех кодировок кириллицы. Rambler обрабатывает ежесуточно не менее 500 тысяч поисковых запросов, сканируя 18 тысяч Web-серверов, и использует несколько одновременно работающих программ-роботов. Исследователи утверждают, что до 90% пользователей русскоязычного Internet хотя бы один раз в месяц пользуются услугами системы Rambler. Ежедневно в базу данных этого поисковика вносится до 60 тысяч изменений и пополнений. Подобная оперативность обеспечивает постоянное пополнение базы сведениями обо всех новинках, появляющихся в русскоязычной части Сети.

     Yandех (http://www.yandex.ru/) Yandех ежедневно просматривает сотни тысяч Web-страниц в поисках изменений или новых ссылок. Функционирование службы обеспечивает компания Comp Tek (http://www.comptek.ru/), реализована на базе данных сервера Издательского дома «Открытые Системы», причем поисковый язык является достаточно развитым.

     На  основной странице службы сказано, что  «поиск — это искусство». Для  тех, кто предпочитает подходить  к поиску творчески и стремится  развивать свое мастерство, Yandех предоставляет уникальные в своем роде инструменты, сосредоточенные в разделе расширенного поиска. Возможно, они даже несколько опережают свое время и украсили бы западную поисковую службу, имеющую дело с сотнями миллионов проиндексированных документов. В российском секторе, где пока проиндексировано лишь 10-20 млн. документов, нередко обходимся средствами простого поиска. Но и в области простого поиска служба Yandех имеет ряд технологических достижений, прежде всего интеллектуальный механизм морфологического разбора слов, что особенно важно для русского языка.

     Интересна новая услуга, предоставляемая службой. Для корпоративных клиентов она  бесплатно предоставляет «облегченную»  версию программы Yandeх.site, выполняющей индексацию содержимого Web-узла. Это удобно тем владельцам Web-узлов, которые хотели бы организовать локальную систему для поиска информации в пределах собственного узла. В то время как большинство поисковых служб хранят свои средства индексации как «зеницу ока». Этот шаг компании Comp Tek выглядит удачным маркетинговым ходом, способствующим росту популярности службы.

     Поисковая система Yandех по многим показателям зарекомендовала себя, как система мирового уровня. Yandех действительно обладает конкурентно-способным программным обеспечением. Однако система «заточена» под кириллицу и индексирует преимущественно сайты в зоне ru. Возможность поискового робота системы Rambler, значительно уступает возможностям http-робота системы Yandех. Однако Rambler активно использует информацию введенную пользователями вручную через формы регистрации. За счет этого Rambler не редко выдает более актуальную информацию, чем Yandех.

           Подводя итог можно сказать что, как правило, несмотря на обилие поисковых систем, пользователь предпочитает обращаться к услугам лишь одной - двух из них (точно также как при обилии газет или новостных сайтов мы регулярно просматриваем лишь некоторые, привычные и любимые). Самой популярной поисковой системой в мире является Google. Но по оценкам аналитиков, на просторах бывшего СССР чаше используется Яндекс. 
 

     §3. Приемы поиска информации.

     Каждая  поисковая система предоставляет  свои методы поиска и имеет свои особенности в правилах записи комбинации ключевых слов. Однако есть общие элементы, одинаково справедливые для большинства  поисковых систем.

     Чем точнее сформулировано задание на поиск, тем точнее будут и результаты. Например, для того, чтобы найти документы с описанием замеченных ошибок Windows 98, то надо формулировать запрос: ошибки Windows 98, а не просто Windows. На англоязычных серверах очень часто срабатывает простое человеческое описание проблемы: printer works incorrectly (принтер работает неправильно).

     Задача  состоит в том, чтобы выделить в пространстве Web самые нужные документы, однако многие начинающие делают одну и туже ошибку. Например, нужно найти информацию о компьютерных играх (computer games), то кажется, что так и надо оформить запрос: computer games.

     Для большинства поисковых систем этот запрос будет ошибочным. При таком  запросе система будет искать все Web-страницы, в которых встречается либо слово computer, либо слово games, либо оба вместе. В WWW полно страниц, на которых упоминаются компьютеры и нет ни слова про игры. Так же там полно страниц со спортивными, настольными и другими играми, которые не нужны. Всю эту массу надо отсеять, а не запрашивать. Вот поисковые системы, которые рассматривают группу слов, введенных через пробел, как задание на поиск любого из этих слов: AltaVista, Excite, GoTo, Infoseek, LookSmart, Netscape Search, Snap, WebCrawler, Yahoo!.

     Следующие системы тоже способны выполнять поиск по любому из слов группы, но для этого надо либо установить соответствующий флажок, либо выбрать соответствующий пункт в меню:

     HotBot (через меню);

     Lycos (в режиме расширенного поиска);

     MSN Search (через меню);

     Rambler (после установки флажка Все словоформы).

     Система Northern Light позволяет производить поиск по любому из ключевых слов только путем использования логической команды OR. Система Google вообще не имеет средств для такого поиска.

     Если надо, чтобы поисковая система нашла страницы, на которых одновременно присутствуют все использованные ключевые слова, то перед каждым из них надо поставить знак «+».

       Например: +компьютерные+игры.

     Поисковая система выдаст список страниц, на которых  встречаются оба слова. Список слов может быть больше — тогда результаты поиска будут точнее.

     Использование знака «+» особенно полезно, если ведется поиск по распространенному слову, но в ответ получено так много ссылок, что не известно, как с ними поступить. Используя знак «+», сужается круг поиска и уменьшается количество возможных ссылок. Знак «+» понимают все основные поисковые системы, за исключением LookSmart. Следующие системы выполняют такой поиск по умолчанию, даже если знак «+» не указан: Google, HotBot, Lycos, MSN Search, Aport 2000, Rambler (в режиме простого поиска при сброшенном флажке Все словоформы).

     Имеет отличия и российская система  Yandex. Если слова разделены пробелами, то система ищет одновременное появление этих слов, но только в пределах одного предложения. Если же требуется одновременность в пределах всего документа, надо использовать знак «+». Интересную особенность имеет и российская система Rambler. В ней знак«+» можно использовать для управления весовым коэффициентом при рейтинговании результатов. Например, поставив несколько знаков «+» перед каким-либо словом, можно форсировать отображение страниц, содержащих его, в вершине результирующего списка.

     Сужать  круг поиска можно не только знаком «+», но и знаком «-».

     Например, надо написать реферат по оптике, но только по геометрической, а не по волновой, то поиск может быть таким:

     +свет+оптика -волна

     Последняя команда разыщет все страницы, где присутствуют слова свет и  оптика, но покажет только ссылки на страницы, не содержащие слова волна.

     Знак  «-» понимают практически все  основные поисковые системы.

     Дана  команда искать слово свет, а в  документе написано: световой. Дана команда искать слово оптика, а  в документе написано: оптике. Многие поисковые системы производят нормализацию слов, но не все и не всегда, так  что следует использовать подстановочный символ «*». Этот символ может заменить любой другой символ или набор любых символов до конца слова. Подстановочный символ «*» можно использовать в следующих поисковых системах: AltaVista, HotBot, MSN Search, Yahoo!.

     Некоторые из крупнейших поисковых служб поддерживают нормализацию слов по умолчанию, то есть учитывают сокращение слов до основы, и потому в них не надо использовать подстановочный символ. К таким службам относится Infoseek.

     Если  нужно объединить оба слова в одно сочетание, то надо применить кавычки: "Геометрическая оптика".

     При использовании кавычек поисковая  система разыскивает документы, в которых точно есть тот текст, который в них заключен. Поиск с помощью кавычек называется контекстным поиском.

     Прописные буквы при проведении поиска имеют особый статус. Прописными буквами поисковые системы обращаются буквально, то есть разыскивают тексты, в которых слова записаны точно такими же буквами. Со строчными буквами все происходит демократичнее. Совпадения засчитываются и в том случае, когда в тексте стоит прописная буква, и в том случае, когда буква строчная.

     Каждая Web-страница должна иметь заголовок, если Web-мастер не поленился его создать. Если разыскивать Web-страницы с помощью  поисковых систем, то по результатам  поиска обычно выдается ссылка, в которой присутствует заголовок Web-страницы, если он есть. Если его нет, то обычно выдается одно-два предложения первого абзаца.

     Многие  поисковые системы позволяют  разыскивать Web-документы по тексту, содержащемуся в заголовках. Такой поиск существенно уменьшает количество возвращаемых ссылок, но очень точно выводит на нужные материалы. Например, нужны данные для доклада о Солнечной системе, надо искать страницы в которых сочетание Solar System (Солнечная система) присутствует в заголовке. Командой такого поиска является title:, например:

Информация о работе Анализ технологий поиска информации в WWW