Анализ технологий поиска информации в WWW

Автор: Пользователь скрыл имя, 29 Декабря 2010 в 16:38, курсовая работа

Описание работы

Стремление поисковых систем охватить «Великую Сеть» осталось в прошлом. Информационное пространство World Wide Web растет и обновляется намного быстрее, чем любая поисковая система, заполняет свои указатели новой информацией. Даже поисковые указатели, выполняющие поиск по ключевым словам, сегодня не избавлены от однобокости и ограниченности. В поисковые системы поступают все новые и новые Web-страницы, и поисковые работы не перестают «бороздить просторы Сети», но все больше и больше страниц ускользает от их внимания.

Содержание

Введение ……………………………………………………………………
Глава 1. Теоретические основы поисковых систем интернет
§ 1. Поисковые системы как информационный ресурс……………….

§ 2. Общий вид обобщенной поисковой машины. …………………...
§ 3. Критерии качества поиска. ………………………………………..
§ 4. Анализ языка гипертекстовой разметки. …………………………

Глава 2. Анализ технологий поиска информации в WWW

§ 1. Развитие поисковых систем……………………………………….
§ 2. Основные поисковые системы. ……………………………………

§ 3. Приемы поиска информации. ……………………………………..

§ 4. Технология и результат поиска в WWW. ………………………...

Заключение ………………………………………………………………..

Литература ………………………………………………………………...

Ресурсы Интернет…………………………………………………………

Приложение 1………………………………………………………………

Приложение 2………………………………………………………………

Приложение 3………………………………………………………………

Работа содержит 1 файл

Диплом_2_редак.doc

— 1.27 Мб (Скачать)

     title: Solar System или (лучше)

     title: solar system

     Поиск заголовков Web-страниц по команде  title: поддерживают следующие поисковые системы: AltaVista, HotBot, MSN Search, GoTo, Infoseek, Snap.

     Поисковый каталог Yahoo! тоже имеет команду для поиска заголовков. Она записывается так: t: solar system

     Система Lycos разыскивает заголовки только в режиме расширенного поиска.

     Поисковая система Aport 2000 имеет несколько альтернативных команд для поиска заголовков. Основная команда — title = . Примеры:

     title = Солнечная система

     t = Солнечная система

     заг = Солнечная система

     з = Солнечная система

     В поисковой системе Yandех команда поиска в заголовке записывается так: $title (Солнечная система),

       А в поисковой системе Rambler — похоже, через двоеточие: $title:Солнечная система

     Поиск Web-узлов используется достаточно редко, но команды этого поиска часто применяют для сокращения числа ссылок, возвращенных другими методами и ограничения их одним Web-узлом или, наоборот, исключения некоего Web-узла из результатов поиска.

     Одной из команд такого поиска является команда  host:.

     Например, на поисковой системе Alta Vista команда host: Microsoft.ru разыщет все Web-страницы, принадлежащие доменному имени Microsoft.ru.

       Эту команду обычно комбинируют  с другими. Если, например, интересуют  планеты солнечной системы, но  не труды Национального управления по исследованию космического пространства США (NASA), то сервер NASA можно исключить из поиска командой:

     +solar + system -host: nasa .:

       В команду можно включать не  полное доменное имя сервера,  а только его часть, например  только имя домена. Если мы  хотим обыскать только российские  серверы, то можно использовать  имя домена ru, например:

       +cookies +host: ru

     По  этой команде узнаем, что пишут о маркерах (cookies) на российских Web-узлах.

       Не все поисковые системы позволяют  проводить поиск по Web-узлам, да и команда поиска у них может быть различной. Вот системы, которые такой поиск выполняют:

     Alta Vista host:

     Hot Bot domain:

     InfoSeek site:

     MSN Search domain:

     GoTo domain:

     Snap domain:

       Поисковая система Lycos выполняет поиск Web-узлов только в режиме расширенного поиска.

     Поиск URL-адресов очень похож на поиск Web-узлов, только команда другая — uri:. Эту команду поддерживают следующие поисковые службы: AltaVista, Infoseek, Northern Light.

     Поисковый каталог Yahoo! использует команду u:, а система Lycos реализует поиск URL-адресов с помощью команд расширенного режима. В России поисковая система Yandех использует команду #url=, после которой следует записать URL-адрес в кавычках. Поисковая система Апорт 2000 , обходится более простым синтаксисом, например url=www.intel.ru, а в поисковой системе Rambler команда должна начинаться с символа <$>, например так: $uri: www.intel.ru

     Поиск ссылок полезен владельцам Web-страниц и Web-мастерам. Он позволяет, например, количественно оценить динамику популярности своей страницы регулярным контролем числа ссылок, которые к ней ведут. Типовая команда для такого поиска — link:.

       Например, команда link: http://www.mywebsite.com/mypage/index.htm позволит выявить ссылки, которые ведут к титульной странице index.htm на Web-узле mypage, размещенном на Web-сервере www.mywebsite.com.

     Команду link: поддерживают следующие поисковые службы: AltaVista, Infoseek, Google.

     Некоторые поисковые службы поддерживают команду  linkpage: GoTo, HotBot, Snap.

     Российские  поисковые системы имеют свои особенности. Например. Апорт 2000 поддерживает четыре разных представления команды:

     Link=

     L=

     Ссылка=

     Сс=

     Система Yandех поддерживает команду #link:, после которой адрес ссылки должен записываться в кавычках.

     Все рассмотренные выше методы являются методами простого поиска. Кроме средства простого поиска обычно поисковые службы предоставляют средства расширенного поиска. Эти средства позволяют более точно формулировать поисковое задание, но требуют определенного опыта и работают заметно медленнее. В большинстве поисковых систем команды расширенного поиска формируются с помощью логических команд и рассчитаны на профессионалов. Удобство использования логических команд связано с тем, что команды простого поиска у многих поисковых систем реализованы по-разному. Каждая система стремится сделать средства простого поиска наиболее удобными, а средства расширенного поиска — наиболее стандартными.

     Логическая  команда OR (ИЛИ) служит для формирования поискового задания, состоящего из нескольких ключевых слов, если надо, чтобы разыскиваемый документ содержал любые из этих слов в любой комбинации. Например, по команде solutions OR hints будут разысканы Web-страницы, содержащие решения к компьютерным играм (solutions) или подсказки к ним (hints).

     Команду OR поддерживают абсолютное большинство основных поисковых служб, за исключением следующих: Google, Infoseek, LookSmart, Yahoo!.

     Службы  Infoseek, LookSmart и Yahoo! по умолчанию выполняют поиск по принципу ИЛИ, если через пробел задано несколько ключевых слов, и поэтому не нуждаются в этой команде. Лишь поисковая система Google вообще не имеет таких средств.

     «Апорт 2000» позволяет использовать как  английское ключевое слово OR, так и русское ИЛИ. Можно также использовать знак « | ». Система Rambler использует или слово OR, или знак « | », а система Yandех — только знак « | ».

     Логическая команда AND (И) служит для формирования поискового задания, когда надо, чтобы разыскиваемый документ содержал одновременно все слова, введенные пользователем. Это аналог команды «+» простого поиска. Например, по команде свет AND луч будут разысканы все Web-страницы, содержащие оба эти слова.

     Команду AND поддерживают абсолютное большинство основных поисковых служб, за исключением следующих, которые используют знак «+»:Google, Infoseek, LookSmart, Yahoo!.

     Апорт 2000 позволяет использовать как английское ключевое слово AND, так и русское И, а также знаки «&» и «+». Система Rambler использует ключевое слово AND или знак «&», а система Yandех — знак «&» или пробел, если требуется одновременное присутствие слов в одном предложении, или пару знаков «&&», если требуется одновременное присутствие слов во всем документе.

     Логической  командой NOT (HE) устанавливают исключения из результатов поиска, то есть это аналог рассмотренной выше команды простого поиска «-». Эту команду поддерживает большинство служб, за исключением: Google, Infoseek, LookSmart, Yahoo!.

     Системы AltaVista, Excite, Snap требуют специальной формы записи этой команды: вместо NOT в них следует давать команду AND NOT.

     Наряду  с командой NOT в системе Апорт 2000 разрешается использовать команду «НЕ», а в системе Rambler — команду «!». Интересна особенность системы Yandех, она реализует логическую команду И НЕ, которая записывается значком «~», если относится к одному предложению и парой значков «~~», если относится ко всему документу.

     Команда NEAR - это одна из самых удобных команд расширенного поиска. Она позволяет совместить достоинства поиска по ключевым словам и контекстного поиска при глубоком поиске самые лучшие результаты возвращаются с помощью этой команды. Пример: поисковая команда Ночь NEAR река позволит разыскать документы, в которых присутствуют слова Ночь и река одновременно, причем находятся поблизости друг от друга.

     К сожалению, редкие поисковые службы поддерживают поиск с помощью  команды NEAR. При этом у разных служб разное представление о том, что значит «близкое» размещение слов друг к другу:

     AltaVista (в пределах 10 слов, жестко);

     Lycos (в пределах 25 слов, гибко);

     WebCrawler (в пределах 2 слов, гибко);

     И Lycos, и WebCrawler позволяют управлять размером интервала, в котором разыскиваются ключевые слова. Для этого команду NEAR задают(параметром /#. Например, команда ночь NEAR/10 река позволит разыскать произведения, в которых есть описание реки ночью, если слова ночь и река отстоят друг от друга не более, чем на десять слов.

     В российской поисковой системе Rambler аналогичная команда начинается со знака «$» и заканчивается двоеточием ($NEAR:). В поисковой системе Апорт 2000 расстояние между словами задается командой СЛ# (..., ..., ...), где вместо знака « # » следует подставить цифру или число, обозначающее предельное расстояние, а вместо многоточий — список ключевых слов. В поисковой системе Yandех расстояние задается в круглых скобках после дробной черты. При этом указать расстояния можно как «вперед», так и «назад» : средство поиск/ (-2 4)

     Такая команда позволит разыскать на только средства расширенного поиска, но и  поисковые средства.

     Вложение  команд позволяет создавать весьма сложные запросы. Оно выполняется с помощью круглых скобок ( ). Команда, стоящая в скобках, выполняется в первую очередь. Рассмотрим пример поиска решений или подсказок к компьютерной игре Diablo: diablo AND (solution OR hint)

     В этом случае сначала будут отобраны документы, в которых приводятся подсказки или решения для  компьютерных игр, а потом из них будут выбраны те, в которых упоминается игра Diablo.

     Использование круглых скобок, для управления порядком исполнения задания на поиск, разрешается большинством крупнейших поисковых систем, за редким исключением: Google, Infoseek, LookSmart, Yahoo!.

     Задана тема, которую надо осветить, но по ней нет никакой информации. В этом случае начинать исследование темы надо с поискового каталога. Двух-трех страниц с содержательной информацией обычно бывает достаточно. К тому же эти страницы тоже имеют полезные ссылки. Лучшая часть сетевой информации в таких каталогах, как Yahoo! обязательно присутствует.

     По  интересующему вопросу можно  получить сотни ссылок с помощью  поискового указателя типа Alta Vista. Среди них, конечно же, будут ссылки на лучшего специалиста в мире по данному вопросу. А помощью Yahoo! вы гораздо быстрее найдете его Web-узел.

     Углубленный поиск предполагает, что общее знакомство с вопросом уже есть, но нужны какие-то мелкие детали и тонкие нюансы. Поисковый каталог здесь может не помочь — слишком поверхностно его знание о ресурсах WWW. В этом случае надо использовать поисковый указатель, а лучше — не один. Однако для того чтобы отфильтровать информацию и сузить результаты поиска, надо применять специальные средства, в частности средства расширенного поиска. Методы простого поиска могут дать слишком много побочной информации.

     Каждый, кто является специалистом в какой-то области, знает ключевые слова, характерные  для нее, а умение грамотно сформулировать задание на поиск достигается  методом проб и ошибок. Если считаете себя специалистом в области стратегических игр реального времени и с основными достижениями в этой области уже знакомы. Но хотите найти новую информацию. Попробуем с помощью системы Alta Vista сделать поиск по ключевым словам:

     ( realtime NEAR strategy) AND computer AND game

     Это пример расширенного поиска. Он вернет ссылки на документы, в которых присутствуют все эти слова и, более того, слово realtime находится рядом (NEAR) со словом strategy. В ответ на такой запрос получим немало ссылок. Но зная основные ресурсы можно в этом длинном списке выделить те ссылки, которые ведут к ранее неизвестным ресурсам.

     Специальный поиск труден и в поисковых каталогах, и в поисковых указателях. Специалисту лучше всего пользоваться списками ссылок, составленными другими специалистами или небольшими поисковыми системами научных учреждений. Чтобы выйти на них, следует начинать с поискового каталога.

     Обобщая все сказанное выше, можно дать следующие рекомендации:

  • для реферативного поиска пользуйтесь поисковыми каталогами;
  • для углубленного поиска пользуйтесь поисковыми указателями;
  • для специального поиска предварительно разыщите персональные списки ссылок, составленные коллегами;
  • для поиска «скомпрометированной информации», например хаккерской, пользуйтесь рейтинговыми системами;
  • при выборе службы для контекстного поиска в России лучше остановиться на «Апорт 200» или «Yandех», а за рубежом альтернатив мало — лучше всего использовать поисковую службу Alta Vista.

Информация о работе Анализ технологий поиска информации в WWW