Анализ технологий поиска информации в WWW

Автор: Пользователь скрыл имя, 29 Декабря 2010 в 16:38, курсовая работа

Описание работы

Стремление поисковых систем охватить «Великую Сеть» осталось в прошлом. Информационное пространство World Wide Web растет и обновляется намного быстрее, чем любая поисковая система, заполняет свои указатели новой информацией. Даже поисковые указатели, выполняющие поиск по ключевым словам, сегодня не избавлены от однобокости и ограниченности. В поисковые системы поступают все новые и новые Web-страницы, и поисковые работы не перестают «бороздить просторы Сети», но все больше и больше страниц ускользает от их внимания.

Содержание

Введение ……………………………………………………………………
Глава 1. Теоретические основы поисковых систем интернет
§ 1. Поисковые системы как информационный ресурс……………….

§ 2. Общий вид обобщенной поисковой машины. …………………...
§ 3. Критерии качества поиска. ………………………………………..
§ 4. Анализ языка гипертекстовой разметки. …………………………

Глава 2. Анализ технологий поиска информации в WWW

§ 1. Развитие поисковых систем……………………………………….
§ 2. Основные поисковые системы. ……………………………………

§ 3. Приемы поиска информации. ……………………………………..

§ 4. Технология и результат поиска в WWW. ………………………...

Заключение ………………………………………………………………..

Литература ………………………………………………………………...

Ресурсы Интернет…………………………………………………………

Приложение 1………………………………………………………………

Приложение 2………………………………………………………………

Приложение 3………………………………………………………………

Работа содержит 1 файл

Диплом_2_редак.doc

— 1.27 Мб (Скачать)
 

     §4. Технология и результат поиска в WWW.

     За  время существования Internet предпринимались различные попытки организации поисковых средств. Многие из этих попыток оказались неудачными, другие привели к созданию удобных средств поиска информации. Наиболее удачные проекты появились в последние пять лет.

     Процесс поиска довольно прост: задавая ключевые слова, характерные для искомой  информации, находим нужный документ. Вне зависимости от того, какой  поисковой системой пользоваться, примерный  алгоритм поиска информации следующий:

  1. Перейти на начальную страницу поисковой системы или на любую страницу, на которой находятся поля для ввода запроса и кнопка для начала поиска. В последнем случае после нажатия кнопки автоматически переходите на страницу поисковой системы. Принципиальных отличий между поисковой системой и страницей с полями для ввода запроса, который передаётся поисковой системе, нет. Главное – перейти на страницу, на которой можно ввести запрос.
  2. Если система позволяет последовательные уточнения области поиска, то нужно перейти в разделы, которые определяют границы поиска информации (например, поиск только в области науки или поиск среди европейских узлов Internet). В таких системах запрос в главном разделе осуществляет поиск среди всех узлов Internet. Если же, например, перейти в раздел «Новости», то поиск по запросу будет выполняться только среди узлов, посвящённых новостям. Сначала определяются границы, в которых следует вести поиск, и только после этого отправляется запрос на поиск информации. Если выбранная система поиска не позволяет уточнить запрос, то это действие пропускается.
  3. Вводится запрос на поиск в соответствии с правилами, принятыми в выбранной системе поиска. В простейшем случае это одно или несколько слов, например «Сказки», но возможны и сложные запросы с логическими операциями «И», «ИЛИ», «НЕТ».
  4. Если система поиска позволяет, то уточняются некоторые параметры запроса с помощью дополнительных полей, списков, флажков и переключателей, которые могут находиться на странице рядом с полем запроса. В большинстве случаев уточнение параметров не требуется. Уточнение параметров и составление сложных запросов чем-то похоже на программирование и пользуется большей популярностью у программистов, чем у широкого круга людей, не знакомых с программированием.
  5. Нажимается кнопка для начала поиска, и после некоторой паузы автоматически появляется страниц со списком документов, удовлетворяющих запросу. Длительность паузы зависит от сложности запроса, скорости работы поисковой системы и качества связи с данной системой.
  6. Если ссылок много и они не помещаются на одной странице, то после прочтения первой страницы с результатами поиска надо перейти к следующей, и так далее. Таким образом, просматриваются все найденные ссылки на документы.
  7. После нахождения нужной ссылки щелкнуть на ней мышью и появляется страница, которую разыскивали. Если нужно посмотреть другие найденные страницы, то можно вернуться назад, к странице со ссылками на найденные документы, и перейти по другой ссылке.

     Во  многих поисковых системах поле запроса  остаётся на странице во время просмотра результатов, и можно быстро уточнить запрос и организовать новый поиск. В большинстве систем список включает в себя кроме ссылок несколько строк каждого из найденных документов, чтобы было легче выбрать нужный. В некоторых системах списки ссылок отсортированы так, что в начале списка ссылки на документы, наиболее удовлетворяющие запросу.

     Рассмотрим  и сравним поиск информации во Всемирной паутине с помощью  нескольких наиболее распространённых русскоязычных систем поиска: Rambler, Yandex и Апорт.

     Перед началом работы с поисковыми системами следует установить связь с поставщиком услуг Internet, после чего перейти на начальную страницу работы с поисковыми системами:

    • Запустить программу Internet Explorer;
    • Установить связь с поставщиком услуг;
    • Вводится адрес www.rambler.ru., чтобы перейти на нужную страницу. Будет загружена начальная страница поисковой системы Rambler ( Рис. 1).

     После ввода адреса, для загрузки начальной  страницы, поисковой системы Rambler, потребовалось 2,5 секунд. 

Рис. 1. Начальная  страница поисковой системы Rambler. 

    • Вводится  адрес www.yandex.ru., загружается начальная страница поисковой системы Yandex ( Рис. 2).

     Для загрузки начальной страницы поисковой системы Yandex – 1,6 секунд.

Рис. 2. Начальная  страница поисковой системы 

    • Вводится  адрес www.aport.ru., загружается начальная страница поисковой системы Апорт ( Рис. 3).

     Для загрузки начальной страницы поисковой  системы Апорт – 5,7 секунды.

Рис. 3. Начальная  страница поисковой системы Апорт 

     По  результату загрузки начальной страницы, можно сделать вывод: отсутствие рекламы позволяет поисковой  системе Yandex загружать начальную страницу за минимальное количество времени.

     Начнем  сравнительный анализ поисковых систем с приемов простого поиска. Наиболее популярным способом работы с поисковой системой является подача запроса, состоящего из одного слова.

     Выполним  такой запрос:

    • Введем в поле ввода запроса слово системы.
    • Нажмем кнопку Найти!. Получен список найденных страниц.

     Поисковой системе Rambler потребовалось 8,6 секунд, для выдачи итогового, который состоит из 582870 сайтов, 126533548 документов, из которых новых – 172629.

     Ввполним  такой же запрос для поисковой  системы Yandex:

    • Введем в поле ввода запроса слово системы.
    • Нажмем кнопку Найти!.

     Поисковая система Yandex проделала всю работу за 2,8 секунды, получился список из 39395 сайтов, 145538998 страниц.

     Выполним  аналогичный запрос с помощью  поисковой системы Апорт.

    • Введем в поле ввода запроса слово системы.
    • Нажмем кнопку Апорт!.

     Получим за 5,4 секунды список из лучших 6049 сайтов, 10000 документов.

     При подаче запроса из одного слова быстрее  и результативнее работает поисковая  система Yandex, затем по скорости получения результата - поисковая система Апорт, а по количеству ссылок - поисковая система Rambler.

     Выполним  простой запрос для поисковой  системы Rambler, добавив уточняющее слово, получим: поисковые системы.

    • Введем в поле ввода запроса слова поисковые системы. Нужно найти документы, одновременно содержащие слово «поисковые» и слово «системы».
    • Нажмем кнопку Найти!.

     Результат виден через 1,8 секунд, найдено 116110 сайтов, 10015381 документ, из которых новых – 11681. Список найденных страниц удобно организован. Вначале расположены ссылки на страницы, наиболее соответствующие критериям поиска. Наиболее полно удовлетворяют запросу документы, в которых искомые слова часто повторяются и стоят недалеко друг от друга. Кроме того, в кратком фрагменте текста найденного документа выделены обнаруженные слова.

     Выполним  такой же запрос для поисковой  системы Yandex. Можно ввести запрос в поле ввода и установить некоторые параметры запроса с помощью флажков, расположенных на данной странице. Введем запрос и выполним поиск информации:

    • Введем в поле ввода запроса слова поисковые системы. Надо найти документы, содержащие эти два слова.
    • Установим флажок Везде. В этом случае поиск будет осуществлен во всех доступных местах.
    • Нажмем кнопку Найти. Получаем список найденных страниц.

     Для выполнения запроса потребовалось 2,3 секунды, найдено 11821654 страницы, сайтов - 3624. На первой странице видно сколько запросов по данным словам было в течении месяца: поисковые – 588066 запросов, системы – 663525 запросов.

     Выполним  запрос для поисковой системы  Апорт. Особенностью данной системы является то, что в запросах можно использовать слова в любой грамматической форме.

    • Введем в поле ввода запроса слова поисковые системы.
    • Нажмем кнопку Апорт!.

     За 5,7 секунд получаем список найденных документов – 17490, сайтов – 3967.

     При простом запросе состоящем из двух слов быстрее работает поисковая  система Rambler, по результативности к ней присоединяется поисковая система Yandex, а поисковая система Апорт отстает по всем параметрам.

     Рассмотрим  еще один прием простого поиска - контекстный поиск, для этого применяются кавычки “ ”.

     Выполним контекстный поиск для Rambler:

  • Введем в поле ввода запроса словосочетание “поисковые системы”.
    • Нажмем кнопку Найти!. Получим список найденных страниц.

     В этом случае поисковая система найдет документы, в которых точно есть текст, который заключен в кавычки.

     Для выдачи итогового результата поисковой системе потребовалось 8,4 секунды, найдено 117358 сайтов, 10174106 документов, из них новых 17038.

     Выполним контекстный поиск для Yandex, аналогично выполненного поиска для Rambler, результат получен через 2,5 секунд, найдено 3636 сайтов, 11415936 страниц.

     Итоги контекстного поиска в поисковой  системе Апорт получены через 4,7 секунды, имеем 3989 сайтов, 17695 документов.

     При контекстном поиске быстрее всех сработала поисковая система Yandex, но результат поиска по количеству найденных документов лучше у поисковой системы Rambler. Поисковая система Апорт по времени поиска имела средний результат, но очень маленькое количество найденных сайтов.

     Кратко  остановимся на результатах других возможных приемах поиска. Поиск по заголовкам существенно уменьшает количество возвращаемых ссылок, но очень точно выводит на нужный результат. Рассмотрим результаты поиска по заголовкам.

     Поисковая система Rambler:

  • Введем в поле ввода запрос: $title:история Internet.
  • Нажмем кнопку Найти!

     Скорость выполнения данного поиска 2,6 секунды, найдено 398 сайтов, 4845 документов, новых нет.

     Поисковая система Yandex:

  • Введем в поле ввода запрос: $title (история Internet).
  • Нажмем кнопку Найти!

    Скорость выполнения поиска 1,4 секунд, найдено 145 сайтов, 677 страниц.

     Поисковая система Апорт:

    • Введем в поле ввода запрос: title = история Internet или t = история Internet.
    • Нажмем кнопку Апорт!.

     Результаты  получены 3,5 секунд, найдено 1061 сайт, 5134 документа.

     Результат поиска по заголовкам такой, по скорости получения результата впереди поисковая система Yandex, по количеству найденных документов – поисковая система Апорт.

     Поиск Web – узлов используется достаточно редко. Команды этого поиска часто применяются для сокращения числа ссылок, возвращенных другими методами и ограничения их одним Web – узлом.

     Поисковая система Rambler:

  • Введем в поле ввода запрос: + Internet+host:ru.
  • Нажмем кнопку Найти!

     Поиск выполнен за 5,1 секунд, найдено 118723 сайта, 2626757 документов, новых 626.

     Поисковая система Yandex результат получила через 1,9 секунд, найдено 1351 сайт, 31445 страниц.

     Для получения результата поисковой  системе Апорт потребовалось 5,2 секунды, найдено 1061 сайт, 5134 документа.

     В итоге получили, что поисковая система Yandex по скорости лучше других, но по количеству документов выигрывает поисковая система Rambler.

       При проведении простого поиска в сравниваемых поисковых системах по скорости получения результата лидирует поисковая система Yandex, а по количеству найденных документов лидирует поисковая система Rambler (но, Yandex не отстает).

Информация о работе Анализ технологий поиска информации в WWW