Как найти нужную информацию в Интернете среди миллиардов Web-страниц и файлов?

Поиск информации в Интернете

Сеть Интернет растет очень быстрыми темпами, и найти нужную информацию среди миллиардов Web-страниц и файлов становится все сложнее. Для поиска информации используются специальные поисковые серверы, которые содержат более или менее полную и постоянно обновляемую информацию о Web-страницах, файлах и других документах, хранящихся на десятках миллионов серверов Интернета.

Различные поисковые сервера могут использовать различные механизмы поиска, хранения и предоставления пользователю информации. Поисковые серверы Интернета можно разделить на две группы:

Поисковые системы общего назначения

Поисковые системы общего назначения являются базами данных, содержащими тематически сгруппированную информацию об информационных ресурсах Всемирной паутины. Такие поисковые системы позволяют находить Web-сайты или Web-страницы по ключевым словам в базе данных или путем поиска в иерархической системе каталогов.

Интерфейс таких поисковых систем общего назначения содержит список разделов каталога и поле поиска. В поле поиска пользователь может ввести ключевые слова для поиска документа, а в каталоге выбрать определенный раздел, что сужает поле поиска и таким образом ускоряет его.

Заполнение баз данных осуществляется с помощью специальных программ-роботов, которые периодически "обходят" Web-серверы Интернета. Программы-роботы читают все встречающиеся документы, выделяют в них ключевые слова и заносят в базу данных, содержащую URL-адреса документов.

Так как информация в Интернете постоянно меняется (создаются новые Web-сайты и страницы, удаляются старые, меняются их URL-адреса и так далее), поисковые роботы не всегда успевают отследить все эти изменения. Информация, хранящаяся в базе данных поисковой системы, может отличаться от реального состояния Интернета, и тогда пользователь в результате поиска может получить адрес уже не существующего или перемещенного документа.

В целях обеспечения большего соответствия между содержанием базы данных поисковой системы и реальным состоянием Интернета большинство поисковых систем разрешают автору нового или перемещенного Web-сайта самому внести информацию в базу данных, заполнив регистрационную анкету. В процессе заполнения анкеты разработчик сайта вносит URL-адрес сайта, его название, краткое описание содержания сайта, а также ключевые слова, по которым легче всего будет найти сайт.

Сайты в базе данных ранжируются по количеству их посещений в день, неделю или месяц. Посещаемость сайтов определяется с помощью специальных счетчиков, которые могут быть установлены на сайте. Счетчики фиксирует каждое посещение сайта и передают информацию о количестве посещений на сервер поисковой системы.

Поиск по ключевым словам. Поиск документа в базе данных поисковой системы осуществляется с помощью введения запросов в поле поиска. Простой запрос содержит одно или несколько ключевых слов, которые, по вашему мнению, являются главными для этого документа. Можно также использовать сложные запросы, использующие логические операции, шаблоны и так далее.

Через некоторое время после отправки запроса поисковая система вернет аннотированный список URL-адресов документов, в которых были найдены указанные вами ключевые слова. Для просмотра этого документа в браузере достаточно активизировать указывающую на документ ссылку.

Если ключевые слова были выбраны неудачно, то список URL-адресов документов может быть слишком большим (может содержать десятки и даже сотни тысяч ссылок). Для того чтобы уменьшить список, можно в поле поиска ввести дополнительные ключевые слова или воспользоваться каталогом поисковой системы.

Наиболее мощными поисковыми системами общего назначения в русскоязычной части Интернета являются серверы Rambler (http://www.rambler.ru), Апорт (http://www.aport.ru), и Яндекс (http://www.yandex.ru), а по всему Интернету - сервер Yahoo (адрес http://www.yahoo.com).

Попробуем с помощью российского поискового сервера Яндекс найти сайт "Информатика и информационные технологии".

Поиск сайта по ключевым словам

1. В браузере открыть начальную страницу поискового сервера Яндекс. В поле поиска ввести ключевые слова, например "информатика учебники тесты CD-ROM".


Пробелы между словами соответствуют логической операции AND, то есть результатом поиска будет список сайтов, на которых присутствуют все вышеперечисленные ключевые слова.

2. В результате проведенного 3 ноября 2001 года поиска было найдено 118 Web-сайтов, содержащих все перечисленные выше ключевые слова.

Для каждого документа кроме ссылки приводится еще адрес сайта (URL) и его краткая аннотация.


Искомый сайт "Информатика и информационные технологии" занимает первое место в этом списке, так как в наибольшей степени соответствует запросу. Щелчок по ссылке приведет к загрузке титульной страницы сайта.

В статистике поиска можно ознакомиться с количеством сайтов, содержащих каждое из ключевых слов: информатика - 553896, учебники - 1274027, тесты - 2485000, CD- 7024321, ROM - 2128526.

Поиск в иерархической системе каталогов. Web-сайты в базе данных поисковой системы группируются в тематические каталоги - аналоги тематического указателя в библиотеке. Тематические разделы верхнего уровня, например "Интернет", "Компьютеры", "Культура и искусство" и др., содержат вложенные каталоги. Например, каталог "Интернет" может содержать подкаталоги "Провайдеры", "Поиск", "Общение" и др.

Поиск информации в каталоге сводится к выбору определенного каталога, после чего пользователю будет представлен список ссылок на URL-адреса наиболее посещаемых и важных Web-сайтов и Web-страниц. Каждая ссылка обычно аннотирована, то есть содержит короткий комментарий к содержанию документа.

Воспользуемся иерархической системой каталогов для поиска информации о провайдерах Интернета.

Поиск в иерархической системе каталогов

1. Выбрать из списка каталогов раздел "Компьютеры и связь - Интернет-доступ".

Вам будет представлен перечень ссылок на 1113 наиболее посещаемых сайтов по этой проблематике.



Вопросы для размышления

1. В каких случаях активизация найденной с помощью поисковой системы ссылки на документ может выдавать сообщение об ошибке?

Практические задания

4.21. Осуществить поиск сайта "Информатика и информационные технологии" с помощью различных поисковых систем. Сравнить результаты поиска.

Компьютер и Windows