Главная . Новости . Статьи . Интернет . Поисковые системы в Интернет сети

Поисковые системы в Интернет сети

large-14201

Многие пользователи Интернет сети знакомятся со всемирной паутиной в целях нахождения той или иной информации. Так начинала и я. Использовала Интернет как справочник по многим вопросам, а чаще всего по изучению новинок компьютерной графики.
Всемирная паутина имеет очень много поисковых систем. Самые известные — это Яндекс, Гугл, Рамблер и так далее. Каждый пользователь привыкает к своей поисковой системе и в основном работает именно с ней.
Сегодня мы с вами не будем разбираться в механизме поиска информации. Мы попробуем, пусть и поверхностно, разобраться, как они устроены. 

Чаще всего поисковую систему характеризуют как программно-аппаратный комплекс с web-интерфейсом, предназначенный для поиска информации в глобальной сети. Запрос на поиск задается в виде текстовой фразы, а результат выглядит как список ссылок на источники информации.

Внутри каждой поисковой системы имеется комплекс программ, предназначенный для поиска информации, так называемые поисковые машины. Кстати, поисковые машины подразделяются на собственно поисковые машины и на каталоги ссылок.

Классические поисковые машины можно охарактеризовать  как  базу данных ссылок плюс поисковую программу. Как же она работает? Поисковая машина заносит в базу данных новые web-страницы, их описание и ключевые слова. Поддерживает актуальность уже существующих web-страниц.

В отличие от поисковых машин каталог ссылок обновляют не роботы, а люди. В каталогах все ссылки систематизированы по разделам и подразделам. Для того, чтобы информация попала в каталог ссылок,  владелец сайта должен сформировать конкретный набор параметров: название сайта и краткое его описание, набор ключевых слов, интернет-адрес сайта и почтовый адрес. А затем весь этот набор на специальной web-странице занести в специальную форму ввода.

Модератор каталога ссылок просматривает все новые поступления информации, проверяет их на соответствие, посетив сайты,  владельцы которых заполнили форму ввода. Если все соответствует действительности, информация из базы данных новых поступлений передается в основную базу данных, а владельцу сайта посылается уведомление об этом. В уведомлении указывается номер, под которым сайт находится в базе данных и пароль для доступа.

Из чего же состоят поисковые системы? Во-первых, модуль индексирования, в состав которого входят: Spider, обеспечивающий скачивание страницы и извлечение всех внутренних ссылок с этой страницы. А также Crawler, то есть программа, которая автоматически проходит по найденным на странице ссылкам. Кроме того в модуль входит Indexer — робот-индексатор. Он по специальным лексическим и морфологическим алгоритмам разбирает каждую страницу. 

Во-вторых, база данных, где хранится информационный массив данных, преобразованный для хранения и обработанный модулем индексирования.

В-третьих, поисковый сервер, который обрабатывает запросы пользователей и генерирует информацию по нужному документу, находящемуся в базе. Полученная информация является входной для модуля ранжирования, например, по дате. Возможен расширенный поиск.

Информация генерируется в виде сниппета, то есть заголовка, краткой аннотации и ссылки на сам документ.

Поисковые системы имеют возможность переиндексировать сайт, то есть при каждом новом обходе индекс сайта обновляется, а старые адреса удаляются. 

С возможностями конкретных поисковых систем мы познакомимся в следующих статьях.

 

 

TEXT.RU - 73.47%

О Людмила Рудакова

Людмила Рудакова — преподаватель. Россия, Чебоксары. Исполнительный директор Ассоциации организаций профессионального образования Чувашской Республики. 42 года педагогического стажа. Преподает прикладное программирование, компьютерное моделирование, компьютерную графику, программирование на языках высокого уровня. Преподаватель высшей категории. Заслуженный учитель Чувашской Республики. Почетный работник среднего профессионального образования Российской Федерации.

Оставить комментарий