Поисковые системы в Интернет сети

Опубликовал: Людмила Рудакова 24.07.2015 1,629 Просмотров

Многие пользователи Интернет сети знакомятся со всемирной паутиной в целях нахождения той или иной информации. Так начинала и я. Использовала Интернет как справочник по многим вопросам, а чаще всего по изучению новинок компьютерной графики.
Всемирная паутина имеет очень много поисковых систем. Самые известные — это Яндекс, Гугл, Рамблер и так далее. Каждый пользователь привыкает к своей поисковой системе и в основном работает именно с ней.
Сегодня мы с вами не будем разбираться в механизме поиска информации. Мы попробуем, пусть и поверхностно, разобраться, как они устроены.

Чаще всего поисковую систему характеризуют как программно-аппаратный комплекс с web-интерфейсом, предназначенный для поиска информации в глобальной сети. Запрос на поиск задается в виде текстовой фразы, а результат выглядит как список ссылок на источники информации.

Внутри каждой поисковой системы имеется комплекс программ, предназначенный для поиска информации, так называемые поисковые машины. Кстати, поисковые машины подразделяются на собственно поисковые машины и на каталоги ссылок.

Классические поисковые машины можно охарактеризовать как базу данных ссылок плюс поисковую программу. Как же она работает? Поисковая машина заносит в базу данных новые web-страницы, их описание и ключевые слова. Поддерживает актуальность уже существующих web-страниц.

В отличие от поисковых машин каталог ссылок обновляют не роботы, а люди. В каталогах все ссылки систематизированы по разделам и подразделам. Для того, чтобы информация попала в каталог ссылок, владелец сайта должен сформировать конкретный набор параметров: название сайта и краткое его описание, набор ключевых слов, интернет-адрес сайта и почтовый адрес. А затем весь этот набор на специальной web-странице занести в специальную форму ввода.

Модератор каталога ссылок просматривает все новые поступления информации, проверяет их на соответствие, посетив сайты, владельцы которых заполнили форму ввода. Если все соответствует действительности, информация из базы данных новых поступлений передается в основную базу данных, а владельцу сайта посылается уведомление об этом. В уведомлении указывается номер, под которым сайт находится в базе данных и пароль для доступа.

Из чего же состоят поисковые системы? Во-первых, модуль индексирования, в состав которого входят: Spider, обеспечивающий скачивание страницы и извлечение всех внутренних ссылок с этой страницы. А также Crawler, то есть программа, которая автоматически проходит по найденным на странице ссылкам. Кроме того в модуль входит Indexer — робот-индексатор. Он по специальным лексическим и морфологическим алгоритмам разбирает каждую страницу.

Во-вторых, база данных, где хранится информационный массив данных, преобразованный для хранения и обработанный модулем индексирования.

В-третьих, поисковый сервер, который обрабатывает запросы пользователей и генерирует информацию по нужному документу, находящемуся в базе. Полученная информация является входной для модуля ранжирования, например, по дате. Возможен расширенный поиск.

Информация генерируется в виде сниппета, то есть заголовка, краткой аннотации и ссылки на сам документ.

Поисковые системы имеют возможность переиндексировать сайт, то есть при каждом новом обходе индекс сайта обновляется, а старые адреса удаляются.

С возможностями конкретных поисковых систем мы познакомимся в следующих статьях.

Вектор мастерства Обучение интернет-технологиям дистанционных преподавателей, тренеров, спикеров.

Поисковые системы в Интернет сети

О Людмила Рудакова

Похожие

Оставить комментарий Отменить написание

Поисковые системы в Интернет сети

О Людмила Рудакова

Похожие

Краткий обзор программ по созданию слайд-шоу

Авторские права на сайт и контент сайта

Что такое Интернет-СМИ ?

Оставить комментарий Отменить написание