Редактирование: Поиск, 02 лекция (от 20 октября)

Материал из eSyr's wiki.

Перейти к: навигация, поиск

Внимание: Вы не представились системе. Ваш IP-адрес будет записан в историю изменений этой страницы.

Правка может быть отменена. Пожалуйста, просмотрите сравнение версий, чтобы убедиться, что это именно те изменения, которые вас интересуют, и нажмите «Записать страницу», чтобы изменения вступили в силу.

Текущая версия Ваш текст
Строка 30: Строка 30:
Существует 2 варианта обхода дерева (ссылок): в глубину и в ширину. Поисковый робот комбинирует подходы. Проблема с вебом: /dev/random наружу, бесконечные новые ссылки. Также робот может перегружать сайт (ошибки вежливости). Например, на яндексе был баг: mp3 файлы скачивались все, несколько раз в день. Ограничения вежливости: качать в 1 поток, с задержкой. Свойство робота: распределённость, масштабируемость, эффективность. Параметры индекса: качество, свежесть. Если на ресурс много ссылок, то важность его, как правило, высока. В некоторых случаях (статья Перельмана на arxiv.org) это правило не работает. Бывает отдельный робот для быстро обновляющихся ресурсов.
Существует 2 варианта обхода дерева (ссылок): в глубину и в ширину. Поисковый робот комбинирует подходы. Проблема с вебом: /dev/random наружу, бесконечные новые ссылки. Также робот может перегружать сайт (ошибки вежливости). Например, на яндексе был баг: mp3 файлы скачивались все, несколько раз в день. Ограничения вежливости: качать в 1 поток, с задержкой. Свойство робота: распределённость, масштабируемость, эффективность. Параметры индекса: качество, свежесть. Если на ресурс много ссылок, то важность его, как правило, высока. В некоторых случаях (статья Перельмана на arxiv.org) это правило не работает. Бывает отдельный робот для быстро обновляющихся ресурсов.
-
Компоненты поисковика: «качалка» (dns-резолвер, очередь на скачивание, кэш), анализатор. Существуют проблемы с dns-резолвингом, в ПС пишут свои реализации DNS-клиента. Также данные могут менять локацию, сервера могут менять локацию. Структура очереди: «фасадная» и «тыловая» очереди. Локальность ссылок высокая.
+
Компоненты поисковика: «качалка» (dns-резолвер, очередь на скачивание, кэш), анализатор. Существуют проблемы с dns-резлолвингом, в ПС пишут свои реализации DNS-клиента. Также данные могут менять локацию, сервера могут менять локацию. Структура очереди: «фасадная» и «тыловая» очереди. Локальность ссылок высокая.
===Выделение ссылок===
===Выделение ссылок===

Пожалуйста, обратите внимание, что все ваши добавления могут быть отредактированы или удалены другими участниками. Если вы не хотите, чтобы кто-либо изменял ваши тексты, не помещайте их сюда.
Вы также подтверждаете, что являетесь автором вносимых дополнений, или скопировали их из источника, допускающего свободное распространение и изменение своего содержимого (см. eSyr's_wiki:Авторское право).
НЕ РАЗМЕЩАЙТЕ БЕЗ РАЗРЕШЕНИЯ ОХРАНЯЕМЫЕ АВТОРСКИМ ПРАВОМ МАТЕРИАЛЫ!

Шаблоны, использованные на этой странице:

Личные инструменты
Разделы