Редактирование: Поиск, 02 лекция (от 20 октября)
Материал из eSyr's wiki.
Внимание: Вы не представились системе. Ваш IP-адрес будет записан в историю изменений этой страницы.
Правка может быть отменена. Пожалуйста, просмотрите сравнение версий, чтобы убедиться, что это именно те изменения, которые вас интересуют, и нажмите «Записать страницу», чтобы изменения вступили в силу.
Текущая версия | Ваш текст | ||
Строка 28: | Строка 28: | ||
Структура веба по Бродеру: Исток <-> Компоненты сильной связности <-> Сток. Источник: [http://www9.org/w9cdrom/160/160.html]. | Структура веба по Бродеру: Исток <-> Компоненты сильной связности <-> Сток. Источник: [http://www9.org/w9cdrom/160/160.html]. | ||
- | Существует 2 варианта обхода дерева (ссылок): в глубину и в ширину. Поисковый робот комбинирует подходы. Проблема с вебом: /dev/random наружу, бесконечные новые ссылки. Также робот может перегружать сайт (ошибки вежливости). Например, на яндексе был баг: mp3 файлы скачивались все, несколько раз в день. Ограничения вежливости: качать в 1 поток, с задержкой. Свойство робота: распределённость, масштабируемость, эффективность. Параметры индекса: качество, свежесть. Если на ресурс много ссылок, то важность его, как правило, | + | Существует 2 варианта обхода дерева (ссылок): в глубину и в ширину. Поисковый робот комбинирует подходы. Проблема с вебом: /dev/random наружу, бесконечные новые ссылки. Также робот может перегружать сайт (ошибки вежливости). Например, на яндексе был баг: mp3 файлы скачивались все, несколько раз в день. Ограничения вежливости: качать в 1 поток, с задержкой. Свойство робота: распределённость, масштабируемость, эффективность. Параметры индекса: качество, свежесть. Если на ресурс много ссылок, то важность его, как правило, низка. В некоторых случаях (статья Перельмана на arxiv.org) это правило не работает. Бывает отдельный робот для быстро обновляющихся ресурсов. |
Компоненты поисковика: «качалка» (dns-резолвер, очередь на скачивание, кэш), анализатор. Существуют проблемы с dns-резолвингом, в ПС пишут свои реализации DNS-клиента. Также данные могут менять локацию, сервера могут менять локацию. Структура очереди: «фасадная» и «тыловая» очереди. Локальность ссылок высокая. | Компоненты поисковика: «качалка» (dns-резолвер, очередь на скачивание, кэш), анализатор. Существуют проблемы с dns-резолвингом, в ПС пишут свои реализации DNS-клиента. Также данные могут менять локацию, сервера могут менять локацию. Структура очереди: «фасадная» и «тыловая» очереди. Локальность ссылок высокая. |