|
-
Что такое робот поисковой системы и что он делает?
Робот
(англ. crawler) хранит список URL, которые он может проиндексировать,
и регулярно выкачивает соответствующие им документы. Если при анализе
документа робот обнаруживает новую ссылку, он добавляет ее в свой
список. Таким образом, любой документ или сайт, на который есть ссылки,
может быть найден роботом, а значит, и поиском Яндекса.
-
Что неправильного в моем файле robots.txt? Почему Яндекс не подчиняется тому, что там написано?
Для проверки правильности файла robots.txt вы можете воспользоваться специальным on-line анализатором. См. описание «Анализатор robots.txt»
-
Можно ли управлять частотой переиндексации с помощью директивы Revisit-After?
Нет. Робот Яндекса ее игнорирует.
-
Что будет делать робот со страницей, на которой стоит redirect? А если используется директива refresh?
Получив
в заголовке ответа информацию, что данный URL является редиректом (коды
3хх), робот Яндекса добавит адрес, на который ведет редирект в список
адресов для обхода. Если редирект является постоянным (код 301 или
страница содержит директиву refresh), то старый URL будет исключен
из списка обхода.
-
А как в логах сервера называется ваш робот? Ваш робот "ходит" с одного IP-адреса?
У Яндекса есть несколько роботов, которые представляются по-разному.
- Yandex/1.01.001 (compatible; Win16; I) основной индексирующий робот
- Yandex/1.01.001 (compatible; Win16; P) индексатор картинок
- Yandex/1.01.001 (compatible; Win16; H) робот, определяющий зеркала сайтов
- Yandex/1.02.000 (compatible; Win16; F) робот, индексирующий пиктограммы сайтов (favicons)
- Yandex/1.03.003 (compatible; Win16; D) робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
- Yandex/1.03.000 (compatible; Win16; M) робот, обращающийся при открытии страницы по ссылке «Найденные слова»
- YaDirectBot/1.0 (compatible; Win16; I) робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса
- YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; B; robot) робот поиска по блогам, индексирующий коментарии постов
IP-адресов, с которых «ходит» робот Яндекса, много, и они могут меняться. Список адресов мы не разглашаем.
Кроме роботов, у Яндекса есть несколько агентов-«простукивалок»,
которые определяют, доступен ли в данный момент сайт или документ,
на который стоит ссылка в соответствующем сервисе.
- Yandex/2.01.000 (compatible; Win16; Dyatel; C) «простукивалка»
Яндекс.Каталога. Если сайт недоступен в течение нескольких дней,
он снимается с публикации. Как только сайт начинает отвечать,
он автоматически появляется в Каталоге.
- Yandex/2.01.000 (compatible; Win16; Dyatel; Z) «простукивалка»
Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
- Yandex/2.01.000 (compatible; Win16; Dyatel; D) «простукивалка»
Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед
модерацией. Никаких автоматических действий не предпринимается.
- Yandex/2.01.000 (compatible; Win16; Dyatel; N) «простукивалка»
Яндекс.Новостей. Она формирует статистические отчеты для
контент-менеджера и информирует его о возможных проблемах
у партнеров-поставщиков новостей.
-
У меня сайт на Flash-технологии, он будет проиндексирован?
Да, Яндекс индексирует Flash-документы.
-
У меня на сайте много страниц в формате RTF (PDF, DOC, XLS и т.д.) Они будут проиндексированы?
Яндекс, кроме стандартного HTML, индексирует страницы в следующих форматах: PDF, DOC, RTF и Flash.
-
Насколько критично, что мой сервер не выдает last-modified? Я пытался настроить этот параметр, но ничего не вышло.
Даже
если сервер не выдает дату последней модификации документа
(last-modified), ваш сайт будет проиндексирован. Однако в этом случае
следует учитывать следующее:
- в результатах поиска не будет показываться дата рядом со страницами вашего сайта;
- при сортировке по дате сайт не будет виден большинству пользователей;
- робот не сможет получить информацию о том, обновилась ли страница
сайта с момента последней индексации. А так как число страниц,
получаемых роботом с сайта за один заход, ограничено, изменившиеся
страницы будут переиндексироваться реже.
-
Мой сервер не выдает кодировку, это критично? Я пытался ее настроить, но ничего не вышло.
Робот
Яндекса хорошо определяет кодировку документов самостоятельно, поэтому
отсутствие кодировки в заголовках сервера не помешает индексации сайта.
-
Сайт сделан с использованием фреймов. Яндекс в
результатах поиска выдает ссылки внутренние фреймы сайта. Что нам
делать, ведь вся навигация становится недоступна, т.к. находится в
другом фрейме?
Проблему можно попытаться решить при помощи
JavaScript. Перед загрузкой страницы необходимо проверить, открыт ли
родительский фрейм с навигацией, и если нет, открыть его.
-
Ваш робот пытается скачать страницы моего сайта по битым ссылкам. Почему?
Робот
берет ссылки с других страниц, значит, на одной из них указаны
некорректные ссылки на ваш сайт. Возможно, вы изменили структуру сайта
и ссылки, стоявшие на других веб-страницах, стали некорректными.
-
Вы перегрузили мой сервер. Пожалуйста, прекратите!
Повлиять на поведение робота можно при помощи файла robots.txt. Напишите в нем запрет для робота Яндекса на обращение к скриптам, которые сильно загружают сервер или воспользуйтесь директивой Crawl-delay.
-
Вы пытались скачать секретную информацию с нашего сервера. Пожалуйста, прекратите.
Робот
берет ссылки с других страниц, а это значит, что на какой-то странице
указаны ссылки на секретные разделы вашего сайта. Вы можете как закрыть
их паролем, так и указать запрет для робота Яндекса в файле robots.txt.
И в том, и в другом случае робот не будет скачивать секретную
информацию.
-
Моя страница периодически пропадает из результатов поиска. В чем дело?
Поисковая
система Яндекс имеет кластерную архитектуру и части поисковой базы
располагаются на разных серверах. Если в момент высокой нагрузки
не ответил какой-то поисковый сервер, где случайно находилась ваша
страница, в результатах поиска она не будет показана. Если при
обращении к странице иногда возникает ошибка (например, из-за
нестабильного хостинга), робот удаляет страницу из поиска до следующего
успешного обращения.
-
Объем трафика между моим веб-сервером и вашим роботом слишком большой. Существует ли поддержка скачивания страниц в сжатом виде?
Да, существует. Поисковый робот Яндекса при каждом запросе страницы
говорит: "Accept-Encoding: gzip,deflate".
Это означает, что настроив соответствующим образом свой веб-сервер, вы
сможете снизить объем передаваемого трафика между ним и нашим роботом.
Однако следует иметь в виду -- передача контента в сжатом виде
увеличивает нагрузку на CPU вашего сервера, и, если он сильно загружен,
могут возникнуть проблемы. Поддерживая gzip и deflate, робот
придерживается стандарта rfc2616, раздел 3.5 .
|
Статистика |
Онлайн всего: 1 Гостей: 1 Пользователей: 0 |
|