Вторник, 23.04.2024, 12:01
Приветствую Вас Гость

Хотите свой сайт?

Новые работы
Цены
Меню сайта
  1. Что такое робот поисковой системы и что он делает?

    Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса.


  2. Что неправильного в моем файле robots.txt? Почему Яндекс не подчиняется тому, что там написано?

    Для проверки правильности файла robots.txt вы можете воспользоваться специальным on-line анализатором. См. описание «Анализатор robots.txt»


  3. Можно ли управлять частотой переиндексации с помощью директивы Revisit-After?

    Нет. Робот Яндекса ее игнорирует.


  4. Что будет делать робот со страницей, на которой стоит redirect? А если используется директива refresh?

    Получив в заголовке ответа информацию, что данный URL является редиректом (коды 3хх), робот Яндекса добавит адрес, на который ведет редирект в список адресов для обхода. Если редирект является постоянным (код 301 или страница содержит директиву refresh), то старый URL будет исключен из списка обхода.


  5. А как в логах сервера называется ваш робот? Ваш робот "ходит" с одного IP-адреса?

    У Яндекса есть несколько роботов, которые представляются по-разному.

    • Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот
    • Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок
    • Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов
    • Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons)
    • Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
    • Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова»
    • YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса
    • YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; B; robot) — робот поиска по блогам, индексирующий коментарии постов

    IP-адресов, с которых «ходит» робот Яндекса, много, и они могут меняться. Список адресов мы не разглашаем.

    Кроме роботов, у Яндекса есть несколько агентов-«простукивалок», которые определяют, доступен ли в данный момент сайт или документ, на который стоит ссылка в соответствующем сервисе.

    • Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
    • Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
    • Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
    • Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует статистические отчеты для контент-менеджера и информирует его о возможных проблемах у партнеров-поставщиков новостей.

  6. У меня сайт на Flash-технологии, он будет проиндексирован?

    Да, Яндекс индексирует Flash-документы.


  7. У меня на сайте много страниц в формате RTF (PDF, DOC, XLS и т.д.) Они будут проиндексированы?

    Яндекс, кроме стандартного HTML, индексирует страницы в следующих форматах: PDF, DOC, RTF и Flash.


  8. Насколько критично, что мой сервер не выдает last-modified? Я пытался настроить этот параметр, но ничего не вышло.

    Даже если сервер не выдает дату последней модификации документа (last-modified), ваш сайт будет проиндексирован. Однако в этом случае следует учитывать следующее:

    • в результатах поиска не будет показываться дата рядом со страницами вашего сайта;
    • при сортировке по дате сайт не будет виден большинству пользователей;
    • робот не сможет получить информацию о том, обновилась ли страница сайта с момента последней индексации. А так как число страниц, получаемых роботом с сайта за один заход, ограничено, изменившиеся страницы будут переиндексироваться реже.

  9. Мой сервер не выдает кодировку, это критично? Я пытался ее настроить, но ничего не вышло.

    Робот Яндекса хорошо определяет кодировку документов самостоятельно, поэтому отсутствие кодировки в заголовках сервера не помешает индексации сайта.


  10. Сайт сделан с использованием фреймов. Яндекс в результатах поиска выдает ссылки внутренние фреймы сайта. Что нам делать, ведь вся навигация становится недоступна, т.к. находится в другом фрейме?

    Проблему можно попытаться решить при помощи JavaScript. Перед загрузкой страницы необходимо проверить, открыт ли родительский фрейм с навигацией, и если нет, открыть его.


  11. Ваш робот пытается скачать страницы моего сайта по битым ссылкам. Почему?

    Робот берет ссылки с других страниц, значит, на одной из них указаны некорректные ссылки на ваш сайт. Возможно, вы изменили структуру сайта и ссылки, стоявшие на других веб-страницах, стали некорректными.


  12. Вы перегрузили мой сервер. Пожалуйста, прекратите!

    Повлиять на поведение робота можно при помощи файла robots.txt. Напишите в нем запрет для робота Яндекса на обращение к скриптам, которые сильно загружают сервер или воспользуйтесь директивой Crawl-delay.


  13. Вы пытались скачать секретную информацию с нашего сервера. Пожалуйста, прекратите.

    Робот берет ссылки с других страниц, а это значит, что на какой-то странице указаны ссылки на секретные разделы вашего сайта. Вы можете как закрыть их паролем, так и указать запрет для робота Яндекса в файле robots.txt. И в том, и в другом случае робот не будет скачивать секретную информацию.


  14. Моя страница периодически пропадает из результатов поиска. В чем дело?

    Поисковая система Яндекс имеет кластерную архитектуру и части поисковой базы располагаются на разных серверах. Если в момент высокой нагрузки не ответил какой-то поисковый сервер, где случайно находилась ваша страница, в результатах поиска она не будет показана. Если при обращении к странице иногда возникает ошибка (например, из-за нестабильного хостинга), робот удаляет страницу из поиска до следующего успешного обращения.


  15. Объем трафика между моим веб-сервером и вашим роботом слишком большой. Существует ли поддержка скачивания страниц в сжатом виде?

    Да, существует. Поисковый робот Яндекса при каждом запросе страницы говорит: "Accept-Encoding: gzip,deflate". Это означает, что настроив соответствующим образом свой веб-сервер, вы сможете снизить объем передаваемого трафика между ним и нашим роботом. Однако следует иметь в виду -- передача контента в сжатом виде увеличивает нагрузку на CPU вашего сервера, и, если он сильно загружен, могут возникнуть проблемы. Поддерживая gzip и deflate, робот придерживается стандарта rfc2616, раздел 3.5 .


Облако тегов
Статистика

Онлайн всего: 1
Гостей: 1
Пользователей: 0

Полезные ссылки
Поиск