Все о файле robots.txt по-русски

Все о файле robots.txt по-русски

Опции

kyc0k

Topic Starter сообщение

25.5.2010, 1:43; Ответить: kyc0k

Сообщение #1

Новичок

Группа: Viewer
Сообщений: 0
Регистрация: 21.3.2011
Поблагодарили: 0 раз
Репутация:

0

Все о файле robots.txt по-русски

Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Если вы – вебмастер, вы должны знать назначение и синтаксис robots.txt. Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.
Создание robots.txt

Чтобы создать файл robotx.txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл robots.txt. Для Рунета самой часто встречающейся задачей является создание файла robots.txt для Яндекса, так как сейчас Яндекс – самая популярная поисковая система. Важно уметь правильно использовать директиву host, которую соблюдает этот поисковик.
Описание robots.txt

Чтобы правильно написать robots.txt, предлагаем вам изучить самую полезную информацию о синтаксисе robots.txt, о формате robots.txt, примеры использования, а также описание основных поисковых роботов Рунета.

Развернуть/Свернуть

Теория и практика работы с robots.txt
Иногда веб-мастеру может потребоваться закрыть от индексации часть сайта. Эта задача легко решаема, так как большинство Web Роботов позволяют администраторам сайтов ограничить свое поведение на сайте. Это можно сделать несколькими способами:

Можно указать, какие части сайта не должны посещаться роботами, разместив специально отформатированный файл в корне сайта – http://www.site-name.ru/robots.txt
Администратор может указать, может страница быть проиндексирована или нет, или проанализирована на наличие ссылок, используя специальный HTML META тег.
Использовать нестандартные приемы, работающие для конкретных роботов. Например запретить роботу следовать по ссылке при помощи rel=»nofollow»(Google, MSN, Yahoo) или запретить индексацию части страницы при помощи тега (Yandex, Rambler).

Стандарт исключений для Роботов
Стандарт исключений для роботов был принят в 1994 году и с тех пор не менялся. Стандарт описывает общие принципы написания robots.txt. Вкратце – при заходе на сайт робот запрашивает файл robots.txt, чтобы посмотреть, какие разделы и документы на сайте запрещены для него.
Важно помнить, что стандарт является необязательным, и его придерживаются только «вежливые и культурные» роботы. Врядли вы сможете при помощи него сможете запретить, например, доступ для роботов ворующих у вас контент.

Ошибки, часто встречающиеся в файле robots.txt

Развернуть/Свернуть

Перепутанные инструкции

Одна из самых распространённых ошибок в robots.txt – перепутаные между собой инструкции. Например:

User-agent: /
Disallow: Yandex

Правильно писать вот так:

User-agent: Yandex
Disallow: /

Указание нескольких каталогов в одной инструкции Disallow

Многие владельцы сайтов пытаются поместить все запрещаемые к индексации каталоги в одну инструкцию Disallow.

Disallow: /css/ /cgi-bin/ /images/

Такая запись нарушает стандарт, и невозможно угадать, как ее обработают разные роботы. Некоторые могут «отбросить» пробелы и интерпретируют эту запись как «Disallow: /css/cgi-bin/images/». Некоторые могут использовать только первую или последнюю папки (/css/ или /images/ соответственно). Кто-то может просто отбросить непонятную инструкцию полностью.
Конечно, какие-то роботы могут обработать эту конструкцию именно так, как расчитывал веб-мастер, но расчитывать на это все же не стоит. Правильно надо писать так:

Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

Имя файла содержит заглавные буквы

Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT.
Использование файла robot.txt вместо robots.txt

Еще раз – файл должен называться robots.txt.
Пустая строка в User-agent

Так неправильно:

User-agent:
Disallow:

Так правильно:

User-agent: *
Disallow:

Url в директиве Host

Следует писать без аббревиатуры протокола передачи гипертекста, то есть без http:// и без закрывающего слеша /
Неправильно:

User-agent: Yandex
Disallow: /cgi-bin
Host: http://www.site.ru/

Правильно:

User-agent: Yandex
Disallow: /cgi-bin
Host: www.site.ru

Директива host Является корректной только для робота Яндекса
Использование в Disallow символов подстановки

Иногда хочется написать что-то вроде:

User-agent: *
Disallow: file*.html

для указания все файлов file1.html, file2.html, file3.html и т.д. Но нельзя, к сожалению (некоторые роботы поддерживают символы подстановки).
Плохой стиль

Комментарии на одной строке с инструкциями

По стандарту, такая запись вполне возможна:

Disallow: /cgi-bin/ #запрещаем роботам индексировать cgi-bin

В прошлом некоторые роботы не обрабатывали такие строки. Вероятно, сейчас ни у одной из основных поисковых систем уже нет такой проблемы, но стоит ли рисковать? Лучше помещать комментарии отдельно.
Редирект на страницу 404-й ошибки:

Довольно часто, на сайтах без файла robots.txt при запросе этого файла делается переадресация на другую страницу. Иногда такая переадресация происходит без отдачи статуса 404 Not Found. Пауку самому приходится разбираться, что он получил – robors.txt или обычный html-файл. Эта ситуация вряд ли создаст какие-то проблемы, но все-таки лучше всегда класть в корень сайта пустой файл robots.txt.
Заглавные буквы – это плохой стиль

USER-AGENT: GOOGLEBOT
DISALLOW:

Хотя по стандарту robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файов и директорий. Кроме того, написание robots.txt сплошь заглавными буквами считается плохим стилем.

User-agent: googlebot
Disallow:

Перечисление всех файлов

Еще одной ошибкой является перечисление каждого файла в директории:

User-agent: *
Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html

Вместо этого можно просто закрыть от индексации директорию целиком:

User-agent: *
Disallow: /AL/
Disallow: /Az/

Инструкции Allow не существует! [перевод устаревший]

Примечание: Не существовало на момент перевода данного текста, сейчас эта инструкция поддерживаетя.
Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!

Отдельные роботы (например googlebot) понимают директиву Allow

Так неправильно:

User-agent: Yandex
Disallow: /john/
Allow: /jane/

А вот так – правильно:

User-agent: Yandex
Disallow: /john/
Disallow:

Использование дополнительных директив в секции *

Некоторые роботы могут неправильно отреагировать на использование дополнительных директив. Это значит, что не стоит использовать дополнительные директивы в секции «*».
То есть рекомендуется создавать специальные секции для нестандартных директив, таких как «Host».
Так неправильно:

User-agent: *
Disallow: /css/
Host: www.example.com

А вот так – правильно:

User-agent: *
Disallow: /css/

User-agent: Yandex
Disallow: /css/
Host: www.example.com

Отсутствие инструкции Disallow

Даже если мы хотим просто использовать дополнительную директиву и не хотим ничего запрещать, лучше всего указать пустой Disallow. По стандарту интрукция Disallow является обязательной, и робот может «неправильно вас понять».
Так неправильно:

User-agent: Yandex
Host: www.example.com

Так правильно:

User-agent: Yandex
Disallow:
Host: www.example.com

Отсутствие слешей при указании директории

Как в этом случае поступит робот?

User-agent: Yandex
Disallow: john

По стандарту, он не будет индексировать файл с именем “john” и директорию с именем “john”. Для указания только директории надо писать так:

User-agent: Yandex
Disallow: /john/

Неправильный http-заголовок

Сервер должен возвращать в HTTP-заголовке для robots.txt «Content-Type: text/plain» а, например, не «Content-Type: text/html». Неправильный заголовок может привести к тому, что некоторые роботы не обработают файл.

Весь материал взят с http://robotstxt.org.ru/

0

Ответить с цитированием данного сообщения

lallali lallali 25.5.2010, 16:20; Сообщений: 107 Поблагодарили: 0 раз Репутация: 0 Просмотр профиля	25.5.2010, 16:20; Ответить: lallali Сообщение #2
Участник Группа: User Сообщений: 107 Регистрация: 11.5.2010 Поблагодарили: 0 раз Репутация: 0	А можно все таки кого-нибудь попросить показать полный текст правильного файла робот.тхт с исключением индексирования какой-то определенной страницы и/или директории для примера :a23: и я правильно поняла, что для исключения индексирования надо прописывать новый абзац для каждого поисковика? есть ли смысл в том, чтобы например яша не индексировал страницу со ссылками (вот например у меня их целых пять штук по разделам, а будет наверняка больше), а гугл или мэйл индексировал? т.е. насколько кому из поисковиков все равно сколько у меня ссыллок с сайта?

kyc0k Topic Starter kyc0kTopic Starter 25.5.2010, 17:19; Сообщений: 0 Поблагодарили: 0 раз Репутация: 0 Просмотр профиля	Topic Starter 25.5.2010, 17:19; Ответить: kyc0k Сообщение #3
Новичок Группа: Viewer Сообщений: 0 Регистрация: 21.3.2011 Поблагодарили: 0 раз Репутация: 0	Пример, правильного содержания файла robots.txt с закрытой от индексации страницей сайта /file1.html: User-agent: * Disallow: /file1.html User-agent: Yandex Disallow: /file1.html Host: www.site.ru Пример, правильного содержания файла robots.txt с закрытой от индексации директорией сайта /john/: User-agent: * Disallow: /john/ User-agent: Yandex Disallow: /john/ Host: www.site.ru (lallali @ 25.5.2010, 19:20) я правильно поняла, что для исключения индексирования надо прописывать новый абзац для каждого поисковика? Для каждой страницы новая строка! Пример: User-agent: * Disallow: /file1.html Disallow: /file2.html Disallow: /file3.html User-agent: Yandex Disallow: /file1.html Disallow: /file2.html Disallow: /file3.html Host: www.site.ru С директориями точно так же! есть ли смысл в том, чтобы например яша не индексировал страницу со ссылками (вот например у меня их целых пять штук по разделам, а будет наверняка больше), а гугл или мэйл индексировал? А там что тупа одни ссылки? если их там не много то можно и в noindex запихать! (lallali @ 25.5.2010, 19:20) насколько кому из поисковиков все равно сколько у меня ссыллок с сайта? Никому не все равно! больше всех гуглу не все равно!

Kovtun Kovtun 25.5.2010, 17:25; Сообщений: 3355 Поблагодарили: 1 раз Репутация: 1 Просмотр профиля	25.5.2010, 17:25; Ответить: Kovtun Сообщение #4
Топовый постер Группа: User Сообщений: 3355 Регистрация: 5.5.2019 Поблагодарили: 1 раз Репутация: 1	Антоша Хороший, почему пишешь правильным вариантом Host: http://www.site.ru/ ? Исправляй давай.:c15:

kyc0k Topic Starter kyc0kTopic Starter 25.5.2010, 17:40; Сообщений: 0 Поблагодарили: 0 раз Репутация: 0 Просмотр профиля	Topic Starter 25.5.2010, 17:40; Ответить: kyc0k Сообщение #5
Новичок Группа: Viewer Сообщений: 0 Регистрация: 21.3.2011 Поблагодарили: 0 раз Репутация: 0	аааа извиняюсь жутко.... промашечка вышла...:a14:

lallali lallali 25.5.2010, 17:44; Сообщений: 107 Поблагодарили: 0 раз Репутация: 0 Просмотр профиля	25.5.2010, 17:44; Ответить: lallali Сообщение #6
Участник Группа: User Сообщений: 107 Регистрация: 11.5.2010 Поблагодарили: 0 раз Репутация: 0	(Антоша Хороший @ 25.5.2010, 20:19) А там что тупа одни ссылки? если их там не много то можно и в noindex запихать! Никому не все равно! больше всех гуглу не все равно! ну конечно одни ссылки, у меня сайт питомника кошек, чтобы немножко нарастить тиц меняюсь ссылками с другими зверофермами и порталами, спложные баннеры и ссылки :a38: пошла писать робота и ноиндексы.. а что мне будет, если я кнопочку на яндекс тиц поставлю в ноиндекс.. :a37:

kyc0k Topic Starter kyc0kTopic Starter 25.5.2010, 17:45; Сообщений: 0 Поблагодарили: 0 раз Репутация: 0 Просмотр профиля	Topic Starter 25.5.2010, 17:45; Ответить: kyc0k Сообщение #7
Новичок Группа: Viewer Сообщений: 0 Регистрация: 21.3.2011 Поблагодарили: 0 раз Репутация: 0	Ничего тебе не будет! у меня лично привычка выработана все счетчики и всякие ссылки в <noindex> закрывать!

lallali lallali 28.5.2010, 15:05; Сообщений: 107 Поблагодарили: 0 раз Репутация: 0 Просмотр профиля	28.5.2010, 15:05; Ответить: lallali Сообщение #8
Участник Группа: User Сообщений: 107 Регистрация: 11.5.2010 Поблагодарили: 0 раз Репутация: 0	я думаю, что тут будет не лишней ссылка на яндекс с описанием робот.тхт http://help.yandex.ru/webmaster/?id=996567#996574 ---------- Сообщение добавлено 02.06.2010 в 13:56 ---------- а также ссылка на Рамблер тоже по поводу робота http://help.rambler.ru/article.html?s=221&id=327

ILF ILF 3.6.2010, 14:16; Сообщений: 60 Поблагодарили: 0 раз Репутация: 0 Просмотр профиля	3.6.2010, 14:16; Ответить: ILF Сообщение #9
Частый гость Группа: User Сообщений: 60 Регистрация: 15.9.2009 Поблагодарили: 0 раз Репутация: 0	Всем привет. Ребят инфа на 5+. Большое спасибо. Вот только остался 1 вопрос. А ЧТО нужно закрывать от индексации? Я слышал о дублированных страницах, RSS-лентах. Кто может дать информацию по этому поводу. Где-то читал, что в интернет-магазинах нужно запрещать индексировать прайс-лист, так как робот посчитает это спамом или переоптимизацией. За любую инфу буду признателен.

kyc0k Topic Starter kyc0kTopic Starter 3.6.2010, 14:25; Сообщений: 0 Поблагодарили: 0 раз Репутация: 0 Просмотр профиля	Topic Starter 3.6.2010, 14:25; Ответить: kyc0k Сообщение #10
Новичок Группа: Viewer Сообщений: 0 Регистрация: 21.3.2011 Поблагодарили: 0 раз Репутация: 0	Дублированные страницы естественно нужно закрывать, каталоги тоже желательно закрыть если там очень частое повторение одного и того же ключа! мусорные страницы! страницы на которых очень много ссылок!

« Предыдущая тема · Поисковая оптимизация (SEO) · Следующая тема »

1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)

Пользователей: 0

Похожие темы

Тема	Ответов	Автор	Просмотров	Последний ответ
QIWI кажется все?	109	Silverspam	17556	15.4.2024, 9:11 автор: Alekser
Мегамаркет. Скидка 1000 рублей при покупке от 5000 рублей на все, на первый заказ. Мегамаркет. Скидка 1000 рублей при покупке от 5000 рублей на все, на п	7	stu999	1753	31.3.2024, 11:19 автор: stu999
Все легальные аккаунты без НДС. Facebook Ads, Яндекс Директ и Google Ads без НДС. Отзывы SaveBalance 123	5	DerianFox	3787	7.7.2023, 19:07 автор: rom36
RedBox - все нужные инструменты в одном месте	0	fantomofdarkness	794	15.2.2023, 14:50 автор: fantomofdarkness
Внимание! Накрутка просмотров ВК на все посты стены. ДЕШЕВО!	0	robot_yaga2	930	4.7.2022, 15:17 автор: robot_yaga2