X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

6 страниц V   1 2 3 4 5 6 >
Открыть тему
Тема закрыта
> Все о файле robots.txt по-русски
kyc0k
kyc0k
Topic Starter сообщение 25.5.2010, 1:43; Ответить: kyc0k
Сообщение #1


Все о файле robots.txt по-русски

Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Если вы – вебмастер, вы должны знать назначение и синтаксис robots.txt. Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.
Создание robots.txt

Чтобы создать файл robotx.txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл robots.txt. Для Рунета самой часто встречающейся задачей является создание файла robots.txt для Яндекса, так как сейчас Яндекс – самая популярная поисковая система. Важно уметь правильно использовать директиву host, которую соблюдает этот поисковик.
Описание robots.txt

Чтобы правильно написать robots.txt, предлагаем вам изучить самую полезную информацию о синтаксисе robots.txt, о формате robots.txt, примеры использования, а также описание основных поисковых роботов Рунета.
Развернуть/Свернуть

Теория и практика работы с robots.txt
Иногда веб-мастеру может потребоваться закрыть от индексации часть сайта. Эта задача легко решаема, так как большинство Web Роботов позволяют администраторам сайтов ограничить свое поведение на сайте. Это можно сделать несколькими способами:

  • Можно указать, какие части сайта не должны посещаться роботами, разместив специально отформатированный файл в корне сайта – http://www.site-name.ru/robots.txt
  • Администратор может указать, может страница быть проиндексирована или нет, или проанализирована на наличие ссылок, используя специальный HTML META тег.
  • Использовать нестандартные приемы, работающие для конкретных роботов. Например запретить роботу следовать по ссылке при помощи rel=»nofollow»(Google, MSN, Yahoo) или запретить индексацию части страницы при помощи тега (Yandex, Rambler).

Стандарт исключений для Роботов
Стандарт исключений для роботов был принят в 1994 году и с тех пор не менялся. Стандарт описывает общие принципы написания robots.txt. Вкратце – при заходе на сайт робот запрашивает файл robots.txt, чтобы посмотреть, какие разделы и документы на сайте запрещены для него.
Важно помнить, что стандарт является необязательным, и его придерживаются только «вежливые и культурные» роботы. Врядли вы сможете при помощи него сможете запретить, например, доступ для роботов ворующих у вас контент.

Ошибки, часто встречающиеся в файле robots.txt
Развернуть/Свернуть

Перепутанные инструкции

Одна из самых распространённых ошибок в robots.txt – перепутаные между собой инструкции. Например:
User-agent: /
Disallow: Yandex
Правильно писать вот так:
User-agent: Yandex
Disallow: /
Указание нескольких каталогов в одной инструкции Disallow

Многие владельцы сайтов пытаются поместить все запрещаемые к индексации каталоги в одну инструкцию Disallow.
Disallow: /css/ /cgi-bin/ /images/
Такая запись нарушает стандарт, и невозможно угадать, как ее обработают разные роботы. Некоторые могут «отбросить» пробелы и интерпретируют эту запись как «Disallow: /css/cgi-bin/images/». Некоторые могут использовать только первую или последнюю папки (/css/ или /images/ соответственно). Кто-то может просто отбросить непонятную инструкцию полностью.
Конечно, какие-то роботы могут обработать эту конструкцию именно так, как расчитывал веб-мастер, но расчитывать на это все же не стоит. Правильно надо писать так:
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
Имя файла содержит заглавные буквы

Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT.
Использование файла robot.txt вместо robots.txt

Еще раз – файл должен называться robots.txt.
Пустая строка в User-agent

Так неправильно:
User-agent:
Disallow:
Так правильно:
User-agent: *
Disallow:
Url в директиве Host

Следует писать без аббревиатуры протокола передачи гипертекста, то есть без http:// и без закрывающего слеша /
Неправильно:
User-agent: Yandex
Disallow: /cgi-bin
Host: http://www.site.ru/
Правильно:
User-agent: Yandex
Disallow: /cgi-bin
Host: www.site.ru
Директива host Является корректной только для робота Яндекса
Использование в Disallow символов подстановки

Иногда хочется написать что-то вроде:
User-agent: *
Disallow: file*.html
для указания все файлов file1.html, file2.html, file3.html и т.д. Но нельзя, к сожалению (некоторые роботы поддерживают символы подстановки).
Плохой стиль

Комментарии на одной строке с инструкциями

По стандарту, такая запись вполне возможна:
Disallow: /cgi-bin/ #запрещаем роботам индексировать cgi-bin
В прошлом некоторые роботы не обрабатывали такие строки. Вероятно, сейчас ни у одной из основных поисковых систем уже нет такой проблемы, но стоит ли рисковать? Лучше помещать комментарии отдельно.
Редирект на страницу 404-й ошибки:

Довольно часто, на сайтах без файла robots.txt при запросе этого файла делается переадресация на другую страницу. Иногда такая переадресация происходит без отдачи статуса 404 Not Found. Пауку самому приходится разбираться, что он получил – robors.txt или обычный html-файл. Эта ситуация вряд ли создаст какие-то проблемы, но все-таки лучше всегда класть в корень сайта пустой файл robots.txt.
Заглавные буквы – это плохой стиль
USER-AGENT: GOOGLEBOT
DISALLOW:
Хотя по стандарту robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файов и директорий. Кроме того, написание robots.txt сплошь заглавными буквами считается плохим стилем.
User-agent: googlebot
Disallow:
Перечисление всех файлов

Еще одной ошибкой является перечисление каждого файла в директории:
User-agent: *
Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html
Вместо этого можно просто закрыть от индексации директорию целиком:
User-agent: *
Disallow: /AL/
Disallow: /Az/
Инструкции Allow не существует! [перевод устаревший]

Примечание: Не существовало на момент перевода данного текста, сейчас эта инструкция поддерживаетя.
Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!
Отдельные роботы (например googlebot) понимают директиву Allow
Так неправильно:
User-agent: Yandex
Disallow: /john/
Allow: /jane/
А вот так – правильно:
User-agent: Yandex
Disallow: /john/
Disallow:
Использование дополнительных директив в секции *

Некоторые роботы могут неправильно отреагировать на использование дополнительных директив. Это значит, что не стоит использовать дополнительные директивы в секции «*».
То есть рекомендуется создавать специальные секции для нестандартных директив, таких как «Host».
Так неправильно:
User-agent: *
Disallow: /css/
Host: www.example.com
А вот так – правильно:
User-agent: *
Disallow: /css/

User-agent: Yandex
Disallow: /css/
Host: www.example.com
Отсутствие инструкции Disallow

Даже если мы хотим просто использовать дополнительную директиву и не хотим ничего запрещать, лучше всего указать пустой Disallow. По стандарту интрукция Disallow является обязательной, и робот может «неправильно вас понять».
Так неправильно:
User-agent: Yandex
Host: www.example.com
Так правильно:
User-agent: Yandex
Disallow:
Host: www.example.com
Отсутствие слешей при указании директории

Как в этом случае поступит робот?
User-agent: Yandex
Disallow: john
По стандарту, он не будет индексировать файл с именем “john” и директорию с именем “john”. Для указания только директории надо писать так:
User-agent: Yandex
Disallow: /john/
Неправильный http-заголовок

Сервер должен возвращать в HTTP-заголовке для robots.txt «Content-Type: text/plain» а, например, не «Content-Type: text/html». Неправильный заголовок может привести к тому, что некоторые роботы не обработают файл.


Весь материал взят с http://robotstxt.org.ru/
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
lallali
lallali
сообщение 25.5.2010, 16:20; Ответить: lallali
Сообщение #2


А можно все таки кого-нибудь попросить показать полный текст правильного файла робот.тхт с исключением индексирования какой-то определенной страницы и/или директории для примера :a23:
и я правильно поняла, что для исключения индексирования надо прописывать новый абзац для каждого поисковика?
есть ли смысл в том, чтобы например яша не индексировал страницу со ссылками (вот например у меня их целых пять штук по разделам, а будет наверняка больше), а гугл или мэйл индексировал?
т.е. насколько кому из поисковиков все равно сколько у меня ссыллок с сайта?
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
kyc0k
kyc0k
Topic Starter сообщение 25.5.2010, 17:19; Ответить: kyc0k
Сообщение #3


Пример, правильного содержания файла robots.txt с закрытой от индексации страницей сайта /file1.html:

User-agent: *
Disallow: /file1.html

User-agent: Yandex
Disallow: /file1.html
Host: www.site.ru
Пример, правильного содержания файла robots.txt с закрытой от индексации директорией сайта /john/:

User-agent: *
Disallow: /john/

User-agent: Yandex
Disallow: /john/
Host: www.site.ru
(lallali @ 25.5.2010, 19:20) *
я правильно поняла, что для исключения индексирования надо прописывать новый абзац для каждого поисковика?


Для каждой страницы новая строка!
Пример:

User-agent: *
Disallow: /file1.html
Disallow: /file2.html
Disallow: /file3.html

User-agent: Yandex
Disallow: /file1.html
Disallow: /file2.html
Disallow: /file3.html
Host: www.site.ru
С директориями точно так же!

есть ли смысл в том, чтобы например яша не индексировал страницу со ссылками (вот например у меня их целых пять штук по разделам, а будет наверняка больше), а гугл или мэйл индексировал?
А там что тупа одни ссылки? если их там не много то можно и в noindex запихать!

(lallali @ 25.5.2010, 19:20) *
насколько кому из поисковиков все равно сколько у меня ссыллок с сайта?


Никому не все равно! больше всех гуглу не все равно!
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Kovtun
Kovtun
сообщение 25.5.2010, 17:25; Ответить: Kovtun
Сообщение #4


Антоша Хороший, почему пишешь правильным вариантом Host: http://www.site.ru/ ?

Исправляй давай.:c15:
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
kyc0k
kyc0k
Topic Starter сообщение 25.5.2010, 17:40; Ответить: kyc0k
Сообщение #5


аааа извиняюсь жутко.... промашечка вышла...:a14:
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
lallali
lallali
сообщение 25.5.2010, 17:44; Ответить: lallali
Сообщение #6


(Антоша Хороший @ 25.5.2010, 20:19) *
А там что тупа одни ссылки? если их там не много то можно и в noindex запихать!



Никому не все равно! больше всех гуглу не все равно!


ну конечно одни ссылки, у меня сайт питомника кошек, чтобы немножко нарастить тиц меняюсь ссылками с другими зверофермами и порталами, спложные баннеры и ссылки :a38:

пошла писать робота и ноиндексы..

а что мне будет, если я кнопочку на яндекс тиц поставлю в ноиндекс.. :a37:
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
kyc0k
kyc0k
Topic Starter сообщение 25.5.2010, 17:45; Ответить: kyc0k
Сообщение #7


Ничего тебе не будет! у меня лично привычка выработана все счетчики и всякие ссылки в <noindex> закрывать!
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
lallali
lallali
сообщение 28.5.2010, 15:05; Ответить: lallali
Сообщение #8


я думаю, что тут будет не лишней ссылка на яндекс с описанием робот.тхт
http://help.yandex.ru/webmaster/?id=996567#996574

---------- Сообщение добавлено 02.06.2010 в 13:56 ----------

а также ссылка на Рамблер тоже по поводу робота
http://help.rambler.ru/article.html?s=221&id=327
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
ILF
ILF
сообщение 3.6.2010, 14:16; Ответить: ILF
Сообщение #9


Всем привет. Ребят инфа на 5+. Большое спасибо. Вот только остался 1 вопрос. А ЧТО нужно закрывать от индексации? Я слышал о дублированных страницах, RSS-лентах. Кто может дать информацию по этому поводу. Где-то читал, что в интернет-магазинах нужно запрещать индексировать прайс-лист, так как робот посчитает это спамом или переоптимизацией. За любую инфу буду признателен.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
kyc0k
kyc0k
Topic Starter сообщение 3.6.2010, 14:25; Ответить: kyc0k
Сообщение #10


Дублированные страницы естественно нужно закрывать, каталоги тоже желательно закрыть если там очень частое повторение одного и того же ключа! мусорные страницы! страницы на которых очень много ссылок!
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
6 страниц V   1 2 3 4 5 6 >
Открыть тему
Тема закрыта
2 чел. читают эту тему (гостей: 2, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Горячая тема (нет новых ответов) QIWI кажется все?
104 Silverspam 16494 25.3.2024, 6:31
автор: Skyworker
Открытая тема (нет новых ответов) Мегамаркет. Скидка 1000 рублей при покупке от 5000 рублей на все, на первый заказ.
Мегамаркет. Скидка 1000 рублей при покупке от 5000 рублей на все, на п
6 stu999 1551 21.3.2024, 20:45
автор: stu999
Открытая тема (нет новых ответов) Все легальные аккаунты без НДС. Facebook Ads, Яндекс Директ и Google Ads без НДС. Отзывы SaveBalance
123
5 DerianFox 3747 7.7.2023, 19:07
автор: rom36
Открытая тема (нет новых ответов) RedBox - все нужные инструменты в одном месте
0 fantomofdarkness 780 15.2.2023, 14:50
автор: fantomofdarkness
Открытая тема (нет новых ответов) Внимание! Накрутка просмотров ВК на все посты стены. ДЕШЕВО!
0 robot_yaga2 910 4.7.2022, 15:17
автор: robot_yaga2


 



RSS Текстовая версия Сейчас: 29.3.2024, 5:48
Дизайн