X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость ( Вход | Регистрация )

Открыть тему
Тема закрыта
> robots.txt. Тонкости в работе и типичные ошибки
Gost
Gost
Topic Starter сообщение 25.9.2006, 11:05; Ответить: Gost
Сообщение #1


Новичок
*

Группа: Viewer
Сообщений: 6
Регистрация: 25.9.2006
Поблагодарили: 0 раз
Репутация:   0  


Нашел вот интересную статейку на

Файл robots.txt. Тонкости в работе и типичные ошибки.
Данная статья является логическим продолжением статьи под названием «Что нужно знать о файле robots.txt. Синтаксис.» рекомендую её также прочитать. Ну что ж, начнём!
Тонкости есть везде и у нас тоже. Вот лишь небольшой список их:
Как правильно: «User-Agent» или «User-agent». Я рекомендую Вам придерживаться второго варианта, согласно спецификации файла robots.txt

Если записать просто:
User-agent: Yandex
Disallow: /admin

То это будет означать, что к запрету для бота Яндекса причисляются все файлы и папки, которые начинаются с данного слова.

Файл должен находиться, только в корневом каталоге, и нигде больше.

Имя файла может быть только таким: robots.txt
Такие имена как: Robots.txt, ROBOTS.TXT и проч. являются ошибочными…

Файл может быть только текстовым, с расширением *.txt

Нельзя в тексте допускать лишних пустых строк. Пустая строка означает, что следующая за ней строка будет иметь параметры для другого поискового робота. Ошибочный пример.
User-agent: *
Disallow: /1/

Disallow: /free.html
Disallow: /cgi/

В строках с полем Disallow записываются не абсолютные, а относительные префиксы. Неправильным будет: «Disallow: www.sitec.ru/free.html»

Что касается директивы Host. Вот несколько наглядных примеров как делать нельзя:
Host: www.myhost-.ru
Host: www.-myhost.ru
Host: www.myhost.ru:0
Host: www.my_host.ru
Host: .my-host.ru:8000
Host: my-host.ru.
Host: my..host.ru
Host: www.myhost.ru/
Host: www.myhost.ru:8080/
Host: http://www.myhost.ru
Host: www.mysi.te
Host: 213.180.194.129
Host: www.firsthost.ru,www.secondhost.ru
Host: www.firsthost.ru www.secondhost.ru


Пауки.

Имена поисковых ботов не всегда соответствуют названия поисковых машин.
Вот самые распространённые в Рунете поисковые боты.

Рамблер - StackRambler
Яндекс - Yandex
Google - Googlebot
MSN – msnbot

Если Вы имеете доступ к логам сервера (например: последние посетители), то сможете узнать какие боты обходят Ваш сайт. Но чаще всего названия их бывают такими: Googlebot/2.1 (+http://www.google.com/bot.html); Yandex/1.01.001; msnbot/1.0 (+http://search.msn.com/msnbot.htm) и т.д.
Но не стоит это имя сразу загонять в robots.txt
Всё что пишется в имени бота после слэша – нам не нужно. В файл robots.txt вносится только первая часть.
Если Вы хотите увидеть более полный список имён поисковых ботов, Вам следует прочитать следующую статью - Список имён поисковых роботов.


Альтернативные методы.

Файл robots.txt позволяет скрыть от глаз разных поисковых роботов разные файлы, а то и вообще все. Но есть и другие альтернативные способы, правда не всегда такие удобные, т.к. robots.txt позволяет делать это лишь изменением своего содержимого.


Мета тег robots.

- индексируется данная страница, робот идёт по ссылкам с этой страницы.
- страница не индексируется, но робот идет дальше по ссылкам.
- страница индексируется, но робот не идёт по ссылкам на другие страницы, т.е. он их не индексирует.
- страница не индексируется, робот по ссылкам не идёт. Если поместить такой код на все страницы сайта – он не проиндексируется.
- идентичное последнему. Сайт не индексируется.


Тег , который позволяет не индексировать лишь определённый кусок кода страницы.
Например: «хтмл-код хтмл-код привет любимая :)) хтмл-код хтмл-код»
Заключение.

Вот и наконец-то я расправился с этой темой. Было интересно. А Вам? Кстати, во время написания статьи я иногда открывал для себя новые вещи, хоть и мелочи, но приятно.
За более полной информацией обращайтесь на официальный сайт файла robotstxt.org
Всё!!!


Автор — Alexander (alexander@packpymku.net)
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
rgr132
rgr132
сообщение 6.2.2008, 1:41; Ответить: rgr132
Сообщение #2


Новичок
*

Группа: Viewer
Сообщений: 2
Регистрация: 27.2.2008
Поблагодарили: 0 раз
Репутация:   0  


можно ещё добавить что не стоит менять директиву host: без www и с www, я так недавно оч сильно напоролся с этим эле вытянул (вабще не знал что делать), и то не без помощи мастертока и сёчэнжениарс.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
alanex
alanex
сообщение 11.3.2008, 10:08; Ответить: alanex
Сообщение #3


Новичок
*

Группа: User
Сообщений: 31
Регистрация: 21.2.2008
Поблагодарили: 0 раз
Репутация:   0  


Цитата(Gost)
Что касается директивы Host. Вот несколько наглядных примеров как делать нельзя:
Host: www.myhost-.ru
Host: www.-myhost.ru
Host: www.myhost.ru:0
Host: www.my_host.ru
Host: .my-host.ru:8000
Host: my-host.ru.
Host: my..host.ru
Host: www.myhost.ru/
Host: www.myhost.ru:8080/
Host: http://www.myhost.ru
Host: www.mysi.te
Host: 213.180.194.129
Host: www.firsthost.ru,www.secondhost.ru
Host: www.firsthost.ru www.secondhost.ru

а как тогда можно? пример можно привести готового robots.txt? ?
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Nemo
Nemo
сообщение 18.3.2008, 17:45; Ответить: Nemo
Сообщение #4


Оптимизатор
*******

Группа: Active User
Сообщений: 3129
Регистрация: 22.8.2007
Поблагодарили: 456 раз
Репутация:   163  


Цитата(alanex)
а как тогда можно?


Что именно можно?

Цитата(alanex)
пример можно привести готового robots.txt? ?


Валом. Хоть здесь http://www.google.com/robots.txt


--------------------
Крауд-маркетинг, ссылки покупаю здесь
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
alanex
alanex
сообщение 18.3.2008, 20:35; Ответить: alanex
Сообщение #5


Новичок
*

Группа: User
Сообщений: 31
Регистрация: 21.2.2008
Поблагодарили: 0 раз
Репутация:   0  


Цитата(Nemo)
Что именно можно?

там было написано "как делать нельзя" вот я и поинтересовался-как можно? :P
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Продается готовый бизнес на работе в биржах вечных ссылок и статей.
24 Djenya 3881 7.12.2017, 13:57
автор: Djenya
Открытая тема (нет новых ответов) Исправлю HTML ошибки на страницах Вашего сайта
10 guruapps 1215 30.11.2017, 22:59
автор: maxim1249
Горячая тема (нет новых ответов) Услуги по сбору новостей .txt для ваших сайтов, любые тематики + Отзывы
Импорт в DLE, WP (Xml, SQL) с отложенной публикацией под заказ
135 Akira 47541 28.11.2017, 1:05
автор: Akira
Открытая тема (нет новых ответов) Nofollow ссылки из robots.txt, как это работает?
Как-то запретить к индексации без rel="nofollow" из robots.txt
7 coremission 514 17.11.2017, 17:17
автор: coremission
Открытая тема (нет новых ответов) Роскомнадзор опубликовал инструкцию по работе с персональными данными для интернет-магазинов.
6 jack 1113 17.11.2017, 15:15
автор: tezoro


 



RSS Текстовая версия Сейчас: 19.12.2017, 0:54
Дизайн