X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

Открыть тему
Тема закрыта
> Яндекс вебмастер. Страницы под robots.txt, Яндекс решил сканировать страницы под robots.txt?
pomax
pomax
Topic Starter сообщение 8.3.2013, 22:52; Ответить: pomax
Сообщение #1


Здравствуйте. Такой вопрос. Обнаружил, что яндекс стал сканировать внутренние страницы сайта. Сайт на друпал 6. Специально выискивал внутренние страницы, делал перечень ссылок, который поставить надо в файл robots.txt под запрет индексации. А яндекс сегодня выдал мне сюрприз - +250 ссылок под запретом в файле robots.txt. Пока я нашел все внутренние страницы, испытывал несколькими инструментами по поиску ссылок. А яндекс значит решил проиндексировать их и поставить в вебмастере в раздел "запрещен к индексированию в файле robots.txt".

Хочу у знать ваше внение, как относиться к росту количества ссылок в вебмастере под роботс тхт. Как вы думаете будет на это реагировать сам яндекс?
Если стоит, то как сделать так, чтоб яндекс вообще не заходил и не сканировал внутренние страницы сайта?
Может кто нибудь еще сталкивался с этакой проблемкой и как-то ее решил? Заранее спасибо за ответы

Сообщение отредактировал pomax - 8.3.2013, 22:53
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
rjksdfhe
rjksdfhe
сообщение 8.3.2013, 23:12; Ответить: rjksdfhe
Сообщение #2


Надеюсь, термин `ссылка` в этом посте имеет значение `url страницы`.

1) Не знаю, чем пользовались, но надо выборочно проверить в ЯWM то, как бот Яндекса обработает этот url (Яндекс.Вебмастер > выбрать сайт > Настройка индексирования > Анализ robots.txt > Список Url > Добавить). Введите url`ы, который вы запретили к индексации, и получите ответ. Это проверка того, правильно ли интерпретируется ботом ваш robots.txt, могут быть ошибки.

2) Яндекс - чудо. Прописывал ему в robots категоричное "Disallow: /", и спрашивал Платона "Почему у меня в индексе страницы, индексирование которых я вам явно запретил?". Ответ: "Мы не можем запретить попадать в индекс страниц, которые мы считаем важными. В частности, если на них ссылаются.". Вот так (полный текст могу порыть в почте).

Так что ваше "User-agent: Yandex Disallow: \ " - не гарантия, что в индексе Я вашего сайта не будет.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
pomax
pomax
Topic Starter сообщение 9.3.2013, 10:37; Ответить: pomax
Сообщение #3


1) в яндекс вебмастере проверял каждую ссылку - все ненужные находятся под запретом к индексированию, а если не находились - то создавал правило, чтоб они там находились!
Несмотря на это яндекс ссылки запретные проиндексировал и поставил в специальный раздел ошибок "под запретом в файле rrobots.txt"

Вот я и спрашиваю, может у яшки новый запой? - индексирование страниц под запретом и увеличение ошибок связаных с запретом в файле robots.txt?

2) ну ладно если то нужные страницы на которые ссылаются другие сайты, но как например другие сайты будут ссылаться на страницу редактирования документа, или страницу формы отправки сообщения зарегистрированному пользователю? Они явно относятся в интерфейсу администратора и не могут иметь внешних ссылок.

Я специально через анализатор файла роботс в яндекс вебмастере проверял каждую подозрительную ссылку, дабы не попасть в индекс страницами, которые по идее вообще не должны попадать в индекс.

Может дело все в истории?
изначально я пропустил этот важный шаг, думая о том, что если я пользуюсь CMS, которая явно имеет поддержку и постоянно обновляется, даже не заглядывал в файл robots.txt. По истечению времени получил в индекс страницы от новых использованных модулей, которые не учтены были в самом движке и его файле robots.txt. После того как я это обнаружил - я потратил день своего времени чтоб расчленить по ссылкам сайт и загнать под запрет в файл robots.txt ненужные к индексированию внутренние страницы сайта. С тех пор прошло 2 недели. А яндекс мне вчера выдал, что появились новые страницы под запрет, те, которые я уже давно поставил под него. Вполне возможно, что они и были под запретом до этого момента, но почему после того как робот прошел он эти страницы вообще не удалил, а поставил их в ошибки "запрет robots,txt"?

Может я чего не допонимаю?

Замечание модератора:
Эта тема была закрыта автоматически ввиду отсутствия активности в ней на протяжении 100+ дней.
Если Вы считаете ее актуальной и хотите оставить сообщение, то воспользуйтесь кнопкой
или обратитесь к любому из модераторов.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
2 чел. читают эту тему (гостей: 2, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Аналоги Яндекс Директ
3 kuz999 1675 26.3.2024, 14:12
автор: knezevolk
Открытая тема (нет новых ответов) SEO Линк Билдинг под Бурж | Вечные ссылки США, Европа и Мир с Гарантией
18 Needmylink1 6547 25.3.2024, 20:51
автор: Needmylink1
Горячая тема (нет новых ответов) Hyper.hosting - сервера под любые задачи [разрешены dmca, гэмблинг, адалт и пр.]
Лучшие сервера по доступной цене
30 Hyper_Hosting 8600 22.3.2024, 15:34
автор: Hyper_Hosting
Открытая тема (нет новых ответов) 📌 Telegram Prime - софт для автоматизации telegram разработанный специально под задачи бизнеса
🏆 Единственный комбайн для популяризации вашей компании в теле
14 leviathan 3273 21.3.2024, 18:54
автор: leviathan
Открытая тема (нет новых ответов) HideHost.net - Виртуальные и выделенные сервера под любые Ваши проекты с индивидуальным подходом.
Работаем уже более 12 лет
6 HIDEHOST 2313 21.3.2024, 13:33
автор: Tihohodka


 



RSS Текстовая версия Сейчас: 29.3.2024, 14:07
Дизайн