X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость ( Вход | Регистрация )

Открыть тему
Тема закрыта
> Яндекс вебмастер. Страницы под robots.txt, Яндекс решил сканировать страницы под robots.txt?
pomax
pomax
Topic Starter сообщение 8.3.2013, 22:52; Ответить: pomax
Сообщение #1


Частый гость
**

Группа: User
Сообщений: 56
Регистрация: 27.10.2012
Поблагодарили: 2 раза
Репутация:   0  


Здравствуйте. Такой вопрос. Обнаружил, что яндекс стал сканировать внутренние страницы сайта. Сайт на друпал 6. Специально выискивал внутренние страницы, делал перечень ссылок, который поставить надо в файл robots.txt под запрет индексации. А яндекс сегодня выдал мне сюрприз - +250 ссылок под запретом в файле robots.txt. Пока я нашел все внутренние страницы, испытывал несколькими инструментами по поиску ссылок. А яндекс значит решил проиндексировать их и поставить в вебмастере в раздел "запрещен к индексированию в файле robots.txt".

Хочу у знать ваше внение, как относиться к росту количества ссылок в вебмастере под роботс тхт. Как вы думаете будет на это реагировать сам яндекс?
Если стоит, то как сделать так, чтоб яндекс вообще не заходил и не сканировал внутренние страницы сайта?
Может кто нибудь еще сталкивался с этакой проблемкой и как-то ее решил? Заранее спасибо за ответы

Сообщение отредактировал pomax - 8.3.2013, 22:53
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
rjksdfhe
rjksdfhe
сообщение 8.3.2013, 23:12; Ответить: rjksdfhe
Сообщение #2


Straight arms
*******

Группа: Active User
Сообщений: 2760
Регистрация: 21.4.2009
Из: Мытищи, МО, РФ
Поблагодарили: 1111 раз
Репутация:   163  


Надеюсь, термин `ссылка` в этом посте имеет значение `url страницы`.

1) Не знаю, чем пользовались, но надо выборочно проверить в ЯWM то, как бот Яндекса обработает этот url (Яндекс.Вебмастер > выбрать сайт > Настройка индексирования > Анализ robots.txt > Список Url > Добавить). Введите url`ы, который вы запретили к индексации, и получите ответ. Это проверка того, правильно ли интерпретируется ботом ваш robots.txt, могут быть ошибки.

2) Яндекс - чудо. Прописывал ему в robots категоричное "Disallow: /", и спрашивал Платона "Почему у меня в индексе страницы, индексирование которых я вам явно запретил?". Ответ: "Мы не можем запретить попадать в индекс страниц, которые мы считаем важными. В частности, если на них ссылаются.". Вот так (полный текст могу порыть в почте).

Так что ваше "User-agent: Yandex Disallow: \ " - не гарантия, что в индексе Я вашего сайта не будет.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
pomax
pomax
Topic Starter сообщение 9.3.2013, 10:37; Ответить: pomax
Сообщение #3


Частый гость
**

Группа: User
Сообщений: 56
Регистрация: 27.10.2012
Поблагодарили: 2 раза
Репутация:   0  


1) в яндекс вебмастере проверял каждую ссылку - все ненужные находятся под запретом к индексированию, а если не находились - то создавал правило, чтоб они там находились!
Несмотря на это яндекс ссылки запретные проиндексировал и поставил в специальный раздел ошибок "под запретом в файле rrobots.txt"

Вот я и спрашиваю, может у яшки новый запой? - индексирование страниц под запретом и увеличение ошибок связаных с запретом в файле robots.txt?

2) ну ладно если то нужные страницы на которые ссылаются другие сайты, но как например другие сайты будут ссылаться на страницу редактирования документа, или страницу формы отправки сообщения зарегистрированному пользователю? Они явно относятся в интерфейсу администратора и не могут иметь внешних ссылок.

Я специально через анализатор файла роботс в яндекс вебмастере проверял каждую подозрительную ссылку, дабы не попасть в индекс страницами, которые по идее вообще не должны попадать в индекс.

Может дело все в истории?
изначально я пропустил этот важный шаг, думая о том, что если я пользуюсь CMS, которая явно имеет поддержку и постоянно обновляется, даже не заглядывал в файл robots.txt. По истечению времени получил в индекс страницы от новых использованных модулей, которые не учтены были в самом движке и его файле robots.txt. После того как я это обнаружил - я потратил день своего времени чтоб расчленить по ссылкам сайт и загнать под запрет в файл robots.txt ненужные к индексированию внутренние страницы сайта. С тех пор прошло 2 недели. А яндекс мне вчера выдал, что появились новые страницы под запрет, те, которые я уже давно поставил под него. Вполне возможно, что они и были под запретом до этого момента, но почему после того как робот прошел он эти страницы вообще не удалил, а поставил их в ошибки "запрет robots,txt"?

Может я чего не допонимаю?
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) 16 площадок под размещение сквозных ссылок
Сайты: СМИ, финансы, авто, медицина, туризм, кулинария под сквозняки
9 inkon 1954 Вчера, 20:44
автор: inkon
Открытая тема (нет новых ответов) Продам сайт под развитие
Под будущий СДЛ, тематика бизнес, возраст 1 год
5 abafons 1228 Вчера, 14:12
автор: xeons
Открытая тема (нет новых ответов) Редирект только главной страницы
301 редирект
2 Gera 512 Вчера, 13:50
автор: Gera
Открытая тема (нет новых ответов) «Яндекс.Деньги» отменили комиссию за мобильные переводы
23 Vmir 4037 Вчера, 13:24
автор: Smspva
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыEdu-Money - партнерка под студентческий траф: 55% за новый заказ, 20% ребилл (сразу).
95 EduMoney 17498 Вчера, 12:48
автор: EduMoney


 



RSS Текстовая версия Сейчас: 16.12.2017, 11:50
Дизайн