X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость ( Вход | Регистрация )

Открыть тему
Тема закрыта
> Почему google индексирует страницы вида, http://сайт/пост/feed
MeTrA
MeTrA
Topic Starter сообщение 30.7.2012, 0:11; Ответить: MeTrA
Сообщение #1


Участник
***

Группа: User
Сообщений: 240
Регистрация: 14.12.2008
Поблагодарили: 71 раз
Репутация:   11  


Почему google индексирует страницы вида http://сайт/пост/feed, хотя в роботс прописаны правила

Disallow: */feed/
Disallow: */feed
Disallow: */?feed=

Кроме этого, индексирует http://сайт/category/название/page/2, хотя есть правило
Disallow: */page/*

Из-за чего это может быть?

Сообщение отредактировал MeTrA - 30.7.2012, 0:12


--------------------
1
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
funkydance
funkydance
сообщение 30.7.2012, 0:40; Ответить: funkydance
Сообщение #2


Старожил
******


Группа: Banned
Сообщений: 1143
Регистрация: 9.10.2011
Поблагодарили: 282 раза
Репутация:   40  


А эти правила для Гугл Бота прописаны?

Если стоит User-agent: Google или * то на ваш вопрос ответит только гугл
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
kauak
kauak
сообщение 30.7.2012, 0:48; Ответить: kauak
Сообщение #3


Участник
***

Группа: User
Сообщений: 247
Регистрация: 30.10.2011
Из: Украина
Поблагодарили: 46 раз
Репутация:   17  


Несколько выдержек из справки для вебмастеров от Google:

Файл robots.txt ограничивает доступ роботов, сканирующих Интернет для поисковых систем, к вашему сайту. Перед обращением к страницам сайта эти роботы автоматически ищут файл robots.txt, который запрещает им доступ к определенным страницам.

Файл robots.txt необходим только в том случае, если на вашем сайте есть содержание, которое не следует включать в индекс поисковых систем. Если вы хотите, чтобы поисковые системы включали в свои индексы все содержание вашего сайта, файл robots.txt (даже пустой) не требуется.

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL-адреса, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.

Чтобы полностью исключить вероятность появления контента страницы в индексе Google, даже если на нее ссылаются другие сайты, используйте метатег noindex. Если робот Googlebot начнет сканировать страницу, то обнаружит метатег noindex и не станет отображать ее в индексе.

Обратите внимание: чтобы увидеть тег noindex, мы должны просканировать вашу страницу, поэтому существует небольшая вероятность, что поисковый робот Googlebot не увидит метатег noindex и не отреагирует на него. Кроме того, если вы заблокировали эту страницу с помощью файла robots.txt, мы также не сможем увидеть этот тег.


Подробнее тут: http://alaev.info/blog/post/3013

Сообщение отредактировал kauak - 30.7.2012, 0:48


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
MeTrA
MeTrA
Topic Starter сообщение 31.7.2012, 15:39; Ответить: MeTrA
Сообщение #4


Участник
***

Группа: User
Сообщений: 240
Регистрация: 14.12.2008
Поблагодарили: 71 раз
Репутация:   11  


(funkydance @ 30.7.2012, 2:40) *
Если стоит User-agent: Google или * то на ваш вопрос ответит только гугл

Да для google это прописано в роботс.
Нашел в шаблоне темы, закоментированные строчки RSS ленты комментариев, вида http://сайт/пост/feed, может он их индексировал. Но повторюсь они были закоментированы.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
contentforsites
contentforsites
сообщение 1.8.2012, 11:48; Ответить: contentforsites
Сообщение #5


Новичок
*

Группа: User
Сообщений: 23
Регистрация: 1.8.2012
Поблагодарили: 3 раза
Репутация:   0  


Потому, что robots.txt не всегда помогает sad.gif. У самого как-то был подобный случай, только с Яндексом, когда он по каким-то причинам начал индексировать запрещённый в роботсе контент. Когда удалось пробиться в поддержку, ответили, что глюк. Потом страницы пропали.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Горячая тема (нет новых ответов) Почему люди несут деньги организаторам тренингов, которые учат тому, чем сами никогда не занимались
77 Room 7039 Вчера, 20:31
автор: galikfor
Открытая тема (нет новых ответов) Редирект только главной страницы
301 редирект
0 Gera 266 Вчера, 19:21
автор: Gera
Открытая тема (нет новых ответов) Google назвал главные темы и тренды 2017 года
1 MissContent 314 Вчера, 15:59
автор: wertu
Открытая тема (нет новых ответов) Приоритет верхней части страницы
6 b3rsus 757 Вчера, 13:29
автор: Caterpillar
Открытая тема (нет новых ответов) 10 бесплатных сервисов Google для бизнеса, о которых мало кто слышал
18 jack 5846 Вчера, 12:29
автор: Akeeloq


 



RSS Текстовая версия Сейчас: 15.12.2017, 3:21
Дизайн