X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

Открыть тему
Тема закрыта
> Страницы, загруженные роботом Яндекса
bescom
bescom
Topic Starter сообщение 10.6.2014, 8:36; Ответить: bescom
Сообщение #1


Наверное, многие видели такую картину в сервисе Вебмастер Яндекса:



То есть, робот загрузил страниц во много раз больше, чем проиндексировал. Но это еще полбеды, потому что загрузил он и в разы больше страниц, чем их реально есть на сайте.

В связи с этим пара вопросов:

1. Может быть, кто-то знает, как у Яндекса выпытать список загруженных роботом страниц? В Вебмастере эта информация недоступна.

2. Может быть, кто-то знает онлайн-сервисы или программы, которые считывают адреса страниц сайтов с учетом robots.txt, то есть в определенном смысле имитируют считывание адресов подобно роботу Яши?


Думаю, такая информация многим была бы полезна, а особенно тем, кто не может справиться с дублями страниц.


--------------------
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Ortero
Ortero
сообщение 10.6.2014, 8:55; Ответить: Ortero
Сообщение #2


537 - это и есть число страниц, которые загрузил робот. Сюда входят все страницы, известные роботу. Даже те, которые запрещены к индексации.


--------------------
Бегет - просто хороший хостинг, который еще и ssl-сертификат бесплатно дает.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
bescom
bescom
Topic Starter сообщение 10.6.2014, 8:59; Ответить: bescom
Сообщение #3


Ortero, нужен список загруженных роботом страниц.

Цитата(Ortero @ 10.6.2014, 9:55) *
Даже те, которые запрещены к индексации

Что-то я сомневаюсь. Иначе бы там было в десятки больше пунктов, в том числе и файлы движка CMS.

Сообщение отредактировал bescom - 10.6.2014, 9:03


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
santis
santis
сообщение 10.6.2014, 10:10; Ответить: santis
Сообщение #4


Цитата(bescom @ 10.6.2014, 8:36) *
1. Может быть, кто-то знает, как у Яндекса выпытать список загруженных роботом страниц? В Вебмастере эта информация недоступна.

2. Может быть, кто-то знает онлайн-сервисы или программы, которые считывают адреса страниц сайтов с учетом robots.txt, то есть в определенном смысле имитируют считывание адресов подобно роботу Яши?

1. Список думаю что не выпытаешь.
2. page-weight - он ничего не имитирует, но страницы покажет твоего сайта и кто на кого ссылается.

Вообще ситуация у тебя ничуть не странная. Грузит много, а в индекс попадает меньше - это может быть как из-за того что часть страниц ненадлежащего качества, так и из-за того что просто он ещё не решил по каким запросам показывать, и стоит ли показывать вообще


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Ortero
Ortero
сообщение 10.6.2014, 10:12; Ответить: Ortero
Сообщение #5


bescom, а разве там нельзя в xls выгрузить?

Можно xenu попробовать. Она все страницы показывает.


Цитата
Что-то я сомневаюсь.

Ну значит робот до этих страниц не дошел.


Сообщение отредактировал Ortero - 10.6.2014, 10:14


--------------------
Бегет - просто хороший хостинг, который еще и ssl-сертификат бесплатно дает.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
frion-seo
frion-seo
сообщение 10.6.2014, 10:34; Ответить: frion-seo
Сообщение #6


Цитата(bescom @ 10.6.2014, 7:36) *
2. Может быть, кто-то знает онлайн-сервисы или программы, которые считывают адреса страниц сайтов с учетом robots.txt

text.ru
добавляешь сайт на проверку уникальности и сервис тебе предварительно бесплатно проиндексирует страницы с учетом роботс


--------------------


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
bescom
bescom
Topic Starter сообщение 10.6.2014, 18:37; Ответить: bescom
Сообщение #7


Цитата(santis @ 10.6.2014, 11:10) *
Грузит много, а в индекс попадает меньше - это может быть как из-за того что часть страниц ненадлежащего качества, так и из-за того что просто он ещё не решил по каким запросам показывать, и стоит ли показывать вообще

Нет, тут дело не в том, на сайте реально 146 страниц, а робот грузит 537, то есть проблема именно в дублях.

Цитата(Ortero @ 10.6.2014, 11:12) *
а разве там нельзя в xls выгрузить?

Нет, таблицей выгружается только история, когда заходил робот и сколько страниц нашел.

Цитата(Ortero @ 10.6.2014, 11:12) *
Можно xenu попробовать. Она все страницы показывает.

Вот в том и дело, что абсолютно все, даже закрытые от индексации и незагружаемые роботом. Точно так же не подходит и SitemapGenerator.

Цитата(Ortero @ 10.6.2014, 11:12) *
значит робот до этих страниц не дошел

За несколько лет? ;)

Цитата(frion-seo @ 10.6.2014, 11:34) *
text.ru добавляешь сайт на проверку уникальности и сервис тебе предварительно бесплатно проиндексирует страницы с учетом роботс

Спасибо. Ушел пробовать.

Друзья, вопрос решен, подсказали добрые люди. :)

Вот программа, которая полностью отвечает моему запросу, а также может очень многим помочь и с другими вопросами. Пробуйте, не пожалеете - http://netpeak.ua/soft/netpeak-spider/


Я пробую и другие советы, но уже как дополнение.

Еще один сервис http://text.ru/url-check показал хороший результат - тоже, как и Netpeak Spider, произвел верное сканирование с учетом robots.txt

Замечание модератора:
Эта тема была закрыта автоматически ввиду отсутствия активности в ней на протяжении 100+ дней.
Если Вы считаете ее актуальной и хотите оставить сообщение, то воспользуйтесь кнопкой
или обратитесь к любому из модераторов.


Сообщение отредактировал bescom - 10.6.2014, 17:40


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Горячая тема (нет новых ответов) Все факторы ранжирования яндекса (1922 штуки)
Слив из исходного кода яндекса
50 ARsHi 4627 15.3.2023, 21:39
автор: MGorelkin
Открытая тема (нет новых ответов) Какие страницы продвигать ссылками: трафиковые или отстающие?
14 ELECTROKATZE 822 12.3.2023, 16:41
автор: MGorelkin
Горячая тема (нет новых ответов) "Бывшая главная "Яндекса" - yandex.ru - стала порталом dzen.ru
43 regem 7436 3.3.2023, 8:17
автор: hollywooduk
Открытая тема (нет новых ответов) Тема имеет прикрепленные файлыСюрприз от Яндекса и Cloudflare
12 MakDonald 971 1.1.2023, 14:23
автор: MakDonald
Открытая тема (нет новых ответов) Тема имеет прикрепленные файлыВывод подсказок в топ яндекса + продвижение сайта
6 Mikhail_B 1339 4.9.2022, 19:21
автор: Monah


 



RSS Текстовая версия Сейчас: 24.3.2023, 19:56
Дизайн