X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

Открыть тему
Тема закрыта
> Краулинговый бюджет и настройка индексации интернет-магазина., Или как я за индексацию многостраничника воевал.
genjnat
genjnat
Topic Starter сообщение 19.1.2020, 13:36; Ответить: genjnat
Сообщение #1


Для конкурса "Кейс года"

Случился мне в работу многостраничный ИМ, 150 к стр. и к нему десяток клонов на региональных поддоменах, т.е. всего около 1,5 млн. С очень плохой индексацией. По основному домену: Яндекс - 70 к в индексе, Гугл - 20, по поддоменам вообще от 1 до 10 к. Поэтому индексация стала одной из приоритетных задач.

Изначальное состояние сайта было не то чтоб совсем плохое (качество контентных страниц выше среднего), но помимо карточек товаров и категорий в индекс шло порядка 50 к страниц фильтров, более 7 к пагинации, страницы с get-параметрами… в общем не сильно меньше чем контентных.
Такая диспозиция была два месяца назад, т.е. кейс пока еще не завершенный (мало времени), поэтому уж извините, дополнил теорией. Которая надеюсь тоже будет не бесполезной. Но и результаты тоже есть. Собственно, этим и хочу поделиться.
Сначала о терминологии и инструментах.
(Букв много, но все равно нужно, чтобы понимать, что и зачем делается…)

Термины:
Сканирование и индексация
Их нужно разделять:
а) Сканирование – сбор ботами ПС URL документов и правил индексации по ним (robots.txt, ответы сервера).
б) Индексация – загрузка и сохранение содержимого документов.
Не все просканированные URL индексируются, не все из проиндексированных потом попадают в поисковую выдачу.

Краулинговый бюджет
Количество страниц которое поисковые системы берут в индекс, относительно всех страниц сайта разрешенных к индексации.
Он не выдумка и не глупость, у тех кто работает с многостраничными ИМ в этом сомнений нет. И его я тоже разделил бы на:
Краулинговый лимит – это количество страниц которые планирует проиндексировать ПС за один заход.
Краулинговая достижимость – количество страниц которые у ПС получилось проиндексировать за один заход.
И отдельно нужно выделить количество страниц которые ПС планировала проиндексировать, смогла и решила использовать в результатах поиска. Совокупность этих процессов и будет краулинговым бюджетом.

Экономия краулингового бюджета
«Краулинговый бюджет» более определяется качеством сайта, его общей оценкой. У поддоменов она, например, намного ниже, поэтому и краулинговый бюджет у них сильно меньше. Но краулинговый «лимит» и «достижимость» более зависят от настроек индексации, т.е. куда и как вы направляете ботов, и от скорости и настроек сервера.
Их можно и нужно регулировать:
а) Убирая из общего индекса бесполезные для вас и для ПС страницы. Т.е. страницы без перспективы на трафик.
б) Перекрывая или усложняя ботам доступ к страницам, которые индексировать не нужно, и наоборот, направляя на полезные.
в) Настройками работы сервера, что и с какой скоростью он отдает ботам тоже имеет значение.
В конечном итоге, через эти настройки можно не только экономить бюджет (использовать его рациональней), но и расширять. Убирая из индекса мусорные, низкокачественные страницы и замещая их контентными вы так же улучшаете общую оценку сайта.

Инструменты:
Rel="canonical"
Для обеих ПС (Яндекс и Гугл) "canonical"- рекомендация а не правило. Не канонические страницы, имеющие другой набор товаров и/или отличия в тайтле/метатегах все равно могут индексироваться, на усмотрение ПС. И не одинаково.
К примеру, Яндекс в последнее время начал массово индексировать страницы пагинации на которых прописана каноническая. Гугл canonical на страницах пагинации учитывает более или менее четко.
Для страниц фильтров или сортировки обе ПС учитывают canonical значительно лучше.
Для гугла canonical не только указывает какую страницу следует индексировать как основную, а также выполняет консолидирующую функцию для всех неканонических страниц. С консолидацией имеющихся на них факторов (ссылочных и поведенческих) на каноническую.
Работает ли консолидация для Яндекса не известно, пояснений они не дают. Есть мнение, что не работает.
Rel="canonical" краулинговый лимит не экономит. Как и любое правило индексации размещенное непосредственно на странице. Поскольку боту все равно нужно зайти на страницу, чтобы его считать.

meta name="robots" content="no/index, no/follow
Краулинговый лимит тоже не экономит. Из того, что не все знают про этот инструмент, это что столь популярная у вебмастеров комбинация noindex/follow, со временем все равно расценивается гуглом как noindex/nofollow.
На том основании, что раз страница запрещена, то и посещать ее особо не за чем. Поэтому там, где боты все-таки должны свободно проходить (например, по длинной пагинации) лучше не использовать.

robots.txt
Считывается сразу при заходе ботов на сайт. Запрещенное в robots исключается из индекса достаточно быстро. Сильно быстрее чем через правила на страницах. Для больших сайтов это важно.
Правила индексации прописанные в robots.txt обязательные для исполнения (на сколько вообще для ПС что-то может быть обязательным). Для сканирования – не обязательное, боты по ним тоже могут ходить, но еще хуже чем при meta name noindex, follow.
robots.txt ничего ни с чем не консолидирует. Но краулинговый лимит экономит.

Ответы сервера 301, 304, 404, 410
404 и 410
Для удаленных страниц традиционно используют 404 – «не найдено», т.е. временно недоступно. По которому поисковики их убирают из индекса очень долго. Но есть еще ответ 410 (удалён), по которому чистка должна проходить быстрее. В теории. Лично не проверил, пока еще в задачах у программиста.
Повторюсь, для больших сайтов скорость исполнения изменений в настройках имеет критическое значение. 100-200 к страниц переобходятся ботами месяцами, а отдельные документы даже и годами.

301
Для склейки дублей и мусора на котором и пользователю и ботам делать нечего.

304 Not Modified
Указывает ботам, что документ не менялся, и повторно его загружать не нужно. Проще говоря, это не трогай, бери следующий. Полезен и для экономии краулингового лимита, и с точки зрения уменьшения нагрузки на сервер.

Файлы Sitemap
Сами по себе на процент индексации влияют мало, но все url из них гарантированно будут просканированы. Поэтому использовать нужно. Особенно после изменений настроек.

Панели Яндекс вебмастер и Google Search Console

В Яндексе:
Загрузка Sitemap - их можно не только добавлять в роботс но и загружать непосредственно в панель. Что несколько ускоряет дело.
Обход по счётчикам – привязка счетчика метрики. Было сделано еще до меня, поэтому на сколько ускоряет индексацию сказать не могу. Однако, если бы не было, то сделал. По любому не мешает.
Удаление страниц из поиска, как списками так и по префиксу. Выполняется быстро, однако для удаления списком есть лимит 500 стр./день.
Переобход страниц - для ускорения переиндексации важных страниц. Работает, но тоже лимит, 140 стр, поэтому все туда добавить не выйдет.
Скорость обхода – Яндекс перестал поддерживать Crawl-delay, если боты кладут сайт, или наоборот ведут себя вяло, регулировать скорость загрузки страниц нужно здесь.

В Гугле:
Загрузка Sitemap
Удалить URL-адреса
Статистика сканирования
Параметры URL

Теперь о самих настройках и результатах
Пагинация.
В индексе страницы пагинации совершенно бесполезны, только занимают место контентных и добавляют проблем с релевантностью.
У меня на них изначально стоял rel="canonical", Гугл его выполнял, но Яндекс зажевал 7 к.
Просто запретить в robots.txt или через meta name и тем самым обрезать консолидирующую функцию rel="canonical" (по крайней мере для Гугла) не хотелось. Не хотелось усложнять ботам прохождение по пагинации. В некоторых категориях она свыше 100 страниц. И не хотелось ждать полгода пока будут выполнены настройки указанные на страницах.
Поддерживает ли Яндекс эту самую консолидацию, не известно, поэтому решено было так:
Добавил в robots.txt отдельный блок правил для Яндекса и в него - Disallow: /*?page
Через 4 дня все страницы выпали. После этого Disallow: /*?page убрал. А на страницах пагинации, к canonical поставил meta name noindex, follow но только Яндексу.

CODE
<link rel="canonical" href="http://site.com/osnovnoy-url"/>
<meta name="YANDEX" content="noindex, FOLLOW" />

Гуглу остался canonica

Фильтры
Сортировка товаров по характеристикам. На сайте стоит плагин который создает под них отдельные (статичные) страницы, плюс генерирует их в Sitemap. Заказчик его поставил с целью развернуть семантику по НЧ. И не сказать что он совсем плохой. Генерит собственные заголовки, метатеги, описания. Можно настраивать маски и добавлять переменные. Но как уже писал, он генерировал порядка 50 к страниц, и на все давал 30-40 поискового в день. Но это тоже трафик. Просто снести было жалко.
Проблема заключалась в том, что вычленить трафиковые (например через страницы входа в метрике) было не возможно. В URL фильтров не было идентификатора (например «Filter»), они ничем не отличались от любых других на сайте.
Поэтому добавил в тайтлы фильтров уникальный символ «➤». и через некоторое время выгрузил искомое из аналитикса в эксель.
Развернуть/Свернуть

Как оказалось, хотя бы один переход за месяц давали только 400 фильтров, их и оставил, остальные 50 к были переведены на динамические URL и запрещены к индексации.
Статичные url на которых они были раньше получили статус 404. Что меня тоже не устраивало. По опыту знаю, что некоторые еще и через год будут висеть в индексе. Запретить в robots.txt или удалить через панели ПС по префиксу нельзя (у них его нет), поэтому дал задачу программисту сделать по ним ответ 410.
Кстати, Гугл цепанул utf символ «➤» в сниппеты.
Развернуть/Свернуть

Прикольно, потом поменяю на что-то интересней

304 Not Modified
Интересная штука, опробовал впервые.
Сервер на запрос ботов отдает код 304, если дата Last-Modified (последнего обновления) старше, чем в запросе If-Modified-Since. Т.е. если документ с этого времени не менялся, сервер дает ботам ответ 304 Not Modified. Им нет необходимости загружать его повторно и они запрашивают следующий документ. Если кому-то интересно детальней
На сколько это улучшило индексацию не проиндексированных страниц или страниц на которые были внесены изменения, по факту посмотреть нельзя, но в теории должно было. Плюс уменьшил нагрузку на сервер. Что для этого сайта со всеми его поддоменами тоже было не маловажно.

Динамические страницы (get)
Это все страницы, которые содержат в URL знак «?» и не имеют собственного уникального контента.
Выискивать все их вариации на большом и многофункциональном сайте сложно и не надежно, поэтому зашел в панель я-вебмастер > страницы в поиске. Выгрузил их в ХLS. В поиск по документу «?». Собрал и по уникальным идентификаторам в url добавил в robots.txt.
Развернуть/Свернуть


Уникализация title и метатегов.
Напрямую к настройкам индексации не относится, но имеет для нее ключевое значение.
Многим владельцам больших ИМ знакома проблема групп однотипных товаров, с идентичными тайтлами, метатегами, и собственно самими карточками. Где товары отличаются только 1-2 характеристиками (цвет, размер, цена, производитель и т.п.). Индексируются они плохо, как индекс не настраивай. А в моем случае проблема умножалась на 10 региональных поддоменов.
Поэтому для каждой версии сайта были настроены «маски». В тайтлы и дескрипшены карточек и категорий, в дополнение к названию товара была выведена цена, название бренда, страна производителя. В региональные подомены, плюс к этому были выведены название региона и url поддомена, а в дескрипшены еще и региональный телефон и адрес.

Sitemap
После того как все вышеперечисленное было сделано, сгенерировал новые карты и загрузил в панели Яндекса и Гугла. Через несколько дней появились отчеты. А через пару недель и первые результаты по индексу. Яндекс:
Развернуть/Свернуть

110 к т.е. почти сколько, сколько их и есть
Гугл:
Развернуть/Свернуть

было 19 к, теперь 31

И поисковый трафик
Развернуть/Свернуть


График не особо впечатляющий, вмешался новый год. А главное, до начала работ в настройках метрики стояло «учитывать поддомены». То есть она считала общий трафик со всех версий сайта. Начиная работать изменил на «не учитывать», а на поддомены поставил отдельные счетчики. Что бы нормально отслеживать каждый.
По поддоменам он тоже подрос и сейчас на них 150 поискового. А общий (вместе с основным) подрос с 200 до 400.
Не то чтоб много, но работы идут всего третий месяц, и далеко не все из сделанного уже в индексе и дало результат.


Поблагодарили: (8)
10
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
rom_4
rom_4
сообщение 19.1.2020, 14:59; Ответить: rom_4
Сообщение #2


Цитата(genjnat @ 19.1.2020, 12:36) *
В поиск по документу «?». Собрал и по уникальным идентификаторам в url добавил в robots.txt.

А почему не сделано просто Disallow: /*?
Есть страницы, которые с ? должны индексироваться? Непонятна сложность вашего robots.txt


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
genjnat
genjnat
Topic Starter сообщение 19.1.2020, 15:10; Ответить: genjnat
Сообщение #3


Цитата(rom_4 @ 19.1.2020, 13:59) *
А почему не сделано просто Disallow: /*?

rom_4, потому, что например и панагия начинается с /?page, и еще ряд страниц ухудшать частоту и глубину сканирования по которым не нужно. Плюс доступ ботам к файлам стилей и тому подобному.


Поблагодарили: (2)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Latinos
Latinos
сообщение 19.1.2020, 19:41; Ответить: Latinos
Сообщение #4


Цитата(genjnat @ 19.1.2020, 13:36) *
сгенерировал новые карты и загрузил в панели Яндекса и Гугла


подскажите, а вы из карты сайта удаляете как то страницы, которые не нужно индексировать?
как их генерировать на основе учета вышеперечисленного?
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
genjnat
genjnat
Topic Starter сообщение 19.1.2020, 19:58; Ответить: genjnat
Сообщение #5


Latinos, в данном случае CMS webasyst, сайтмап генерируется через него с учетом настроек индексации и ежедневно по расписанию в кроне. Товары/категории добавляются/снимаются все время поэтому так. Для фильтров плагин генерирует отдельные сайтмап.
В статье написал "сгенерировал" условно. Дождался пока обновятся и добавил в я-вебмастер и серч консоль на переобход.
В принципе для любой популярной CMS есть подобные плагины. Если сайт не очень большой (до 30к) то можно и этой программкой, бесплатная.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
genjnat
genjnat
Topic Starter сообщение 22.1.2020, 10:05; Ответить: genjnat
Сообщение #6


В продолжение последнего графика с поисковым трафиком.
Праздники выходные закончились, пошла реальная статистика.
Основной домен:
Развернуть/Свернуть

Региональные поддомены
Развернуть/Свернуть

Общий из поиска чуть-чуть не дотянул до 500. С 200 за 2 месяца. По сути на одних настройках индекса :)

Замечание модератора:
Эта тема была закрыта автоматически ввиду отсутствия активности в ней на протяжении 100+ дней.
Если Вы считаете ее актуальной и хотите оставить сообщение, то воспользуйтесь кнопкой
или обратитесь к любому из модераторов.


Сообщение отредактировал genjnat - 22.1.2020, 10:06
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
2 чел. читают эту тему (гостей: 2, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Горячая тема (нет новых ответов) Betatransfer.net - прием платежей для HIGH RISK проектов, интернет эквайринг и мерчант онлайн оплат
52 arendator 34125 26.3.2024, 4:43
автор: arendator
Открытая тема (нет новых ответов) Покупаем рекламу на ваших площадка для 2х интернет сервисов
Покупаем статьи для фотохостинга и мониторинга сайтов.
1 AndrePro 997 25.3.2024, 13:46
автор: Wilkinson
Горячая тема (нет новых ответов) Какие интернет активы вы знаете?
38 metvekot 6873 29.2.2024, 11:18
автор: Skyworker
Открытая тема (нет новых ответов) Администратор (управляющий) вашими интернет проектами
0 Дмитрий1981 864 10.2.2024, 22:56
автор: Дмитрий1981
Открытая тема (нет новых ответов) По какому принципу работают ускорители индексации сайта?
5 Lifelove 1583 29.1.2024, 9:50
автор: Skyworker


 



RSS Текстовая версия Сейчас: 28.3.2024, 19:25
Дизайн