X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

Открыть тему
Тема закрыта
> Баден-Баден, Что считается спамом, где пороги срабатывания фильтра?
jack
jack
Topic Starter сообщение 19.6.2017, 11:08; Ответить: jack
Сообщение #1


Друзья, чтобы первыми получать уведомления о вот таких вот познавательных материалах на форуме, подписывайтесь на наш канал в Telegram

Едва опубликовал исследование алгоритма «Баден-Баден», как меня буквально завалили вопросами про конкретные цифры для выявленных показателей. На что ориентироваться? Какой уровень водности или там индекса биграммы/униграммы считать хорошим, а какой — плохим? К чему стремиться при доработке текстов? Где буйки, за которые нельзя заплывать?..
Вопросы совершенно закономерные. Безусловно, понимать точные критерии попадания страницы под фильтр было бы просто здорово.

Однако эта задача очень сложна. Поймать различия на нескольких десятках сайтов по отдельности и усреднить их для всей выборки сравнительно просто. Еще более важно, что в этом случае мы можем сравнительно уверенно интерпретировать данные. Хостовые факторы картину не искажают, абсолютные различия переведены в проценты, благодаря чему их можно сравнивать. Просто копаем в сторону самых сильных отклонений и все.

Благодать, основные тенденции выявлены. На практике можно проделать аналогичное исследование для любого сайта и найти самые критичные проблемы конкретных текстов.

Если же просто найти среднее значение текстовых метрик у страниц, попавших под Баден-Баден, то эти данные сами по себе мало что будут значить. Мы не можем быть уверены, отловленные цифры будут актуальны для другого сайта в другой тематике.

В целом, мое мнение по этому вопросу совпадает с тем, что писал Станислав Ставский:

Цитата
Если попытаться определить пороги срабатывания алгоритма, то это практически нереальная, на мой взгляд, задача. В выборках всегда будут примеры, которые должны упасть, но не падают. И, возможно, наоборот. 900 факторов против одного-двух факторов текстового антиспама — всегда будут ситуации, когда документы будут вытягиваться наверх другими сигналами.


Тем не менее даже сомнительные ориентиры могут пригодиться (главное не забывать, откуда они взялись, и не считать их высеченными в камне). Попробуем их выделить, чтобы иметь отправную точку для анализа, задать систему координат.

Хотя, зачем я вру. Главная задача — иметь ссылку, которую можно отправить в ответ на вопрос «много или мало, когда в анализе текстов в bez-bubna.com получаются такие цифры»:



Методика: что и как считаем

Выборка — та же, что и в прошлом исследовании (благо, для этих страниц уже посчитаны все значимые текстовые метрики, определено, попал ли URL под санкции, отброшен откровенный спам). Всего 4297, из них под «Баден-Баденом» 2772.

Однако теперь мы не разбиваем выборку по сайтам (нас интересуют универсальные цифры!), а смотрим средние значения показателей по всем URL сразу, сравнивая «хорошие» и «плохие».

Разумеется, любая разница между средними величинами может оказаться случайной. Крайне важно отличать истинные различия от случайных. К счастью, тут не нужно изобретать велосипед — метод для проверки статистической значимости найденных различий появился более века назад. Это ​t-критерий Стьюдента. Интересующиеся могут загуглить или почитать самое простое объяснение, какое я только встречал, на сайте «Статистика и котики».

Для понимания этой статьи достаточно помнить, что с помощью t-критерия вычисляется вероятность отсутствия различий между средними из двух выборок. Грубо говоря, если для той или иной метрики (например, тошноты) такой шанс больше 1%, то считаем разницу по параметру не доказанной. Если меньше — то берем на вооружение и рассматриваем среднее значение для «плохих» страниц как опасный порог (возможны и другие интерпретации, важнее всего наличие/отсутствие различий как таковое).

Результаты по средним значениям и ​t-критерию

Вот моя рабочая табличка:



Долго вглядываться в нее не надо, главный вывод — статистически достоверные различия демонстрируют только средние значения по академической тошноте и по водности (вероятность значительно меньше 1%, выделено зеленым). Все остальное принимать во внимание нельзя.

Полезным ориентиром можно считать только порог по водности. Видим, что среднее для плохих страниц почти 0,31, а для хороших — 0,29. В общем-то результат ожидаем. «Вода» — естественная часть любых статей, но даже небольшое перенасыщение стоп-словами ухудшает качество текста. Это как машинное масло: без него никуда, но если перелить — мотор не обрадуется.

Конечно, «нормальная» водность может сильно меняться в зависимости от тематики (например, в юридических текстах много перечислений и мало вводных оборотов, а в статьях о литературе – скорее наоборот).

Второй параметр, для которого различия достоверны, академическая тошнота. Вряд ли он особо нам поможет. Тем более что из таблицы можно сделать вывод — «пихай побольше ключей, и будет хорошо». Ведь на страницах под фильтром тошнота ниже. Этот парадокс я подробно разобрал в предыдущей статье.

Можно ли найти дополнительные пороги? Можно!

Введем поправку на водность

Итак, мы получили еще одно свидетельство в пользу того, что тексты с высокой водностью Яндекс не любит. Естественно, мы хотим знать больше. Что еще ему может не нравиться, когда с водностью все в порядке? Сформируем новую выборку проблемных страниц. Возьмем для анализа только те, где водность не превышает 0,3:



Ого, так куда интереснее!
  • Исчезла какая-либо статистическая значимость в отношении тошноты. По всей видимости, она и правда никак не влияет на наложение фильтра (напоминаю, что я работал с выборкой достаточно качественных сайтов, где этот показатель не зашкаливал).
  • Появились значимые различия для показателя вариативности. Впрочем, в абсолютном выражении разница невелика: 0,23 против 0,24. Как и водность, это весьма устойчивый показатель, с небольшой изменчивостью.
  • Наконец, есть достоверная разница (обратите внимание на количество нулей в четвертом столбце!) по тошноте биграмм и триграмм, индексам биграммы-униграмы и триграммы-униграммы.

Выводы

Пропущу миллион оговорок и напоминаний о том, что реальная картина сложнее, чем ограниченная выборка, что различие по параметру еще не говорит о причинно-следственной связи и т.д. и т.п. Надеюсь, это и так понятно. По уму, конечно, нужно строить модель с использованием логистической регрессии. Проще говоря — подбирать формулу, которая бы определяла вероятность попадания страницы под фильтр на основе сразу всех значимых факторов. Я двигаюсь в этом направлении, но прогнозировать что-то сложно, поэтому пока работаем с тем, что есть.

Итак, отправными точками для анализа страниц-кандидатов на попадание под Баден-Баден можно считать:
  • Водность 0,31 и более.
  • Вариативность 0,23 и менее.
  • Тошноту биграмм 3,6 и более
  • Тошноту триграмм 1,8 и более.
  • Индекс биграммы/униграммы 32 и более.
  • Индекс триграммы/униграммы 17 и более.


__________________
Источник: seonews.ru


--------------------
Stimul-Cash и RX-Partners - лидеры фарма бизнеса!


Поблагодарили: (4)
2
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
serg5777
serg5777
сообщение 19.6.2017, 13:44; Ответить: serg5777
Сообщение #2


Сильно по поводу данного фильтра не парюсь, потому-что всегда выкладываю только "человеко-читабельные" тексты, без всяких там "купить насос москва" :)
Но некоторых правил всё же придерживаюсь (по Адвего):
1. Академическая тошнота 7.5-8.5%.
2. Плотность ключа не более 4%.
И полёт относительно нормальный)

Сообщение отредактировал serg5777 - 19.6.2017, 13:46


Поблагодарили: (3)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
andrey10tic
andrey10tic
сообщение 19.6.2017, 18:31; Ответить: andrey10tic
Сообщение #3


Цитата(serg5777 @ 19.6.2017, 13:44) *
потому-что всегда выкладываю только "человеко-читабельные" тексты, без всяких там "купить насос москва"



А вот раньше такой метод очень хорошо работал.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Mydaoseo
Mydaoseo
сообщение 20.6.2017, 10:18; Ответить: Mydaoseo
Сообщение #4


да, я читал на блоге Алексей Трудова, очень классное исследование бадена он провел. Но он взял абсолютные величины водности или тошноты, на практике же при ранжировании действует много других факторов, которые могут перевесить даже то что текст переспамлен или большой процент водности.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Akeeloq
Akeeloq
сообщение 22.6.2017, 14:08; Ответить: Akeeloq
Сообщение #5


Цитата(serg5777 @ 19.6.2017, 15:44) *
Сильно по поводу данного фильтра не парюсь, потому-что всегда выкладываю только "человеко-читабельные" тексты

Вот согласен на 100%


--------------------
★★ Магазин фриланс-услуг «Всё за 500» выполнит: Разработку | Дизайн | Тексты | Аудит
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
_alk0g0lik_
_alk0g0lik_
сообщение 26.6.2017, 17:44; Ответить: _alk0g0lik_
Сообщение #6


Что лучше, если страница попала под Б-Б. Переписать текст или создать новую страницу? Кто пробовал?
Первый вариант дешевле и быстрей, но не факт, что сработает. Второй вариант надежней, но надо ждать, пока новая страница вес наберет.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
pe0ple
pe0ple
сообщение 26.6.2017, 17:53; Ответить: pe0ple
Сообщение #7


Цитата(_alk0g0lik_ @ 26.6.2017, 17:44) *
Что лучше, если страница попала под Б-Б. Переписать текст или создать новую страницу? Кто пробовал?
Первый вариант дешевле и быстрей, но не факт, что сработает. Второй вариант надежней, но надо ждать, пока новая страница вес наберет.


Первый вариант, преимущества вы сами написали
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
_alk0g0lik_
_alk0g0lik_
сообщение 26.6.2017, 17:55; Ответить: _alk0g0lik_
Сообщение #8


pe0ple, но и недостаток есть серьёзный. Может просто не сработать и ББ так и останется... Есть у кого реальный кейс выхода?
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Mydaoseo
Mydaoseo
сообщение 26.6.2017, 17:57; Ответить: Mydaoseo
Сообщение #9


Цитата(_alk0g0lik_ @ 26.6.2017, 16:44) *
Что лучше, если страница попала под Б-Б. Переписать текст или создать новую страницу? Кто пробовал?

текст переписать или убрать переспам если переоптимизация и отправить на переобход. фильтр снимется.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
GlazAlmaz
GlazAlmaz
сообщение 26.6.2017, 18:07; Ответить: GlazAlmaz
Сообщение #10


если сайт попал под хостовый баден-баден (нарушение в панели вебмастера яндекса), то всё что в этой теме выше написано - НЕ работает
ни уменьшение "тошноты"
ни уменьшение "воды"
ни "человеко-читабельные" тексты
ни биграммы/триграммы и прочая хрень

Замечание модератора:
Эта тема была закрыта автоматически ввиду отсутствия активности в ней на протяжении 100+ дней.
Если Вы считаете ее актуальной и хотите оставить сообщение, то воспользуйтесь кнопкой
или обратитесь к любому из модераторов.


--------------------
:: научу, как продвигать сайты :: SEO-шмео, все дела :)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


 



RSS Текстовая версия Сейчас: 19.4.2024, 8:34
Дизайн