Данное исследование было проведено Муромском институтом (филиалом) Владимирского государственного университета. Здесь представлено краткое его содержание с самыми интересными моментами. Кое-где присутствуют мои заметки и выводы.
Введение рассказывает нам о объемах продажи ссылок на биржах Sape.ru, MainLink.ru, Xap.ru, Link-Feed.ru, SetLinks.ru, Clx.ru.
Целью является изучение различных характеристик продажных ссылок. А также использование этих данных для выявления этих ссылок.
Исходные данные:Рассматривается 10 сайтов с общим числом страниц около 5000. Они ежедневно мониторились в течение 7 месяцев. Каждый день на сайтах размещалось 5500 ссылок. В это же время сканировались естественные ссылки на этих сайтах.
Ротация ссылокРотация ссылок за 7 месяцев:
где Кr – коэффициент ротации ссылок;
L1 – число ссылок, размещенных в данный момент;
L7 – общее число ссылок, размещенных за 7 месяц наблюдений.
Ротация ссылок за 1 месяц:
Krm – коэффициент ротации ссылок за 1 месяц.
После всех проведенных расчетов получилась таблица:
Далее исследовалась
ротация естественных ссылок - Kr_n. Рассчитывалась она аналогично Kr. У всех сайтов этот параметр
не превысил 0,01, а у большинства вообще был равным нулю.
Ротация естественных ссылок за 1 месяц
не превысил 0,002. Смотрим в таблицу и сравниваем.
Получается, большинство естественных ссылок не меняется или меняется на уровне погрешности.
Далее была проверена
ротация естественных ссылок на сайтах с динамическим контентом – форумы, блоги, новостные сайты и т.п.
Krm_n для них равнялся 0,05.
Получается уже теперь можно с большой вероятностью определить продажность ссылок.
При коэффициенте ротации выше 0,1 ссылку можно считать продажной.
Кроме этого, можно считать ротацию в определенных местах сайта. Например, если ссылка в подвале мигает, а в теле сайта остается неизменной, то можно сделать вывод что подвальная ссылка не естественная.
Вывод: продажные ссылки вычислить очень легко. Кроме того, это всего лишь один из параметров, который можно использовать. Но такие ссылки все равно работают. Представители Яндекса уже не раз заявляют о снижении влияния продажных ссылок. Видимо,
они отключают это влияние потихоньку, чтобы не было неразберихи в выдаче. Вполне вероятно, что при снижении влияния этих ссылок
алгоритм MatrixNet обучается ранжировать сайты без «отрезанной» части влияния ссылок.
Но в тоже время сложно выявить продажные ссылки, которые продаются «навсегда». Также это не должно коснуться ссылок с каталогов, пресс-релизников, досок объявлений и т.п. Такие ссылки работают и теперь, просто сложно найти хорошего донора, т.к. развелось очень много ликопомоек.
Стремимся к вечным ссылкам: рабочие каталоги, релизники, доски объявлений. Также можно купить ссылки, которые очень будут похожи на естественные.
Тематическая близость ссылокЗдесь тематическая ссылка – это ссылка, у которой тематика совпадает и близка к тематике странице, где она размещена.
Тематика определялась по методике, описанной в литературе [10].
Тематических ссылок (Т) среди продажных L1 (5476)
обнаружено всего 242. Потом был определен процент тематических ссылок Tlink по формуле:
Результаты в таблице:
Получается, что
только 1 из 22 продажных ссылок имеет тематику.
У естественных ссылок этот показатель (Tlink_n) был
равным 80%. Но для сайтов, у которых есть каталог, показатель заметно снижался. Если каталог большой, то тематичность ссылок была менее 1 процента.
Заметка: естественны ли ссылки в каталогах – это еще спорный вопрос… Смотря какой каталог. Если это ЯК, то вопросов не возникает. А если немодерируемый ГС-каталог, то о естественности говорить не приходится.
В исследовании делается вывод о том, что
тематичность нельзя использовать для выявления продажных ссылок как самостоятельный фактор. Однако его можно использовать в совокупности с другими параметрами.
Вывод: стараемся добывать ссылки с тематически-близких ресурсов. Плюс к этому избираем ротации.
P.S. Вспоминаем доклад Яндекса в Мадриде об определении продажных ссылок на основе тематичности.
Тематика ссылок в блокеЭто самые обыкновенные биржевые ссылки, которые вебмастер размещает в блоке.
Исследование этого параметра нижу в таблице:
Кроме того, что ссылки отличаются от тематики страницы, они еще отличаются по тематике и между собой в блоке.
Вывод: в дополнение всему предыдущему стараемся избегать блочности ссылок.
Время жизни покупных ссылокЭто время от простановки ссылки на сайте до момента ее снятия. В исследовании обозначено как Dlink. Если ссылка пропадала более чем на 10 суток, она считалась удаленной.
Посмотрим как распределилось время жизни ссылок на протяжении года:
Единичные ссылки проживают до конца года.
Ниже время жизни ссылок в процентах, разбитое на месяцы.
Как видно,
уже через 2 месяца половина ссылок пропадает. А через
пол года исчезает 90% продажных ссылок.
Также, если ваша ссылка стоит долгое время, но вокруг нее мигают другие ссылки в блоке, то вашу ссылку тоже можно заподозрить.
Dlink_n –
время жизни естественных ссылок близко к времени жизни страницы, на который стоит ссылка.
Получается, что ссылки, которым менее 6 месяц можно растеривать как продажные.
Вывод: нужно стараться получать «вечные» ссылки. При этом арендованные ссылки не снимать без резких на то причин.
Блуждание ссылок по сайтуПод этим понятием здесь понимается исчезновение ссылки с одной страницы и появление на другой.
Было зафиксировано
всего 3 таких перемещения среди покупных ссылок. При перемещении основного контента страницы, ссылка не перемещается. Она привязана к конкретной странице.
В это время естественные ссылки перемещаются вместе с перемещением основного контента страницы.
Анализ динамических характеристикДля этой цели использовался метод опорных векторов [11]. До этого исследовались только статические признаки. Сейчас к нем еще добавлены признаки, описывающие динамические характеристики:
• коэффициент ротации ссылок на сайте;
• коэффициент ротации ссылок на странице;
• время жизни ссылки на странице;
• время жизни ссылок на сайте;
• время жизни исследуемой ссылки;
• показатель перемещения ссылки по сайту.
Для анализа качества алгоритма были использованы метрики:
Значение этих метрик:
Если сравнить эти данные с прошлыми годами [9] и [11], то заметно улучшение всех метрик. Получается, что
распознавать факт продажности ссылок можно еще точнее.
Также снизились показатели ошибочного отнесения естественных ссылок к покупным.
Заметка: все-таки некоторые естественные ссылки распознаются как продажные…
Выводы1. У продажных ссылок коэффициент ротации больше 0,1.
2. Тематическую близость к странице имеют менее 5% ссылок.
3. Дольше 6 месяцев доживает всего 10%.
4. Продажные ссылки не перемещаются по сайту вместе с перемещением основного контента страницы.
Последний абзац исследования говорит о том, что динамические характеристики дают возможность добиться полноты
обнаружения продажных ссылок 92% с точностью 96%.
Мои выводы на текущий момент: Здесь рассмотрено всего несколько параметров, по которым можно определить продажные ссылки. Думаю, что у поисковых систем их гораздо больше.
Поисковики постепенно уменьшают влияние продажных ссылок. Скорее всего, эта тенденция сохранится. В то же время можно покупать ссылки, которые становится очень сложно определить как продажные.
Если верить данному исследованию, то
в будущем будут рулить условно вечные ссылки. В принципе, они уже неплохо рулят
источник:
Как определяются продажные ссылки. Экспериментальное исследованиеЛитература:
[1] Becchetti L., Castillo C., Donato D., Leonardi S., Baeza-Yates R. Link analysis for web spam detec-tion// ACM Trans. Web 2. – 2008. – V. 1. – P. 1-42.
[2] Davison B.D. Recognizing nepotistic links on the web//AAAI-2000 Workshop on Artificial Intelli-gence for Web Search, Austin, TX, 2000. – P. 23-28.
[3] Fetterly D., Manasse M., Najork M. Spam, damn spam, and statistics – using statistical analysis to locate spam web pages//Proc. the 7th Int. Workshop on the Web and Databases (WebDB), Paris, France, 2004.
[4] Gyongyi Z., Berkhin P., Garcia-Molina H., Pedersen J. Link spam detection based on mass estima-tion//32nd Int. Conf. on Very Large Data Bases (VLDB 2006), September 12 – 15, 2006, Seoul, Korea.
[5] Gyongyi Z., Garcia-Molina H. Web spam taxonomy//First Int. Workshop on Adversarial Informa-tion Retrieval on the Web (AIRWeb 2005), May 10 – 14, 2005, Chiba, Japan.
[6] Ntoulas A., Najork M., Manasse M., Fetterly D. Detecting spam web pages through content analy-sis// Proc. of the 15th Int. World Wide Web Con-ference, Edinburgh, Scotland, May 2006. – P. 83-92.
[7] Gan Q., Suel T. Improving web spam classifiers using link structure// Proc. in Third Int. Workshop on Adversarial Information Retrieval on the Web (AIRWeb ’07), May 2007, Banff, Alberta, Canada.
[8]Wu B., Davison B. D. Identifying link farm pages// Proc. of the 14th Int. World Wide Web Conference (WWW), 2005.
[9] Шарапов Р.В., Шарапова Е.В. Обнаружение ссылочного спама // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды Десятой Всерос. науч. конф. RCDL'2008, Дубна, Россия, 7 – 11 октября 2008 г. – Дубна: ОИЯИ, 2008. – С. 191-196.
[10] Шарапов Р.В., Шарапова Е.В. Алгоритм обнаружения ссылочного спама // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной межд. конф. «Диалог 2009» (Бекасово, 27 – 31 мая 2009 г). – М: РГГУ, 2009. – Вып. 8 (15). – С. 537-542.
[11] Шарапов Р.В., Шарапова Е.В. Применение метода опорных векторов для обнаружения ссылочного спама // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XI Всерос. науч. конф. RCDL'2009, Петрозаводск, Россия, 17 – 21 сентября 2009 г. – Петрозаводск: КарНЦ, 2009. – С. 318-324.Очень интересное исследование, давно хотел поделится им, но только сейчас получил разрешение автора.
Эта статья очень будет полезна всем, кто понял суть. Конечно это не 100% всей истины, но всё же немножко открывает глаза на продажность ссылок.