X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

3 страниц V   1 2 3 >
Открыть тему
Тема закрыта
> Как распознаются продажные ссылки, история одного исследования
Staurus
Staurus
Topic Starter сообщение 24.11.2010, 13:04; Ответить: Staurus
Сообщение #1


Данное исследование было проведено Муромском институтом (филиалом) Владимирского государственного университета. Здесь представлено краткое его содержание с самыми интересными моментами. Кое-где присутствуют мои заметки и выводы.

Введение рассказывает нам о объемах продажи ссылок на биржах Sape.ru, MainLink.ru, Xap.ru, Link-Feed.ru, SetLinks.ru, Clx.ru.

Целью является изучение различных характеристик продажных ссылок. А также использование этих данных для выявления этих ссылок.

Исходные данные:
Рассматривается 10 сайтов с общим числом страниц около 5000. Они ежедневно мониторились в течение 7 месяцев. Каждый день на сайтах размещалось 5500 ссылок. В это же время сканировались естественные ссылки на этих сайтах.

Ротация ссылок

Ротация ссылок за 7 месяцев:

где Кr – коэффициент ротации ссылок;
L1 – число ссылок, размещенных в данный момент;
L7 – общее число ссылок, размещенных за 7 месяц наблюдений.

Ротация ссылок за 1 месяц:

Krm – коэффициент ротации ссылок за 1 месяц.

После всех проведенных расчетов получилась таблица:


Далее исследовалась ротация естественных ссылок - Kr_n. Рассчитывалась она аналогично Kr. У всех сайтов этот параметр не превысил 0,01, а у большинства вообще был равным нулю.

Ротация естественных ссылок за 1 месяц не превысил 0,002. Смотрим в таблицу и сравниваем.
Получается, большинство естественных ссылок не меняется или меняется на уровне погрешности.

Далее была проверена ротация естественных ссылок на сайтах с динамическим контентом – форумы, блоги, новостные сайты и т.п. Krm_n для них равнялся 0,05.
Получается уже теперь можно с большой вероятностью определить продажность ссылок. При коэффициенте ротации выше 0,1 ссылку можно считать продажной.

Кроме этого, можно считать ротацию в определенных местах сайта. Например, если ссылка в подвале мигает, а в теле сайта остается неизменной, то можно сделать вывод что подвальная ссылка не естественная.

Вывод: продажные ссылки вычислить очень легко. Кроме того, это всего лишь один из параметров, который можно использовать. Но такие ссылки все равно работают. Представители Яндекса уже не раз заявляют о снижении влияния продажных ссылок. Видимо, они отключают это влияние потихоньку, чтобы не было неразберихи в выдаче. Вполне вероятно, что при снижении влияния этих ссылок алгоритм MatrixNet обучается ранжировать сайты без «отрезанной» части влияния ссылок.

Но в тоже время сложно выявить продажные ссылки, которые продаются «навсегда». Также это не должно коснуться ссылок с каталогов, пресс-релизников, досок объявлений и т.п. Такие ссылки работают и теперь, просто сложно найти хорошего донора, т.к. развелось очень много ликопомоек.
Стремимся к вечным ссылкам: рабочие каталоги, релизники, доски объявлений. Также можно купить ссылки, которые очень будут похожи на естественные.


Тематическая близость ссылок

Здесь тематическая ссылка – это ссылка, у которой тематика совпадает и близка к тематике странице, где она размещена.
Тематика определялась по методике, описанной в литературе [10].

Тематических ссылок (Т) среди продажных L1 (5476) обнаружено всего 242. Потом был определен процент тематических ссылок Tlink по формуле:

Результаты в таблице:

Получается, что только 1 из 22 продажных ссылок имеет тематику.

У естественных ссылок этот показатель (Tlink_n) был равным 80%. Но для сайтов, у которых есть каталог, показатель заметно снижался. Если каталог большой, то тематичность ссылок была менее 1 процента.
Заметка: естественны ли ссылки в каталогах – это еще спорный вопрос… Смотря какой каталог. Если это ЯК, то вопросов не возникает. А если немодерируемый ГС-каталог, то о естественности говорить не приходится.

В исследовании делается вывод о том, что тематичность нельзя использовать для выявления продажных ссылок как самостоятельный фактор. Однако его можно использовать в совокупности с другими параметрами.

Вывод: стараемся добывать ссылки с тематически-близких ресурсов. Плюс к этому избираем ротации.
P.S. Вспоминаем доклад Яндекса в Мадриде об определении продажных ссылок на основе тематичности.

Тематика ссылок в блоке

Это самые обыкновенные биржевые ссылки, которые вебмастер размещает в блоке.
Исследование этого параметра нижу в таблице:

Кроме того, что ссылки отличаются от тематики страницы, они еще отличаются по тематике и между собой в блоке.

Вывод: в дополнение всему предыдущему стараемся избегать блочности ссылок.

Время жизни покупных ссылок

Это время от простановки ссылки на сайте до момента ее снятия. В исследовании обозначено как Dlink. Если ссылка пропадала более чем на 10 суток, она считалась удаленной.
Посмотрим как распределилось время жизни ссылок на протяжении года:

Единичные ссылки проживают до конца года.
Ниже время жизни ссылок в процентах, разбитое на месяцы.

Как видно, уже через 2 месяца половина ссылок пропадает. А через пол года исчезает 90% продажных ссылок.
Также, если ваша ссылка стоит долгое время, но вокруг нее мигают другие ссылки в блоке, то вашу ссылку тоже можно заподозрить.

Dlink_n – время жизни естественных ссылок близко к времени жизни страницы, на который стоит ссылка.
Получается, что ссылки, которым менее 6 месяц можно растеривать как продажные.

Вывод: нужно стараться получать «вечные» ссылки. При этом арендованные ссылки не снимать без резких на то причин.

Блуждание ссылок по сайту

Под этим понятием здесь понимается исчезновение ссылки с одной страницы и появление на другой.
Было зафиксировано всего 3 таких перемещения среди покупных ссылок. При перемещении основного контента страницы, ссылка не перемещается. Она привязана к конкретной странице.
В это время естественные ссылки перемещаются вместе с перемещением основного контента страницы.

Анализ динамических характеристик

Для этой цели использовался метод опорных векторов [11]. До этого исследовались только статические признаки. Сейчас к нем еще добавлены признаки, описывающие динамические характеристики:

• коэффициент ротации ссылок на сайте;
• коэффициент ротации ссылок на странице;
• время жизни ссылки на странице;
• время жизни ссылок на сайте;
• время жизни исследуемой ссылки;
• показатель перемещения ссылки по сайту.

Для анализа качества алгоритма были использованы метрики:

Значение этих метрик:

Если сравнить эти данные с прошлыми годами [9] и [11], то заметно улучшение всех метрик. Получается, что распознавать факт продажности ссылок можно еще точнее.
Также снизились показатели ошибочного отнесения естественных ссылок к покупным.
Заметка: все-таки некоторые естественные ссылки распознаются как продажные…

Выводы
1. У продажных ссылок коэффициент ротации больше 0,1.
2. Тематическую близость к странице имеют менее 5% ссылок.
3. Дольше 6 месяцев доживает всего 10%.
4. Продажные ссылки не перемещаются по сайту вместе с перемещением основного контента страницы.

Последний абзац исследования говорит о том, что динамические характеристики дают возможность добиться полноты обнаружения продажных ссылок 92% с точностью 96%.


Мои выводы на текущий момент:
Здесь рассмотрено всего несколько параметров, по которым можно определить продажные ссылки. Думаю, что у поисковых систем их гораздо больше.
Поисковики постепенно уменьшают влияние продажных ссылок. Скорее всего, эта тенденция сохранится. В то же время можно покупать ссылки, которые становится очень сложно определить как продажные.
Если верить данному исследованию, то в будущем будут рулить условно вечные ссылки. В принципе, они уже неплохо рулят

источник: Как определяются продажные ссылки. Экспериментальное исследование

Литература:
[1] Becchetti L., Castillo C., Donato D., Leonardi S., Baeza-Yates R. Link analysis for web spam detec-tion// ACM Trans. Web 2. – 2008. – V. 1. – P. 1-42.
[2] Davison B.D. Recognizing nepotistic links on the web//AAAI-2000 Workshop on Artificial Intelli-gence for Web Search, Austin, TX, 2000. – P. 23-28.
[3] Fetterly D., Manasse M., Najork M. Spam, damn spam, and statistics – using statistical analysis to locate spam web pages//Proc. the 7th Int. Workshop on the Web and Databases (WebDB), Paris, France, 2004.
[4] Gyongyi Z., Berkhin P., Garcia-Molina H., Pedersen J. Link spam detection based on mass estima-tion//32nd Int. Conf. on Very Large Data Bases (VLDB 2006), September 12 – 15, 2006, Seoul, Korea.
[5] Gyongyi Z., Garcia-Molina H. Web spam taxonomy//First Int. Workshop on Adversarial Informa-tion Retrieval on the Web (AIRWeb 2005), May 10 – 14, 2005, Chiba, Japan.
[6] Ntoulas A., Najork M., Manasse M., Fetterly D. Detecting spam web pages through content analy-sis// Proc. of the 15th Int. World Wide Web Con-ference, Edinburgh, Scotland, May 2006. – P. 83-92.
[7] Gan Q., Suel T. Improving web spam classifiers using link structure// Proc. in Third Int. Workshop on Adversarial Information Retrieval on the Web (AIRWeb ’07), May 2007, Banff, Alberta, Canada.
[8]Wu B., Davison B. D. Identifying link farm pages// Proc. of the 14th Int. World Wide Web Conference (WWW), 2005.
[9] Шарапов Р.В., Шарапова Е.В. Обнаружение ссылочного спама // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды Десятой Всерос. науч. конф. RCDL'2008, Дубна, Россия, 7 – 11 октября 2008 г. – Дубна: ОИЯИ, 2008. – С. 191-196.
[10] Шарапов Р.В., Шарапова Е.В. Алгоритм обнаружения ссылочного спама // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной межд. конф. «Диалог 2009» (Бекасово, 27 – 31 мая 2009 г). – М: РГГУ, 2009. – Вып. 8 (15). – С. 537-542.
[11] Шарапов Р.В., Шарапова Е.В. Применение метода опорных векторов для обнаружения ссылочного спама // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XI Всерос. науч. конф. RCDL'2009, Петрозаводск, Россия, 17 – 21 сентября 2009 г. – Петрозаводск: КарНЦ, 2009. – С. 318-324.


Очень интересное исследование, давно хотел поделится им, но только сейчас получил разрешение автора.
Эта статья очень будет полезна всем, кто понял суть. Конечно это не 100% всей истины, но всё же немножко открывает глаза на продажность ссылок.


--------------------
19
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
kronos
kronos
сообщение 24.11.2010, 15:03; Ответить: kronos
Сообщение #2


Пока, сапа.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Globaldota
Globaldota
сообщение 24.11.2010, 15:16; Ответить: Globaldota
Сообщение #3


Низкие коэффициенты у "естественных" ссылок понятны, так как для коммерческих сайтов их практически не бывает. Как получить естественные ссылки сайту завода, который продает полипропиленовые мешки с полиэтиленовым вкладышем?
Сапа проживет еще достаточно, чтобы принести как вебмастерам, так и ее владельцам. не один миллион рублей.


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
evilzipik
evilzipik
сообщение 24.11.2010, 15:19; Ответить: evilzipik
Сообщение #4


отличный анализ и временнозатратный
за труды и интересный материал плюсанул тему


--------------------
Тяжела и неказиста жизнь простого программиста...
вокруг одни сео блоги, а я чем хуже вот и мой блог
(ТЫ)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
merlin
merlin
сообщение 24.11.2010, 16:46; Ответить: merlin
Сообщение #5


отличная статья! smile.gif

Сообщение отредактировал merlin - 24.11.2010, 16:49
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Arvinoff
Arvinoff
сообщение 24.11.2010, 19:27; Ответить: Arvinoff
Сообщение #6


Дружище спасибо за статью! Пробежался по статье и уверен что написано как раз что нужно!
Респект за старание rolleyes.gif : "Побежал читать" ))
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Dest
Dest
сообщение 24.11.2010, 21:50; Ответить: Dest
Сообщение #7


Вот это подход... Целый научный доклад получился) Спасибо!
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
4ester7
4ester7
сообщение 24.11.2010, 22:18; Ответить: 4ester7
Сообщение #8


Действительно интересная статья! Давно таких не писали. Спасибо! GGL рулит smile.gif

Сообщение отредактировал 4ester7 - 24.11.2010, 22:19


--------------------
20% скидки по купону QA73IMGX на Linkbuilder Helper - сервис по базам сайтов.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Limon4ik
Limon4ik
сообщение 24.11.2010, 22:29; Ответить: Limon4ik
Сообщение #9


Спасиба за Статейку rolleyes.gif
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
slamp
slamp
сообщение 24.11.2010, 22:34; Ответить: slamp
Сообщение #10


http://company.yandex.ru/public/conferences/www2009.xml


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
3 страниц V   1 2 3 >
Открыть тему
Тема закрыта
2 чел. читают эту тему (гостей: 2, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Горячая тема (нет новых ответов) Ссылки за которые не стыдно! Качественный линк билдинг сервис под Бурж от Westrank. Честный прайс.
62 DaoDog 46979 Сегодня, 3:30
автор: WestRank_Support
Открытая тема (нет новых ответов) Арбитражники, как ведете учет расходов и доходов?
11 Boymaster 1798 17.4.2024, 23:35
автор: Boymaster
Горячая тема (нет новых ответов) Как вывести деньги в Украине с заблокированного Юмани ?
29 freeax 4806 17.4.2024, 1:19
автор: sergio11
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыКрауд ссылки с форумов, блогов, порталов. Жирные ссылки с Ua,Ru, Бурж площадок. Вечные ссылки в статьях на собственных сайтах
Быстро, качественно и ответственно!
138 vetalbon 66405 13.4.2024, 17:53
автор: vetalbon
Открытая тема (нет новых ответов) SEO Линк Билдинг под Бурж | Вечные ссылки США, Европа и Мир с Гарантией
20 Needmylink1 6997 12.4.2024, 23:32
автор: Needmylink1


 



RSS Текстовая версия Сейчас: 19.4.2024, 8:22
Дизайн