X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость ( Вход | Регистрация )

3 страниц V   1 2 3 >
Открыть тему
Тема закрыта
> Как распознаются продажные ссылки, история одного исследования
Staurus
Staurus
Topic Starter сообщение 24.11.2010, 13:04; Ответить: Staurus
Сообщение #1


Big Brother
******


Группа: Active User
Сообщений: 2147
Регистрация: 12.6.2009
Из: Симферополь
Поблагодарили: 2293 раза
Репутация:   253  


Данное исследование было проведено Муромском институтом (филиалом) Владимирского государственного университета. Здесь представлено краткое его содержание с самыми интересными моментами. Кое-где присутствуют мои заметки и выводы.

Введение рассказывает нам о объемах продажи ссылок на биржах Sape.ru, MainLink.ru, Xap.ru, Link-Feed.ru, SetLinks.ru, Clx.ru.

Целью является изучение различных характеристик продажных ссылок. А также использование этих данных для выявления этих ссылок.

Исходные данные:
Рассматривается 10 сайтов с общим числом страниц около 5000. Они ежедневно мониторились в течение 7 месяцев. Каждый день на сайтах размещалось 5500 ссылок. В это же время сканировались естественные ссылки на этих сайтах.

Ротация ссылок

Ротация ссылок за 7 месяцев:

где Кr – коэффициент ротации ссылок;
L1 – число ссылок, размещенных в данный момент;
L7 – общее число ссылок, размещенных за 7 месяц наблюдений.

Ротация ссылок за 1 месяц:

Krm – коэффициент ротации ссылок за 1 месяц.

После всех проведенных расчетов получилась таблица:


Далее исследовалась ротация естественных ссылок - Kr_n. Рассчитывалась она аналогично Kr. У всех сайтов этот параметр не превысил 0,01, а у большинства вообще был равным нулю.

Ротация естественных ссылок за 1 месяц не превысил 0,002. Смотрим в таблицу и сравниваем.
Получается, большинство естественных ссылок не меняется или меняется на уровне погрешности.

Далее была проверена ротация естественных ссылок на сайтах с динамическим контентом – форумы, блоги, новостные сайты и т.п. Krm_n для них равнялся 0,05.
Получается уже теперь можно с большой вероятностью определить продажность ссылок. При коэффициенте ротации выше 0,1 ссылку можно считать продажной.

Кроме этого, можно считать ротацию в определенных местах сайта. Например, если ссылка в подвале мигает, а в теле сайта остается неизменной, то можно сделать вывод что подвальная ссылка не естественная.

Вывод: продажные ссылки вычислить очень легко. Кроме того, это всего лишь один из параметров, который можно использовать. Но такие ссылки все равно работают. Представители Яндекса уже не раз заявляют о снижении влияния продажных ссылок. Видимо, они отключают это влияние потихоньку, чтобы не было неразберихи в выдаче. Вполне вероятно, что при снижении влияния этих ссылок алгоритм MatrixNet обучается ранжировать сайты без «отрезанной» части влияния ссылок.

Но в тоже время сложно выявить продажные ссылки, которые продаются «навсегда». Также это не должно коснуться ссылок с каталогов, пресс-релизников, досок объявлений и т.п. Такие ссылки работают и теперь, просто сложно найти хорошего донора, т.к. развелось очень много ликопомоек.
Стремимся к вечным ссылкам: рабочие каталоги, релизники, доски объявлений. Также можно купить ссылки, которые очень будут похожи на естественные.


Тематическая близость ссылок

Здесь тематическая ссылка – это ссылка, у которой тематика совпадает и близка к тематике странице, где она размещена.
Тематика определялась по методике, описанной в литературе [10].

Тематических ссылок (Т) среди продажных L1 (5476) обнаружено всего 242. Потом был определен процент тематических ссылок Tlink по формуле:

Результаты в таблице:

Получается, что только 1 из 22 продажных ссылок имеет тематику.

У естественных ссылок этот показатель (Tlink_n) был равным 80%. Но для сайтов, у которых есть каталог, показатель заметно снижался. Если каталог большой, то тематичность ссылок была менее 1 процента.
Заметка: естественны ли ссылки в каталогах – это еще спорный вопрос… Смотря какой каталог. Если это ЯК, то вопросов не возникает. А если немодерируемый ГС-каталог, то о естественности говорить не приходится.

В исследовании делается вывод о том, что тематичность нельзя использовать для выявления продажных ссылок как самостоятельный фактор. Однако его можно использовать в совокупности с другими параметрами.

Вывод: стараемся добывать ссылки с тематически-близких ресурсов. Плюс к этому избираем ротации.
P.S. Вспоминаем доклад Яндекса в Мадриде об определении продажных ссылок на основе тематичности.

Тематика ссылок в блоке

Это самые обыкновенные биржевые ссылки, которые вебмастер размещает в блоке.
Исследование этого параметра нижу в таблице:

Кроме того, что ссылки отличаются от тематики страницы, они еще отличаются по тематике и между собой в блоке.

Вывод: в дополнение всему предыдущему стараемся избегать блочности ссылок.

Время жизни покупных ссылок

Это время от простановки ссылки на сайте до момента ее снятия. В исследовании обозначено как Dlink. Если ссылка пропадала более чем на 10 суток, она считалась удаленной.
Посмотрим как распределилось время жизни ссылок на протяжении года:

Единичные ссылки проживают до конца года.
Ниже время жизни ссылок в процентах, разбитое на месяцы.

Как видно, уже через 2 месяца половина ссылок пропадает. А через пол года исчезает 90% продажных ссылок.
Также, если ваша ссылка стоит долгое время, но вокруг нее мигают другие ссылки в блоке, то вашу ссылку тоже можно заподозрить.

Dlink_n – время жизни естественных ссылок близко к времени жизни страницы, на который стоит ссылка.
Получается, что ссылки, которым менее 6 месяц можно растеривать как продажные.

Вывод: нужно стараться получать «вечные» ссылки. При этом арендованные ссылки не снимать без резких на то причин.

Блуждание ссылок по сайту

Под этим понятием здесь понимается исчезновение ссылки с одной страницы и появление на другой.
Было зафиксировано всего 3 таких перемещения среди покупных ссылок. При перемещении основного контента страницы, ссылка не перемещается. Она привязана к конкретной странице.
В это время естественные ссылки перемещаются вместе с перемещением основного контента страницы.

Анализ динамических характеристик

Для этой цели использовался метод опорных векторов [11]. До этого исследовались только статические признаки. Сейчас к нем еще добавлены признаки, описывающие динамические характеристики:

• коэффициент ротации ссылок на сайте;
• коэффициент ротации ссылок на странице;
• время жизни ссылки на странице;
• время жизни ссылок на сайте;
• время жизни исследуемой ссылки;
• показатель перемещения ссылки по сайту.

Для анализа качества алгоритма были использованы метрики:

Значение этих метрик:

Если сравнить эти данные с прошлыми годами [9] и [11], то заметно улучшение всех метрик. Получается, что распознавать факт продажности ссылок можно еще точнее.
Также снизились показатели ошибочного отнесения естественных ссылок к покупным.
Заметка: все-таки некоторые естественные ссылки распознаются как продажные…

Выводы
1. У продажных ссылок коэффициент ротации больше 0,1.
2. Тематическую близость к странице имеют менее 5% ссылок.
3. Дольше 6 месяцев доживает всего 10%.
4. Продажные ссылки не перемещаются по сайту вместе с перемещением основного контента страницы.

Последний абзац исследования говорит о том, что динамические характеристики дают возможность добиться полноты обнаружения продажных ссылок 92% с точностью 96%.


Мои выводы на текущий момент:
Здесь рассмотрено всего несколько параметров, по которым можно определить продажные ссылки. Думаю, что у поисковых систем их гораздо больше.
Поисковики постепенно уменьшают влияние продажных ссылок. Скорее всего, эта тенденция сохранится. В то же время можно покупать ссылки, которые становится очень сложно определить как продажные.
Если верить данному исследованию, то в будущем будут рулить условно вечные ссылки. В принципе, они уже неплохо рулят

источник: Как определяются продажные ссылки. Экспериментальное исследование

Литература:
[1] Becchetti L., Castillo C., Donato D., Leonardi S., Baeza-Yates R. Link analysis for web spam detec-tion// ACM Trans. Web 2. – 2008. – V. 1. – P. 1-42.
[2] Davison B.D. Recognizing nepotistic links on the web//AAAI-2000 Workshop on Artificial Intelli-gence for Web Search, Austin, TX, 2000. – P. 23-28.
[3] Fetterly D., Manasse M., Najork M. Spam, damn spam, and statistics – using statistical analysis to locate spam web pages//Proc. the 7th Int. Workshop on the Web and Databases (WebDB), Paris, France, 2004.
[4] Gyongyi Z., Berkhin P., Garcia-Molina H., Pedersen J. Link spam detection based on mass estima-tion//32nd Int. Conf. on Very Large Data Bases (VLDB 2006), September 12 – 15, 2006, Seoul, Korea.
[5] Gyongyi Z., Garcia-Molina H. Web spam taxonomy//First Int. Workshop on Adversarial Informa-tion Retrieval on the Web (AIRWeb 2005), May 10 – 14, 2005, Chiba, Japan.
[6] Ntoulas A., Najork M., Manasse M., Fetterly D. Detecting spam web pages through content analy-sis// Proc. of the 15th Int. World Wide Web Con-ference, Edinburgh, Scotland, May 2006. – P. 83-92.
[7] Gan Q., Suel T. Improving web spam classifiers using link structure// Proc. in Third Int. Workshop on Adversarial Information Retrieval on the Web (AIRWeb ’07), May 2007, Banff, Alberta, Canada.
[8]Wu B., Davison B. D. Identifying link farm pages// Proc. of the 14th Int. World Wide Web Conference (WWW), 2005.
[9] Шарапов Р.В., Шарапова Е.В. Обнаружение ссылочного спама // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды Десятой Всерос. науч. конф. RCDL'2008, Дубна, Россия, 7 – 11 октября 2008 г. – Дубна: ОИЯИ, 2008. – С. 191-196.
[10] Шарапов Р.В., Шарапова Е.В. Алгоритм обнаружения ссылочного спама // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной межд. конф. «Диалог 2009» (Бекасово, 27 – 31 мая 2009 г). – М: РГГУ, 2009. – Вып. 8 (15). – С. 537-542.
[11] Шарапов Р.В., Шарапова Е.В. Применение метода опорных векторов для обнаружения ссылочного спама // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XI Всерос. науч. конф. RCDL'2009, Петрозаводск, Россия, 17 – 21 сентября 2009 г. – Петрозаводск: КарНЦ, 2009. – С. 318-324.


Очень интересное исследование, давно хотел поделится им, но только сейчас получил разрешение автора.
Эта статья очень будет полезна всем, кто понял суть. Конечно это не 100% всей истины, но всё же немножко открывает глаза на продажность ссылок.


--------------------
19
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
kronos
kronos
сообщение 24.11.2010, 15:03; Ответить: kronos
Сообщение #2


Белый веб-мастер
*******


Группа: Active User
Сообщений: 4700
Регистрация: 10.2.2009
Из: Харьков
Поблагодарили: 2623 раза
Репутация:   327  


Пока, сапа.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Globaldota
Globaldota
сообщение 24.11.2010, 15:16; Ответить: Globaldota
Сообщение #3


Бывалый
****

Группа: User
Сообщений: 470
Регистрация: 11.9.2009
Из: Москва
Поблагодарили: 224 раза
Репутация:   28  


Низкие коэффициенты у "естественных" ссылок понятны, так как для коммерческих сайтов их практически не бывает. Как получить естественные ссылки сайту завода, который продает полипропиленовые мешки с полиэтиленовым вкладышем?
Сапа проживет еще достаточно, чтобы принести как вебмастерам, так и ее владельцам. не один миллион рублей.


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
evilzipik
evilzipik
сообщение 24.11.2010, 15:19; Ответить: evilzipik
Сообщение #4


Участник
***

Группа: User
Сообщений: 237
Регистрация: 29.6.2010
Поблагодарили: 80 раз
Репутация:   5  


отличный анализ и временнозатратный
за труды и интересный материал плюсанул тему


--------------------
Тяжела и неказиста жизнь простого программиста...
вокруг одни сео блоги, а я чем хуже вот и мой блог
(ТЫ)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
merlin
merlin
сообщение 24.11.2010, 16:46; Ответить: merlin
Сообщение #5


Бывалый
****

Группа: User
Сообщений: 364
Регистрация: 30.6.2010
Из: Россия, Орел
Поблагодарили: 52 раза
Репутация:   4  


отличная статья! smile.gif

Сообщение отредактировал merlin - 24.11.2010, 16:49
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Arvinoff
Arvinoff
сообщение 24.11.2010, 19:27; Ответить: Arvinoff
Сообщение #6


Бывалый
****

Группа: User
Сообщений: 353
Регистрация: 24.4.2010
Поблагодарили: 77 раз
Репутация:   7  


Дружище спасибо за статью! Пробежался по статье и уверен что написано как раз что нужно!
Респект за старание rolleyes.gif : "Побежал читать" ))
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Dest
Dest
сообщение 24.11.2010, 21:50; Ответить: Dest
Сообщение #7


Новичок
*

Группа: User
Сообщений: 35
Регистрация: 20.11.2008
Поблагодарили: 5 раз
Репутация:   1  


Вот это подход... Целый научный доклад получился) Спасибо!
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
4ester7
4ester7
сообщение 24.11.2010, 22:18; Ответить: 4ester7
Сообщение #8


Житель Форума
******


Группа: Active User
Сообщений: 1610
Регистрация: 21.5.2009
Из: Кременчуг
Поблагодарили: 465 раз
Репутация:   104  


Действительно интересная статья! Давно таких не писали. Спасибо! GGL рулит smile.gif

Сообщение отредактировал 4ester7 - 24.11.2010, 22:19


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Limon4ik
Limon4ik
сообщение 24.11.2010, 22:29; Ответить: Limon4ik
Сообщение #9


Новичок
*

Группа: Viewer
Сообщений: 4
Регистрация: 16.9.2010
Поблагодарили: 0 раз
Репутация:   0  


Спасиба за Статейку rolleyes.gif
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
slamp
slamp
сообщение 24.11.2010, 22:34; Ответить: slamp
Сообщение #10


Завсегдатай
*****

Группа: Active User
Сообщений: 839
Регистрация: 25.3.2008
Поблагодарили: 185 раз
Репутация:   22  


http://company.yandex.ru/public/conferences/www2009.xml


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
3 страниц V   1 2 3 >
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Как раскрутить группу по доставке цветов в VK?
20 almadavro 2636 Сегодня, 0:42
автор: Toondesign
Открытая тема (нет новых ответов) Как зарабатывать от 500 usd в месяц на своих сайтах. Лидогенерация за процент от сделки
25 yargromov 3544 Сегодня, 0:29
автор: Toondesign
Открытая тема (нет новых ответов) Как продвинуть коммерческий сайт в гугле
Не получается приблизиться к топу в гугле
11 Rikster 934 Вчера, 23:27
автор: Rikster
Горячая тема (нет новых ответов) Как стать блоггером-миллионером?
Школа блоггеров и другие тренинги А.Борисова
43 grumdas 7751 Вчера, 23:24
автор: SocialLima
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыПризнавайтесь, как выглядит ваше рабочее место?
Сфоткали и выложили
50 Главтурнир 1727 Вчера, 1:53
автор: kasey7


 



RSS Текстовая версия Сейчас: 11.12.2016, 10:03
Дизайн