X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость ( Вход | Регистрация )


Комментарий к странице
Для эффективного продвижения и раскрутки сайта крайне важна уникальность контента, однако, алгоритм определения данного критерия для разных поисковиков отличается. Как показывает практика, уникальность контента достигается с помощью рерайтов исходного текста, но при этом необходимо заменить синонимом в среднем одно из десяти слов.

Открыть тему
Тема закрыта
> Уникальность контента
grach5
grach5
Topic Starter сообщение 27.11.2008, 10:24; Ответить: grach5
Сообщение #1


Старожил
******


Группа: Active User
Сообщений: 1027
Регистрация: 16.7.2008
Поблагодарили: 104 раза
Репутация:   26  


Раньше проверял методом шинглов и Dcfinde'ом, но потом заметил что если на каждые 10 слов заменить по одному слову - то текст покажется уникальным, хотя на самом деле это не так. Так как же яндекс определяет уникальность?

Собственно вот нашел фразу якобы принадлежащую Илье Сагаловичу: (возможно кто то точно может сказать реально ли это отрывок из его статьи и где можно почитать полную версию?)
Чтобы у читателя не создалось впечатление, что информационный поиск исключительно западная наука, упомяну про альтернативный алгоритм определения почти-дубликатов, придуманный и воплощенный у нас в Яндексе [ilyinsky]. В нем используется тот факт, что большинство поисковых систем уже обладают индексом в виде инвертированного файла (или инвертированным индексом) и этот факт удобно использовать в процедуре нахождения почти-дубликатов.
источник.
http://www.ebanners.ru/viewtopic.php?t=664


Инвертированный файл (inverted file, инверсный файл, инвертированный индекс, инвертированный список) - индекс поисковой системы, в котором перечислены слова коллекции документов, а для каждого слова перечислены все места, в которых оно встретилось.

Условно говоря берется текст, вынимаются из него слова, определяется какое количество раз в данном тексте встречается определенное слово и помечается где оно конкретно находится в тексте (просьба к специалистам поправить меня)



Если в двух документах находится примерно одинаковые слова с примерно одинаковой частотой - то эти документы считаются одинаковыми или берутся на учет и подвергаются дополнительным проверкам.
Всякие предлоги и тд скорее всего не учитываются.

Возможно кто-то точно знает как яндекс определяет уникальность текстов?

P.S. Если я заново изобретаю велосипед, киньте плиз ссылку на устройство этого велосипеда.

Сообщение отредактировал grach5 - 27.11.2008, 10:26
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
it-pomoshnik
it-pomoshnik
сообщение 29.12.2008, 2:14; Ответить: it-pomoshnik
Сообщение #2


Старожил
******

Группа: Active User
Сообщений: 1386
Регистрация: 10.11.2008
Из: Москва, Переделкино
Поблагодарили: 666 раз
Репутация:   101  


Яндекс умеет читать и думать - это факт smile.gif
Я анализировал, как он может определять уникальность.
Смысл анализа таков:
За основу берется "3" объекта: "строка", "предложение", "весь текст".
К каждому из этих объектов Яндекс подходит по разному. В строке выискивает одинаковые слова, словосочетания, варианты написания слов (падежи, число и т.д.). Также по строке выискивает целиком или куски разных предложений, отрывки фраз и т.п. Потом то, что нашел по предложениям и строкам применяет ко всему тексту и ищет в интернет похожее.
Даже если поменять все слова местами, половину убрать и поменять склонения у некоторых существительных, то он все равно найдет 2-3 совпадающих словосочетания, и текст уже не будет уникальным.
Я как-то экспереминтировал - много чего перепробовал, бесполезно.
Вывод: лучше писать самому с нуля.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
shtrih
shtrih
сообщение 29.12.2008, 2:40; Ответить: shtrih
Сообщение #3


Бывалый
****

Группа: User
Сообщений: 459
Регистрация: 2.4.2008
Из: Питер
Поблагодарили: 21 раз
Репутация:   6  


Если я напишу полную бессмыслицу, Яков Карпеич поймёт, что это бред? или охотно проглотит?
В прошлом месеце был случай... сайт слетел, я скан книги делал, так я не правил его... а так пихал на сЦайт, с помарками. Но всё уник! Так Плотон ответил мне :

Платон
"После анализа и классификации страниц Вашего сайта наши алгоритмы приняли
решение не включать его в поиск. Это может быть вызвано неуникальностью
информации, использованием поискового спама или тем, что многие страницы сайта
созданы автоматически и не предназначены для чтения пользователями."

Я
бред! все статьи уникальны, все страницы читаемы и спама нет! каждое описание к фильму уникально... вы помоему и не смотрели ничего! наводит на грустные мысли...


Платон
"Не нужно грустных мыслей, все зависит только от Вас. Развивайте сайт, делайте
его более удобным и интересным. Мы со своей стороны стараемся делать все для
того, чтобы пользователи всегда могли найти актуальную и точную информацию.
Основной критерий не наши алгоритмы, а пользователи. Именно от интереса и
удобства для пользователей зависит позиция сайта."

Я досих пор не понял почему мой сайт слетел... может вы подскажите?
mikmik . ru

Сообщение отредактировал shtrih - 29.12.2008, 2:44
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
it-pomoshnik
it-pomoshnik
сообщение 29.12.2008, 3:01; Ответить: it-pomoshnik
Сообщение #4


Старожил
******

Группа: Active User
Сообщений: 1386
Регистрация: 10.11.2008
Из: Москва, Переделкино
Поблагодарили: 666 раз
Репутация:   101  


Подсказать может только Платон smile.gif
Свою точку зрения он уже высказал.
Я посмотрел сайт.
Нормальный контент, все читаемо...
Может просто таких сайтов в Рунете много или просто у Платона настроение было плохое.
Ему надо было бутыль пивка подогнать, он бы расслабился, повеселел rolleyes.gif


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
lousx
lousx
сообщение 29.12.2008, 3:17; Ответить: lousx
Сообщение #5


Бывалый
****

Группа: User
Сообщений: 275
Регистрация: 23.12.2008
Поблагодарили: 28 раз
Репутация:   -4  


shtrih, скан книги говорите? Разве вам не известно, что это нарушение авторских прав, кот. карается законом?
Делайте вывод.
it-pomoshnik, да вы гений! Каким же это анализом вы пришли к такому выводу?
За основу берется "3" объекта: "строка", "предложение", "весь текст".
К каждому из этих объектов Яндекс подходит по разному. В строке выискивает одинаковые слова, словосочетания, варианты написания слов (падежи, число и т.д.). Также по строке выискивает целиком или куски разных предложений, отрывки фраз и т.п. Потом то, что нашел по предложениям и строкам применяет ко всему тексту и ищет в интернет похожее.
Даже если поменять все слова местами, половину убрать и поменять склонения у некоторых существительных, то он все равно найдет 2-3 совпадающих словосочетания, и текст уже не будет уникальным.

Расписано все до тютильки
Может к вам в руки попали исходники поискового движка? mellow.gif

Сообщение отредактировал lousx - 29.12.2008, 3:20


--------------------
Этот хостинг хостинг уже 2 года служит мне. (Для России | Для Украины)
Я пользуюсь только этой тизеркой и этим попандером и кликандером.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
centurion
centurion
сообщение 29.12.2008, 5:14; Ответить: centurion
Сообщение #6


Топовый постер
*******


Группа: Active User
Сообщений: 2831
Регистрация: 10.12.2007
Из: aceweb
Поблагодарили: 1349 раз
Репутация:   308  


Возможно кто-то точно знает как яндекс определяет уникальность текстов?

Вы издеваетесь? f_4866c2c501a2c.gif
Это алгоритм, он известен узкому кругу. Если его знать на 100%, то деньги лопатой грести можно было бы.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
lousx
lousx
сообщение 29.12.2008, 10:28; Ответить: lousx
Сообщение #7


Бывалый
****

Группа: User
Сообщений: 275
Регистрация: 23.12.2008
Поблагодарили: 28 раз
Репутация:   -4  


it-pomoshnik отличился и определил алгоритм определения уникальности текстов. Респект happy.gif

Сообщение отредактировал lousx - 29.12.2008, 10:43


--------------------
Этот хостинг хостинг уже 2 года служит мне. (Для России | Для Украины)
Я пользуюсь только этой тизеркой и этим попандером и кликандером.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
it-pomoshnik
it-pomoshnik
сообщение 29.12.2008, 11:23; Ответить: it-pomoshnik
Сообщение #8


Старожил
******

Группа: Active User
Сообщений: 1386
Регистрация: 10.11.2008
Из: Москва, Переделкино
Поблагодарили: 666 раз
Репутация:   101  


Наверняка я ничего не знаю. Это всего лишь мои предположения, основанные на длительном эксперименте.
Просто я любопытный и люблю эксперименты.
Эксперемент по уникальности текста я веду с марта 2008 года, когда ко мне обратился за помощью один человек, сайт которого загнали в БАН как раз из-за не уникальности его контента.
А объектов на самом деле - 4.
Есть еще один фактор, влияющий на уникальность, но я пока не могу понять - какой. sad.gif

Сообщение отредактировал it-pomoshnik - 29.12.2008, 11:24


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
lousx
lousx
сообщение 29.12.2008, 14:37; Ответить: lousx
Сообщение #9


Бывалый
****

Группа: User
Сообщений: 275
Регистрация: 23.12.2008
Поблагодарили: 28 раз
Репутация:   -4  


it-pomoshnik, сначала вц сказали, что
Яндекс умеет читать и думать - это факт

Теперь вы говорите, что
Это всего лишь мои предположения

С этого и надо было начинать. Будьте внимательнее в своих формулировках, а то тем самым вводите людей в заблуждение.
На счет эксперемента.
Есть еще один фактор, влияющий на уникальность, но я пока не могу понять - какой.

Это очень интересно. Если вы сможете определить этот фактор, то вашему эксперементу цены не будет...сами понимаете почему wink.gif


--------------------
Этот хостинг хостинг уже 2 года служит мне. (Для России | Для Украины)
Я пользуюсь только этой тизеркой и этим попандером и кликандером.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыA-Parser 1.1 - продвинутый парсер ПС, кейвордов, контента, показателей, 70+ парсеров.
169 Forbidden 103490 Вчера, 14:32
автор: AParser_Support
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыПродаю Качественные, Уникальные статьи на заказ Вебархив от 90 - 100% Уникальность!
Вебархив по очень низкой цене 5р за 1000 символов текста бсп
39 Webfrilanser 6057 4.12.2017, 20:20
автор: Александр30
Открытая тема (нет новых ответов) Нужен парсер контента
Уважаемые знатоки, требуется ваш совет или рекомендация.
4 m1h3y 1050 20.11.2017, 6:56
автор: Strellok
Открытая тема (нет новых ответов) Вакансия, удаленный руководитель отдела контента 25 т. руб + премии
0 Geronimo 394 15.11.2017, 19:19
автор: Geronimo
Открытая тема (нет новых ответов) Монетизация не товарного контента
4 alexmain1107 1470 30.10.2017, 17:44
автор: romann


 



RSS Текстовая версия Сейчас: 16.12.2017, 13:41
Дизайн