X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )


Комментарий к странице
Для эффективного продвижения и раскрутки сайта крайне важна уникальность контента, однако, алгоритм определения данного критерия для разных поисковиков отличается. Как показывает практика, уникальность контента достигается с помощью рерайтов исходного текста, но при этом необходимо заменить синонимом в среднем одно из десяти слов.

Открыть тему
Тема закрыта
> Уникальность контента
grach5
grach5
Topic Starter сообщение 27.11.2008, 10:24; Ответить: grach5
Сообщение #1


Раньше проверял методом шинглов и Dcfinde'ом, но потом заметил что если на каждые 10 слов заменить по одному слову - то текст покажется уникальным, хотя на самом деле это не так. Так как же яндекс определяет уникальность?

Собственно вот нашел фразу якобы принадлежащую Илье Сагаловичу: (возможно кто то точно может сказать реально ли это отрывок из его статьи и где можно почитать полную версию?)
Чтобы у читателя не создалось впечатление, что информационный поиск исключительно западная наука, упомяну про альтернативный алгоритм определения почти-дубликатов, придуманный и воплощенный у нас в Яндексе [ilyinsky]. В нем используется тот факт, что большинство поисковых систем уже обладают индексом в виде инвертированного файла (или инвертированным индексом) и этот факт удобно использовать в процедуре нахождения почти-дубликатов.
источник.
http://www.ebanners.ru/viewtopic.php?t=664


Инвертированный файл (inverted file, инверсный файл, инвертированный индекс, инвертированный список) - индекс поисковой системы, в котором перечислены слова коллекции документов, а для каждого слова перечислены все места, в которых оно встретилось.

Условно говоря берется текст, вынимаются из него слова, определяется какое количество раз в данном тексте встречается определенное слово и помечается где оно конкретно находится в тексте (просьба к специалистам поправить меня)



Если в двух документах находится примерно одинаковые слова с примерно одинаковой частотой - то эти документы считаются одинаковыми или берутся на учет и подвергаются дополнительным проверкам.
Всякие предлоги и тд скорее всего не учитываются.

Возможно кто-то точно знает как яндекс определяет уникальность текстов?

P.S. Если я заново изобретаю велосипед, киньте плиз ссылку на устройство этого велосипеда.

Сообщение отредактировал grach5 - 27.11.2008, 10:26
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
it-pomoshnik
it-pomoshnik
сообщение 29.12.2008, 2:14; Ответить: it-pomoshnik
Сообщение #2


Яндекс умеет читать и думать - это факт smile.gif
Я анализировал, как он может определять уникальность.
Смысл анализа таков:
За основу берется "3" объекта: "строка", "предложение", "весь текст".
К каждому из этих объектов Яндекс подходит по разному. В строке выискивает одинаковые слова, словосочетания, варианты написания слов (падежи, число и т.д.). Также по строке выискивает целиком или куски разных предложений, отрывки фраз и т.п. Потом то, что нашел по предложениям и строкам применяет ко всему тексту и ищет в интернет похожее.
Даже если поменять все слова местами, половину убрать и поменять склонения у некоторых существительных, то он все равно найдет 2-3 совпадающих словосочетания, и текст уже не будет уникальным.
Я как-то экспереминтировал - много чего перепробовал, бесполезно.
Вывод: лучше писать самому с нуля.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
shtrih
shtrih
сообщение 29.12.2008, 2:40; Ответить: shtrih
Сообщение #3


Если я напишу полную бессмыслицу, Яков Карпеич поймёт, что это бред? или охотно проглотит?
В прошлом месеце был случай... сайт слетел, я скан книги делал, так я не правил его... а так пихал на сЦайт, с помарками. Но всё уник! Так Плотон ответил мне :

Платон
"После анализа и классификации страниц Вашего сайта наши алгоритмы приняли
решение не включать его в поиск. Это может быть вызвано неуникальностью
информации, использованием поискового спама или тем, что многие страницы сайта
созданы автоматически и не предназначены для чтения пользователями."

Я
бред! все статьи уникальны, все страницы читаемы и спама нет! каждое описание к фильму уникально... вы помоему и не смотрели ничего! наводит на грустные мысли...


Платон
"Не нужно грустных мыслей, все зависит только от Вас. Развивайте сайт, делайте
его более удобным и интересным. Мы со своей стороны стараемся делать все для
того, чтобы пользователи всегда могли найти актуальную и точную информацию.
Основной критерий не наши алгоритмы, а пользователи. Именно от интереса и
удобства для пользователей зависит позиция сайта."

Я досих пор не понял почему мой сайт слетел... может вы подскажите?
mikmik . ru

Сообщение отредактировал shtrih - 29.12.2008, 2:44
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
it-pomoshnik
it-pomoshnik
сообщение 29.12.2008, 3:01; Ответить: it-pomoshnik
Сообщение #4


Подсказать может только Платон smile.gif
Свою точку зрения он уже высказал.
Я посмотрел сайт.
Нормальный контент, все читаемо...
Может просто таких сайтов в Рунете много или просто у Платона настроение было плохое.
Ему надо было бутыль пивка подогнать, он бы расслабился, повеселел rolleyes.gif


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
lousx
lousx
сообщение 29.12.2008, 3:17; Ответить: lousx
Сообщение #5


shtrih, скан книги говорите? Разве вам не известно, что это нарушение авторских прав, кот. карается законом?
Делайте вывод.
it-pomoshnik, да вы гений! Каким же это анализом вы пришли к такому выводу?
За основу берется "3" объекта: "строка", "предложение", "весь текст".
К каждому из этих объектов Яндекс подходит по разному. В строке выискивает одинаковые слова, словосочетания, варианты написания слов (падежи, число и т.д.). Также по строке выискивает целиком или куски разных предложений, отрывки фраз и т.п. Потом то, что нашел по предложениям и строкам применяет ко всему тексту и ищет в интернет похожее.
Даже если поменять все слова местами, половину убрать и поменять склонения у некоторых существительных, то он все равно найдет 2-3 совпадающих словосочетания, и текст уже не будет уникальным.

Расписано все до тютильки
Может к вам в руки попали исходники поискового движка? mellow.gif

Сообщение отредактировал lousx - 29.12.2008, 3:20


--------------------
Этот хостинг хостинг уже 2 года служит мне. (Для России | Для Украины)
Я пользуюсь только этой тизеркой и этим попандером и кликандером.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
centurion
centurion
сообщение 29.12.2008, 5:14; Ответить: centurion
Сообщение #6


Возможно кто-то точно знает как яндекс определяет уникальность текстов?

Вы издеваетесь? f_4866c2c501a2c.gif
Это алгоритм, он известен узкому кругу. Если его знать на 100%, то деньги лопатой грести можно было бы.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
lousx
lousx
сообщение 29.12.2008, 10:28; Ответить: lousx
Сообщение #7


it-pomoshnik отличился и определил алгоритм определения уникальности текстов. Респект happy.gif

Сообщение отредактировал lousx - 29.12.2008, 10:43


--------------------
Этот хостинг хостинг уже 2 года служит мне. (Для России | Для Украины)
Я пользуюсь только этой тизеркой и этим попандером и кликандером.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
it-pomoshnik
it-pomoshnik
сообщение 29.12.2008, 11:23; Ответить: it-pomoshnik
Сообщение #8


Наверняка я ничего не знаю. Это всего лишь мои предположения, основанные на длительном эксперименте.
Просто я любопытный и люблю эксперименты.
Эксперемент по уникальности текста я веду с марта 2008 года, когда ко мне обратился за помощью один человек, сайт которого загнали в БАН как раз из-за не уникальности его контента.
А объектов на самом деле - 4.
Есть еще один фактор, влияющий на уникальность, но я пока не могу понять - какой. sad.gif

Сообщение отредактировал it-pomoshnik - 29.12.2008, 11:24


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
lousx
lousx
сообщение 29.12.2008, 14:37; Ответить: lousx
Сообщение #9


it-pomoshnik, сначала вц сказали, что
Яндекс умеет читать и думать - это факт

Теперь вы говорите, что
Это всего лишь мои предположения

С этого и надо было начинать. Будьте внимательнее в своих формулировках, а то тем самым вводите людей в заблуждение.
На счет эксперемента.
Есть еще один фактор, влияющий на уникальность, но я пока не могу понять - какой.

Это очень интересно. Если вы сможете определить этот фактор, то вашему эксперементу цены не будет...сами понимаете почему wink.gif

Замечание модератора:
Эта тема была закрыта автоматически ввиду отсутствия активности в ней на протяжении 100+ дней.
Если Вы считаете ее актуальной и хотите оставить сообщение, то воспользуйтесь кнопкой
или обратитесь к любому из модераторов.


--------------------
Этот хостинг хостинг уже 2 года служит мне. (Для России | Для Украины)
Я пользуюсь только этой тизеркой и этим попандером и кликандером.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыA-Parser 1.1 - продвинутый парсер ПС, кейвордов, контента, показателей, 70+ парсеров.
353 Forbidden 279285 11.4.2024, 17:07
автор: AParser_Support
Открытая тема (нет новых ответов) Дайте бесплатного контента! :)
2 Tia2 999 22.12.2023, 18:53
автор: zyzy
Горячая тема (нет новых ответов) Занимаюсь добычей качественного контента из Вебархива. Опыт уже более трех лет
Предоставляю только качественный, читабельный контент.
62 kuz999 38096 27.7.2023, 13:55
автор: kuz999
Открытая тема (нет новых ответов) Ищу помощника (SEO, сбор информации, размещение контента на сайтах, рутина)
0 rokot 830 8.2.2023, 18:35
автор: rokot
Открытая тема (нет новых ответов) Плагин для Wordpress. Вывод контента в зависимости от страны пользователя.
8 neuch 2298 19.9.2022, 7:51
автор: neuch


 



RSS Текстовая версия Сейчас: 20.4.2024, 7:07
Дизайн