X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >
Открыть тему
Тема закрыта
> Схожесть текстов, Пишем софт
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 10:29; Ответить: Пуховой
Сообщение #1


Сегодня с утра - переклинило меня сделать доброе дело.

Все мы знаем, что при размещении статей некоторые добрые поисковики имеют наглость их склеивать, если процент их уникальности меньше 50. Наша задача - написать программулину, которая будет из сотен тысяч текстов отбирать только наименее схожие с оригиналом, и пихать их в формат, удобный для использования в сеозавре или allsubmitter.

Так вот. Я не хочу изобретать велосипед. Если кто то слышал о подобном софте, прошу написать сюда. Если такого софта нет, будем релизить!
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
sctas
sctas
сообщение 21.2.2008, 10:48; Ответить: sctas
Сообщение #2


Думаю придётся релизить smile.gif


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 10:54; Ответить: Пуховой
Сообщение #3


Я канешн видел такую софтину. Только она платная - 0, нету демки - 1, не те функции немного - 2.
Даже не то что бы не те, а совсем даже не то что нужно.

Сообщение отредактировал Пуховой - 21.2.2008, 10:55
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
korvin
korvin
сообщение 21.2.2008, 11:20; Ответить: korvin
Сообщение #4


Гений. Серьезно. Надо будет замутить на perl. Только, разумеется, надо еще и между собой сличать, а не только с оригналом. Ну и глянуть таки, как формат для олсаба выглядит smile.gif.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 11:22; Ответить: Пуховой
Сообщение #5


Если кто то желает помочь в разработке, прошу в аську)
Через часик первую бэту разошлю всем, кто здесь отпишеться.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 11:35; Ответить: Пуховой
Сообщение #6


Формат для оллсаба - обычный xml, вот xdb:

<?xml version="1.0"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema" xmlns:xdb="http://www.borland.com/schemas/delphi/6.0/XMLDataBinding">
<xs:element name="results" type="resultsType"/>
<xs:complexType name="resultsType"><xs:annotation>
<xs:appinfo xdb:docElement="results"/>
</xs:annotation>

<xs:sequence>
<xs:element name="listing" type="listingType" maxOccurs="unbounded"/>
</xs:sequence>
</xs:complexType>
<xs:complexType name="listingType">
<xs:sequence>
<xs:element name="title" type="xs:string"/>
</xs:sequence>
</xs:complexType>
</xs:schema>
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
ReFil
ReFil
сообщение 21.2.2008, 12:36; Ответить: ReFil
Сообщение #7


Я хочу поучаствовать в реализации программы.
На форуме SE я нашел один единственный вариант - прграмму shingles, которую написал Hkey. Насчет правильности определения схожети у меня есть некие сомнения, но этот товарищ подходил к вопросу математически. Еще один минус - эта программа сравнивает только два текста. А проверить пару тысяч тяжеловато получается.

Как я вижу это. Надо брать текст, разбивать его на несколько частей и сравнивать эти части по 2-3 слова/фразы. Если есть совпадения - увеличивать процент совпадений, если нет - уменьшать. Затем каждой части присваивать этот процет схожести и считать среднюю между частями.
Для лучшего варианта стоит продумать еще один-два варианта и совместить их.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 12:50; Ответить: Пуховой
Сообщение #8


Я предлагаю использовать функции нечеткого сравнения строк.
Но чорт возьми, пока что функция работает уж ооооочень долго.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
korvin
korvin
сообщение 21.2.2008, 13:20; Ответить: korvin
Сообщение #9


(Пуховой @ 21.2.2008, 10:22) *
Если кто то желает помочь в разработке, прошу в аську)
Через часик первую бэту разошлю всем, кто здесь отпишеться.


Так ты ж на дельфях, скорее всего делаешь... А я в паскале ни бум-бум sad.gif.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 13:26; Ответить: Пуховой
Сообщение #10


На дельфях, дя...
Нужен ниипатильский алгоритм нечеткого сравнения строк... где его взять?)
Мой устарел... Скорость сравнения - 1 статья 3000 символов в минуту...
Канешн алгоритмне особо удачлив, поковввыряю, но все же...
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
2 страниц V   1 2 >
Открыть тему
Тема закрыта
3 чел. читают эту тему (гостей: 3, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Создал сайт с переводами текстов песен, прошу его оценить
8 icefog 363 Вчера, 21:36
автор: nideo
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыРазмножение текстов
Чмтабельность, уникальность 90-95%
167 volk3d 58774 24.11.2020, 21:38
автор: volk3d
Горячая тема (нет новых ответов) Предлагаю написание текстов и наполнение сайтов
Написание статей/новостей и наполнение сайтов, форумов, ИМ
61 e16r 30040 23.11.2020, 16:29
автор: e16r
Открытая тема (нет новых ответов) Нужен исполнитель на постоянную основу для набора небольших текстов
7 Думающий 2732 20.11.2020, 19:09
автор: Думающий
Горячая тема (нет новых ответов) Копирайт, рерайт, переводы, размножение текстов
106 DenisPlayer 31130 16.11.2020, 19:00
автор: DenisPlayer


 



RSS Текстовая версия Сейчас: 28.11.2020, 0:39
Дизайн