X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >
Открыть тему
Тема закрыта
> Схожесть текстов, Пишем софт
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 10:29; Ответить: Пуховой
Сообщение #1


Новичок
*******


Группа: Banned
Сообщений: 3674
Регистрация: 8.10.2007
Поблагодарили: 877 раз
Репутация:   251  


Сегодня с утра - переклинило меня сделать доброе дело.

Все мы знаем, что при размещении статей некоторые добрые поисковики имеют наглость их склеивать, если процент их уникальности меньше 50. Наша задача - написать программулину, которая будет из сотен тысяч текстов отбирать только наименее схожие с оригиналом, и пихать их в формат, удобный для использования в сеозавре или allsubmitter.

Так вот. Я не хочу изобретать велосипед. Если кто то слышал о подобном софте, прошу написать сюда. Если такого софта нет, будем релизить!
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
sctas
sctas
сообщение 21.2.2008, 10:48; Ответить: sctas
Сообщение #2


Старожил
******

Группа: Active User
Сообщений: 1480
Регистрация: 8.6.2007
Из: Хабаровск
Поблагодарили: 91 раз
Репутация:   72  


Думаю придётся релизить smile.gif


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 10:54; Ответить: Пуховой
Сообщение #3


Новичок
*******


Группа: Banned
Сообщений: 3674
Регистрация: 8.10.2007
Поблагодарили: 877 раз
Репутация:   251  


Я канешн видел такую софтину. Только она платная - 0, нету демки - 1, не те функции немного - 2.
Даже не то что бы не те, а совсем даже не то что нужно.

Сообщение отредактировал Пуховой - 21.2.2008, 10:55
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
korvin
korvin
сообщение 21.2.2008, 11:20; Ответить: korvin
Сообщение #4


Участник
***

Группа: Viewer
Сообщений: 119
Регистрация: 8.1.2008
Поблагодарили: 0 раз
Репутация:   2  


Гений. Серьезно. Надо будет замутить на perl. Только, разумеется, надо еще и между собой сличать, а не только с оригналом. Ну и глянуть таки, как формат для олсаба выглядит smile.gif.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 11:22; Ответить: Пуховой
Сообщение #5


Новичок
*******


Группа: Banned
Сообщений: 3674
Регистрация: 8.10.2007
Поблагодарили: 877 раз
Репутация:   251  


Если кто то желает помочь в разработке, прошу в аську)
Через часик первую бэту разошлю всем, кто здесь отпишеться.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 11:35; Ответить: Пуховой
Сообщение #6


Новичок
*******


Группа: Banned
Сообщений: 3674
Регистрация: 8.10.2007
Поблагодарили: 877 раз
Репутация:   251  


Формат для оллсаба - обычный xml, вот xdb:

<?xml version="1.0"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema" xmlns:xdb="http://www.borland.com/schemas/delphi/6.0/XMLDataBinding">
<xs:element name="results" type="resultsType"/>
<xs:complexType name="resultsType"><xs:annotation>
<xs:appinfo xdb:docElement="results"/>
</xs:annotation>

<xs:sequence>
<xs:element name="listing" type="listingType" maxOccurs="unbounded"/>
</xs:sequence>
</xs:complexType>
<xs:complexType name="listingType">
<xs:sequence>
<xs:element name="title" type="xs:string"/>
</xs:sequence>
</xs:complexType>
</xs:schema>
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
ReFil
ReFil
сообщение 21.2.2008, 12:36; Ответить: ReFil
Сообщение #7


Новичок
*

Группа: Viewer
Сообщений: 1
Регистрация: 21.2.2008
Поблагодарили: 0 раз
Репутация:   0  


Я хочу поучаствовать в реализации программы.
На форуме SE я нашел один единственный вариант - прграмму shingles, которую написал Hkey. Насчет правильности определения схожети у меня есть некие сомнения, но этот товарищ подходил к вопросу математически. Еще один минус - эта программа сравнивает только два текста. А проверить пару тысяч тяжеловато получается.

Как я вижу это. Надо брать текст, разбивать его на несколько частей и сравнивать эти части по 2-3 слова/фразы. Если есть совпадения - увеличивать процент совпадений, если нет - уменьшать. Затем каждой части присваивать этот процет схожести и считать среднюю между частями.
Для лучшего варианта стоит продумать еще один-два варианта и совместить их.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 12:50; Ответить: Пуховой
Сообщение #8


Новичок
*******


Группа: Banned
Сообщений: 3674
Регистрация: 8.10.2007
Поблагодарили: 877 раз
Репутация:   251  


Я предлагаю использовать функции нечеткого сравнения строк.
Но чорт возьми, пока что функция работает уж ооооочень долго.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
korvin
korvin
сообщение 21.2.2008, 13:20; Ответить: korvin
Сообщение #9


Участник
***

Группа: Viewer
Сообщений: 119
Регистрация: 8.1.2008
Поблагодарили: 0 раз
Репутация:   2  


(Пуховой @ 21.2.2008, 10:22) *
Если кто то желает помочь в разработке, прошу в аську)
Через часик первую бэту разошлю всем, кто здесь отпишеться.


Так ты ж на дельфях, скорее всего делаешь... А я в паскале ни бум-бум sad.gif.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 13:26; Ответить: Пуховой
Сообщение #10


Новичок
*******


Группа: Banned
Сообщений: 3674
Регистрация: 8.10.2007
Поблагодарили: 877 раз
Репутация:   251  


На дельфях, дя...
Нужен ниипатильский алгоритм нечеткого сравнения строк... где его взять?)
Мой устарел... Скорость сравнения - 1 статья 3000 символов в минуту...
Канешн алгоритмне особо удачлив, поковввыряю, но все же...
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
2 страниц V   1 2 >
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыРазмножение текстов
Чмтабельность, уникальность 90-95%
98 volk3d 30584 Сегодня, 4:35
автор: volk3d
Горячая тема (нет новых ответов) Копирайт, рерайт, переводы, размножение текстов
38 DenisPlayer 9930 28.11.2017, 1:13
автор: DenisPlayer
Открытая тема (нет новых ответов) Нужен автор для написание текстов под биржи ссылок
2000 символов = 60р
0 batya 383 25.10.2017, 11:05
автор: batya
Открытая тема (нет новых ответов) Нужен автор текстов - футбол
3 lor08 533 15.10.2017, 19:58
автор: antrat
Горячая тема (нет новых ответов) Нужны помощники/авторы хороших текстов
Тема простая, особых специфических требований нет
40 LuckerMan 7068 6.10.2017, 12:25
автор: LuckerMan


 



RSS Текстовая версия Сейчас: 12.12.2017, 22:39
Дизайн