X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость ( Вход | Регистрация )

2 страниц V   1 2 >
Открыть тему
Тема закрыта
> Схожесть текстов, Пишем софт
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 10:29; Ответить: Пуховой
Сообщение #1


Топовый постер
*******


Группа: Active User
Сообщений: 3675
Регистрация: 8.10.2007
Поблагодарили: 877 раз
Репутация:   251  


Сегодня с утра - переклинило меня сделать доброе дело.

Все мы знаем, что при размещении статей некоторые добрые поисковики имеют наглость их склеивать, если процент их уникальности меньше 50. Наша задача - написать программулину, которая будет из сотен тысяч текстов отбирать только наименее схожие с оригиналом, и пихать их в формат, удобный для использования в сеозавре или allsubmitter.

Так вот. Я не хочу изобретать велосипед. Если кто то слышал о подобном софте, прошу написать сюда. Если такого софта нет, будем релизить!
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
sctas
sctas
сообщение 21.2.2008, 10:48; Ответить: sctas
Сообщение #2


Старожил
******

Группа: Active User
Сообщений: 1480
Регистрация: 8.6.2007
Из: Хабаровск
Поблагодарили: 91 раз
Репутация:   72  


Думаю придётся релизить smile.gif


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 10:54; Ответить: Пуховой
Сообщение #3


Топовый постер
*******


Группа: Active User
Сообщений: 3675
Регистрация: 8.10.2007
Поблагодарили: 877 раз
Репутация:   251  


Я канешн видел такую софтину. Только она платная - 0, нету демки - 1, не те функции немного - 2.
Даже не то что бы не те, а совсем даже не то что нужно.

Сообщение отредактировал Пуховой - 21.2.2008, 10:55
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
korvin
korvin
сообщение 21.2.2008, 11:20; Ответить: korvin
Сообщение #4


Участник
***

Группа: Viewer
Сообщений: 119
Регистрация: 8.1.2008
Поблагодарили: 0 раз
Репутация:   2  


Гений. Серьезно. Надо будет замутить на perl. Только, разумеется, надо еще и между собой сличать, а не только с оригналом. Ну и глянуть таки, как формат для олсаба выглядит smile.gif.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 11:22; Ответить: Пуховой
Сообщение #5


Топовый постер
*******


Группа: Active User
Сообщений: 3675
Регистрация: 8.10.2007
Поблагодарили: 877 раз
Репутация:   251  


Если кто то желает помочь в разработке, прошу в аську)
Через часик первую бэту разошлю всем, кто здесь отпишеться.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 11:35; Ответить: Пуховой
Сообщение #6


Топовый постер
*******


Группа: Active User
Сообщений: 3675
Регистрация: 8.10.2007
Поблагодарили: 877 раз
Репутация:   251  


Формат для оллсаба - обычный xml, вот xdb:

<?xml version="1.0"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema" xmlns:xdb="http://www.borland.com/schemas/delphi/6.0/XMLDataBinding">
<xs:element name="results" type="resultsType"/>
<xs:complexType name="resultsType"><xs:annotation>
<xs:appinfo xdb:docElement="results"/>
</xs:annotation>

<xs:sequence>
<xs:element name="listing" type="listingType" maxOccurs="unbounded"/>
</xs:sequence>
</xs:complexType>
<xs:complexType name="listingType">
<xs:sequence>
<xs:element name="title" type="xs:string"/>
</xs:sequence>
</xs:complexType>
</xs:schema>
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
ReFil
ReFil
сообщение 21.2.2008, 12:36; Ответить: ReFil
Сообщение #7


Новичок
*

Группа: Viewer
Сообщений: 1
Регистрация: 21.2.2008
Поблагодарили: 0 раз
Репутация:   0  


Я хочу поучаствовать в реализации программы.
На форуме SE я нашел один единственный вариант - прграмму shingles, которую написал Hkey. Насчет правильности определения схожети у меня есть некие сомнения, но этот товарищ подходил к вопросу математически. Еще один минус - эта программа сравнивает только два текста. А проверить пару тысяч тяжеловато получается.

Как я вижу это. Надо брать текст, разбивать его на несколько частей и сравнивать эти части по 2-3 слова/фразы. Если есть совпадения - увеличивать процент совпадений, если нет - уменьшать. Затем каждой части присваивать этот процет схожести и считать среднюю между частями.
Для лучшего варианта стоит продумать еще один-два варианта и совместить их.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 12:50; Ответить: Пуховой
Сообщение #8


Топовый постер
*******


Группа: Active User
Сообщений: 3675
Регистрация: 8.10.2007
Поблагодарили: 877 раз
Репутация:   251  


Я предлагаю использовать функции нечеткого сравнения строк.
Но чорт возьми, пока что функция работает уж ооооочень долго.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
korvin
korvin
сообщение 21.2.2008, 13:20; Ответить: korvin
Сообщение #9


Участник
***

Группа: Viewer
Сообщений: 119
Регистрация: 8.1.2008
Поблагодарили: 0 раз
Репутация:   2  


(Пуховой @ 21.2.2008, 10:22) *
Если кто то желает помочь в разработке, прошу в аську)
Через часик первую бэту разошлю всем, кто здесь отпишеться.


Так ты ж на дельфях, скорее всего делаешь... А я в паскале ни бум-бум sad.gif.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 13:26; Ответить: Пуховой
Сообщение #10


Топовый постер
*******


Группа: Active User
Сообщений: 3675
Регистрация: 8.10.2007
Поблагодарили: 877 раз
Репутация:   251  


На дельфях, дя...
Нужен ниипатильский алгоритм нечеткого сравнения строк... где его взять?)
Мой устарел... Скорость сравнения - 1 статья 3000 символов в минуту...
Канешн алгоритмне особо удачлив, поковввыряю, но все же...
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
2 страниц V   1 2 >
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Написание текстов - от 40р за 1к знаков
10 alexpes2000 577 Сегодня, 0:55
автор: alexpes2000
Горячая тема (нет новых ответов) Предлагаю написание текстов и наполнение сайтов
Написание статей/новостей и наполнение сайтов, форумов, ИМ
43 e16r 17678 23.5.2018, 19:32
автор: e16r
Горячая тема (нет новых ответов) Копирайт, рерайт, переводы, размножение текстов
55 DenisPlayer 12842 22.5.2018, 13:23
автор: DenisPlayer
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыРазмножение текстов
Чмтабельность, уникальность 90-95%
108 volk3d 33428 21.5.2018, 5:05
автор: volk3d
Открытая тема (нет новых ответов) Написание уникальных текстов по выгодным ценам!
13 Oksana10 3023 16.5.2018, 11:19
автор: Oksana10


 



RSS Текстовая версия Сейчас: 25.5.2018, 21:35
Дизайн