X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

2 страниц V   1 2 >
Открыть тему
Тема закрыта
> Схожесть текстов, Пишем софт
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 10:29; Ответить: Пуховой
Сообщение #1


Сегодня с утра - переклинило меня сделать доброе дело.

Все мы знаем, что при размещении статей некоторые добрые поисковики имеют наглость их склеивать, если процент их уникальности меньше 50. Наша задача - написать программулину, которая будет из сотен тысяч текстов отбирать только наименее схожие с оригиналом, и пихать их в формат, удобный для использования в сеозавре или allsubmitter.

Так вот. Я не хочу изобретать велосипед. Если кто то слышал о подобном софте, прошу написать сюда. Если такого софта нет, будем релизить!
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
sctas
sctas
сообщение 21.2.2008, 10:48; Ответить: sctas
Сообщение #2


Думаю придётся релизить smile.gif


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 10:54; Ответить: Пуховой
Сообщение #3


Я канешн видел такую софтину. Только она платная - 0, нету демки - 1, не те функции немного - 2.
Даже не то что бы не те, а совсем даже не то что нужно.

Сообщение отредактировал Пуховой - 21.2.2008, 10:55
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
korvin
korvin
сообщение 21.2.2008, 11:20; Ответить: korvin
Сообщение #4


Гений. Серьезно. Надо будет замутить на perl. Только, разумеется, надо еще и между собой сличать, а не только с оригналом. Ну и глянуть таки, как формат для олсаба выглядит smile.gif.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 11:22; Ответить: Пуховой
Сообщение #5


Если кто то желает помочь в разработке, прошу в аську)
Через часик первую бэту разошлю всем, кто здесь отпишеться.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 11:35; Ответить: Пуховой
Сообщение #6


Формат для оллсаба - обычный xml, вот xdb:

<?xml version="1.0"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema" xmlns:xdb="http://www.borland.com/schemas/delphi/6.0/XMLDataBinding">
<xs:element name="results" type="resultsType"/>
<xs:complexType name="resultsType"><xs:annotation>
<xs:appinfo xdb:docElement="results"/>
</xs:annotation>

<xs:sequence>
<xs:element name="listing" type="listingType" maxOccurs="unbounded"/>
</xs:sequence>
</xs:complexType>
<xs:complexType name="listingType">
<xs:sequence>
<xs:element name="title" type="xs:string"/>
</xs:sequence>
</xs:complexType>
</xs:schema>
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
ReFil
ReFil
сообщение 21.2.2008, 12:36; Ответить: ReFil
Сообщение #7


Я хочу поучаствовать в реализации программы.
На форуме SE я нашел один единственный вариант - прграмму shingles, которую написал Hkey. Насчет правильности определения схожети у меня есть некие сомнения, но этот товарищ подходил к вопросу математически. Еще один минус - эта программа сравнивает только два текста. А проверить пару тысяч тяжеловато получается.

Как я вижу это. Надо брать текст, разбивать его на несколько частей и сравнивать эти части по 2-3 слова/фразы. Если есть совпадения - увеличивать процент совпадений, если нет - уменьшать. Затем каждой части присваивать этот процет схожести и считать среднюю между частями.
Для лучшего варианта стоит продумать еще один-два варианта и совместить их.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 12:50; Ответить: Пуховой
Сообщение #8


Я предлагаю использовать функции нечеткого сравнения строк.
Но чорт возьми, пока что функция работает уж ооооочень долго.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
korvin
korvin
сообщение 21.2.2008, 13:20; Ответить: korvin
Сообщение #9


(Пуховой @ 21.2.2008, 10:22) *
Если кто то желает помочь в разработке, прошу в аську)
Через часик первую бэту разошлю всем, кто здесь отпишеться.


Так ты ж на дельфях, скорее всего делаешь... А я в паскале ни бум-бум sad.gif.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Пуховой
Пуховой
Topic Starter сообщение 21.2.2008, 13:26; Ответить: Пуховой
Сообщение #10


На дельфях, дя...
Нужен ниипатильский алгоритм нечеткого сравнения строк... где его взять?)
Мой устарел... Скорость сравнения - 1 статья 3000 символов в минуту...
Канешн алгоритмне особо удачлив, поковввыряю, но все же...
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
2 страниц V   1 2 >
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Нужен исполнитель на постоянную основу для набора небольших текстов
20 Думающий 9282 2.4.2024, 18:05
автор: Думающий
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыРазмножение текстов
Чмтабельность, уникальность 90-95%
83 volk3d 105291 23.6.2023, 11:58
автор: volk3d
Открытая тема (нет новых ответов) Подписка на сервис ИИ генерации текстов
16 malamut 3762 16.11.2022, 14:48
автор: malamut
Открытая тема (нет новых ответов) Требуется рерайт/копирайт текстов
написание тематических текстов
4 maxf056 2061 26.3.2022, 21:46
автор: maxf056
Открытая тема (нет новых ответов) Вакансия: написание текстов для GoGetLinks и Miralinks
4 maxf056 1474 26.3.2022, 21:39
автор: maxf056


 



RSS Текстовая версия Сейчас: 18.4.2024, 23:16
Дизайн