X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

Открыть тему
Тема закрыта
> Требуется написать скрипты для автоматизации рутинной работы по проверке уникальности текстов в поисковых системах.
freeax
freeax
Topic Starter сообщение 7.1.2019, 17:32; Ответить: freeax
Сообщение #1


Есть список файлов html. Нужно убрать из него все теги, комментарии, стили css и наиболее распространенные символы html. Я пробовал такие команды в linux shell:
for FILE in $(find . -name '*.html'); do sed -n '1h;2~1H;${g;s/<[^>]*>//g;p}' $FILE>>1; done
find . -type f -name '*.html' -exec sed -e 's/<[^>]*>//g' {} \;
но они выводять все в один новый файл, а нужно просто отредактировать существующие файлы.

Далее требуется написать скрипт, который будет проверять уникальность текста в поисковых системах при помощи сервиса text.ru. Для обхода ограничений сервиса нужно использовать список из <u>ipv6proxy</u>
На входе должны быть текстовые файлы из указанного каталога, на выходе - файлы с указанным в именах файлов процентом уникальности. Итоговые файлы должны быть отсортированы по уникальности, таким образом, чтобы файлы с процентом уникальности от 0 до 70 сохранялись в каталог "копипаст", а остальные - в "уникальные". Файлы объёмом менее 500 символов текста нужно отбрасывать.

Скрипты должны работать на линуксе! Пишите цены и сроки на E-mail: zenkovyurij@yandex.ru


--------------------
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
mmkulikov
mmkulikov
сообщение 8.1.2019, 20:29; Ответить: mmkulikov
Сообщение #2


Цитата(freeax @ 7.1.2019, 15:32) *
и наиболее распространенные символы html.

Это о чём? &nbsp; и т.п. ?

Цитата(freeax @ 7.1.2019, 15:32) *
Нужно убрать из него все теги

А содержимое "между тегами"?
Есть полное ТЗ?


--------------------
Сдается, обращаться скайп avdesk-it-kmm
VPS от 5€
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
devvver
devvver
сообщение 8.1.2019, 21:14; Ответить: devvver
Сообщение #3


Так у них же API есть https://text.ru/api-check
Или дорого?


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
hiberok
hiberok
сообщение 15.1.2019, 13:15; Ответить: hiberok
Сообщение #4


проблема в том, что вам нужно проверять так называемый основной текст страницы, без заголовков, ссылок и прочего. здесь не простая задача.
изначально вам нужно ставить отдельную задачу по написанию скрипта для получения нужного контента с любой страницы, которую вы укажите, для этого писать ТЗ. быть готовым к тому, что это дело займет время + кучу мелких доработок, которые сразу понять нельзя, вслывут только в процессе тестирования.
сам занимаюсь много написанием парсеров, программ для работы с данными и бд.
если есть серьезный настрой и заинтересованность, можете связаться.

Замечание модератора:
Эта тема была закрыта автоматически ввиду отсутствия активности в ней на протяжении 100+ дней.
Если Вы считаете ее актуальной и хотите оставить сообщение, то воспользуйтесь кнопкой
или обратитесь к любому из модераторов.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Посоветуйте массажер для спины и шеи
11 Boymaster 917 Сегодня, 18:24
автор: Arsenwenger
Горячая тема (нет новых ответов) ⭕Антидетект браузер AdsPower для эффективной работы с мультиаккаунтами!
84 AdsPower 24565 Сегодня, 16:35
автор: AdsPower
Горячая тема (нет новых ответов) Betatransfer.net - прием платежей для HIGH RISK проектов, интернет эквайринг и мерчант онлайн оплат
55 arendator 35102 Сегодня, 2:12
автор: arendator
Открытая тема (нет новых ответов) Rebex.io – Ваша инновационная платформа для обмена криптовалюты!
3 Rebex 972 Вчера, 20:50
автор: Rebex
Открытая тема (нет новых ответов) Имитация работы залог успеха?
24 metvekot 1550 Вчера, 18:36
автор: Boymaster


 



RSS Текстовая версия Сейчас: 25.4.2024, 19:10
Дизайн