X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

2 страниц V  < 1 2
Открыть тему
Добавить ответ в эту тему
> Нужна защита сайта от парсинга, Сайт парсит WpGrabber, нужна защита
ekvador
ekvador
сообщение 2.5.2020, 2:27; Ответить: ekvador
Сообщение #12


Цитата(rom_4 @ 1.5.2020, 11:22) *
каждая страница должна иметь не повторяющуюся, уникальную html разметку

ну так паттерн старт <h1> и end </article> (например) и без разницы какие селекторы, нет смысла менять
у меня этого грабера нет, но судя по тем скринам, что вижу, там прокси и user agent задается поштучно. взять средние цифры по числу просмотров страниц сайта и банить юзеров по связке ip + user agent, превысивших лимит просмотров
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
rom_4
rom_4
сообщение 2.5.2020, 11:30; Ответить: rom_4
Сообщение #13


Цитата(ekvador @ 2.5.2020, 1:27) *
ну так паттерн старт <h1> и end </article> (например) и без разницы какие селекторы, нет смысла менять

не всегда это работает с <H1> и т.п, даже скажем так, нечасто, не разбирался почему так, привязку делал к другим элементам. но для людей, хорошо знающих регулярные выражения, нет ничего сложного в настройке парсинга.



--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
qpPeW
qpPeW
сообщение 2.5.2020, 13:45; Ответить: qpPeW
Сообщение #14


tygrytsa, до конца года будете ограничивать IP которые используются для прокси.


--------------------
Веб-разработка (HTML5, CSS3, JavaScript, jQuery, Ajax, PHP) :: БЫСТРО :: КАЧЕСТВЕННО :: ДОСТУПНО
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
tygrytsa
tygrytsa
сообщение 2.5.2020, 18:47; Ответить: tygrytsa
Сообщение #15


qpPeW, насколько я понимаю, парсит плагин, стоящий на сайте. Кто будет менять IP сайта каждый день? Да и вообще затея тупая. Защититься невозможно. Если контент и правда стоящий, то все равно стащат.
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
ekvador
ekvador
сообщение 2.5.2020, 19:49; Ответить: ekvador
Сообщение #16


Цитата(rom_4 @ 2.5.2020, 10:30) *
не всегда это работает с <H1>

я написал о том, что почти на каждом сайте есть основные элементы разметки заголовки, элементы html5 и т.д., и что по этим элементам можно регуляркой парсить, несмотря на изменения в селекторах. а вы о чем?
Цитата(qpPeW @ 2.5.2020, 12:45) *
до конца года будете ограничивать IP

о привязке к ip речи нет. берется связка ip юзера и его user agent, считаются его переходы по страницам за определенный промежуток времени. превысил - в бан. в таком случае нужно только прописать интервал времени и количество страниц, которые может просмотреть обычный юзер за это время. там еще много чего можно придумать для контроля на автомате. например, качает юзер картинки или нет. парсер не будет скорее всего, а браузер будет. ну и т.д.
Цитата(tygrytsa @ 2.5.2020, 17:47) *
Кто будет менять IP сайта каждый день

если у него в грабере прописываются поштучно, то устанет менять после банов. ну а списком конечно можно парсить
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Limonadik
Limonadik
Topic Starter сообщение 6.5.2020, 15:14; Ответить: Limonadik
Сообщение #17


Цитата(ekvador @ 2.5.2020, 19:49) *
если у него в грабере прописываются поштучно, то устанет менять после банов. ну а списком конечно можно парсить

Я так понимаю, через прокси парсит. Кучу ip забанил, но новости так и продолжают парсить.

Понятно, что защитить контент полностью от копирования нереально и такой цели нет. Хотелось бы запретить делать это конкретным сайтам WpGrabber-ом.

P.S. Спасибо всем за советы и мнения, к сожалению, проблему так и не удалось пока решить(

Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
WoWeb
WoWeb
сообщение 6.5.2020, 15:16; Ответить: WoWeb
Сообщение #18


Limonadik, Перенесите на клауд и включите режим bot-fight. Высока вероятность что поможет.


--------------------


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
pyaterka
pyaterka
сообщение 17.5.2020, 20:56; Ответить: pyaterka
Сообщение #19


Limonadik, я бы как минимум сделал антидос, + ко всему запретил бы правую кнопку мышки+ запретил бы клавиатуру в запросах) да есть море вариантов) все зависит от того на сколько Готовы платить)


--------------------
кидала, мошенник
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
pyaterka
pyaterka
сообщение 20.5.2020, 0:18; Ответить: pyaterka
Сообщение #20


tygrytsa, блок айпи в .htaccess это самое банальное что можно придумать?) а если реально так я бы сделал антидос , да и ко всему бы запретил бы правую кнопку мыши, и определенные значения клавиатуры , это как минимум будет перспективно .


--------------------
кидала, мошенник
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
2 страниц V  < 1 2
Открыть тему
Добавить ответ в эту тему
Быстрый ответ
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Нужна ли плоская структура категорий в ИМ?
1 noviktamw 1063 26.3.2024, 21:50
автор: c4p1t4l15t
Горячая тема (нет новых ответов) Продвижение молодого сайта
30 maxmer 6367 26.3.2024, 21:49
автор: c4p1t4l15t
Открытая тема (нет новых ответов) SEO-текст на главной странице сайта и в категориях
5 boltuk 1354 26.3.2024, 21:43
автор: c4p1t4l15t
Открытая тема (нет новых ответов) Какой % отказов нормален для сайта?
10 Aloof 2544 24.3.2024, 21:45
автор: Liudmila
Горячая тема (нет новых ответов) Тема имеет прикрепленные файлыБыстрая индексация страниц сайта и обратных ссылок - 2Index
32 2Index 5828 18.3.2024, 16:33
автор: 2Index


 



RSS Текстовая версия Сейчас: 29.3.2024, 1:58
Дизайн