Помощник
|
Нужна защита сайта от парсинга, Сайт парсит WpGrabber, нужна защита |
ekvador |
2.5.2020, 2:27;
Ответить: ekvador
Сообщение
#12
|
|
каждая страница должна иметь не повторяющуюся, уникальную html разметку ну так паттерн старт <h1> и end </article> (например) и без разницы какие селекторы, нет смысла менять у меня этого грабера нет, но судя по тем скринам, что вижу, там прокси и user agent задается поштучно. взять средние цифры по числу просмотров страниц сайта и банить юзеров по связке ip + user agent, превысивших лимит просмотров |
|
|
rom_4 |
2.5.2020, 11:30;
Ответить: rom_4
Сообщение
#13
|
|
ну так паттерн старт <h1> и end </article> (например) и без разницы какие селекторы, нет смысла менять не всегда это работает с <H1> и т.п, даже скажем так, нечасто, не разбирался почему так, привязку делал к другим элементам. но для людей, хорошо знающих регулярные выражения, нет ничего сложного в настройке парсинга. -------------------- |
|
|
qpPeW |
2.5.2020, 13:45;
Ответить: qpPeW
Сообщение
#14
|
|
tygrytsa, до конца года будете ограничивать IP которые используются для прокси.
-------------------- |
|
|
tygrytsa |
2.5.2020, 18:47;
Ответить: tygrytsa
Сообщение
#15
|
|
qpPeW, насколько я понимаю, парсит плагин, стоящий на сайте. Кто будет менять IP сайта каждый день? Да и вообще затея тупая. Защититься невозможно. Если контент и правда стоящий, то все равно стащат.
|
|
|
ekvador |
2.5.2020, 19:49;
Ответить: ekvador
Сообщение
#16
|
|
не всегда это работает с <H1> я написал о том, что почти на каждом сайте есть основные элементы разметки заголовки, элементы html5 и т.д., и что по этим элементам можно регуляркой парсить, несмотря на изменения в селекторах. а вы о чем? до конца года будете ограничивать IP о привязке к ip речи нет. берется связка ip юзера и его user agent, считаются его переходы по страницам за определенный промежуток времени. превысил - в бан. в таком случае нужно только прописать интервал времени и количество страниц, которые может просмотреть обычный юзер за это время. там еще много чего можно придумать для контроля на автомате. например, качает юзер картинки или нет. парсер не будет скорее всего, а браузер будет. ну и т.д. Кто будет менять IP сайта каждый день если у него в грабере прописываются поштучно, то устанет менять после банов. ну а списком конечно можно парсить |
|
|
Limonadik
|
Сообщение
#17
|
|
если у него в грабере прописываются поштучно, то устанет менять после банов. ну а списком конечно можно парсить Я так понимаю, через прокси парсит. Кучу ip забанил, но новости так и продолжают парсить. Понятно, что защитить контент полностью от копирования нереально и такой цели нет. Хотелось бы запретить делать это конкретным сайтам WpGrabber-ом. P.S. Спасибо всем за советы и мнения, к сожалению, проблему так и не удалось пока решить( |
|
|
WoWeb |
6.5.2020, 15:16;
Ответить: WoWeb
Сообщение
#18
|
|
Limonadik, Перенесите на клауд и включите режим bot-fight. Высока вероятность что поможет.
-------------------- |
|
|
pyaterka |
17.5.2020, 20:56;
Ответить: pyaterka
Сообщение
#19
|
|
Limonadik, я бы как минимум сделал антидос, + ко всему запретил бы правую кнопку мышки+ запретил бы клавиатуру в запросах) да есть море вариантов) все зависит от того на сколько Готовы платить)
-------------------- |
|
|
pyaterka |
20.5.2020, 0:18;
Ответить: pyaterka
Сообщение
#20
|
|
tygrytsa, блок айпи в .htaccess это самое банальное что можно придумать?) а если реально так я бы сделал антидос , да и ко всему бы запретил бы правую кнопку мыши, и определенные значения клавиатуры , это как минимум будет перспективно .
-------------------- |
|
|
|
Похожие темы
Тема | Ответов | Автор | Просмотров | Последний ответ | |
---|---|---|---|---|---|
Нужна ли плоская структура категорий в ИМ? | 1 | noviktamw | 1063 | 26.3.2024, 21:50 автор: c4p1t4l15t |
|
Продвижение молодого сайта | 30 | maxmer | 6367 | 26.3.2024, 21:49 автор: c4p1t4l15t |
|
SEO-текст на главной странице сайта и в категориях | 5 | boltuk | 1354 | 26.3.2024, 21:43 автор: c4p1t4l15t |
|
Какой % отказов нормален для сайта? | 10 | Aloof | 2544 | 24.3.2024, 21:45 автор: Liudmila |
|
Быстрая индексация страниц сайта и обратных ссылок - 2Index | 32 | 2Index | 5828 | 18.3.2024, 16:33 автор: 2Index |
Текстовая версия | Сейчас: 29.3.2024, 1:58 |