X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость ( Вход | Регистрация )

Открыть тему
Тема закрыта
> Два бота грузят хостинг! Прошу помочь!
Mikele
Mikele
Topic Starter сообщение 6.7.2015, 16:41; Ответить: Mikele
Сообщение #1


Бывалый
****

Группа: User
Сообщений: 461
Регистрация: 18.11.2008
Поблагодарили: 58 раз
Репутация:   17  


Здравствуйте!
Хочу попросить помощи у спецов..дело в том что мой хостер часто присылает грозные письма о превышении лимита. Я просмотрел логи и оказывается что на форум и сайт чаще всего долбятся два бота: Bingbot и AhrefsBot ..

Почитал про них, действительно могут грузить сайт! Прописал в файле хатесесс следующее:

## Блокировка по USER AGENT:
RewriteCond %{HTTP_USER_AGENT} AhrefsBot [OR]
RewriteCond %{HTTP_USER_AGENT} MJ12bot [OR]
RewriteCond %{HTTP_USER_AGENT} Java [OR]
RewriteCond %{HTTP_USER_AGENT} NjuiceBot [OR]
RewriteCond %{HTTP_USER_AGENT} Gigabot [OR]
RewriteCond %{HTTP_USER_AGENT} Baiduspider [OR]
RewriteCond %{HTTP_USER_AGENT} JS-Kit [OR]
RewriteCond %{HTTP_USER_AGENT} Voyager [OR]
RewriteCond %{HTTP_USER_AGENT} PostRank [OR]
RewriteCond %{HTTP_USER_AGENT} PycURL [OR]
RewriteCond %{HTTP_USER_AGENT} Aport [OR]
RewriteCond %{HTTP_USER_AGENT} ia_archiver [OR]
RewriteCond %{HTTP_USER_AGENT} DotBot [OR]
RewriteCond %{HTTP_USER_AGENT} SurveyBot [OR]
RewriteCond %{HTTP_USER_AGENT} larbin [OR]
RewriteCond %{HTTP_USER_AGENT} Butterfly [OR]
RewriteCond %{HTTP_USER_AGENT} libwww [OR]
RewriteCond %{HTTP_USER_AGENT} Wget [OR]
RewriteCond %{HTTP_USER_AGENT} SWeb [OR]
RewriteCond %{HTTP_USER_AGENT} LinkExchanger [OR]
RewriteCond %{HTTP_USER_AGENT} Soup [OR]
RewriteCond %{HTTP_USER_AGENT} WordPress [OR]
RewriteCond %{HTTP_USER_AGENT} PHP/ [OR]
RewriteCond %{HTTP_USER_AGENT} spbot [OR]
RewriteCond %{HTTP_USER_AGENT} MLBot [OR]
RewriteCond %{HTTP_USER_AGENT} InternetSeer [OR]
RewriteCond %{HTTP_USER_AGENT} FairShare [OR]
RewriteCond %{HTTP_USER_AGENT} Yeti [OR]
RewriteCond %{HTTP_USER_AGENT} Birubot [OR]
RewriteCond %{HTTP_USER_AGENT} YottosBot [OR]
RewriteCond %{HTTP_USER_AGENT} gold\ crawler [OR]
RewriteCond %{HTTP_USER_AGENT} Linguee [OR]
RewriteCond %{HTTP_USER_AGENT} Ezooms [OR]
RewriteCond %{HTTP_USER_AGENT} lwp-trivial [OR]
RewriteCond %{HTTP_USER_AGENT} Purebot [OR]
RewriteCond %{HTTP_USER_AGENT} User-Agent [OR]
RewriteCond %{HTTP_USER_AGENT} kmSearchBot [OR
RewriteCond %{HTTP_USER_AGENT} SiteBot [OR]
RewriteCond %{HTTP_USER_AGENT} CamontSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ptd-crawler [OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [OR]
RewriteCond %{HTTP_USER_AGENT} suggybot [OR]
RewriteCond %{HTTP_USER_AGENT} ttCrawler [OR]
RewriteCond %{HTTP_USER_AGENT} Nutch [OR]
RewriteCond %{HTTP_USER_AGENT} bingbot [OR]
RewriteCond %{HTTP_USER_AGENT} Zeus
RewriteRule ^(.*)$ – [F,L]


Прописать-то прописал, но эти два бота по прежнему приходят на сайты! По 7000 заходов в сутки...
Правильно ли я прописал или нет? Подскажите плиз.


--------------------


Поблагодарили: (1)
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
codenix
codenix
сообщение 6.7.2015, 17:07; Ответить: codenix
Сообщение #2


Новичок
*

Группа: Viewer
Сообщений: 6
Регистрация: 27.5.2015
Поблагодарили: 1 раз
Репутация:   0  


Mikele, попробуйте так:
Код
SetEnvIfNoCase User-Agent "^Bingbot" no_bot
SetEnvIfNoCase User-Agent "^AhrefsBot" no_bot

Order Allow,Deny
Allow from all
Deny from env=no_bot


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Mikele
Mikele
Topic Starter сообщение 6.7.2015, 20:53; Ответить: Mikele
Сообщение #3


Бывалый
****

Группа: User
Сообщений: 461
Регистрация: 18.11.2008
Поблагодарили: 58 раз
Репутация:   17  


Цитата(codenix @ 6.7.2015, 16:07) *
попробуйте так:
Код
SetEnvIfNoCase User-Agent "^Bingbot" no_bot
SetEnvIfNoCase User-Agent "^AhrefsBot" no_bot

Order Allow,Deny
Allow from all
Deny from env=no_bot


Cделал как вы посоветовали.. Сейчас в логах вижу следующее:


157.55.39.210 - - [06/Jul/2015:00:05:57 +0300] "GET /elektronika/igry-i-aksessuary/xbox/chehly-dlya-zhestkih-diskov/ HTTP/1.0" 403 3665 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

188.165.15.233 - - [06/Jul/2015:00:05:41 +0300] "GET /elektronika/bytovaya-elektronika/prochaya-potrebitelskaya-elektronika/ HTTP/1.0" 403 3665 "-" "Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)"

Правильно ли я понимаю, что этих ботов я отсек, так как видна ошибка 403 ??



Просто вчера еще в логах был код 200, а сегодня код 403...



--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
kapelan28
kapelan28
сообщение 6.7.2015, 21:26; Ответить: kapelan28
Сообщение #4


Новичок
*

Группа: User
Сообщений: 22
Регистрация: 19.9.2012
Поблагодарили: 5 раз
Репутация:   3  


Можно, как вариант, ограничить частоту обращения ботов через эту строку
Код
Crawl-delay: 10

Цифрами задаете интервал, хотя не все боты понимают это ограничение. Но мне помогало, когда на серваке было больше 60 много-тысяче-страничных сайтов :)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
x64
x64
сообщение 6.7.2015, 21:31; Ответить: x64
Сообщение #5


F.A.L.L.O.U.T.
*******

Группа: Super Moderator
Сообщений: 3425
Регистрация: 30.6.2011
Из: Железнодорожный (Балашиха)
Поблагодарили: 2746 раз
Репутация:   289  


Цитата(Mikele @ 6.7.2015, 15:41) *
По 7000 заходов в сутки...

Если это размазано по суткам, то не так и много. Но когда хостер шлёт письма, скорее всего, «атаки» совершаются за достаточно малый промежуток.
Можно посмотреть IP по логам и добавить блокировку по ним (я так сделал). На юзер-агент особо рассчитывать не стоит — можно установить любым, в отличие от IP.

kapelan28, Crawl-delay — это всего лишь указание, а не жёсткое правило. Боты сами решают, следовать роботсу или нет.


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
kagtus
kagtus
сообщение 6.7.2015, 22:48; Ответить: kagtus
Сообщение #6


Бывалый
****

Группа: User
Сообщений: 416
Регистрация: 11.10.2012
Из: Kostroma
Поблагодарили: 94 раза
Репутация:   21  


Цитата(x64)
Можно посмотреть IP по логам и добавить блокировку по ним

у того же бингбота сотни айпишников, смысла фильтровать его по айпи никакого, его как раз лучше по юзер-агенту, он явно не будет подделывать что либо.
а вот ахрефс можно и по айпи и по юзер-агенту - эффект будет одинаковый, ибо они тоже не прячутся.

kapelan28, на Crawl-delay даже гугловский бот внимания не обращает, не говоря уже о остальных...

ТС из вашего списка можно еще оставить
Цитата
SetEnvIfNoCase User-Agent "^MJ12bot" no_bot
SetEnvIfNoCase User-Agent "^Baidu" no_bot

+
Цитата
SetEnvIfNoCase User-Agent "^Detectify" no_bot
SetEnvIfNoCase User-Agent "^DotBot" no_bot
SetEnvIfNoCase User-Agent "^Riddler" no_bot
SetEnvIfNoCase User-Agent "^SemrushBot" no_bot

иногда они проявляются, остальные уже умерли давно.

Сообщение отредактировал kagtus - 6.7.2015, 22:56


--------------------
ася 45два48499два
удалю вирусы, помогу с сайтом ->отзывы ТУТ и ТАМ
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Mikele
Mikele
Topic Starter сообщение 7.7.2015, 0:37; Ответить: Mikele
Сообщение #7


Бывалый
****

Группа: User
Сообщений: 461
Регистрация: 18.11.2008
Поблагодарили: 58 раз
Репутация:   17  


Цитата(x64 @ 6.7.2015, 20:31) *
По 7000 заходов в сутки...
Если это размазано по суткам, то не так и много.


Это за сутки только одного бота: Bingbot, и еще примерно 4000 ahrefs.com/robot. Не считая конечно гугловских ботов и яндексных.

И еще, поясните плиз, теперь в коде появились 403 и 311 , это значит для ботов доступ запрещен?


--------------------
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
codenix
codenix
сообщение 8.7.2015, 2:19; Ответить: codenix
Сообщение #8


Новичок
*

Группа: Viewer
Сообщений: 6
Регистрация: 27.5.2015
Поблагодарили: 1 раз
Репутация:   0  


Mikele, 403 - Доступ запрещен
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
ishipilov
ishipilov
сообщение 28.8.2015, 15:26; Ответить: ishipilov
Сообщение #9


Новичок
*

Группа: User
Сообщений: 19
Регистрация: 30.12.2011
Поблагодарили: 0 раз
Репутация:   -1  


7000 в сутки это не много.
Как вариант можно добавить простенький скрипт в index.php

Код
$useragent = $_SERVER['HTTP_USER_AGENT'];
if(stristr($useragent, 'bingbot')||stristr($useragent, 'ahrefs')) exit();


(добавить в начало index.php)

Сообщение отредактировал ishipilov - 28.8.2015, 15:26
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Посоветуйте хостинг с этими характеристиками ->
14 docdie 1909 Сегодня, 16:28
автор: wertu
Открытая тема (нет новых ответов) Первый опыт, прошу совета.
7 b3rsus 670 Сегодня, 12:22
автор: Nell
Открытая тема (нет новых ответов) Тема имеет прикрепленные файлыПрошу оценить новостной сайт
8 Cunningfox 912 Вчера, 18:20
автор: Catherine_Molli
Открытая тема (нет новых ответов) Что делать если боты и поисковики грузят сервер?
Превышение нагрузки на сервер.
8 nahalturu 2298 Вчера, 17:12
автор: vds4you
Открытая тема (нет новых ответов) Тема имеет прикрепленные файлыпрошу оценить юзабилити сайта
17 ДаниилЯ 1921 12.12.2017, 20:33
автор: alexandrrr


 



RSS Текстовая версия Сейчас: 14.12.2017, 19:24
Дизайн