X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость ( Вход | Регистрация )

Открыть тему
Тема закрыта
> Ограничиваем доступ к сайту от "нежелательных" ботов
Красавчег
Красавчег
Topic Starter сообщение 18.6.2012, 20:28; Ответить: Красавчег
Сообщение #1


Говорю что думаю
*****

Группа: Active User
Сообщений: 683
Регистрация: 3.7.2010
Поблагодарили: 509 раз
Репутация:   71  


Многие вебмастера (и я в том числе) с целью ускорения индексации страниц поисковиками, добавляют ссылки на страницы своих сайтов в твиттер и фейсбук. Некоторые делают это вручную, некоторые с помощью программ и сервисов, путем добавления RSS-лент и т.д.

Но сечас речь пойдёт не об этом. Дело в том, что когда в твиттере и на фейсбуке появляются ссылки на сайт, по этим ссылкам на сайт переходят не только роботы Яндекса и Гугла. На сайт обрушивается лавина других ботов от разных веб-сервисов и программ, которые постоянно мониторят твиттер и фейсбук.

В результате получается реальный мини-ддос, когда в течении буквально нескольких секунд этими ботами с вашего сервера запрашиваются десятки и сотни страниц. Причем эти боты, хочу заметить, никакой пользы кроме нагрузки на ваш сервер не дают.

Первый раз я с этим столкнулся, когда только начал осваивать методы постинга в твиттер. Неожиданно для меня хостер заблокировал мой аккаунт с объяснением "дескать нагрузка превысила допустимые значения" и мне предложили перейти наболее высокий тариф. При том, что в этом аккаунте у меня работал только один недавно установленный небольшой сайт на вордпрессе.

Так как я не любитель идти у кого бы то нибыло на поводу (тем более, что блокировка была сделана не совсем по-человечески), естественно этот хостер был послан по одному, всем хорошо известному адресу и я переехал на другой хостинг, который я совершенно случайно недавно нашел и который меня устраивал на 110% если можно так сказать.

Но это всё, как говорится "не главное". Главное, что при детальном мониторинге логов и был выявлен факт большого количества запросов от "левых" ботов. Банить их по IP смысла не было, потому что у многих он часто менялся. И тогда я нашел решение, которое до сих пор верно и надежно спасает мои сайты от множества задалбывающих ботов и соответственно намного снижает нагрузку на сервер.

В корневой папке сайта был создан файл .htaccess со следующим содержимым:

<Files 403.shtml>
order allow,deny
allow from all
</Files>

# Далее список юзерагентов которым мы запрещаем доступ

SetEnvIfNoCase User-Agent JS-Kit bad_bot
SetEnvIfNoCase User-Agent PostRank bad_bot
SetEnvIfNoCase User-Agent Python-urllib bad_bot
SetEnvIfNoCase User-Agent UnwindFetchor bad_bot
SetEnvIfNoCase User-Agent facebookexternalhit bad_bot
SetEnvIfNoCase User-Agent TweetmemeBot bad_bot
SetEnvIfNoCase User-Agent Butterfly bad_bot
SetEnvIfNoCase User-Agent MFE_expand bad_bot
SetEnvIfNoCase User-Agent Java bad_bot
SetEnvIfNoCase User-Agent Summify bad_bot
SetEnvIfNoCase User-Agent MetaURI bad_bot
SetEnvIfNoCase User-Agent FlipboardProxy bad_bot
SetEnvIfNoCase User-Agent ScribdReader bad_bot
SetEnvIfNoCase User-Agent RockMelt bad_bot
SetEnvIfNoCase User-Agent InAGist bad_bot
SetEnvIfNoCase User-Agent NING bad_bot
SetEnvIfNoCase User-Agent TweetedTimes bad_bot
SetEnvIfNoCase User-Agent PaperLiBot bad_bot
SetEnvIfNoCase User-Agent Library bad_bot
SetEnvIfNoCase User-Agent Ezooms bad_bot
SetEnvIfNoCase User-Agent strawberryj bad_bot
SetEnvIfNoCase User-Agent Scooper bad_bot
SetEnvIfNoCase User-Agent Ahrefs bad_bot
SetEnvIfNoCase User-Agent Spider bad_bot
SetEnvIfNoCase User-Agent None bad_bot
SetEnvIfNoCase User-Agent EventMachine bad_bot
SetEnvIfNoCase User-Agent aiHitBot bad_bot
SetEnvIfNoCase User-Agent SolomonoBot bad_bot
SetEnvIfNoCase User-Agent SearchBot bad_bot
SetEnvIfNoCase User-Agent Wget bad_bot
SetEnvIfNoCase User-Agent Crawler bad_bot

Order Allow,Deny
Allow from all
Deny from env=bad_bot


Если у кого-то файл .htaccess уже существует, просто добавляем эти данные в конец файла. Редактировать и добавлять других ботов очень просто. Покажу на примере бота "Bing" - от поисковой системы Microsoft'а. В логах мы видим обращения к страницам сайта от следующего юзерагента: Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

Просто берем из этих данных кусок имени бота, у нас это будет "bingbot" и добавляем к нашему списку в файле .htaccess следующую строку:

SetEnvIfNoCase User-Agent bingbot bad_bot

Если у юзерагента, которому вы хотите запретить доступ к сайту имя состоит из двух слов, то их нужно просто взять в ковычки. Например, сайт задалбывает бот с юзерагентом:

Mozilla/5.0 (compatible; SISTRIX Crawler; httр://crawler.sistrix.net/)

Пишем в .htaccess следующую комбинацию:

SetEnvIfNoCase User-Agent "SISTRIX Crawler" bad_bot

Хотя по-сути можно было просто написать:

SetEnvIfNoCase User-Agent SISTRIX bad_bot

Или например:

SetEnvIfNoCase User-Agent Crawler bad_bot

Результат будет такой-же. Но иногда вам может пригодиться именно случай с двойным именем. Так же хочу предупредить, что не стоит делать в .htaccess записи типа:

SetEnvIfNoCase User-Agent bot bad_bot
SetEnvIfNoCase User-Agent Mozilla bad_bot

Потому что, в первом случае доступ к сайту не смогут получить роботы Гугла и Яндекса (в их юзерагенте присутствует слово "bot" - Googlebot, YandexBot), а во втором случает на сайт не смогут получить доступ люди у которых браузер отдает юзерагент "Mozilla" и кстати говоря у роботов Яндекса и Гугла в юзерагенте так же присутствует "Mozilla".

Поэтому если бы хотите забанить какого нибудь надоедающего бота, выбирайте из его юзерагента часть имени, которой нет у других ботов. Ну и конечно, эксперементируйте. В инете достаточно информации об этом способе защиты.

Я просто, если можно так сказать, решил поделиться своим опытом. Мне таким образом удалось снять со своих сайтов достаточно существенную нагрузку. Возможно, для кого-то это окажется полезным.


--------------------
Плюшки WordPress • Кнопки Яндекса
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
rjksdfhe
rjksdfhe
сообщение 18.6.2012, 20:45; Ответить: rjksdfhe
Сообщение #2


Straight arms
*******

Группа: Active User
Сообщений: 2760
Регистрация: 21.4.2009
Из: Мытищи, МО, РФ
Поблагодарили: 1111 раз
Репутация:   163  


У тебя проблема с узким хостером, однако.

Да, ходят эти боты, и другие, но большой нагрузки нет - как правило, они в России ходят по ночам.

Так что плюс - возможность небольшого трафика в будущем.
Минус - нагрузка на сервер хостера.
Но ночью они всё равно спят в своём регионе, и только боты ходят по ночам, когда посетителей всё равно нет.

Они и без twi и FB приходят, сами собой.
У гугла тащут информацию, потом запускают своих ботов.

Это точно, т.к. есть пациенты, о которых никто не знает, а лезут ENG боты откуда попало.


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Красавчег
Красавчег
Topic Starter сообщение 18.6.2012, 21:08; Ответить: Красавчег
Сообщение #3


Говорю что думаю
*****

Группа: Active User
Сообщений: 683
Регистрация: 3.7.2010
Поблагодарили: 509 раз
Репутация:   71  


(rjksdfhe @ 18.6.2012, 19:45) *
У тебя проблема с узким хостером, однако.

Да, согласен. Благо сейчас этой проблемы нет, так как хостера я сменил. А по поводу:

(rjksdfhe @ 18.6.2012, 19:45) *
Да, ходят эти боты, и другие, но большой нагрузки нет - как правило, они в России ходят по ночам.

Для примера, просто скриншот Awstats одного стандартного малопосещаемого ГС'а:



Сообщение отредактировал Красавчег - 18.6.2012, 21:17


--------------------
Плюшки WordPress • Кнопки Яндекса
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
2 чел. читают эту тему (гостей: 2, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Как поднять доверие к сайту?
5 fair_exchange 402 16.12.2017, 18:33
автор: genjnat
Открытая тема (нет новых ответов) Тема имеет прикрепленные файлыВажно мнение по сайту
Буду признателен мнению по amosupport.by
7 malo 775 13.12.2017, 18:17
автор: Catherine_Molli
Открытая тема (нет новых ответов) Новости mail.ru появятся в "рекомендациях" Вконтакте?
19 eduarddis 2806 12.12.2017, 20:37
автор: galikfor
Открытая тема (нет новых ответов) Имеет ли смысл такое "присоединение сайтов"?
перенести все статьи на свой сайт, а с прежнего поставить 301 редирект
9 coremission 1105 11.12.2017, 16:32
автор: One_on_One
Открытая тема (нет новых ответов) Переводчик по тематике "Арбитраж трафика, партнерки и т.п." на постоянную основу
1 kuprum 380 9.12.2017, 17:02
автор: pishu-text


 



RSS Текстовая версия Сейчас: 18.12.2017, 2:10
Дизайн