X   Сообщение сайта
(Сообщение закроется через 3 секунды)



 

Здравствуйте, гость (

| Вход | Регистрация )

Открыть тему
Тема закрыта
> Ограничиваем доступ к сайту от "нежелательных" ботов
Красавчег
Красавчег
Topic Starter сообщение 18.6.2012, 20:28; Ответить: Красавчег
Сообщение #1


Многие вебмастера (и я в том числе) с целью ускорения индексации страниц поисковиками, добавляют ссылки на страницы своих сайтов в твиттер и фейсбук. Некоторые делают это вручную, некоторые с помощью программ и сервисов, путем добавления RSS-лент и т.д.

Но сечас речь пойдёт не об этом. Дело в том, что когда в твиттере и на фейсбуке появляются ссылки на сайт, по этим ссылкам на сайт переходят не только роботы Яндекса и Гугла. На сайт обрушивается лавина других ботов от разных веб-сервисов и программ, которые постоянно мониторят твиттер и фейсбук.

В результате получается реальный мини-ддос, когда в течении буквально нескольких секунд этими ботами с вашего сервера запрашиваются десятки и сотни страниц. Причем эти боты, хочу заметить, никакой пользы кроме нагрузки на ваш сервер не дают.

Первый раз я с этим столкнулся, когда только начал осваивать методы постинга в твиттер. Неожиданно для меня хостер заблокировал мой аккаунт с объяснением "дескать нагрузка превысила допустимые значения" и мне предложили перейти наболее высокий тариф. При том, что в этом аккаунте у меня работал только один недавно установленный небольшой сайт на вордпрессе.

Так как я не любитель идти у кого бы то нибыло на поводу (тем более, что блокировка была сделана не совсем по-человечески), естественно этот хостер был послан по одному, всем хорошо известному адресу и я переехал на другой хостинг, который я совершенно случайно недавно нашел и который меня устраивал на 110% если можно так сказать.

Но это всё, как говорится "не главное". Главное, что при детальном мониторинге логов и был выявлен факт большого количества запросов от "левых" ботов. Банить их по IP смысла не было, потому что у многих он часто менялся. И тогда я нашел решение, которое до сих пор верно и надежно спасает мои сайты от множества задалбывающих ботов и соответственно намного снижает нагрузку на сервер.

В корневой папке сайта был создан файл .htaccess со следующим содержимым:

<Files 403.shtml>
order allow,deny
allow from all
</Files>

# Далее список юзерагентов которым мы запрещаем доступ

SetEnvIfNoCase User-Agent JS-Kit bad_bot
SetEnvIfNoCase User-Agent PostRank bad_bot
SetEnvIfNoCase User-Agent Python-urllib bad_bot
SetEnvIfNoCase User-Agent UnwindFetchor bad_bot
SetEnvIfNoCase User-Agent facebookexternalhit bad_bot
SetEnvIfNoCase User-Agent TweetmemeBot bad_bot
SetEnvIfNoCase User-Agent Butterfly bad_bot
SetEnvIfNoCase User-Agent MFE_expand bad_bot
SetEnvIfNoCase User-Agent Java bad_bot
SetEnvIfNoCase User-Agent Summify bad_bot
SetEnvIfNoCase User-Agent MetaURI bad_bot
SetEnvIfNoCase User-Agent FlipboardProxy bad_bot
SetEnvIfNoCase User-Agent ScribdReader bad_bot
SetEnvIfNoCase User-Agent RockMelt bad_bot
SetEnvIfNoCase User-Agent InAGist bad_bot
SetEnvIfNoCase User-Agent NING bad_bot
SetEnvIfNoCase User-Agent TweetedTimes bad_bot
SetEnvIfNoCase User-Agent PaperLiBot bad_bot
SetEnvIfNoCase User-Agent Library bad_bot
SetEnvIfNoCase User-Agent Ezooms bad_bot
SetEnvIfNoCase User-Agent strawberryj bad_bot
SetEnvIfNoCase User-Agent Scooper bad_bot
SetEnvIfNoCase User-Agent Ahrefs bad_bot
SetEnvIfNoCase User-Agent Spider bad_bot
SetEnvIfNoCase User-Agent None bad_bot
SetEnvIfNoCase User-Agent EventMachine bad_bot
SetEnvIfNoCase User-Agent aiHitBot bad_bot
SetEnvIfNoCase User-Agent SolomonoBot bad_bot
SetEnvIfNoCase User-Agent SearchBot bad_bot
SetEnvIfNoCase User-Agent Wget bad_bot
SetEnvIfNoCase User-Agent Crawler bad_bot

Order Allow,Deny
Allow from all
Deny from env=bad_bot


Если у кого-то файл .htaccess уже существует, просто добавляем эти данные в конец файла. Редактировать и добавлять других ботов очень просто. Покажу на примере бота "Bing" - от поисковой системы Microsoft'а. В логах мы видим обращения к страницам сайта от следующего юзерагента: Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

Просто берем из этих данных кусок имени бота, у нас это будет "bingbot" и добавляем к нашему списку в файле .htaccess следующую строку:

SetEnvIfNoCase User-Agent bingbot bad_bot

Если у юзерагента, которому вы хотите запретить доступ к сайту имя состоит из двух слов, то их нужно просто взять в ковычки. Например, сайт задалбывает бот с юзерагентом:

Mozilla/5.0 (compatible; SISTRIX Crawler; httр://crawler.sistrix.net/)

Пишем в .htaccess следующую комбинацию:

SetEnvIfNoCase User-Agent "SISTRIX Crawler" bad_bot

Хотя по-сути можно было просто написать:

SetEnvIfNoCase User-Agent SISTRIX bad_bot

Или например:

SetEnvIfNoCase User-Agent Crawler bad_bot

Результат будет такой-же. Но иногда вам может пригодиться именно случай с двойным именем. Так же хочу предупредить, что не стоит делать в .htaccess записи типа:

SetEnvIfNoCase User-Agent bot bad_bot
SetEnvIfNoCase User-Agent Mozilla bad_bot

Потому что, в первом случае доступ к сайту не смогут получить роботы Гугла и Яндекса (в их юзерагенте присутствует слово "bot" - Googlebot, YandexBot), а во втором случает на сайт не смогут получить доступ люди у которых браузер отдает юзерагент "Mozilla" и кстати говоря у роботов Яндекса и Гугла в юзерагенте так же присутствует "Mozilla".

Поэтому если бы хотите забанить какого нибудь надоедающего бота, выбирайте из его юзерагента часть имени, которой нет у других ботов. Ну и конечно, эксперементируйте. В инете достаточно информации об этом способе защиты.

Я просто, если можно так сказать, решил поделиться своим опытом. Мне таким образом удалось снять со своих сайтов достаточно существенную нагрузку. Возможно, для кого-то это окажется полезным.


--------------------
Плюшки WordPress • Кнопки Яндекса
0
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
rjksdfhe
rjksdfhe
сообщение 18.6.2012, 20:45; Ответить: rjksdfhe
Сообщение #2


У тебя проблема с узким хостером, однако.

Да, ходят эти боты, и другие, но большой нагрузки нет - как правило, они в России ходят по ночам.

Так что плюс - возможность небольшого трафика в будущем.
Минус - нагрузка на сервер хостера.
Но ночью они всё равно спят в своём регионе, и только боты ходят по ночам, когда посетителей всё равно нет.

Они и без twi и FB приходят, сами собой.
У гугла тащут информацию, потом запускают своих ботов.

Это точно, т.к. есть пациенты, о которых никто не знает, а лезут ENG боты откуда попало.


Поблагодарили: (1)
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Красавчег
Красавчег
Topic Starter сообщение 18.6.2012, 21:08; Ответить: Красавчег
Сообщение #3


(rjksdfhe @ 18.6.2012, 19:45) *
У тебя проблема с узким хостером, однако.

Да, согласен. Благо сейчас этой проблемы нет, так как хостера я сменил. А по поводу:

(rjksdfhe @ 18.6.2012, 19:45) *
Да, ходят эти боты, и другие, но большой нагрузки нет - как правило, они в России ходят по ночам.

Для примера, просто скриншот Awstats одного стандартного малопосещаемого ГС'а:



Замечание модератора:
Эта тема была закрыта автоматически ввиду отсутствия активности в ней на протяжении 100+ дней.
Если Вы считаете ее актуальной и хотите оставить сообщение, то воспользуйтесь кнопкой
или обратитесь к любому из модераторов.


Сообщение отредактировал Красавчег - 18.6.2012, 21:17


--------------------
Плюшки WordPress • Кнопки Яндекса
Вернуться в начало страницы
 
Ответить с цитированием данного сообщения
Открыть тему
Тема закрыта
2 чел. читают эту тему (гостей: 2, скрытых пользователей: 0)
Пользователей: 0


Свернуть

> Похожие темы

  Тема Ответов Автор Просмотров Последний ответ
Открытая тема (нет новых ответов) Хостинг "Hostland" - качественный хостинг по разумным ценам и со своей Панелью Управления
0 artmeteor 348 Вчера, 22:46
автор: artmeteor
Открытая тема (нет новых ответов) ⭐⭐⭐ Google Voice | Gmail - OLD аккаунты "SMS и звонки" ⭐⭐⭐
15 Chekon 4444 Вчера, 12:00
автор: Chekon
Открытая тема (нет новых ответов) ✅ sms.chekons.com - ⭐ Сервис для получения SMS на реальные номера USA "Non-VoIP, безлим SMS, API" ⭐
Сервис для получения SMS на реальные номера USA
13 Chekon 4078 Вчера, 11:48
автор: Chekon
Открытая тема (нет новых ответов) Требуется помощь по сайту на "ВордПресс"
Закрылся доступ в панель администратора
15 Tia2 2346 17.4.2024, 0:54
автор: diviner99
Опрос (нет новых голосов) Опрос: Результаты в упражнении "Жим лёжа" у вэбмастеров
35 Room 4522 13.3.2024, 13:10
автор: Room


 



RSS Текстовая версия Сейчас: 19.4.2024, 18:06
Дизайн