Обнаружить и заблокировать плохих роботов на сайте

futurama-bender-robot

Многие сайты посещают боты, что приводит к искажению статистики. Вебмастеру нужно их найти и заблокировать.

Компания Incapsula проанализировала статистику двадцати тысяч сайтов. Как выяснилось, боты составляют больше половины обшего трафика (56%). Причем 29% – это боты, которые вредят ресурсу. Анализ показал, что на крупных проектах больше “плохих” ботов. Как от них избавиться?

Прежде всего, нужно найти файлы логов. В серверах хранится статистика всех запросов к сайту. Это могут быть пользователи, заходящие на сайт через браузер, и поисковые роботы, индексирующие сайт. Их активность записывается в обычные файлы. Эти файлы вебмастер должен найти на сервере. Их расположение зависит от типа сервера.

После нахожденя нужных файлов логов их надо объединить в txt-файл, потом открыть его в Excel либо в подобной программе. Иногда могут возникать проблемы по причине большого объема данных файлов. Но для небольших сайтов производительности среднего компьютера должно хватить.

В Excel нужно создать столбцы “IP”, “User Agent” и “Хосты” и раскидать по ним роботов. Потом стоит проанализировать число хитов. На сайт могут заходить роботы с IP сервиса автоматического продвижения ресурсов. Если вебмастер не пользуется этим сервисом, необходимо запретить роботу посещать проект.

Потом нужно проанализировать User Agent посетителей. Вредоносные роботы могут не отдавать этих данных (в столбце будет “–”). Следует проверить все нестандартные User Agent.

Столбец IP нуждается в массовой проверке по географическому признаку. Это позволит найти потенциальных злоумышленников, которые хотят навредить сайту. Многие парсеры и боты для скликивания находятся в Азии либо используют азиатские прокси-сервера. Поэтому если посетители из Азии проявляют на сайте повышенную активность, вероятно, это робот.

Найденных роботов надо заблокировать. Нужно отключить их показ в Google Analytics (там есть специальные фильтры, позволяющие исключить выбранные IP из статистики). После этого необходимо заблокировать ботов на сервере. Этот процесс зависит от типа сервера.

Это самые простые решения. Некоторые вебмастера, помимо User Agent и IP, учитывают еще HTTP-заголовок, порядок и скорость посещения страничек их ресурса. Другие используют reCAPTCHA для отделения роботов от людей.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *