Скрейпинг AI-ботами (GPTBot, ClaudeBot, PerplexityBot): как заблокировать в 2026

Автор: Редакция BotHunt
Время чтения: 9 мин.
Просмотров: 176
Дата публикации: 5 июня 2026 г.
Защита от AI-ботов GPTBot ClaudeBot PerplexityBot

Скрейпинг AI-ботами (GPTBot, ClaudeBot, PerplexityBot): как заблокировать в 2026

Мы в BotHunt ежедневно обрабатываем трафик тысяч сайтов — и за последний год фиксируем устойчивый рост нового типа нежелательных гостей: AI-краулеров. GPTBot от OpenAI, ClaudeBot от Anthropic, PerplexityBot, Google-Extended — все они методично обходят страницы, извлекая текст и структуру данных для обучения языковых моделей. По данным Cloudflare Radar, трафик GPTBot с 2024 по 2025 год вырос на 305%, а доля AI-ботов уже составляет 4,2% всех HTML-запросов в сети.

Для большинства владельцев сайтов это незаметная угроза: сессии выглядят как обычный трафик, bounce rate не растёт, конверсии не падают. Но в фоне происходит две вещи: ваш контент используется без разрешения и без атрибуции, а сервер несёт дополнительную нагрузку — средний AI-бот делает от 100 до 2400 запросов в час к одному сайту. Это в 3–5 раз больше, чем обычный поисковый робот.

В этой статье разберём: какие AI-боты существуют, чем они отличаются от поисковых краулеров, почему robots.txt — не защита, и как настроить надёжную блокировку через Nginx, .htaccess, ASN-фильтрацию и поведенческий анализ. Отдельно поговорим о стандарте llms.txt — новом инструменте управления доступом для AI.

Какие AI-боты приходят на ваш сайт — и зачем

Все AI-краулеры делятся на два принципиально разных типа. Первый — обучающие боты (training crawlers): собирают данные для дообучения языковых моделей. Второй — поисковые боты (retrieval crawlers): нужны, чтобы AI-сервис мог цитировать ваш сайт в ответах и привлекать трафик обратно.

Это критически важное разделение, которое часто путают. Если вы заблокируете обучающий бот (GPTBot), но оставите поисковый бот (OAI-SearchBot) — вы защищаете контент и сохраняете возможность цитирования в ChatGPT. Если заблокируете всё — теряете обе возможности. Именно на этой путанице "сломались" сотни сайтов, поставивших в robots.txt агрессивный запрет на всё подряд.

Полная таблица AI-ботов: User-Agent и назначение

На середину 2026 года в индексе BotHunt насчитывается более 40 задокументированных AI-краулеров. Ключевые — в таблице ниже.

User-Agent

Компания

Тип

Блокировать?

GPTBot

OpenAI

Обучение модели

Да

OAI-SearchBot

OpenAI

ChatGPT-поиск / цитирование

Нет (если нужны цитаты)

ChatGPT-User

OpenAI

Browsing (real-time)

Нет (поисковый)

ClaudeBot

Anthropic

Обучение модели

Да

Claude-SearchBot

Anthropic

Поиск / цитирование

Нет (если нужны цитаты)

PerplexityBot

Perplexity AI

Поиск + обучение

По ситуации*

Google-Extended

Google

Gemini обучение

На усмотрение

CCBot

Common Crawl

Открытый датасет

Да

Bytespider

ByteDance (TikTok)

Обучение / поиск

Да

* Perplexity в 2025 году был пойман на обходе robots.txt: компания Cloudflare зафиксировала ротацию User-Agent и IP для обхода директив. Это делает его наиболее агрессивным среди публичных AI-краулеров.

Почему robots.txt не защищает от AI-ботов

Robots.txt — это протокол вежливости, а не технический барьер. Он работает по принципу "добросовестного бота": краулер сам обязан проверить файл и соблюдать инструкции. Большинство крупных AI-компаний декларируют соблюдение robots.txt — но есть три структурные проблемы.

  1. Недобросовестные игроки игнорируют его. Perplexity, Bytespider и сотни мелких AI-скрейперов просто не соблюдают robots.txt. По данным 2025 года, около 30% запросов от AI-ботов поступает без предварительной проверки robots.txt.

  2. Спуфинг User-Agent. Бот может представиться как Chrome или Safari — robots.txt на него не распространится вообще. Для защиты от этого нужна верификация по IP, а не только по заголовку.

  3. Нет гранулярного управления. Robots.txt не поддерживает логику "блокировать обучение, но разрешить поиск" на уровне одного User-Agent — вы либо разрешаете, либо закрываете всё для конкретного агента.

Мы в BotHunt видим это регулярно: сайт с корректным robots.txt продолжает получать AI-трафик, потому что часть агентов просто его не читает. По данным нашего мониторинга, у 43% сайтов с запретами в robots.txt AI-боты всё равно составляют более 1% реальных запросов.

Схема почему robots.txt не блокирует AI-ботов

BotHunt видит AI-трафик на поведенческом уровне — даже если бот меняет User-Agent. Попробовать бесплатно →

Как заблокировать AI-ботов через robots.txt: правильный шаблон 2026

Несмотря на ограничения, robots.txt — обязательный первый слой. Ключевой принцип: блокируйте обучающих краулеров и явно разрешайте поисковых — это сохранит видимость в ChatGPT и Claude без отдачи контента на обучение.

Блокировка обучающих AI-краулеров:

# Обучающие краулеры — блокируем
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: meta-externalagent
Disallow: /

User-agent: Applebot-Extended
Disallow: /

Поисковые AI-боты — разрешаем для цитирования в AI-поиске:

# Поисковые боты — разрешаем
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Claude-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

Важно: порядок правил в robots.txt имеет значение. Если вы используете глобальный User-agent: * с Disallow: /, поисковые AI-боты тоже попадут под запрет — если ниже не добавлен явный Allow для каждого из них.

Серверная блокировка: Nginx и Apache

Серверная блокировка принудительна — бот не может её обойти, просигнализировав о добросовестности. Это второй уровень защиты, необходимый для агентов, которые игнорируют robots.txt.

Nginx: блокировка по User-Agent

# В блоке server {} или location /
if ($http_user_agent ~* "(GPTBot|ClaudeBot|Google-Extended|CCBot|Bytespider|meta-externalagent|Applebot-Extended|Amazonbot)") {
    return 403;
}

Apache (.htaccess)

<IfModule mod_rewrite.c>
  RewriteEngine On
  RewriteCond %{HTTP_USER_AGENT} (GPTBot|ClaudeBot|Google-Extended|CCBot|Bytespider) [NC]
  RewriteRule .* - [F,L]
</IfModule>

Ограничение этого подхода: бот может менять User-Agent и притворяться Chrome. В этом случае серверная блокировка по заголовку не сработает — нужна ASN-верификация.

ASN-блокировка: надёжная защита от ai-ботов с подменой User-Agent

ASN (Autonomous System Number) — идентификатор сетевого блока, принадлежащего конкретной компании. OpenAI, Anthropic, Google публикуют списки своих IP-диапазонов в машиночитаемом JSON-формате. Верификация входящего IP по этим спискам — единственный способ надёжно идентифицировать краулер, даже если он меняет заголовки.

AI-компания

Источник IP-диапазонов

Основные ASN

OpenAI

openai.com/gptbot-ranges.json

AS396982 (Google Cloud)

Anthropic

anthropic.com/api/ips.json

AS14618 (Amazon AWS)

Common Crawl

commoncrawl.org/faq

AWS, GCP диапазоны

Perplexity AI

Официальный список отсутствует

Ротация провайдеров

На практике для Nginx ASN-блокировка реализуется через модуль MaxMind GeoIP2 или динамически обновляемый список IP. Для WordPress-сайтов проще использовать специализированный сервис — вручную поддерживать актуальность IP-диапазонов, которые обновляются еженедельно, нереально.

ASN-блокировка AI-ботов схема верификации IP

BotHunt автоматически сверяет IP каждого посетителя с актуальными ASN-диапазонами AI-компаний — без ручной настройки. Подключить защиту →

llms.txt: управляемый доступ вместо полной блокировки

В 2025 году появился новый стандарт — llms.txt. По аналогии с robots.txt, это файл в корне сайта, который сообщает AI-агентам: что можно читать, что цитировать, а что закрыто. В отличие от robots.txt, llms.txt ориентирован именно на языковые модели и поддерживает структурированный markdown-формат.

Стандарт поддерживается поисковыми AI-агентами (Claude-SearchBot, OAI-SearchBot, PerplexityBot) — обучающие краулеры его пока игнорируют. Принятие невысокое: на середину 2026 года llms.txt размещён примерно у 10% доменов.

Минимальный пример llms.txt:

# llms.txt
> BotHunt — российский сервис защиты сайтов от ботов

## Разрешено для цитирования
- /blog
- /p/
- /

## Запрещено
- /admin
- /api
- /dashboard

## Контакт
info@bothunt.ru

Стоит ли внедрять llms.txt прямо сейчас? Да — если вы хотите появляться в ответах ChatGPT и Claude. Нет — если это ваша единственная линия защиты от скрейпинга: llms.txt не имеет принудительного механизма исполнения. Подробнее читайте в статье «robots.txt для защиты от ботов: мифы и реальные возможности».

Матрица решений: что блокировать, что разрешать

Правильная стратегия зависит от типа сайта и бизнес-целей. Ориентируйтесь по таблице:

Тип сайта

GPTBot / ClaudeBot

OAI-SearchBot

Bytespider / CCBot

Блог / медиа

Блокировать

Разрешить

Блокировать

Интернет-магазин

Блокировать

Закрыть каталог

Блокировать

SaaS / корпоративный

Блокировать

Разрешить

Блокировать

Форумы / UGC

Блокировать

По ситуации

Блокировать

Как BotHunt автоматически фильтрует AI-трафик

Ручная настройка блокировок — только первый уровень. Проблема в том, что списки User-Agent и IP-диапазонов обновляются постоянно: новые компании выходят на рынок, старые меняют инфраструктуру. Поддерживать актуальность самостоятельно — это 2–3 часа работы в неделю.

Агент BotHunt обрабатывает каждый запрос к сайту менее чем за 100 мс и применяет несколько слоёв проверок:

  • Сигнатурная проверка User-Agent — база содержит более 300 актуальных сигнатур AI-краулеров, обновляется еженедельно.

  • ASN-верификация — IP-адрес посетителя сверяется с актуальными диапазонами AI-компаний в реальном времени.

  • Поведенческий анализ — даже если бот замаскировался под человека, паттерны обхода страниц, частота запросов и браузерный fingerprint его выдают.

  • Гибкие правила — можно разрешить поисковые AI-боты и заблокировать только обучающие, без ручного редактирования robots.txt.

Для WordPress доступен готовый плагин — установка занимает 1 минуту. Для других CMS — один фрагмент PHP-кода в header. Подробнее о технологиях распознавания читайте в статье «Browser fingerprinting: как сервисы защиты опознают ботов».

AI-боты и SEO: как не навредить индексации Яндекса

Частая ошибка: владелец сайта ставит глобальный Disallow: / для User-agent: * и случайно блокирует не только AI-краулеры, но и Yandexbot, Googlebot. Или наоборот — пытается заблокировать только AI и нечаянно перекрывает Яндекс-поиск.

  1. Никогда не используйте User-agent: * для блокировки AI-ботов — только явные User-Agent строки.

  2. После изменений в robots.txt проверьте Яндекс Вебмастер → «Проверка robots.txt» и Google Search Console → «Инструмент проверки URL».

  3. Через 24–48 часов убедитесь в логах, что Yandexbot и Googlebot продолжают краулинг в нормальном режиме.

  4. Google-Extended блокирует использование в Gemini, но не влияет на обычную индексацию Google. Блокировка безопасна для SEO.

Проверка robots.txt в Яндекс Вебмастере после блокировки AI-ботов

Чек-лист: полная защита от AI-ботов за 4 шага

  1. robots.txt — добавьте запреты для GPTBot, ClaudeBot, CCBot, Bytespider. Явно разрешите OAI-SearchBot и Claude-SearchBot, если нужны цитирования в AI-поиске.

  2. Серверная блокировка (Nginx/.htaccess) — принудительный 403 для ботов, которые игнорируют robots.txt. Обязателен для Bytespider и агрессивных скрейперов.

  3. ASN-верификация — единственный способ поймать бота с поддельным User-Agent. Подключите сервис с автоматически обновляемыми IP-диапазонами.

  4. Поведенческий анализ (BotHunt) — финальный слой для агентов, обходящих все предыдущие уровни. Работает in-line, менее чем 100 мс, без влияния на скорость сайта.

Если ваш сайт работает на WordPress — дополнительно изучите статью «Как защитить сайт от парсеров: 15 рабочих методов»: там разобраны rate-limiting и honeypot-техники, применимые и к AI-ботам.

Актуальный реестр User-Agent строк AI-краулеров поддерживается сообществом на robotstxt.com/ai — сверяйтесь с ним при обновлении правил блокировки.

Установите BotHunt за 1 минуту и получите автоматическую защиту от AI-краулеров, парсеров и поведенческих ботов — без ручных правок robots.txt и Nginx. Начать бесплатно →

Часто задаваемые вопросы

Что такое GPTBot и зачем он приходит на мой сайт?

GPTBot — официальный краулер OpenAI для обучения языковых моделей. Он обходит публичные страницы как Googlebot, но вместо индексации использует контент как обучающие данные. Владелец сайта не получает никакой атрибуции или трафика в ответ.

Нужно ли блокировать Claude-SearchBot и OAI-SearchBot?

Нет — если вы хотите цитироваться в ответах ChatGPT и Claude. Это поисковые агенты для citation в AI-поиске. Блокируйте только обучающие краулеры (ClaudeBot, GPTBot) — это принципиально разные боты.

Нарушает ли блокировка AI-ботов в robots.txt SEO-индексацию Яндекса?

Нет, если блокируете только конкретные User-Agent строки (GPTBot, ClaudeBot и т.д.). Yandexbot и Googlebot не входят в этот список. Главное — не использовать глобальный User-agent: * с Disallow: /.

Что делать, если AI-бот игнорирует robots.txt?

Перенести блокировку на уровень сервера (Nginx/Apache) или использовать антибот-сервис с ASN-верификацией. Robots.txt — рекомендация, а не барьер. Perplexity и Bytespider его игнорируют.

Влияет ли AI-трафик на скорость сайта?

Да. Средний AI-бот делает 100–2400 запросов в час — в 3–5 раз больше обычного поискового робота. У ряда клиентов BotHunt AI-трафик составлял до 15–20% серверных запросов до подключения блокировки.

Что такое llms.txt и нужен ли он мне?

llms.txt — файл в корне сайта, сообщающий AI-агентам, какой контент можно цитировать. Поддерживается Claude-SearchBot и OAI-SearchBot. Стоит внедрить для управления видимостью в AI-поиске, но от скрейпинга не защищает — обучающие краулеры его не соблюдают.

Можно ли монетизировать доступ AI-ботов к контенту?

В 2025–2026 годах крупные издания подписывают платные соглашения с OpenAI и Anthropic. Для среднего бизнеса прямая монетизация пока недоступна — но блокировка обучающего скрейпинга сохраняет переговорную позицию на случай стандарта лицензирования.

Как проверить, какие AI-боты посещают мой сайт?

Анализ логов Nginx: grep -i 'gptbot\|claudebot\|perplexitybot\|google-extended\|bytespider' /var/log/nginx/access.log. Либо используйте дашборд BotHunt — там AI-трафик отображается отдельной категорией с разбивкой по краулерам.

О BotHunt

BotHunt — российский сервис защиты сайтов от поведенческих ботов, парсеров, спама и брутфорса. Подключается через DNS (без изменений на сервере) или одной строкой кода — плагином для WordPress, PHP-агентом или через Bitrix/OpenCart. Срабатывает в реальном времени и блокирует ботов до того, как они попадут в Метрику и повлияют на позиции в Яндексе. Точность детекции — 99,9%, ложных срабатываний — менее 0,05%.

Начать
14 дней бесплатно