# robots.txt для AI-кроулеров: как управлять GPTBot, ClaudeBot и PerplexityBot

> Полный разбор robots.txt для AI: GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider — кого пускать, кого блокировать и почему, с готовым примером для KZ-бизнеса.

Source: https://shipmint.kz/blog/robots-txt-dlya-ai-kraulerov-gptbot-claudebot
Published: 2026-06-15
Category: SEO и AEO

---


## TL;DR

В вашем `robots.txt` теперь живут не один-два, а почти десяток AI-роботов, и они делают принципиально разные вещи: одни забирают тексты для обучения модели, другие приходят за ответом прямо в момент, когда клиент задал вопрос ChatGPT или Perplexity. Если вы хотите попадать в ответы AI-систем, ключевое правило простое: блокируйте, что хотите, но обязательно пускайте retrieval- и search-ботов (OAI-SearchBot, PerplexityBot, ChatGPT-User), иначе ваш сайт исчезнет из живых AI-ответов. Самая частая и дорогая ошибка казахстанского бизнеса — закрыть «всех AI-ботов» одним правилом `Disallow: /` и тем самым своими руками вычеркнуть себя из новой поисковой реальности. Ниже — кто есть кто среди GPTBot, ClaudeBot, Google-Extended, Bingbot и агрессивного Bytespider, как развести их по функциям в одном файле, и готовый блок robots.txt, который можно адаптировать под свой домен. robots.txt — это договорённость, а не замок: для жёсткого контроля нужны блокировки на уровне сервера.

---

Раньше `robots.txt` был скучным техническим файлом, на который смотрел один раз при запуске сайта и забывал. Сегодня это поле, где решается, увидит ли клиент ваш бизнес, когда задаст вопрос не Гуглу, а нейросети. Сценарий стал обыденным: владелец компании из Алматы спрашивает ChatGPT «кто делает интернет-магазины с интеграцией Kaspi», получает три-четыре названия и на этом останавливается. Если ваш сайт закрыт от поисковых AI-ботов, вас в этом ответе не будет — не потому что вы хуже конкурентов, а потому что робот, который собирал ответ, наткнулся на `Disallow` и ушёл.

При этом большинство гайдов по «AI SEO» дают вредный совет в обе стороны: либо «блокируйте всех AI-ботов, они воруют ваш контент», либо «пускайте всех подряд». Оба совета неверны, потому что игнорируют главное — разные роботы делают разную работу. Один и тот же домен может разумно запретить обучение моделей на своих текстах, но при этом активно пускать роботов, которые приносят клиентов. Эта статья разбирает каждого значимого AI-кроулера по функции, показывает синтаксис управления и даёт готовую конфигурацию под казахстанский рынок.

## Что вообще такое robots.txt и чего он не может

`robots.txt` — это текстовый файл в корне домена (`https://shipmint.kz/robots.txt`), в котором вы сообщаете автоматическим роботам, какие разделы сайта им можно обходить, а какие нет. Это часть Robots Exclusion Protocol, которому больше двадцати лет. Файл состоит из блоков: в каждом указывается `User-agent` (имя робота) и директивы `Allow` / `Disallow` для путей.

Критически важно понимать три вещи, иначе вы примете дорогие неверные решения.

Во-первых, `robots.txt` — это вежливая просьба, а не технический барьер. Файл не блокирует доступ физически. Добросовестные роботы (GPTBot, ClaudeBot, Googlebot) его читают и подчиняются. Недобросовестные могут проигнорировать. Если вам нужно гарантированно закрыть контент — это делается на уровне сервера или WAF, а не строчкой в текстовом файле.

Во-вторых, `Disallow` запрещает обход (crawling), но не всегда исключает упоминание. Это давно известный нюанс классического SEO: страница, закрытая в `robots.txt`, всё равно может появиться в выдаче по внешним ссылкам, просто без описания. Для AI-систем логика похожая — закрыв путь, вы лишаете робота возможности прочитать содержимое, но не всегда стираете сам факт существования URL.

В-третьих, имя робота (`User-agent`) и его IP — разные вещи. Подделать User-agent тривиально. Поэтому крупные операторы (OpenAI, Anthropic, Google) публикуют официальные диапазоны IP-адресов своих ботов, и для серьёзной фильтрации сопоставляют именно их, а не доверяют строке User-agent. Для большинства бизнесов достаточно `robots.txt`, но знать про этот уровень полезно.

## Три типа работы, которые делают AI-роботы

Прежде чем разбирать конкретные имена, нужно усвоить главную классификацию. Все AI-кроулеры делятся на три функциональные группы, и решение «пускать или нет» зависит именно от группы.

| Тип | Что делает | Влияние на ваш бизнес | Стоит ли пускать |
|---|---|---|---|
| Обучение (training) | Собирает тексты в датасет для тренировки будущих версий модели | Ваш контент становится «общим знанием» модели, но без прямой ссылки на вас | На ваше усмотрение |
| Поиск/извлечение (retrieval / search) | Приходит в реальном времени, когда пользователь задал вопрос, чтобы найти и процитировать актуальный ответ | Прямой источник трафика и упоминаний с ссылкой на ваш сайт | Почти всегда да |
| Индексация (indexing) | Классический обход для построения поискового индекса | Видимость в обычном и AI-поиске | Да |

Логика для бизнеса, который хочет AI-видимости, формулируется в одну фразу: блокировка обучения — это вопрос принципа и защиты контента, а блокировка поиска — это выстрел себе в ногу. Когда клиент спрашивает Perplexity или ChatGPT «найди агентство в Казахстане», система отправляет именно retrieval-бота на сайты в реальном времени. Закроете его — и не попадёте в ответ, как бы хорош ни был ваш сайт.

## Разбор каждого AI-кроулера: кто чем занят

Теперь по именам. Это актуальный на 2026 год список роботов, которые реально стучатся в казахстанские сайты.

### OpenAI: GPTBot, OAI-SearchBot, ChatGPT-User

У OpenAI три разных робота, и путать их — главная ошибка.

**GPTBot** — это обучающий краулер. Он собирает контент для тренировки моделей. Если вы не хотите, чтобы ваши тексты использовались для обучения, блокируйте именно его. Это не влияет на то, появитесь ли вы в живых ответах ChatGPT с веб-поиском.

**OAI-SearchBot** — это поисковый робот. Он индексирует сайты для функции поиска внутри ChatGPT. Именно он отвечает за то, попадёте ли вы в результаты, когда пользователь ищет через ChatGPT. Этого бота надо пускать, если хотите видимости.

**ChatGPT-User** — это робот, который ходит на сайт «по запросу пользователя»: когда человек в диалоге просит ChatGPT открыть конкретную ссылку или найти что-то прямо сейчас. Тоже retrieval, тоже стоит пускать.

Вывод: блокировать можно GPTBot (обучение), но OAI-SearchBot и ChatGPT-User держите открытыми.

### Anthropic: ClaudeBot, anthropic-ai, Claude-User

**ClaudeBot** — основной краулер Anthropic, собирает данные в том числе для обучения Claude. **anthropic-ai** — историческое имя, которое всё ещё встречается. **Claude-User** (и связанные user-инициированные агенты) — заходы по запросу пользователя в реальном времени. По мере того как Claude обрастает функциями поиска и навыками, retrieval-составляющая растёт. Логика та же, что у OpenAI: обучающего бота можно ограничить, пользовательские/поисковые заходы лучше разрешить.

### Perplexity: PerplexityBot, Perplexity-User

Perplexity — это поисковая система на базе AI, и она по своей природе про retrieval с цитированием источников. **PerplexityBot** индексирует сайты, **Perplexity-User** обслуживает конкретный запрос пользователя. Perplexity показывает ссылки на источники прямо в ответе, поэтому для бизнеса это один из самых ценных каналов AI-трафика. Блокировать Perplexity = добровольно отказаться от прямого источника переходов. Пускайте.

### Google: Googlebot и Google-Extended

Здесь тонкость, которую путают чаще всего. **Googlebot** — это классический поисковый робот Google; он же питает в том числе AI Overviews. Блокировать Googlebot нельзя ни в коем случае — вы выпадете из обычного поиска целиком.

**Google-Extended** — это не отдельный робот, а токен управления. Он позволяет сказать Google: «используйте мой контент для обычного поиска, но не для обучения генеративных моделей Gemini». То есть `Disallow: Google-Extended` отключает обучение, но НЕ влияет на индексацию и показ в поиске. Это идеальный инструмент для тех, кто хочет остаться в поиске, но не отдавать контент на обучение.

### Microsoft: Bingbot

**Bingbot** — поисковый робот Bing, и он же стоит за Copilot и AI-функциями Microsoft. С учётом того, что многие AI-системы исторически опирались на индекс Bing, держать Bingbot открытым важно для широкой AI-видимости. Блокировать его нет причин для бизнеса, который хочет, чтобы его находили.

### Apple, Meta, Amazon, Common Crawl и другие

**Applebot** — поисковый робот Apple (Siri, Spotlight), **Applebot-Extended** — токен отключения обучения Apple Intelligence, по аналогии с Google-Extended. **Meta-ExternalAgent** и **Meta-ExternalFetcher** — роботы Meta. **Amazonbot** — робот Amazon. **CCBot** — краулер Common Crawl, чей открытый датасет используют многие сторонние модели; блокировка CCBot ограничивает попадание в обучающие наборы целого ряда LLM. **cohere-ai**, **YouBot** — роботы соответствующих AI-сервисов.

### Особый случай: Bytespider

**Bytespider** — краулер ByteDance (компания, владеющая TikTok), который собирает данные для их AI-продуктов. У него репутация агрессивного: высокая частота запросов, исторически слабое соблюдение `robots.txt`. Многие сайты блокируют Bytespider в первую очередь не из-за обучения, а из-за нагрузки на сервер. Если в логах видите всплески от Bytespider — это кандидат на блокировку, причём при упорстве робота уже на уровне сервера, а не только в `robots.txt`.

## Почему бизнесу, который хочет AI-видимости, нельзя «блокировать всех»

Вернёмся к главной мысли, потому что на ней теряют деньги. В интернете гуляет шаблон вроде «вставьте это, чтобы защититься от AI», где одним списком закрываются все боты сразу — и обучающие, и поисковые. Для медиа, которое продаёт лицензии на контент, это может быть осмысленно. Для сервисного бизнеса, агентства, магазина или B2B-компании это самоповреждение.

Представьте поведение реального клиента в Казахстане в 2026 году. Он не открывает десять вкладок выдачи. Он спрашивает ChatGPT «посоветуй, кто разрабатывает корпоративные сайты в Астане», уточняет «с интеграцией 1С и оплатой через Kaspi», и получает короткий список. Чтобы попасть в этот список, ваш сайт должен быть, во-первых, доступен поисковому AI-боту в момент запроса, во-вторых, написан так, чтобы из него легко извлечь готовый ответ. Первое — это `robots.txt`. Второе — это структура контента, разметка и [llms.txt со Schema.org, про которые мы писали отдельно](/blog/llms-txt-schema-org-vidimost-dlya-ai-poiska). Закрыв retrieval-ботов, вы обнуляете оба усилия.

Разумная стратегия для большинства компаний выглядит так:

- **Пускать:** все retrieval/search-боты (OAI-SearchBot, ChatGPT-User, PerplexityBot, Perplexity-User, Bingbot, Googlebot, Applebot) — это ваши каналы попадания в AI-ответы.
- **На усмотрение:** обучающие боты (GPTBot, ClaudeBot, Google-Extended, CCBot, Applebot-Extended). Хотите, чтобы бренд «растворился» в знаниях модели даже без прямой ссылки, — пускайте. Принципиально против обучения на вашем контенте — закрывайте, видимость в поиске от этого не пострадает.
- **Блокировать прицельно:** агрессивные роботы вроде Bytespider, если они грузят сервер.

## Синтаксис: как разрешать и запрещать конкретных ботов

Технически всё делается через блоки `User-agent`. Каждый блок относится к роботу, имя которого указано. Директива `Disallow: /` запрещает весь сайт, `Allow: /` разрешает, `Disallow:` (пустая) тоже означает «всё разрешено».

Заблокировать обучающий бот OpenAI, но оставить поисковый:

```txt
User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /
```

Отключить обучение Google, сохранив индексацию (важно: Googlebot НЕ трогаем):

```txt
User-agent: Google-Extended
Disallow: /

User-agent: Googlebot
Allow: /
```

Полностью заблокировать агрессивный Bytespider:

```txt
User-agent: Bytespider
Disallow: /
```

Закрыть только служебные разделы для всех остальных роботов, оставив сайт открытым:

```txt
User-agent: *
Allow: /
Disallow: /api/
Disallow: /admin/
```

Несколько имён можно перечислять в одном блоке, если для них одинаковые правила — это удобно, когда вы хотите единым махом разрешить группу поисковых ботов.

## Готовый robots.txt для казахстанского бизнеса

Ниже — практичная отправная конфигурация для сервисной компании, агентства или магазина, который хочет максимум AI-видимости и при этом сохраняет контроль над обучением и нагрузкой. Замените домен на свой, проверьте пути и адрес карты сайта.

```txt
# === Поисковые / retrieval AI-боты: ПУСКАЕМ (источник AI-трафика) ===
User-agent: OAI-SearchBot
User-agent: ChatGPT-User
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: Applebot
User-agent: Bingbot
User-agent: Googlebot
User-agent: YandexBot
Allow: /

# === Обучающие боты: на ваше усмотрение (здесь — разрешаем для узнаваемости бренда) ===
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: anthropic-ai
User-agent: Google-Extended
User-agent: Applebot-Extended
User-agent: CCBot
User-agent: cohere-ai
User-agent: Amazonbot
Allow: /

# === Агрессивный краулер: БЛОКИРУЕМ (нагрузка на сервер) ===
User-agent: Bytespider
Disallow: /

# === Все остальные: открываем сайт, закрываем служебные пути ===
User-agent: *
Allow: /
Disallow: /api/
Disallow: /admin/

Sitemap: https://shipmint.kz/sitemap.xml
```

Если вы принципиально не хотите отдавать контент на обучение моделей, перенесите блок обучающих ботов из `Allow: /` в `Disallow: /` — видимость в поиске и AI-ответах при этом сохранится, потому что retrieval-боты остаются открытыми. Для сайтов на Next.js (как сам shipmint.kz) этот файл обычно генерируется кодом из `app/robots.ts`, а не лежит статикой, но итоговая логика та же.

Обратите внимание на `YandexBot` в списке поисковых: для Казахстана и СНГ Яндекс остаётся значимым каналом, в том числе для его собственных AI-функций. Закрывать его нет смысла, если только Яндекс не присылает паразитную нагрузку.

## Как проверить, что всё работает

Файл, который вы не проверили, — это файл, который не работает. Минимальная проверка после изменений:

1. **Откройте файл напрямую** — `https://вашдомен/robots.txt`. Он должен отдаваться с кодом 200 и быть читаемым. Частая ошибка — файл закрыт авторизацией или отдаёт 404.
2. **Проверьте в Google Search Console** — там есть отчёт по `robots.txt` и инструмент проверки URL, который показывает, видит ли Googlebot конкретную страницу. Для shipmint.kz и любого KZ-сайта GSC подключается по `sc-domain:`.
3. **Проверьте логи сервера** — реальный способ увидеть, какие боты приходят и как часто. Если Bytespider или другой робот игнорирует `Disallow`, вы увидите это именно в логах, и тогда блокировку переносят на уровень Nginx/Cloudflare.
4. **Не блокируйте по ошибке нужное** — после правок убедитесь, что Googlebot и retrieval-боты остались с `Allow`. Случайный `Disallow: /` для Googlebot — катастрофа, которая выбивает сайт из поиска целиком.

Отдельно про закон: блокировка или разрешение AI-ботов — это не вопрос обработки персональных данных, а вопрос контентной политики. Закон РК о персональных данных регулирует, как вы храните и используете данные клиентов (формы, CRM, рассылки), а не то, читает ли GPTBot ваши публичные страницы. Не путайте эти плоскости — для AI-видимости важна публичность контента, для защиты данных клиентов — серверная безопасность и согласия в формах.

## Часто задаваемые вопросы

### Если я заблокирую GPTBot, я пропаду из ChatGPT?

Нет, не из самого ChatGPT с веб-поиском. GPTBot — это обучающий робот; его блокировка лишь не даёт OpenAI использовать ваш контент для тренировки моделей. За появление в живых ответах ChatGPT отвечают OAI-SearchBot и ChatGPT-User. Если вы хотите попадать в AI-ответы, блокируйте GPTBot спокойно, но эти два бота держите открытыми.

### Стоит ли блокировать AI-ботов, чтобы «защитить контент от воровства»?

Для большинства бизнесов — нет. Блокировка отрезает вас от нового канала клиентов: люди всё чаще ищут через ChatGPT, Perplexity и AI Overviews, а не через классическую выдачу. Защита контента имеет смысл для медиа, которое продаёт доступ к материалам, но сервисной компании или магазину важнее быть видимым. Разумный компромисс — закрыть только обучающих ботов, оставив поисковых.

### В чём разница между Googlebot и Google-Extended?

Googlebot — это поисковый робот Google, который строит индекс и питает в том числе AI Overviews; его блокировать нельзя, иначе вы выпадете из поиска. Google-Extended — это не отдельный робот, а переключатель: он отключает использование вашего контента для обучения генеративных моделей Google, но не влияет на индексацию и показ в поиске. Это инструмент «остаться в поиске, но не отдавать на обучение».

### Почему все советуют блокировать Bytespider?

Bytespider — краулер ByteDance с репутацией агрессивного: он делает много запросов и исторически слабо соблюдает `robots.txt`, создавая лишнюю нагрузку на сервер. Его блокируют чаще из-за нагрузки, чем из-за принципов. Если он упорствует и игнорирует `Disallow`, блокировку переносят на уровень сервера или Cloudflare, потому что `robots.txt` для такого робота — лишь просьба.

### robots.txt гарантирует, что бот не зайдёт на сайт?

Нет. `robots.txt` — это договорённость, а не технический замок. Добросовестные роботы (Googlebot, GPTBot, ClaudeBot) его соблюдают, недобросовестные могут проигнорировать. Для жёсткого контроля доступа нужны блокировки на уровне сервера, WAF или по официальным IP-диапазонам ботов, а не строчка в текстовом файле.

### Влияет ли управление AI-ботами на Закон РК о персональных данных?

Напрямую нет. Закон о персональных данных регулирует сбор, хранение и использование данных ваших клиентов — формы, CRM, рассылки, согласия. Доступ AI-ботов к публичным страницам сайта — это контентная политика, а не обработка персональных данных. Эти две темы решаются разными средствами: одна через `robots.txt` и контент, другая через серверную безопасность и корректные согласия в формах.

Управление AI-кроулерами — это не «настроить файл один раз», а постоянная работа на стыке технического SEO и новой логики AEO/GEO: правильно развести ботов по функциям, написать контент так, чтобы из него извлекался ответ, и подкрепить всё разметкой. В [Shipmint мы выстраиваем AI-видимость комплексно в рамках услуги AI-SEO](/services/ai-seo) — от аудита `robots.txt` и логов до структуры контента и Schema.org под казахстанский рынок. Если хотите понять, видят ли вас сейчас ChatGPT, Perplexity и AI Overviews, и что нужно поправить, чтобы попадать в их ответы, — [напишите нам](/contact), и мы начнём с разбора вашей текущей конфигурации.


---

## Related

- [Blog](https://shipmint.kz/blog)
- [Contact](https://shipmint.kz/contact)