
robots.txt для AI-кроулеров: как управлять GPTBot, ClaudeBot и PerplexityBot
Никита Яночкин·15 июня 2026 г.· 15 мин чтения
TL;DR
В вашем robots.txt теперь живут не один-два, а почти десяток AI-роботов, и они делают принципиально разные вещи: одни забирают тексты для обучения модели, другие приходят за ответом прямо в момент, когда клиент задал вопрос ChatGPT или Perplexity. Если вы хотите попадать в ответы AI-систем, ключевое правило простое: блокируйте, что хотите, но обязательно пускайте retrieval- и search-ботов (OAI-SearchBot, PerplexityBot, ChatGPT-User), иначе ваш сайт исчезнет из живых AI-ответов. Самая частая и дорогая ошибка казахстанского бизнеса — закрыть «всех AI-ботов» одним правилом Disallow: / и тем самым своими руками вычеркнуть себя из новой поисковой реальности. Ниже — кто есть кто среди GPTBot, ClaudeBot, Google-Extended, Bingbot и агрессивного Bytespider, как развести их по функциям в одном файле, и готовый блок robots.txt, который можно адаптировать под свой домен. robots.txt — это договорённость, а не замок: для жёсткого контроля нужны блокировки на уровне сервера.
Раньше robots.txt был скучным техническим файлом, на который смотрел один раз при запуске сайта и забывал. Сегодня это поле, где решается, увидит ли клиент ваш бизнес, когда задаст вопрос не Гуглу, а нейросети. Сценарий стал обыденным: владелец компании из Алматы спрашивает ChatGPT «кто делает интернет-магазины с интеграцией Kaspi», получает три-четыре названия и на этом останавливается. Если ваш сайт закрыт от поисковых AI-ботов, вас в этом ответе не будет — не потому что вы хуже конкурентов, а потому что робот, который собирал ответ, наткнулся на Disallow и ушёл.
При этом большинство гайдов по «AI SEO» дают вредный совет в обе стороны: либо «блокируйте всех AI-ботов, они воруют ваш контент», либо «пускайте всех подряд». Оба совета неверны, потому что игнорируют главное — разные роботы делают разную работу. Один и тот же домен может разумно запретить обучение моделей на своих текстах, но при этом активно пускать роботов, которые приносят клиентов. Эта статья разбирает каждого значимого AI-кроулера по функции, показывает синтаксис управления и даёт готовую конфигурацию под казахстанский рынок.
Что вообще такое robots.txt и чего он не может
robots.txt — это текстовый файл в корне домена (https://shipmint.kz/robots.txt), в котором вы сообщаете автоматическим роботам, какие разделы сайта им можно обходить, а какие нет. Это часть Robots Exclusion Protocol, которому больше двадцати лет. Файл состоит из блоков: в каждом указывается User-agent (имя робота) и директивы Allow / Disallow для путей.
Критически важно понимать три вещи, иначе вы примете дорогие неверные решения.
Во-первых, robots.txt — это вежливая просьба, а не технический барьер. Файл не блокирует доступ физически. Добросовестные роботы (GPTBot, ClaudeBot, Googlebot) его читают и подчиняются. Недобросовестные могут проигнорировать. Если вам нужно гарантированно закрыть контент — это делается на уровне сервера или WAF, а не строчкой в текстовом файле.
Во-вторых, Disallow запрещает обход (crawling), но не всегда исключает упоминание. Это давно известный нюанс классического SEO: страница, закрытая в robots.txt, всё равно может появиться в выдаче по внешним ссылкам, просто без описания. Для AI-систем логика похожая — закрыв путь, вы лишаете робота возможности прочитать содержимое, но не всегда стираете сам факт существования URL.
В-третьих, имя робота (User-agent) и его IP — разные вещи. Подделать User-agent тривиально. Поэтому крупные операторы (OpenAI, Anthropic, Google) публикуют официальные диапазоны IP-адресов своих ботов, и для серьёзной фильтрации сопоставляют именно их, а не доверяют строке User-agent. Для большинства бизнесов достаточно robots.txt, но знать про этот уровень полезно.
Три типа работы, которые делают AI-роботы
Прежде чем разбирать конкретные имена, нужно усвоить главную классификацию. Все AI-кроулеры делятся на три функциональные группы, и решение «пускать или нет» зависит именно от группы.
| Тип | Что делает | Влияние на ваш бизнес | Стоит ли пускать | |---|---|---|---| | Обучение (training) | Собирает тексты в датасет для тренировки будущих версий модели | Ваш контент становится «общим знанием» модели, но без прямой ссылки на вас | На ваше усмотрение | | Поиск/извлечение (retrieval / search) | Приходит в реальном времени, когда пользователь задал вопрос, чтобы найти и процитировать актуальный ответ | Прямой источник трафика и упоминаний с ссылкой на ваш сайт | Почти всегда да | | Индексация (indexing) | Классический обход для построения поискового индекса | Видимость в обычном и AI-поиске | Да |
Логика для бизнеса, который хочет AI-видимости, формулируется в одну фразу: блокировка обучения — это вопрос принципа и защиты контента, а блокировка поиска — это выстрел себе в ногу. Когда клиент спрашивает Perplexity или ChatGPT «найди агентство в Казахстане», система отправляет именно retrieval-бота на сайты в реальном времени. Закроете его — и не попадёте в ответ, как бы хорош ни был ваш сайт.
Разбор каждого AI-кроулера: кто чем занят
Теперь по именам. Это актуальный на 2026 год список роботов, которые реально стучатся в казахстанские сайты.
OpenAI: GPTBot, OAI-SearchBot, ChatGPT-User
У OpenAI три разных робота, и путать их — главная ошибка.
GPTBot — это обучающий краулер. Он собирает контент для тренировки моделей. Если вы не хотите, чтобы ваши тексты использовались для обучения, блокируйте именно его. Это не влияет на то, появитесь ли вы в живых ответах ChatGPT с веб-поиском.
OAI-SearchBot — это поисковый робот. Он индексирует сайты для функции поиска внутри ChatGPT. Именно он отвечает за то, попадёте ли вы в результаты, когда пользователь ищет через ChatGPT. Этого бота надо пускать, если хотите видимости.
ChatGPT-User — это робот, который ходит на сайт «по запросу пользователя»: когда человек в диалоге просит ChatGPT открыть конкретную ссылку или найти что-то прямо сейчас. Тоже retrieval, тоже стоит пускать.
Вывод: блокировать можно GPTBot (обучение), но OAI-SearchBot и ChatGPT-User держите открытыми.
Anthropic: ClaudeBot, anthropic-ai, Claude-User
ClaudeBot — основной краулер Anthropic, собирает данные в том числе для обучения Claude. anthropic-ai — историческое имя, которое всё ещё встречается. Claude-User (и связанные user-инициированные агенты) — заходы по запросу пользователя в реальном времени. По мере того как Claude обрастает функциями поиска и навыками, retrieval-составляющая растёт. Логика та же, что у OpenAI: обучающего бота можно ограничить, пользовательские/поисковые заходы лучше разрешить.
Perplexity: PerplexityBot, Perplexity-User
Perplexity — это поисковая система на базе AI, и она по своей природе про retrieval с цитированием источников. PerplexityBot индексирует сайты, Perplexity-User обслуживает конкретный запрос пользователя. Perplexity показывает ссылки на источники прямо в ответе, поэтому для бизнеса это один из самых ценных каналов AI-трафика. Блокировать Perplexity = добровольно отказаться от прямого источника переходов. Пускайте.
Google: Googlebot и Google-Extended
Здесь тонкость, которую путают чаще всего. Googlebot — это классический поисковый робот Google; он же питает в том числе AI Overviews. Блокировать Googlebot нельзя ни в коем случае — вы выпадете из обычного поиска целиком.
Google-Extended — это не отдельный робот, а токен управления. Он позволяет сказать Google: «используйте мой контент для обычного поиска, но не для обучения генеративных моделей Gemini». То есть Disallow: Google-Extended отключает обучение, но НЕ влияет на индексацию и показ в поиске. Это идеальный инструмент для тех, кто хочет остаться в поиске, но не отдавать контент на обучение.
Microsoft: Bingbot
Bingbot — поисковый робот Bing, и он же стоит за Copilot и AI-функциями Microsoft. С учётом того, что многие AI-системы исторически опирались на индекс Bing, держать Bingbot открытым важно для широкой AI-видимости. Блокировать его нет причин для бизнеса, который хочет, чтобы его находили.
Apple, Meta, Amazon, Common Crawl и другие
Applebot — поисковый робот Apple (Siri, Spotlight), Applebot-Extended — токен отключения обучения Apple Intelligence, по аналогии с Google-Extended. Meta-ExternalAgent и Meta-ExternalFetcher — роботы Meta. Amazonbot — робот Amazon. CCBot — краулер Common Crawl, чей открытый датасет используют многие сторонние модели; блокировка CCBot ограничивает попадание в обучающие наборы целого ряда LLM. cohere-ai, YouBot — роботы соответствующих AI-сервисов.
Особый случай: Bytespider
Bytespider — краулер ByteDance (компания, владеющая TikTok), который собирает данные для их AI-продуктов. У него репутация агрессивного: высокая частота запросов, исторически слабое соблюдение robots.txt. Многие сайты блокируют Bytespider в первую очередь не из-за обучения, а из-за нагрузки на сервер. Если в логах видите всплески от Bytespider — это кандидат на блокировку, причём при упорстве робота уже на уровне сервера, а не только в robots.txt.
Почему бизнесу, который хочет AI-видимости, нельзя «блокировать всех»
Вернёмся к главной мысли, потому что на ней теряют деньги. В интернете гуляет шаблон вроде «вставьте это, чтобы защититься от AI», где одним списком закрываются все боты сразу — и обучающие, и поисковые. Для медиа, которое продаёт лицензии на контент, это может быть осмысленно. Для сервисного бизнеса, агентства, магазина или B2B-компании это самоповреждение.
Представьте поведение реального клиента в Казахстане в 2026 году. Он не открывает десять вкладок выдачи. Он спрашивает ChatGPT «посоветуй, кто разрабатывает корпоративные сайты в Астане», уточняет «с интеграцией 1С и оплатой через Kaspi», и получает короткий список. Чтобы попасть в этот список, ваш сайт должен быть, во-первых, доступен поисковому AI-боту в момент запроса, во-вторых, написан так, чтобы из него легко извлечь готовый ответ. Первое — это robots.txt. Второе — это структура контента, разметка и llms.txt со Schema.org, про которые мы писали отдельно. Закрыв retrieval-ботов, вы обнуляете оба усилия.
Разумная стратегия для большинства компаний выглядит так:
- Пускать: все retrieval/search-боты (OAI-SearchBot, ChatGPT-User, PerplexityBot, Perplexity-User, Bingbot, Googlebot, Applebot) — это ваши каналы попадания в AI-ответы.
- На усмотрение: обучающие боты (GPTBot, ClaudeBot, Google-Extended, CCBot, Applebot-Extended). Хотите, чтобы бренд «растворился» в знаниях модели даже без прямой ссылки, — пускайте. Принципиально против обучения на вашем контенте — закрывайте, видимость в поиске от этого не пострадает.
- Блокировать прицельно: агрессивные роботы вроде Bytespider, если они грузят сервер.
Синтаксис: как разрешать и запрещать конкретных ботов
Технически всё делается через блоки User-agent. Каждый блок относится к роботу, имя которого указано. Директива Disallow: / запрещает весь сайт, Allow: / разрешает, Disallow: (пустая) тоже означает «всё разрешено».
Заблокировать обучающий бот OpenAI, но оставить поисковый:
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
Отключить обучение Google, сохранив индексацию (важно: Googlebot НЕ трогаем):
User-agent: Google-Extended
Disallow: /
User-agent: Googlebot
Allow: /
Полностью заблокировать агрессивный Bytespider:
User-agent: Bytespider
Disallow: /
Закрыть только служебные разделы для всех остальных роботов, оставив сайт открытым:
User-agent: *
Allow: /
Disallow: /api/
Disallow: /admin/
Несколько имён можно перечислять в одном блоке, если для них одинаковые правила — это удобно, когда вы хотите единым махом разрешить группу поисковых ботов.
Готовый robots.txt для казахстанского бизнеса
Ниже — практичная отправная конфигурация для сервисной компании, агентства или магазина, который хочет максимум AI-видимости и при этом сохраняет контроль над обучением и нагрузкой. Замените домен на свой, проверьте пути и адрес карты сайта.
# === Поисковые / retrieval AI-боты: ПУСКАЕМ (источник AI-трафика) ===
User-agent: OAI-SearchBot
User-agent: ChatGPT-User
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: Applebot
User-agent: Bingbot
User-agent: Googlebot
User-agent: YandexBot
Allow: /
# === Обучающие боты: на ваше усмотрение (здесь — разрешаем для узнаваемости бренда) ===
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: anthropic-ai
User-agent: Google-Extended
User-agent: Applebot-Extended
User-agent: CCBot
User-agent: cohere-ai
User-agent: Amazonbot
Allow: /
# === Агрессивный краулер: БЛОКИРУЕМ (нагрузка на сервер) ===
User-agent: Bytespider
Disallow: /
# === Все остальные: открываем сайт, закрываем служебные пути ===
User-agent: *
Allow: /
Disallow: /api/
Disallow: /admin/
Sitemap: https://shipmint.kz/sitemap.xml
Если вы принципиально не хотите отдавать контент на обучение моделей, перенесите блок обучающих ботов из Allow: / в Disallow: / — видимость в поиске и AI-ответах при этом сохранится, потому что retrieval-боты остаются открытыми. Для сайтов на Next.js (как сам shipmint.kz) этот файл обычно генерируется кодом из app/robots.ts, а не лежит статикой, но итоговая логика та же.
Обратите внимание на YandexBot в списке поисковых: для Казахстана и СНГ Яндекс остаётся значимым каналом, в том числе для его собственных AI-функций. Закрывать его нет смысла, если только Яндекс не присылает паразитную нагрузку.
Как проверить, что всё работает
Файл, который вы не проверили, — это файл, который не работает. Минимальная проверка после изменений:
- Откройте файл напрямую —
https://вашдомен/robots.txt. Он должен отдаваться с кодом 200 и быть читаемым. Частая ошибка — файл закрыт авторизацией или отдаёт 404. - Проверьте в Google Search Console — там есть отчёт по
robots.txtи инструмент проверки URL, который показывает, видит ли Googlebot конкретную страницу. Для shipmint.kz и любого KZ-сайта GSC подключается поsc-domain:. - Проверьте логи сервера — реальный способ увидеть, какие боты приходят и как часто. Если Bytespider или другой робот игнорирует
Disallow, вы увидите это именно в логах, и тогда блокировку переносят на уровень Nginx/Cloudflare. - Не блокируйте по ошибке нужное — после правок убедитесь, что Googlebot и retrieval-боты остались с
Allow. СлучайныйDisallow: /для Googlebot — катастрофа, которая выбивает сайт из поиска целиком.
Отдельно про закон: блокировка или разрешение AI-ботов — это не вопрос обработки персональных данных, а вопрос контентной политики. Закон РК о персональных данных регулирует, как вы храните и используете данные клиентов (формы, CRM, рассылки), а не то, читает ли GPTBot ваши публичные страницы. Не путайте эти плоскости — для AI-видимости важна публичность контента, для защиты данных клиентов — серверная безопасность и согласия в формах.
Часто задаваемые вопросы
Если я заблокирую GPTBot, я пропаду из ChatGPT?
Нет, не из самого ChatGPT с веб-поиском. GPTBot — это обучающий робот; его блокировка лишь не даёт OpenAI использовать ваш контент для тренировки моделей. За появление в живых ответах ChatGPT отвечают OAI-SearchBot и ChatGPT-User. Если вы хотите попадать в AI-ответы, блокируйте GPTBot спокойно, но эти два бота держите открытыми.
Стоит ли блокировать AI-ботов, чтобы «защитить контент от воровства»?
Для большинства бизнесов — нет. Блокировка отрезает вас от нового канала клиентов: люди всё чаще ищут через ChatGPT, Perplexity и AI Overviews, а не через классическую выдачу. Защита контента имеет смысл для медиа, которое продаёт доступ к материалам, но сервисной компании или магазину важнее быть видимым. Разумный компромисс — закрыть только обучающих ботов, оставив поисковых.
В чём разница между Googlebot и Google-Extended?
Googlebot — это поисковый робот Google, который строит индекс и питает в том числе AI Overviews; его блокировать нельзя, иначе вы выпадете из поиска. Google-Extended — это не отдельный робот, а переключатель: он отключает использование вашего контента для обучения генеративных моделей Google, но не влияет на индексацию и показ в поиске. Это инструмент «остаться в поиске, но не отдавать на обучение».
Почему все советуют блокировать Bytespider?
Bytespider — краулер ByteDance с репутацией агрессивного: он делает много запросов и исторически слабо соблюдает robots.txt, создавая лишнюю нагрузку на сервер. Его блокируют чаще из-за нагрузки, чем из-за принципов. Если он упорствует и игнорирует Disallow, блокировку переносят на уровень сервера или Cloudflare, потому что robots.txt для такого робота — лишь просьба.
robots.txt гарантирует, что бот не зайдёт на сайт?
Нет. robots.txt — это договорённость, а не технический замок. Добросовестные роботы (Googlebot, GPTBot, ClaudeBot) его соблюдают, недобросовестные могут проигнорировать. Для жёсткого контроля доступа нужны блокировки на уровне сервера, WAF или по официальным IP-диапазонам ботов, а не строчка в текстовом файле.
Влияет ли управление AI-ботами на Закон РК о персональных данных?
Напрямую нет. Закон о персональных данных регулирует сбор, хранение и использование данных ваших клиентов — формы, CRM, рассылки, согласия. Доступ AI-ботов к публичным страницам сайта — это контентная политика, а не обработка персональных данных. Эти две темы решаются разными средствами: одна через robots.txt и контент, другая через серверную безопасность и корректные согласия в формах.
Управление AI-кроулерами — это не «настроить файл один раз», а постоянная работа на стыке технического SEO и новой логики AEO/GEO: правильно развести ботов по функциям, написать контент так, чтобы из него извлекался ответ, и подкрепить всё разметкой. В Shipmint мы выстраиваем AI-видимость комплексно в рамках услуги AI-SEO — от аудита robots.txt и логов до структуры контента и Schema.org под казахстанский рынок. Если хотите понять, видят ли вас сейчас ChatGPT, Perplexity и AI Overviews, и что нужно поправить, чтобы попадать в их ответы, — напишите нам, и мы начнём с разбора вашей текущей конфигурации.


