# robots.txt для AI-кроулеров: как управлять GPTBot, ClaudeBot и PerplexityBot > Полный разбор robots.txt для AI: GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider — кого пускать, кого блокировать и почему, с готовым примером для KZ-бизнеса. Source: https://shipmint.kz/blog/robots-txt-dlya-ai-kraulerov-gptbot-claudebot Published: 2026-06-15 Category: SEO и AEO --- ## TL;DR В вашем `robots.txt` теперь живут не один-два, а почти десяток AI-роботов, и они делают принципиально разные вещи: одни забирают тексты для обучения модели, другие приходят за ответом прямо в момент, когда клиент задал вопрос ChatGPT или Perplexity. Если вы хотите попадать в ответы AI-систем, ключевое правило простое: блокируйте, что хотите, но обязательно пускайте retrieval- и search-ботов (OAI-SearchBot, PerplexityBot, ChatGPT-User), иначе ваш сайт исчезнет из живых AI-ответов. Самая частая и дорогая ошибка казахстанского бизнеса — закрыть «всех AI-ботов» одним правилом `Disallow: /` и тем самым своими руками вычеркнуть себя из новой поисковой реальности. Ниже — кто есть кто среди GPTBot, ClaudeBot, Google-Extended, Bingbot и агрессивного Bytespider, как развести их по функциям в одном файле, и готовый блок robots.txt, который можно адаптировать под свой домен. robots.txt — это договорённость, а не замок: для жёсткого контроля нужны блокировки на уровне сервера. --- Раньше `robots.txt` был скучным техническим файлом, на который смотрел один раз при запуске сайта и забывал. Сегодня это поле, где решается, увидит ли клиент ваш бизнес, когда задаст вопрос не Гуглу, а нейросети. Сценарий стал обыденным: владелец компании из Алматы спрашивает ChatGPT «кто делает интернет-магазины с интеграцией Kaspi», получает три-четыре названия и на этом останавливается. Если ваш сайт закрыт от поисковых AI-ботов, вас в этом ответе не будет — не потому что вы хуже конкурентов, а потому что робот, который собирал ответ, наткнулся на `Disallow` и ушёл. При этом большинство гайдов по «AI SEO» дают вредный совет в обе стороны: либо «блокируйте всех AI-ботов, они воруют ваш контент», либо «пускайте всех подряд». Оба совета неверны, потому что игнорируют главное — разные роботы делают разную работу. Один и тот же домен может разумно запретить обучение моделей на своих текстах, но при этом активно пускать роботов, которые приносят клиентов. Эта статья разбирает каждого значимого AI-кроулера по функции, показывает синтаксис управления и даёт готовую конфигурацию под казахстанский рынок. ## Что вообще такое robots.txt и чего он не может `robots.txt` — это текстовый файл в корне домена (`https://shipmint.kz/robots.txt`), в котором вы сообщаете автоматическим роботам, какие разделы сайта им можно обходить, а какие нет. Это часть Robots Exclusion Protocol, которому больше двадцати лет. Файл состоит из блоков: в каждом указывается `User-agent` (имя робота) и директивы `Allow` / `Disallow` для путей. Критически важно понимать три вещи, иначе вы примете дорогие неверные решения. Во-первых, `robots.txt` — это вежливая просьба, а не технический барьер. Файл не блокирует доступ физически. Добросовестные роботы (GPTBot, ClaudeBot, Googlebot) его читают и подчиняются. Недобросовестные могут проигнорировать. Если вам нужно гарантированно закрыть контент — это делается на уровне сервера или WAF, а не строчкой в текстовом файле. Во-вторых, `Disallow` запрещает обход (crawling), но не всегда исключает упоминание. Это давно известный нюанс классического SEO: страница, закрытая в `robots.txt`, всё равно может появиться в выдаче по внешним ссылкам, просто без описания. Для AI-систем логика похожая — закрыв путь, вы лишаете робота возможности прочитать содержимое, но не всегда стираете сам факт существования URL. В-третьих, имя робота (`User-agent`) и его IP — разные вещи. Подделать User-agent тривиально. Поэтому крупные операторы (OpenAI, Anthropic, Google) публикуют официальные диапазоны IP-адресов своих ботов, и для серьёзной фильтрации сопоставляют именно их, а не доверяют строке User-agent. Для большинства бизнесов достаточно `robots.txt`, но знать про этот уровень полезно. ## Три типа работы, которые делают AI-роботы Прежде чем разбирать конкретные имена, нужно усвоить главную классификацию. Все AI-кроулеры делятся на три функциональные группы, и решение «пускать или нет» зависит именно от группы. | Тип | Что делает | Влияние на ваш бизнес | Стоит ли пускать | |---|---|---|---| | Обучение (training) | Собирает тексты в датасет для тренировки будущих версий модели | Ваш контент становится «общим знанием» модели, но без прямой ссылки на вас | На ваше усмотрение | | Поиск/извлечение (retrieval / search) | Приходит в реальном времени, когда пользователь задал вопрос, чтобы найти и процитировать актуальный ответ | Прямой источник трафика и упоминаний с ссылкой на ваш сайт | Почти всегда да | | Индексация (indexing) | Классический обход для построения поискового индекса | Видимость в обычном и AI-поиске | Да | Логика для бизнеса, который хочет AI-видимости, формулируется в одну фразу: блокировка обучения — это вопрос принципа и защиты контента, а блокировка поиска — это выстрел себе в ногу. Когда клиент спрашивает Perplexity или ChatGPT «найди агентство в Казахстане», система отправляет именно retrieval-бота на сайты в реальном времени. Закроете его — и не попадёте в ответ, как бы хорош ни был ваш сайт. ## Разбор каждого AI-кроулера: кто чем занят Теперь по именам. Это актуальный на 2026 год список роботов, которые реально стучатся в казахстанские сайты. ### OpenAI: GPTBot, OAI-SearchBot, ChatGPT-User У OpenAI три разных робота, и путать их — главная ошибка. **GPTBot** — это обучающий краулер. Он собирает контент для тренировки моделей. Если вы не хотите, чтобы ваши тексты использовались для обучения, блокируйте именно его. Это не влияет на то, появитесь ли вы в живых ответах ChatGPT с веб-поиском. **OAI-SearchBot** — это поисковый робот. Он индексирует сайты для функции поиска внутри ChatGPT. Именно он отвечает за то, попадёте ли вы в результаты, когда пользователь ищет через ChatGPT. Этого бота надо пускать, если хотите видимости. **ChatGPT-User** — это робот, который ходит на сайт «по запросу пользователя»: когда человек в диалоге просит ChatGPT открыть конкретную ссылку или найти что-то прямо сейчас. Тоже retrieval, тоже стоит пускать. Вывод: блокировать можно GPTBot (обучение), но OAI-SearchBot и ChatGPT-User держите открытыми. ### Anthropic: ClaudeBot, anthropic-ai, Claude-User **ClaudeBot** — основной краулер Anthropic, собирает данные в том числе для обучения Claude. **anthropic-ai** — историческое имя, которое всё ещё встречается. **Claude-User** (и связанные user-инициированные агенты) — заходы по запросу пользователя в реальном времени. По мере того как Claude обрастает функциями поиска и навыками, retrieval-составляющая растёт. Логика та же, что у OpenAI: обучающего бота можно ограничить, пользовательские/поисковые заходы лучше разрешить. ### Perplexity: PerplexityBot, Perplexity-User Perplexity — это поисковая система на базе AI, и она по своей природе про retrieval с цитированием источников. **PerplexityBot** индексирует сайты, **Perplexity-User** обслуживает конкретный запрос пользователя. Perplexity показывает ссылки на источники прямо в ответе, поэтому для бизнеса это один из самых ценных каналов AI-трафика. Блокировать Perplexity = добровольно отказаться от прямого источника переходов. Пускайте. ### Google: Googlebot и Google-Extended Здесь тонкость, которую путают чаще всего. **Googlebot** — это классический поисковый робот Google; он же питает в том числе AI Overviews. Блокировать Googlebot нельзя ни в коем случае — вы выпадете из обычного поиска целиком. **Google-Extended** — это не отдельный робот, а токен управления. Он позволяет сказать Google: «используйте мой контент для обычного поиска, но не для обучения генеративных моделей Gemini». То есть `Disallow: Google-Extended` отключает обучение, но НЕ влияет на индексацию и показ в поиске. Это идеальный инструмент для тех, кто хочет остаться в поиске, но не отдавать контент на обучение. ### Microsoft: Bingbot **Bingbot** — поисковый робот Bing, и он же стоит за Copilot и AI-функциями Microsoft. С учётом того, что многие AI-системы исторически опирались на индекс Bing, держать Bingbot открытым важно для широкой AI-видимости. Блокировать его нет причин для бизнеса, который хочет, чтобы его находили. ### Apple, Meta, Amazon, Common Crawl и другие **Applebot** — поисковый робот Apple (Siri, Spotlight), **Applebot-Extended** — токен отключения обучения Apple Intelligence, по аналогии с Google-Extended. **Meta-ExternalAgent** и **Meta-ExternalFetcher** — роботы Meta. **Amazonbot** — робот Amazon. **CCBot** — краулер Common Crawl, чей открытый датасет используют многие сторонние модели; блокировка CCBot ограничивает попадание в обучающие наборы целого ряда LLM. **cohere-ai**, **YouBot** — роботы соответствующих AI-сервисов. ### Особый случай: Bytespider **Bytespider** — краулер ByteDance (компания, владеющая TikTok), который собирает данные для их AI-продуктов. У него репутация агрессивного: высокая частота запросов, исторически слабое соблюдение `robots.txt`. Многие сайты блокируют Bytespider в первую очередь не из-за обучения, а из-за нагрузки на сервер. Если в логах видите всплески от Bytespider — это кандидат на блокировку, причём при упорстве робота уже на уровне сервера, а не только в `robots.txt`. ## Почему бизнесу, который хочет AI-видимости, нельзя «блокировать всех» Вернёмся к главной мысли, потому что на ней теряют деньги. В интернете гуляет шаблон вроде «вставьте это, чтобы защититься от AI», где одним списком закрываются все боты сразу — и обучающие, и поисковые. Для медиа, которое продаёт лицензии на контент, это может быть осмысленно. Для сервисного бизнеса, агентства, магазина или B2B-компании это самоповреждение. Представьте поведение реального клиента в Казахстане в 2026 году. Он не открывает десять вкладок выдачи. Он спрашивает ChatGPT «посоветуй, кто разрабатывает корпоративные сайты в Астане», уточняет «с интеграцией 1С и оплатой через Kaspi», и получает короткий список. Чтобы попасть в этот список, ваш сайт должен быть, во-первых, доступен поисковому AI-боту в момент запроса, во-вторых, написан так, чтобы из него легко извлечь готовый ответ. Первое — это `robots.txt`. Второе — это структура контента, разметка и [llms.txt со Schema.org, про которые мы писали отдельно](/blog/llms-txt-schema-org-vidimost-dlya-ai-poiska). Закрыв retrieval-ботов, вы обнуляете оба усилия. Разумная стратегия для большинства компаний выглядит так: - **Пускать:** все retrieval/search-боты (OAI-SearchBot, ChatGPT-User, PerplexityBot, Perplexity-User, Bingbot, Googlebot, Applebot) — это ваши каналы попадания в AI-ответы. - **На усмотрение:** обучающие боты (GPTBot, ClaudeBot, Google-Extended, CCBot, Applebot-Extended). Хотите, чтобы бренд «растворился» в знаниях модели даже без прямой ссылки, — пускайте. Принципиально против обучения на вашем контенте — закрывайте, видимость в поиске от этого не пострадает. - **Блокировать прицельно:** агрессивные роботы вроде Bytespider, если они грузят сервер. ## Синтаксис: как разрешать и запрещать конкретных ботов Технически всё делается через блоки `User-agent`. Каждый блок относится к роботу, имя которого указано. Директива `Disallow: /` запрещает весь сайт, `Allow: /` разрешает, `Disallow:` (пустая) тоже означает «всё разрешено». Заблокировать обучающий бот OpenAI, но оставить поисковый: ```txt User-agent: GPTBot Disallow: / User-agent: OAI-SearchBot Allow: / User-agent: ChatGPT-User Allow: / ``` Отключить обучение Google, сохранив индексацию (важно: Googlebot НЕ трогаем): ```txt User-agent: Google-Extended Disallow: / User-agent: Googlebot Allow: / ``` Полностью заблокировать агрессивный Bytespider: ```txt User-agent: Bytespider Disallow: / ``` Закрыть только служебные разделы для всех остальных роботов, оставив сайт открытым: ```txt User-agent: * Allow: / Disallow: /api/ Disallow: /admin/ ``` Несколько имён можно перечислять в одном блоке, если для них одинаковые правила — это удобно, когда вы хотите единым махом разрешить группу поисковых ботов. ## Готовый robots.txt для казахстанского бизнеса Ниже — практичная отправная конфигурация для сервисной компании, агентства или магазина, который хочет максимум AI-видимости и при этом сохраняет контроль над обучением и нагрузкой. Замените домен на свой, проверьте пути и адрес карты сайта. ```txt # === Поисковые / retrieval AI-боты: ПУСКАЕМ (источник AI-трафика) === User-agent: OAI-SearchBot User-agent: ChatGPT-User User-agent: PerplexityBot User-agent: Perplexity-User User-agent: Applebot User-agent: Bingbot User-agent: Googlebot User-agent: YandexBot Allow: / # === Обучающие боты: на ваше усмотрение (здесь — разрешаем для узнаваемости бренда) === User-agent: GPTBot User-agent: ClaudeBot User-agent: anthropic-ai User-agent: Google-Extended User-agent: Applebot-Extended User-agent: CCBot User-agent: cohere-ai User-agent: Amazonbot Allow: / # === Агрессивный краулер: БЛОКИРУЕМ (нагрузка на сервер) === User-agent: Bytespider Disallow: / # === Все остальные: открываем сайт, закрываем служебные пути === User-agent: * Allow: / Disallow: /api/ Disallow: /admin/ Sitemap: https://shipmint.kz/sitemap.xml ``` Если вы принципиально не хотите отдавать контент на обучение моделей, перенесите блок обучающих ботов из `Allow: /` в `Disallow: /` — видимость в поиске и AI-ответах при этом сохранится, потому что retrieval-боты остаются открытыми. Для сайтов на Next.js (как сам shipmint.kz) этот файл обычно генерируется кодом из `app/robots.ts`, а не лежит статикой, но итоговая логика та же. Обратите внимание на `YandexBot` в списке поисковых: для Казахстана и СНГ Яндекс остаётся значимым каналом, в том числе для его собственных AI-функций. Закрывать его нет смысла, если только Яндекс не присылает паразитную нагрузку. ## Как проверить, что всё работает Файл, который вы не проверили, — это файл, который не работает. Минимальная проверка после изменений: 1. **Откройте файл напрямую** — `https://вашдомен/robots.txt`. Он должен отдаваться с кодом 200 и быть читаемым. Частая ошибка — файл закрыт авторизацией или отдаёт 404. 2. **Проверьте в Google Search Console** — там есть отчёт по `robots.txt` и инструмент проверки URL, который показывает, видит ли Googlebot конкретную страницу. Для shipmint.kz и любого KZ-сайта GSC подключается по `sc-domain:`. 3. **Проверьте логи сервера** — реальный способ увидеть, какие боты приходят и как часто. Если Bytespider или другой робот игнорирует `Disallow`, вы увидите это именно в логах, и тогда блокировку переносят на уровень Nginx/Cloudflare. 4. **Не блокируйте по ошибке нужное** — после правок убедитесь, что Googlebot и retrieval-боты остались с `Allow`. Случайный `Disallow: /` для Googlebot — катастрофа, которая выбивает сайт из поиска целиком. Отдельно про закон: блокировка или разрешение AI-ботов — это не вопрос обработки персональных данных, а вопрос контентной политики. Закон РК о персональных данных регулирует, как вы храните и используете данные клиентов (формы, CRM, рассылки), а не то, читает ли GPTBot ваши публичные страницы. Не путайте эти плоскости — для AI-видимости важна публичность контента, для защиты данных клиентов — серверная безопасность и согласия в формах. ## Часто задаваемые вопросы ### Если я заблокирую GPTBot, я пропаду из ChatGPT? Нет, не из самого ChatGPT с веб-поиском. GPTBot — это обучающий робот; его блокировка лишь не даёт OpenAI использовать ваш контент для тренировки моделей. За появление в живых ответах ChatGPT отвечают OAI-SearchBot и ChatGPT-User. Если вы хотите попадать в AI-ответы, блокируйте GPTBot спокойно, но эти два бота держите открытыми. ### Стоит ли блокировать AI-ботов, чтобы «защитить контент от воровства»? Для большинства бизнесов — нет. Блокировка отрезает вас от нового канала клиентов: люди всё чаще ищут через ChatGPT, Perplexity и AI Overviews, а не через классическую выдачу. Защита контента имеет смысл для медиа, которое продаёт доступ к материалам, но сервисной компании или магазину важнее быть видимым. Разумный компромисс — закрыть только обучающих ботов, оставив поисковых. ### В чём разница между Googlebot и Google-Extended? Googlebot — это поисковый робот Google, который строит индекс и питает в том числе AI Overviews; его блокировать нельзя, иначе вы выпадете из поиска. Google-Extended — это не отдельный робот, а переключатель: он отключает использование вашего контента для обучения генеративных моделей Google, но не влияет на индексацию и показ в поиске. Это инструмент «остаться в поиске, но не отдавать на обучение». ### Почему все советуют блокировать Bytespider? Bytespider — краулер ByteDance с репутацией агрессивного: он делает много запросов и исторически слабо соблюдает `robots.txt`, создавая лишнюю нагрузку на сервер. Его блокируют чаще из-за нагрузки, чем из-за принципов. Если он упорствует и игнорирует `Disallow`, блокировку переносят на уровень сервера или Cloudflare, потому что `robots.txt` для такого робота — лишь просьба. ### robots.txt гарантирует, что бот не зайдёт на сайт? Нет. `robots.txt` — это договорённость, а не технический замок. Добросовестные роботы (Googlebot, GPTBot, ClaudeBot) его соблюдают, недобросовестные могут проигнорировать. Для жёсткого контроля доступа нужны блокировки на уровне сервера, WAF или по официальным IP-диапазонам ботов, а не строчка в текстовом файле. ### Влияет ли управление AI-ботами на Закон РК о персональных данных? Напрямую нет. Закон о персональных данных регулирует сбор, хранение и использование данных ваших клиентов — формы, CRM, рассылки, согласия. Доступ AI-ботов к публичным страницам сайта — это контентная политика, а не обработка персональных данных. Эти две темы решаются разными средствами: одна через `robots.txt` и контент, другая через серверную безопасность и корректные согласия в формах. Управление AI-кроулерами — это не «настроить файл один раз», а постоянная работа на стыке технического SEO и новой логики AEO/GEO: правильно развести ботов по функциям, написать контент так, чтобы из него извлекался ответ, и подкрепить всё разметкой. В [Shipmint мы выстраиваем AI-видимость комплексно в рамках услуги AI-SEO](/services/ai-seo) — от аудита `robots.txt` и логов до структуры контента и Schema.org под казахстанский рынок. Если хотите понять, видят ли вас сейчас ChatGPT, Perplexity и AI Overviews, и что нужно поправить, чтобы попадать в их ответы, — [напишите нам](/contact), и мы начнём с разбора вашей текущей конфигурации. --- ## Related - [Blog](https://shipmint.kz/blog) - [Contact](https://shipmint.kz/contact)