llms.txt и Schema.org: как сделать сайт видимым для ChatGPT и Google AI

Q: Какие типы Schema нужны бизнес-сайту, чтобы попасть в AI-ответы?

Базовый набор: Organization и WebSite для идентичности бренда, Article/BlogPosting с автором и датой в блоге, FAQPage на сервисных страницах, LocalBusiness для контактов и BreadcrumbList для иерархии. Интернет-магазину нужен Product с ценой в KZT и характеристиками. FAQPage особенно ценен — он совпадает с форматом вопрос-ответ, в котором работают AI-движки.

Q: Как настроить robots.txt, чтобы ChatGPT цитировал сайт, но не обучался на нём?

Разрешите search- и user-боты (OAI-SearchBot, PerplexityBot, ChatGPT-User, Claude-User) — именно они отвечают за попадание в AI-ответы. Запретите training-боты (GPTBot, ClaudeBot, Google-Extended), если осознанно не хотите обучения на вашем контенте. Каждого бота прописывайте отдельной директивой: разрешение одного бота вендора не распространяется на остальные.

Никита Яночкин·15 июня 2026 г.· 14 мин чтения

SEO и AEO GEO оптимизация Schema.org llms.txt AI-поиск Казахстан

llms.txt и Schema.org: как сделать сайт видимым для ChatGPT и Google AI

TL;DR

Если вы выбираете, во что вложить время для видимости в ChatGPT и Google AI, начинайте со Schema.org, а не с llms.txt. Google и Microsoft официально подтвердили, что используют структурированную разметку в своих генеративных AI-функциях, тогда как llms.txt по состоянию на конец 2025 года не поддерживает ни один крупный игрок: Google прямо заявил «We currently have no plans to support LLMs.txt», а исследование на ~300 000 доменов нашло нулевую корреляцию между наличием файла и цитированием в LLM. Внедрите базовый JSON-LD (Organization, WebSite, Article, FAQPage, LocalBusiness), пишите «извлекаемыми» блоками по 134–167 слов и настройте robots.txt по функции бота — разрешите search-боты, чтобы попадать в ответы. Для казахстанского бизнеса добавьте двуязычную разметку ru/kk, привязку к Яндексу и 2ГИС и валюту в KZT. llms.txt можно добавить как дешёвый эксперимент, но не как приоритет.

Поведение клиента изменилось тихо, но необратимо. Ещё два года назад путь выглядел просто: человек гуглит «разработка сайта Алматы», видит список из десяти ссылок, переходит на пару из них, сравнивает. Сегодня тот же человек открывает ChatGPT или видит блок Google AI Overviews и получает готовый ответ с двумя-тремя названиями компаний — и часто на этом останавливается, не кликая никуда. Если вашего бизнеса нет в этом ответе, вы не «на второй странице выдачи» — вас просто не существует в картине мира, которую AI нарисовал клиенту.

И тут начинается путаница. В чатах предпринимателей и в статьях по «AI SEO» циркулируют два рецепта: «добавь файл llms.txt в корень сайта» и «настрой Schema.org разметку». Звучат они похоже, стоят денег и времени по-разному, а эффект дают совершенно разный. Эта статья разбирает оба механизма по фактам, а не по хайпу: что из этого реально читают ChatGPT и Google, что игнорируют, и куда казахстанскому бизнесу осмысленно вкладывать ресурс в 2026 году.

Что такое llms.txt и почему вокруг него столько шума

Идея файла

llms.txt — это предложение, а не действующий стандарт. Его автор — Джереми Ховард, сооснователь Answer.AI. Концепция простая и на первый взгляд логичная: вы кладёте в корень домена текстовый файл в формате Markdown (например, https://shipmint.kz/llms.txt), коротко описываете в нём, чем занимается сайт, и перечисляете ссылки на ключевые страницы. Предполагается, что языковая модель прочитает этот файл, поймёт структуру сайта и обратится к авторитетному контенту, а не будет вслепую разбирать перегруженный HTML. Рекомендуют держать его в чистом Markdown — заголовки, списки — и в пределах примерно 50 КБ (indexlab.ai).

Аналогия, которую любят приводить сторонники, — это robots.txt для эпохи AI: один маленький файл, который «объясняет роботам, как себя вести». Идея красивая. Проблема в том, что robots.txt поддерживают поисковики уже десятилетиями, а llms.txt пока не поддерживает фактически никто.

Что говорят данные на конец 2025 года

Здесь приходится быть честным, даже если это противоречит модным гайдам. По состоянию на октябрь 2025 года ни одна крупная AI-компания официально не объявила о поддержке llms.txt. Google высказался прямо: «We currently have no plans to support LLMs.txt». У Anthropic, Perplexity и Google Gemini нет ни публичных заявлений, ни документации по этому формату (indexlab.ai).

Дальше — больше. SE Ranking проанализировал около 300 000 доменов и обнаружил, что llms.txt внедрён только на 10,13% сайтов — то есть примерно девять из десяти его не используют. Что важнее: корреляция между наличием файла и частотой цитирования в LLM оказалась нулевой. Более того, точность ML-модели, предсказывающей цитируемость, улучшалась, когда переменную «есть llms.txt» из неё убирали — иначе говоря, сейчас файл добавляет статистический шум, а не сигнал. Google отдельно подтвердил, что AI Overviews и AI Mode по-прежнему опираются на традиционные SEO-сигналы, а не на llms.txt (SE Ranking).

Стоит ли его вообще делать

Вывод не «никогда», а «не сейчас и не в приоритет». llms.txt — это дешёвый эксперимент: час-четыре работы, задокументированного вреда от него нет. Если у вас уже выстроена разметка и качественный контент, можно добавить файл «на будущее» — вдруг стандарт примут. Но рассчитывать на рост цитирования сегодня и тем более ставить его выше Schema.org — ошибка приоритизации. Мы подробно разбираем этот баланс в гайде по AEO-оптимизации и попаданию в ответы ИИ-поисковиков.

Schema.org: то, что AI-движки действительно читают

Почему разметка работает там, где llms.txt не работает

Контраст резкий и подтверждён первоисточниками. В марте 2025 года Google и Microsoft публично заявили, что используют Schema-разметку в своих генеративных AI-функциях, а в мае это подтвердили повторно. Google формулирует, почему структурированные данные критичны для современного поиска: они «efficient, precise, and easy for machines to process» — эффективны, точны и легко обрабатываются машинами. ChatGPT, в свою очередь, подтвердил, что использует структурированные данные, чтобы определять, какие товары показывать (Schema App).

Разница в одном слове: разметку поддерживают официально, llms.txt — нет. Schema.org даёт AI-движку не пересказ страницы, а машиночитаемые факты о сущностях: кто автор, какая организация издатель, какая цена, какой рейтинг, что является ответом на вопрос. Это снимает неоднозначность, которую модель иначе пыталась бы угадать по тексту.

Базовый набор JSON-LD для бизнес-сайта

Не нужно размечать всё подряд. Для большинства казахстанских компаний работает понятный минимум, который мы внедряем по умолчанию:

| Тип Schema | Где ставить | Что даёт AI | |---|---|---| | Organization + WebSite | Главная, все страницы | Идентичность сущности, атрибуция бренда | | Article / BlogPosting | Блог | Автор, дата, издатель — редакционное доверие | | FAQPage | Услуги, FAQ-блоки | «Идеальное совпадение» с форматом вопрос-ответ AI | | Product | Карточки товаров | Доминирует в AI-шопинге: цена, рейтинг, характеристики | | LocalBusiness | Контакты, локальные страницы | Локальные запросы, адрес, часы работы | | BreadcrumbList | Все вложенные страницы | Иерархия и контекст раздела |

Платформы используют эти типы по-разному. Для ChatGPT критичны атрибуция автора, временные метаданные и entity linking; для Google AI Overviews — review-разметка и rich results; Perplexity опирается на «citation-friendly» архитектуру, сравнительные данные и размеченную мультимедиа (Hashmeta). Поэтому одна и та же страница услуги выигрывает, когда на ней одновременно стоят Service, FAQPage и BreadcrumbList.

FAQPage и HowTo — почему именно они

Формат генеративного поиска — это вопрос пользователя и связный ответ. FAQPage и HowTo буквально совпадают с этой структурой: вы заранее отдаёте модели готовые пары «вопрос — ответ» в машиночитаемом виде. Для сервисной страницы это самый высокорентабельный тип разметки: блок FAQ внизу страницы услуги, обёрнутый в FAQPage, одновременно отвечает реальным сомнениям клиента и кормит AI-движок готовыми пассажами.

Entity linking: связывание сущностей как множитель видимости

Что это и зачем

Entity linking — это явное указание, какой именно сущности соответствует упоминание на вашем сайте, через свойство sameAs в JSON-LD. Вы связываете свою организацию, людей и продукты с их каноническими записями в Wikidata, Wikipedia, LinkedIn, профильных каталогах. Для AI это снимает двусмысленность: модель понимает, что «Shipmint» в вашем тексте и «Shipmint» в её базе знаний — один и тот же объект.

Эффект в цифрах

Это не теория. После развёртывания entity linking сайт Schema App зафиксировал рост видимости в Google AI Overviews на 19,72%, а компания InSinkErator получила +69% кликов по небрендовым запросам (Schema App). Параллельно создатель Schema.org Р. В. Гуха запустил открытую инициативу NLWeb — разговорные AI-интерфейсы поверх структурированных данных, что лишний раз указывает направление: будущее AI-поиска строится на разметке сущностей, а не на отдельных текстовых файлах.

Как применить казахстанскому бизнесу

В Organization или LocalBusiness добавляйте sameAs на ваши реальные профили: страница в 2ГИС, карточка в Яндексе, аккаунт в Instagram, профиль в LinkedIn. Хороший дополнительный сигнал доверия — указать БИН компании как identifier. Чем плотнее этот граф связей, тем увереннее AI-движок атрибутирует контент именно вашему бизнесу, а не однофамильцу из другой страны.

Как Google AI Overviews выбирает источники

Пятиступенчатый конвейер

Понять, как попасть в ответ, проще, когда видишь механику отбора. Google AI Overviews не цитирует «топ-10 выдачи» — он прогоняет кандидатов через пять ступеней, сужая 200–500 документов до 5–15 видимых цитат:

Семантический retrieval — отбор 200–500 документов-кандидатов.
Семантический ранжир — сужение до 50–100.
E-E-A-T-фильтр — бинарный pass/fail, после которого остаётся 30–50. Через него проходят 96% будущих цитат.
Пассажный re-ranking моделью Gemini — 15–25.
Data fusion — финальные 5–15 видимых цитат.

Это описание конвейера взято из анализа отбора источников AI Overviews (Ziptie). Главный практический вывод: ступень 3 — это ворота. Если у страницы слабые E-E-A-T-сигналы (нет реального автора, нет источников, нет признаков экспертизы), она отсеивается до того, как начнётся борьба за формулировки.

Почему топ-1 в Google больше не гарантирует цитату

Самый болезненный для владельцев сайтов факт: корреляция между органической позицией и цитированием в AI Overviews резко упала. Если раньше 76% цитат приходили из топ-10 органики, то теперь — около 38% в течение примерно года. 47% текущих цитат берутся со страниц ниже пятой позиции, а позиция №1 даёт лишь 33,07% вероятности цитирования (Ziptie). При этом 76%+ цитат всё же приходят с первой страницы органики, а 55% цитат — из верхних 30% контента страницы (AirOps).

Это объясняет частый вопрос: «Мой сайт в топе Google, почему его не цитируют в AI?» Потому что AI решает другую задачу — он ищет не «лучшую страницу», а лучший извлекаемый фрагмент с сильной атрибуцией. Высокая позиция помогает попасть в пул кандидатов, но дальше всё решают структура контента и E-E-A-T. Глубже эту механику мы разбираем в материале про GEO и попадание в ответы ChatGPT и Perplexity.

Как писать контент, который AI процитирует

Длина извлекаемого блока

Цифра, которую стоит запомнить: оптимальная длина самодостаточного «извлекаемого» пассажа для цитирования в AI Overviews — 134–167 слов, и 62% цитируемого контента укладывается в диапазон 100–300 слов на блок (Ziptie). Это не значит, что вся статья должна быть короткой — наоборот, глубокий материал ранжируется лучше. Это значит, что внутри длинной статьи каждый раздел должен быть нарезан на самодостаточные блоки нужного размера, каждый из которых отвечает на один конкретный вопрос целиком, без отсылок к «как мы писали выше».

Структура «прямой ответ сначала»

Практические правила, которые повышают извлекаемость:

Давайте прямой ответ в первых 1–2 предложениях раздела. AI вырезает именно начало блока — не заставляйте его пробираться через введение.
Держите абзацы по 2–3 предложения. Плотные «кирпичи» текста хуже поддаются нарезке на пассажи.
Используйте H2/H3 как реальные вопросы пользователей. Это совпадает с тем, как AI-движок сопоставляет пассаж с запросом. Заголовок «Сколько стоит лендинг в Казахстане» работает лучше, чем «Ценообразование».
Не прячьте критичный контент за JavaScript. Статический HTML извлекается AI-движками заметно лучше, чем контент, отрисованный на клиенте.

Плотность сущностей

Отдельный рычаг — насыщенность текста конкретными сущностями. Страницы с плотностью 15+ сущностей Knowledge Graph на 1000 слов имеют в 4,8 раза более высокую вероятность попасть в выдачу AI Overviews (Ziptie). На практике это означает: называйте конкретные бренды, продукты, локации и людей. Для казахстанского контента это «1С», «Kaspi.kz», «2ГИС», «Алматы», «Астана», «KZT» — упоминание реальных локальных сущностей и усиливает релевантность для местной аудитории, и повышает шанс цитирования.

E-E-A-T как пропуск

Поскольку 96% цитат AI Overviews идут из источников с сильными E-E-A-T-сигналами (AirOps), это не «приятное дополнение», а пропуск через ступень 3 конвейера. Указывайте реального автора с подтверждаемыми компетенциями, добавляйте собственные данные и кейсы, ссылайтесь на первоисточники. Запросы вида «answer engine optimization» получают около 2400 показов в месяц и растут на 85% год к году (AirOps) — спрос на эту экспертизу формируется прямо сейчас.

robots.txt и AI-боты: пускать или блокировать

Три типа AI-краулеров

Чтобы управлять видимостью осознанно, нужно различать ботов по функции — они не взаимозаменяемы:

| Тип бота | Что делает | Примеры | |---|---|---| | Training-боты | Собирают контент для обучения моделей | GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended (Gemini) | | Search-боты | Индексируют для AI-ответов и цитирования | OAI-SearchBot, Claude-SearchBot, PerplexityBot | | User-боты | Живое извлечение по запросу пользователя | ChatGPT-User, Claude-User, Perplexity-User |

Ключевая логика: чтобы быть видимым в AI-ответах, но контролировать обучение, разрешите search- и user-боты и при желании запретите training-боты. Для попадания в ответы training-боты не нужны (Anagram).

Главная ошибка — одна общая директива

Каждый user-agent требует отдельной директивы. Разрешение одного бота вендора не распространяется на остальные его боты: разрешив Claude-SearchBot, вы не разрешаете ClaudeBot и Claude-User — их нужно прописывать поимённо (Anagram). Распространённая ошибка — заблокировать «всех ботов OpenAI» одной строкой и случайно вырезать себя из ChatGPT-ответов вместе с обучением.

Почему robots.txt — не броня

И трезвый момент: не все боты его соблюдают. Bytespider и stealth-краулеры Perplexity документированно игнорировали robots.txt. Для несоблюдающих ботов единственная реальная защита — на уровне сервера или WAF (margen.net). То есть robots.txt — это инструмент политики и видимости, а не безопасности. Если вам действительно нужно жёстко закрыть контент, ставьте правила на Cloudflare или на уровне сервера.

Адаптация под рынок Казахстана

Двуязычная разметка ru/kk

Schema.org и robots.txt работают в KZ по тем же правилам, что и глобально, но есть локальная специфика, которую нельзя игнорировать. Первое — язык. Дублируйте структурированные данные и FAQ на русском и казахском, указывая inLanguage: "ru" и inLanguage: "kk" в JSON-LD, и используйте hreflang ru/kk для двуязычных страниц. ChatGPT и Perplexity генерируют ответ на языке запроса, поэтому казахоязычный контент с корректной разметкой повышает видимость по kk-запросам, где конкуренция заметно ниже, чем по русским.

Яндекс, 2ГИС и локальные сущности

Google AI Overviews в Казахстане пока ограничены, а Яндекс остаётся крупным игроком — держите YandexBot разрешённым в robots.txt. Регистрируйте бизнес в Яндекс.Бизнес и 2ГИС: это аналоги Google Business Profile для entity-сигналов и LocalBusiness-разметки. В схеме указывайте адрес в РК, валюту KZT (₸) и телефон в формате +7 (7xx), а в sameAs добавляйте профили в 2ГИС, Яндексе и Instagram плюс БИН компании как идентификатор доверия. Для интернет-магазинов в Product-схеме привязывайте цены к KZT и упоминайте Kaspi.kz как доминирующий способ оплаты — это усиливает локальную сущностную связку.

Закон о персональных данных и инфраструктура

Закон РК о персональных данных (152-V) требует, чтобы данные казахстанцев хранились на серверах в РК — это нужно учитывать при выборе хостинга и CDN, особенно если на сайте есть формы, CRM или личные кабинеты. На практике для местной автоматизации популярны интеграции с 1С и Kaspi; упоминание этих систем в контенте не только полезно фактически, но и повышает entity-релевантность для локальной аудитории. И главное: llms.txt в Казахстане неэффективен ровно так же, как и везде — приоритет тот же. Качественный двуязычный контент, JSON-LD и корректный robots.txt с разрешёнными search-ботами и YandexBot дадут результат, которого один текстовый файл не даст.

С чего начать: порядок действий

Чтобы перевести всё сказанное в план, расставьте усилия по убыванию рентабельности:

Внедрите базовый JSON-LD на каждой странице: Organization + WebSite, Article/BlogPosting в блоге, FAQPage на услугах, LocalBusiness для контактов, BreadcrumbList для иерархии.
Настройте entity linking через sameAs на 2ГИС, Яндекс, LinkedIn, Instagram и добавьте БИН как identifier.
Перепишите ключевые страницы «извлекаемыми» блоками по 134–167 слов с прямым ответом в первых предложениях и вопросами в заголовках.
Поднимите E-E-A-T: реальный автор, кейсы, ссылки на источники, собственные данные.
Настройте robots.txt по функции бота поимённо, оставив YandexBot открытым.
Сделайте двуязычную разметку ru/kk и локализуйте сущности (KZT, Kaspi, 2ГИС, города РК).
И только потом — при желании — добавьте llms.txt как дешёвый эксперимент без завышенных ожиданий.

Что касается speakable schema (SpeakableSpecification): она не устарела, но остаётся в beta-статусе и доступна только пользователям в США на англоязычных устройствах с Google Assistant (Google). Для русскоязычного и казахоязычного KZ-рынка она пока неактуальна — не тратьте на неё ресурс.

Часто задаваемые вопросы

Действительно ли ChatGPT и Google AI читают llms.txt?

По состоянию на конец 2025 года — нет, и это подтверждено фактами. Google прямо заявил «We currently have no plans to support LLMs.txt», а у Anthropic, Perplexity и Gemini нет ни заявлений, ни документации по этому формату. Исследование SE Ranking на ~300 000 доменов нашло нулевую корреляцию между наличием файла и цитированием в LLM. Делать его можно как дешёвый эксперимент, но рассчитывать на эффект сегодня не стоит.

Что важнее для AI-видимости — llms.txt или Schema.org?

Schema.org, без вариантов. Google и Microsoft официально подтвердили, что используют структурированную разметку в генеративных AI-функциях, а ChatGPT — что использует структурированные данные для выбора товаров. llms.txt не поддерживает ни один крупный игрок. Поэтому время и бюджет в первую очередь идут на JSON-LD и качество контента, а не на текстовый файл в корне сайта.

Какие типы Schema нужны бизнес-сайту, чтобы попасть в AI-ответы?

Базовый набор: Organization и WebSite для идентичности бренда, Article/BlogPosting с автором и датой в блоге, FAQPage на сервисных страницах, LocalBusiness для контактов и BreadcrumbList для иерархии. Интернет-магазину нужен Product с ценой в KZT и характеристиками. FAQPage особенно ценен — он совпадает с форматом вопрос-ответ, в котором работают AI-движки.

Как настроить robots.txt, чтобы ChatGPT цитировал сайт, но не обучался на нём?

Разрешите search- и user-боты (OAI-SearchBot, PerplexityBot, ChatGPT-User, Claude-User) — именно они отвечают за попадание в AI-ответы. Запретите training-боты (GPTBot, ClaudeBot, Google-Extended), если осознанно не хотите обучения на вашем контенте. Каждого бота прописывайте отдельной директивой: разрешение одного бота вендора не распространяется на остальные.

Почему мой сайт в топе Google, но его не цитируют в AI Overviews?

Потому что корреляция между органической позицией и цитированием резко упала: позиция №1 даёт лишь около 33% вероятности цитирования, а 47% цитат берутся со страниц ниже пятой позиции. AI ищет не «лучшую страницу», а лучший извлекаемый фрагмент с сильной атрибуцией. Высокая позиция помогает попасть в пул кандидатов, но дальше решают структура контента, плотность сущностей и E-E-A-T.

Помогает ли FAQ-разметка попасть в ответы ChatGPT и Perplexity?

Да, это один из самых рентабельных типов разметки для AI-поиска. FAQPage и HowTo буквально совпадают с форматом «вопрос — ответ», в котором работают генеративные движки: вы заранее отдаёте модели готовые пары в машиночитаемом виде. Для сервисных страниц блок FAQ, обёрнутый в FAQPage, одновременно закрывает сомнения клиента и кормит AI готовыми пассажами.

Источники

Видимость в ChatGPT и Google AI — это не одна галочка, а система: разметка сущностей, извлекаемая структура контента, E-E-A-T и корректная настройка ботов, адаптированные под двуязычный казахстанский рынок. В Shipmint мы выстраиваем эту систему под ключ — от JSON-LD и entity linking до контента, который реально попадает в ответы. Посмотрите услугу AI SEO и AEO-оптимизация и напишите нам: разберём, какие сигналы у вашего сайта сейчас проседают, и составим план попадания в AI-ответы.

Следующий шаг

Хотите, чтобы вас цитировали AI?

Забронировать звонок AI SEO и AEO Контент-Движок →

llms.txt и Schema.org: как сделать сайт видимым для ChatGPT и Google AI

llms.txt и Schema.org: как сделать сайт видимым для ChatGPT и Google AI

TL;DR

Что такое llms.txt и почему вокруг него столько шума

Идея файла

Что говорят данные на конец 2025 года

Стоит ли его вообще делать

Schema.org: то, что AI-движки действительно читают

Почему разметка работает там, где llms.txt не работает

Базовый набор JSON-LD для бизнес-сайта

FAQPage и HowTo — почему именно они

Entity linking: связывание сущностей как множитель видимости

Что это и зачем

Эффект в цифрах

Как применить казахстанскому бизнесу

Как Google AI Overviews выбирает источники

Пятиступенчатый конвейер

Почему топ-1 в Google больше не гарантирует цитату

Как писать контент, который AI процитирует

Длина извлекаемого блока

Структура «прямой ответ сначала»

Плотность сущностей

E-E-A-T как пропуск

robots.txt и AI-боты: пускать или блокировать

Три типа AI-краулеров

Главная ошибка — одна общая директива

Почему robots.txt — не броня

Адаптация под рынок Казахстана

Двуязычная разметка ru/kk

Яндекс, 2ГИС и локальные сущности

Закон о персональных данных и инфраструктура

С чего начать: порядок действий

Часто задаваемые вопросы

Действительно ли ChatGPT и Google AI читают llms.txt?

Что важнее для AI-видимости — llms.txt или Schema.org?

Какие типы Schema нужны бизнес-сайту, чтобы попасть в AI-ответы?

Как настроить robots.txt, чтобы ChatGPT цитировал сайт, но не обучался на нём?

Почему мой сайт в топе Google, но его не цитируют в AI Overviews?

Помогает ли FAQ-разметка попасть в ответы ChatGPT и Perplexity?

Источники

Читайте также

Как измерить видимость бренда в ChatGPT, Perplexity и Google AI

robots.txt для AI-кроулеров: как управлять GPTBot, ClaudeBot и PerplexityBot

AEO оптимизация: как попасть в ответы ИИ-поисковиков в 2026