Деградация ответа нейросетей при перегрузе количества правил для выполнения
Для начала кратко разберу это исследование https://arxiv.org/html/2507.11538v1.
На рисунке показано, как нейросети деградируют в ответе с ростом количества требований в промте. Требования там простые — написать деловой документ и вписать в него n определённых слов (задача вписывания ключевых слов). По вертикали — процент точности, по горизонтали — количество правил.
Исследование достаточно простое и выглядит правдоподобно, но его выводы зависят от деталей методологии.
Но вы можете заметить, что там старые модели. И задаться вопросом: «А хули нам это ваше старьё. Уже есть Gemini 3: я в него запихну 300 хитрых правил — и стану LLM дрессировщиком.»
Не принимайте близко к сердцу. Это не про вас. Так ведь? Так..
Но, к сожалению, ChatGPT-5.2 и Gemini 3 pro не сильно нас приблизили к AGI и поэтому они также нихрена не будут выполнять все кучку разнородных правил.
Наглядный пример
Мне лень было делать строгий эксперимент, поэтому чисто для наглядности и подтверждения своих слов прогнал несколько тестов для себя и один пример покажу здесь. Тем более это довольно ожидаемо: чем сложнее промт и чем больше в нём требований, тем быстрее деградирует соблюдение правил.
Суть теста: я составил 77 банальных правил для генерации текста, например: пиши всегда абзацы по 3 предложения; используй ровно 6 h2, 3 h3 под каждым h2 и так далее.
Gemini по этим правилам должен сделать текст, а проверка идёт через ChatGPT 5.2 Pro, чтобы лучше всё это проверить (самому мне конечно лень это проверять, поэтому берем модель побогаче для проверки).
Два примера:
Ну и так далее. Чем больше грузить LLM правилами и дополнительными задачами, тем хуже она будет их выполнять, так как ресурсы на размышления и удержание требований ограничены. При этом рост нарушений может быть связан не только с «ресурсами», но и с конфликтами требований и размыванием приоритетов.
К чему приводит непонимание этого
Приводит это всё к чудо-промтам, куда впихнуто бесконечное количество правил, которые звучат прикольно и «технически», но по факту их выполнение вы часто не проверите, а часть правил, скорее всего, не будет соблюдаться.
Что делать
Сегментировать задачи и делать промты на каждый сегмент и не пытаться сделать промты для AGI уровня «Ты SEO эксперт. Выведи мой сайт в ТОП, сделай комплексный аудит, собери семантику, а по пути еще продвинуть мою карточку Яндекс Бизнес, а когда будешь продвигать карточку в Яндекс Бизнес будь экспертом по локальному SEO, а потом стань клиентом, который оценивает карточку, если оценка работы не проходит порог в 4 балла из 5, то переделай, ну на последок включи режим агента, зайти на сайт конкурента и оставь там плохой отзыв».