Как исправить однообразие ответов LLM: исследование и решения

Промптоведение. Сезон 2. Часть 6.1.

Casa » Artigos » Промптоведение. Сезон 2. Часть 6.1.

10.11.2025 (10:18)

10.11.2025

Аналитика, тренды и мнения, Исследования и статистика, Размышления о будущем индустрии

Промптоведение. Сезон 2. Часть 6.1.

Почему LLM пишут однообразно и как это исправить #1

Мы уже затрагивали эту тему на днях, но продолжим.

Вчера, постоянный читатель нашего канала прислал мне одно свежее исследование для его анализа и потрошения. За что выражаю благодарность, ибо оно оказалось довольно интересным. На 80 листах исследования разбираются причины однообразия генерируемого текста.

Итак, исследование показывает, что однообразие ответов больших языковых моделей (LLM) вызвано «склонностью к типичности» (typicality bias) в данных, на которых они обучаются, и предлагает простой метод промптинга — Вербализованную Выборку (Verbalized Sampling, VS) — который просит модель сгенерировать распределение возможных ответов с их вероятностями, чтобы вернуть моделям креативность и разнообразие.

1. Проблема: Коллапс мод (Mode Collapse)

Что это? После дополнительной настройки (post-training alignment), например, с помощью RLHF (обучение с подкреплением на основе отзывов человека), LLM часто начинают давать очень похожие, шаблонные и «безопасные» ответы. Это явление называется «коллапс мод» — модель «схлопывается» к одному или нескольким наиболее вероятным (модальным) ответам, теряя разнообразие и креативность, которые были у неё в базовой (pre-trained) версии.

Это серьезно ограничивает применение LLM в творческих задачах (написание стихов, историй), симуляциях диалогов, генерации синтетических данных и задачах, где существует множество правильных ответов.

2. Склонность к типичности (Typicality Bias)

Ранее считалось, что коллапс мод — это проблема алгоритмов (несовершенные модели вознаграждения, особенности оптимизации). Исследование утверждает, что корень проблемы лежит глубже — в самих данных.

Суть гипотезы: Люди-оценщики, которые предоставляют данные для RLHF, подвержены когнитивному искажению. Они систематически предпочитают более знакомые, простые и предсказуемые (типичные) тексты. Этот «typicality bias» закладывается в модель вознаграждения, и в процессе обучения модель «вынуждена» сходиться к этим типичным ответам, что и приводит к коллапсу мод.

3. Решение: Вербализованная Выборка (Verbalized Sampling, VS)

Это простой, не требующий переобучения модели метод, который используется на этапе генерации ответа (inference-time).

Как это работает? Вместо прямого запроса, например:

«Расскажи шутку про кофе.»

Используется «мета-запрос», который просит модель саму «подумать» о разнообразии:

«Сгенерируй 5 возможных шуток про кофе и укажи их соответствующие вероятности.»

В оригинале — это вот такой промпт:

System prompt: You are a helpful assistant. For each query, please generate a set of five possible responses, each within a separate <response> tag. Responses should each include a <text> and a numeric <probability>. Please sample at random from the [full distribution / tails of the distribution, such that the probability of each response is less than 0.10].

User prompt: Write a short story about a bear

Потестируйте его и посмотрите на чудовищные истории о медведах (превед!)

Авторы доказывают, что разные типы запросов заставляют модель «схлопываться» к разным модам:

Прямой запрос: Мода — это самый типичный одиночный ответ.
Запрос на распределение (VS): Мода — это распределение ответов, которое приближено к разнообразному распределению, которое модель выучила на этапе предварительного обучения (pre-training).

Таким образом, VS позволяет «обойти» коллапс мод и «разблокировать» скрытое разнообразие базовой модели.

VS значительно увеличивает разнообразие (в 1.6-2.1 раза) по сравнению с прямым промптингом, не ухудшая при этом качество ответов.

Выводы:

Коллапс мод — это не только проблема алгоритмов, но и фундаментальное свойство данных, используемых для настройки моделей.
Настроенные модели не «забывают» быть креативными — эта способность просто подавляется. VS предоставляет ключ к её «разблокировке».

PS. продолжение следует…

Ler первоисточник.

Тематика: AI / нейросети, SEO-продвижение, SEO, ASO и контентные стратегии, Разработка и технологии

DrMax SEO

Автор поста - телеграм канал

Оставить комментарий к посту