Как ИИ извлекает контент со страниц сайта
Наткнулся на интересный анализ, в котором протестировали 15 вариантов HTML-кодов, для того, чтобы определить, как LLM-модели извлекают контент из веб-страниц.
В данном анализе описан эксперимент, целью которого было оценить возможность извлечения структурированного контента из HTML-страниц с различными шаблонами разметки. Задача заключалась в определении того, какие структуры HTML позволяют успешно извлекать информацию, а какие создают проблемы для автоматизированных систем чтения.
Было протестировано пятнадцать вариантов HTML-страниц, каждая из которых содержала информацию о продукте (название, описание и цена), но была структурирована совершенно по-разному. Результаты выявили интересные закономерности в том, как системы извлечения информации интерпретируют веб-контент.
Процесс извлечения контента
Когда LLM-модели парсят веб-страницы с помощью встроенных инструментов, они обычно не выполняют JavaScript. Это простой HTTP-запрос, который загружает статический HTML-код с сервера:
- Скрипты JavaScript не выполняются
- CSS-стили не отображаются
- Отсутствует визуальный/рендеренный контекст
- С сервера получается только необработанный HTML-код
LLM-модели не видят полный HTML-код. Эвристические алгоритмы извлечения отфильтровывают то, что они считают «шумом», прежде чем передать контент модели.
Определение основного контента
Система определяет, что является «основным контентом», используя эвристические методы, такие как:
- Плотность текста в контейнерах
- Удаление элементов, не относящихся к контенту
- Элементы, считающиеся «шумом», устраняются или игнорируются
Обычно фильтруются такие элементы, как:
- шаблонный текст
- <nav>
- <footer>
- <aside>
- <script>
- <style>
- <iframe>
- <meta>
- HTML-комментарии
Это одна из причин, почему ни один веб-инструмент, выполняющий выборку данных внутри LLM, не считывает схему.
Хотя другие ИИ, такие как Gemini и ChatGPT, не продемонстрировали проблем с извлечением информации в этом эксперименте, это не означает, что мы можем игнорировать структуру HTML. Способ преобразования контента в обычный текст в «режиме чтения» имеет семантическое значение, которое напрямую вытекает из DOM. Хорошо структурированная страница облегчает понимание контекста и контента, независимо от модели, обрабатывающей ее.
Также в статье приведены 15 примеров HTML-кодов, и результаты извлечения контента из них. Рекомендую ознакомиться
Источник: https://natzir.com/posicionamiento-buscadores/experimento-analisis-de-extraccion-de-contenido-html-en-claude/