Как ИИ извлекает контент со страниц сайта: анализ HTML-кодов

Как ИИ извлекает контент со страниц сайта

Главная » Статьи » Как ИИ извлекает контент со страниц сайта

17.12.2025 (12:58)

19.12.2025

Аналитика и трекинг, Аналитика, тренды и мнения, Гайды и обучение, Исследования и статистика

Как ИИ извлекает контент со страниц сайта

Наткнулся на интересный анализ, в котором протестировали 15 вариантов HTML-кодов, для того, чтобы определить, как LLM-модели извлекают контент из веб-страниц.

В данном анализе описан эксперимент, целью которого было оценить возможность извлечения структурированного контента из HTML-страниц с различными шаблонами разметки. Задача заключалась в определении того, какие структуры HTML позволяют успешно извлекать информацию, а какие создают проблемы для автоматизированных систем чтения.

Было протестировано пятнадцать вариантов HTML-страниц, каждая из которых содержала информацию о продукте (название, описание и цена), но была структурирована совершенно по-разному. Результаты выявили интересные закономерности в том, как системы извлечения информации интерпретируют веб-контент.

Процесс извлечения контента

Когда LLM-модели парсят веб-страницы с помощью встроенных инструментов, они обычно не выполняют JavaScript. Это простой HTTP-запрос, который загружает статический HTML-код с сервера:

Скрипты JavaScript не выполняются
CSS-стили не отображаются
Отсутствует визуальный/рендеренный контекст
С сервера получается только необработанный HTML-код

LLM-модели не видят полный HTML-код. Эвристические алгоритмы извлечения отфильтровывают то, что они считают «шумом», прежде чем передать контент модели.

Определение основного контента

Система определяет, что является «основным контентом», используя эвристические методы, такие как:

Плотность текста в контейнерах
Удаление элементов, не относящихся к контенту
Элементы, считающиеся «шумом», устраняются или игнорируются

Обычно фильтруются такие элементы, как:

шаблонный текст
<nav>
<footer>
<aside>
<script>
<style>
<iframe>
<meta>
HTML-комментарии

Это одна из причин, почему ни один веб-инструмент, выполняющий выборку данных внутри LLM, не считывает схему.

Хотя другие ИИ, такие как Gemini и ChatGPT, не продемонстрировали проблем с извлечением информации в этом эксперименте, это не означает, что мы можем игнорировать структуру HTML. Способ преобразования контента в обычный текст в «режиме чтения» имеет семантическое значение, которое напрямую вытекает из DOM. Хорошо структурированная страница облегчает понимание контекста и контента, независимо от модели, обрабатывающей ее.

Также в статье приведены 15 примеров HTML-кодов, и результаты извлечения контента из них. Рекомендую ознакомиться

Источник: https://natzir.com/posicionamiento-buscadores/experimento-analisis-de-extraccion-de-contenido-html-en-claude/

DICE.expert:

Статья подчеркивает важность правильной структуры HTML для успешного извлечения контента ИИ. Это знание может помочь разработчикам и SEO-специалистам оптимизировать свои страницы для улучшения взаимодействия с автоматизированными системами.

Читать первоисточник.

Тематика: AI / нейросети, SEO-продвижение, SEO, ASO и контентные стратегии, Арбитраж трафика, Оптимизация кампаний, Разработка и технологии

#ChatGPT

Как надо SEO +шить не надо

AI, SEO, Аналитика, Интернет-маркетинг, Кейсы, Клиентское SEO, Лайв-хаки, Личный блог, Новичкам, Новости, Технологии, Тренды

Оставить комментарий к посту

Может быть интересно

Как льют беттинг с Avito?

18.12.2025 (23:23)

В статье рассматривается опыт пользователя Avito, который предлагал установить приложение онлайн-казино 1xBet. Анализируется, насколько прибыльным может быть такой подход.

Highroller

Betting, Gambling, Аналитика, Аффмаркетинг, Новости, Тренды

The Dog House vs The Dog House Megaways: сравнение и ключевые отличия

18.12.2025 (20:12)

В статье рассматриваются ключевые отличия между слотами The Dog House и The Dog House Megaways от Pragmatic Play, включая RTP, механики бонусов и особенности геймплея.

The Slotter

Gambling, Аналитика, Аффмаркетинг, Кейсы, Новичкам, Тренды

Как использовать свои преимущества для достижения успеха

18.12.2025 (10:11)

Успех требует использования всех доступных ресурсов. Узнайте, как не стесняться своих преимуществ и двигаться к цели.

Тихий час - SEO & LIFESTYLE

SEO, Жизнь, Клиентское SEO, Личный блог, Отвечаю на вопросы