DLEModМодули для DLE • DLE Parser PRO

DLE Parser PRO

DLE Parser PRO — профессиональный модуль для автоматизации парсинга и публикации контента из внешних источников в DataLife Engine. Поддерживает три режима: HTML-парсинг (CSS-селекторы/XPath), импорт из RSS/Atom и гибридный режим. Автоматически определяет CMS (WordPress, Joomla, Drupal и др.), скачивает и конвертирует изображения в WebP, выполняет AI-рерайт через DeepSeek. Встроенный Round-Robin планировщик равномерно распределяет материалы между источниками.

Купить сейчас
Версия модуля3.0.0
PHP version7.4 - 8.4
Версия DLE13.x - 19․1

DLE Parser PRO — это комплексное решение для DataLife Engine, предназначенное для автоматического импорта, обработки, перевода и публикации материалов из внешних источников. Модуль объединяет HTML-парсинг, RSS/Atom-ленты, гибридный режим RSS + HTML, импорт через Sitemap, обработку изображений, дополнительные поля DLE, защиту от дублей, AI-рерайтинг и интеграцию с DLE Multi-Language.

Система рассчитана на владельцев новостных сайтов, тематических порталов, блогов, агрегаторов и контентных проектов, которым важно не просто скопировать материал, а получить готовую публикацию: с очищенным HTML, локальными изображениями, категориями, тегами, дополнительными полями, ЧПУ, переводами и диагностикой каждого этапа обработки.

Архитектура модуля: четыре режима парсинга

HTML Parser — классический веб-скрейпинг

  • Извлечение материалов напрямую из HTML-структуры сайта-донора
  • Корректная обработка списков материалов: парсер проходит по всем найденным контейнерам и ищет ссылку внутри каждого блока
  • URL-based progress: отслеживание последнего обработанного материала по URL, а не по порядковому номеру на странице
  • Поддержка направления обработки: от новых к старым и от старых к новым
  • Настраиваемая пагинация: /page/{page}/, ?page={page}, /p/{page}, /offset/{page} и кастомные паттерны
  • Извлечение заголовка, полного текста, категорий, главного изображения и дополнительных полей через CSS-селекторы
  • Локальная очистка контента внутри выбранного блока, без удаления элементов из всего DOM документа
  • Автоматическое скачивание изображений из текста материала и замена внешних ссылок на локальные
  • Поддержка дополнительных полей DLE: файлы, изображения, видео, галереи, HTML-блоки и текстовые значения

RSS/Atom Parser — работа с новостными лентами

  • Поддержка RSS 2.0, RSS 1.0 (RDF) и Atom 1.0
  • Извлечение контента из content:encoded, description и Atom content
  • Обработка namespaces: media, content, dc, atom
  • Получение изображений из enclosure, media:content, media:thumbnail, media:group и HTML-контента
  • Дополнительный поиск главного изображения на странице статьи через Open Graph и Twitter meta-теги
  • Извлечение категорий из ленты и маппинг на категории DLE
  • Раздельная стратегия cursor для режимов new_to_old и old_to_new, чтобы новые материалы в верхней части RSS не пропускались
  • Очистка RSS-контента от рекламных и служебных блоков через селекторы исключения

Hybrid Parser — сочетание RSS и HTML

  • RSS используется для быстрого получения списка актуальных материалов
  • HTML-страница используется для извлечения полного текста, изображений, категорий и дополнительных полей
  • Поддержка HTML category selector с политикой объединения категорий: RSS first, HTML fallback или HTML priority
  • Защита от зависания на проблемном материале: item-level failure tracking, fail cursor advancement и лимит повторных попыток
  • Объединение данных из RSS и HTML с приоритетом более полного источника
  • Поддержка скачивания медиа и дополнительных полей из HTML-версии статьи
  • Оптимальный режим для сайтов, где RSS содержит только анонс, а полный материал доступен на странице

Sitemap Parser — импорт материалов из sitemap.xml

  • Поддержка обычных sitemap.xml и sitemap index с вложенными sitemap-файлами
  • Автоматическое получение списка URL материалов из Sitemap
  • Кэширование sitemap-инвентаря для ускорения повторных запусков и снижения нагрузки на сайт-донор
  • Поддержка направления обработки: от новых к старым и от старых к новым
  • Извлечение заголовка, полного текста, категорий, изображений и дополнительных полей через CSS-селекторы
  • Отслеживание общего количества URL и прогресса обработки
  • Защита от повторной публикации уже импортированных материалов

AI-рерайтинг, переводы и DLE Multi-Language

AI-обработка через DeepSeek и OpenAI

  • Поддержка DeepSeek и OpenAI в качестве AI-провайдера
  • Рерайт заголовка, краткого описания и полного текста материала
  • Chunk-based обработка длинных статей с разбиением на безопасные фрагменты
  • Сохранение HTML-структуры при рерайте и переводе: параграфы, списки, заголовки, blockquote, code/pre
  • Защита медиа-элементов перед AI-обработкой: изображения, figure, picture, iframe, video и pre/code блоки временно заменяются маркерами
  • Автоматическое восстановление медиа-элементов после AI-обработки
  • Настраиваемые промпты для заголовка, краткого описания, полного текста и тегов
  • Повторная обработка подозрительных фрагментов, если AI оставил часть текста на исходном языке
  • Дополнительная нормализация HTML после AI-ответа для предотвращения сломанных списков и незакрытых тегов

Интеграция с DLE Multi-Language

  • Автоматическое определение активных языков из конфигурации DLE Multi-Language
  • Заполнение языковых колонок: title_{iso}, short_story_{iso}, full_story_{iso}, tags_{iso}
  • Перевод полного материала, краткого описания, заголовка и тегов для каждого активного языка
  • Сохранение основной языковой версии отдельно от переводов
  • Генерация alt_name для языковой версии по переведённому заголовку
  • Проверка наличия языковых колонок перед сохранением, чтобы избежать ошибок БД
  • Fallback для тегов: если AI не смог перевести tags, модуль формирует теги из уже переведённого контента
  • Поддержка разных языковых сценариев: основной язык сайта может отличаться от языка сайта-донора

Тестирование и предпросмотр перед публикацией

Real dry-run pipeline

  • Тестирование источника использует тот же pipeline, что и реальный парсинг
  • Dry-run режим не сохраняет материал в БД, но показывает итоговый результат обработки
  • Предпросмотр включает финальный заголовок, краткое описание, полный текст, категории, изображения, xfields, tags и duplicate verdict
  • Тест помогает увидеть реальный результат после очистки, AI-рерайта, перевода, скачивания изображений и обработки дополнительных полей
  • В интерфейсе добавлено предупреждение: полная симуляция может занимать несколько минут и использовать AI/API-запросы
  • Результат тестирования максимально соответствует тому, что будет опубликовано при реальном запуске CRON

CSS-селекторы и извлечение данных

Расширенный selector engine

  • Поддержка базовых CSS-селекторов: теги, классы, ID, атрибуты
  • Поддержка групп через запятую: h1, .title, [itemprop="headline"]
  • Поддержка вложенности, прямых потомков и соседних элементов: .article .text, .post > p, h1 + .lead
  • Поддержка нескольких классов на одном элементе: .post.featured
  • Поддержка атрибутов: [href], [data-src], [itemprop="articleBody"], [class*="content"]
  • Поддержка ряда псевдоклассов: :first-child, :last-child, :nth-child(), :contains(), :not(), :is(), :where(), :has() в поддерживаемых пределах
  • Предупреждения в тестовом режиме для слишком сложных или неподдерживаемых селекторов
  • Подробная справка в админ-панели с примерами и объяснением поддерживаемого синтаксиса

Дополнительные поля DLE

Скачивание файлов, медиа и галерей

  • Настройка произвольного количества дополнительных полей для каждого источника
  • Для каждого поля задаётся CSS-селектор, атрибут извлечения и тип действия
  • Поддерживаемые атрибуты: href, src, data-src, data-href, content, text, html
  • Поддерживаемые действия: сохранить URL/текст, скачать файл, скачать изображение, скачать видео, сохранить внешнее видео, собрать галерею
  • Галереи автоматически обходят все найденные элементы и сохраняют результат в формате DLE
  • Файлы и видео сохраняются в uploads/public_files/
  • Изображения сохраняются в uploads/posts/ с метаданными размера
  • HTML-блоки могут сохраняться в дополнительные поля с применением политики очистки контента

Изображения и медиа

Профессиональная обработка изображений

  • Автоматическое скачивание изображений из полного текста материала
  • Поддержка HTTPS, редиректов и относительных URL
  • Сохранение изображений с организацией по датам
  • Замена внешних URL в контенте на локальные копии
  • Поддержка JPEG, PNG, GIF и WebP
  • Опциональная конвертация в WebP
  • Корректное сохранение оригинального формата, если конвертация отключена
  • Resize с сохранением пропорций через GD или Imagick
  • Извлечение изображений из figure, picture, img, srcset, lazy-load атрибутов и meta-тегов

Категории и теги

Интеллектуальное управление категориями

  • Извлечение категорий из RSS, HTML и Sitemap-страниц
  • Визуальный маппинг категорий сайта-донора на категории DLE
  • Поддержка категории по умолчанию для немаппированных материалов
  • Поддержка множественных категорий для одного материала
  • Для Hybrid-режима доступна политика объединения категорий из RSS и HTML

Генерация и перевод тегов

  • Автоматическая генерация тегов через AI
  • Fallback-генерация тегов из категорий, заголовка и текста, если AI не вернул корректный результат
  • Перевод тегов для DLE Multi-Language
  • Fallback для tags_{iso} из переведённого контента, если AI-перевод тегов недоступен
  • Нормализация списка тегов: удаление мусора, дублей и слишком длинных фраз

Защита от дублей и надёжный прогресс

Система предотвращения дубликатов

  • Нормализация URL перед проверкой дублей
  • Проверка по source_url, GUID, заголовку и fingerprint контента
  • Корректная обработка duplicate skip без ложной ошибки сохранения
  • Очистка dedupe-прогресса при полном сбросе источника
  • Защита от повторной публикации после изменения URL-параметров, trailing slash или tracking-параметров

Progress и cursor model

  • HTML-источники используют URL cursor вместо счётчика позиции на странице
  • RSS и Sitemap используют отдельные стратегии для new_to_old и old_to_new
  • Hybrid-режим продвигает cursor даже при контролируемых ошибках, чтобы источник не зависал на одном материале
  • Сброс прогресса очищает связанные dedupe-записи источника

Structured logs, статистика и мониторинг

Структурированные логи

  • Каждый этап парсинга записывается как structured event
  • Лог содержит source_id, source_type, source_name, item_url, stage, status, message, duration_ms и дополнительный контекст
  • Отдельно логируются этапы fetch, parse, download_images, ai_rewrite, translate, generate_tags, translate_tags, db_save и duplicate check
  • Логи помогают быстро понять, где именно тратится время или возникает ошибка

Health monitoring источников

  • Отслеживание последнего успешного запуска
  • Fail streak для понимания количества последовательных ошибок
  • Duplicate rate для оценки качества источника
  • Average fetch time и average run time
  • Более точная статистика обработанных материалов по каждому source

Cloudflare, Proxy и сетевой слой

Двухуровневая система обхода защиты

  • Enhanced cURL с имитацией браузерных заголовков
  • Поддержка cookie persistence между запросами
  • Интеграция с FlareSolverr для обхода Cloudflare и jаvascript challenges
  • Опциональная поддержка HTTP/SOCKS5 proxy
  • Автоматическое переключение на FlareSolverr при обнаружении защитной страницы
  • Graceful fallback на обычный cURL, если обход защиты не требуется

Административная панель

Управление источниками и настройками

  • Добавление и редактирование HTML, RSS/Atom, Hybrid и Sitemap источников
  • Включение и отключение источников
  • Сброс прогресса и повторная обработка
  • Подробная справка по режимам, селекторам, дополнительным полям и настройкам
  • Предупреждения о лимитах сервера при запуске полной симуляции парсинга
  • Встроенный preview итогового материала перед публикацией
  • Поддержка старых и новых AJAX endpoints DLE

Round-Robin планировщик

  • Равномерное распределение нагрузки между активными источниками
  • Автоматическая ротация источников
  • Настройка количества материалов за один запуск CRON
  • Защита CRON endpoint через secret key
  • Structured logging каждого запуска
  • Lock-защита от параллельного запуска одного и того же cron-процесса

Преимущества использования

  • Автоматизация: полный цикл от получения материала до сохранения готовой публикации в DLE
  • Мультиязычность: автоматическое заполнение языковых полей DLE Multi-Language
  • Гибкость: четыре режима работы для разных типов источников
  • Качество контента: AI-рерайт, перевод, генерация тегов и сохранение HTML-структуры
  • Надёжность: защита от дублей, устойчивый cursor, controlled failure handling
  • Прозрачность: structured logs, health metrics и понятный preview перед публикацией
  • Медиа: локальное сохранение изображений, файлов, видео и галерей
  • Масштабируемость: неограниченное количество источников с Round-Robin обработкой
  • Совместимость: поддержка актуальных версий DLE и PHP 7.4-8.4

Сценарии применения

  • Новостные агрегаторы: регулярный импорт материалов из нескольких RSS, HTML и Sitemap источников
  • Тематические блоги: адаптация и перевод зарубежного контента под основной язык сайта
  • Мультиязычные сайты: автоматическое заполнение языковых версий материалов
  • Обзорные порталы: импорт обзоров, инструкций, гайдов и технических статей
  • Региональные СМИ: сбор публикаций из локальных источников с последующей обработкой
  • Образовательные проекты: импорт учебных материалов, руководств и документации
  • Контентные порталы: массовое наполнение разделов с контролем дублей, категорий и тегов

Технические требования и совместимость

  • DLE: 13.x - 19.1
  • PHP: 7.4 - 8.4
  • PHP extensions: CURL, DOM, XPath, libxml, GD или Imagick, JSON, mbstring
  • MySQL/MariaDB: совместимая версия, поддерживаемая вашей версией DLE
  • Права доступа: запись в /uploads/posts/, /uploads/public_files/, /engine/data/, /engine/cache/
  • AI API: DeepSeek или OpenAI, если используется рерайт, перевод или генерация тегов
  • CRON: доступ к настройке планировщика задач
  • FlareSolverr: опционально, требуется только для сайтов с Cloudflare/jаvascript защитой

Скриншоты

Выберите подходящий тариф

Мы предлагаем гибкие варианты лицензирования в зависимости от ваших потребностей.

Стандарт

5000 ₽
  • Неограниченное кол-во сайтов
  • Открытый исходный код
  • Базовая
  • Без дальнейших обновлений

Расширенный

6000 ₽
  • Неограниченное кол-во сайтов
  • Открытый исходный код
  • приоритетная
  • Бесплатные обновления — (12 месяцев)

Премиум

11000 ₽
  • Неограниченное кол-во сайтов
  • Открытый исходный код
  • Приоритетная поддержка + консультация
  • Бесплатные обновления — бессрочно
  • Установка и настройка модуля
  • Адаптация под ваш сайт (включая разумную доработку кода под индивидуальные требования)

История изменений

Все версии (9)
Все версии (9)
Версия 3.0.0
Версия 2.1.4
Версия 2.1.3
Версия 2.1.2
Версия 2.1.1
Версия 2.1.0
Версия 2.0.0
Версия 1.0.1
Версия 1.0.0
Релизов: 9
Функций: 21
Исправлений: 14
Улучшений: 13
Версия 3.0.0 27.04.2026
Новое
Добавлена полноценная интеграция с DLE Multi-Language: автоматическое сохранение переводов в title_{iso}, short_story_{iso}, full_story_{iso} и tags_{iso}.
Новое
Добавлен новый режим парсинга Sitemap с поддержкой больших sitemap-файлов, вложенных sitemap index и кеширования списка URL.
Новое
Добавлен реальный dry-run режим тестирования: проверка теперь выполняет симуляцию полного парсинга без записи в базу данных и показывает итоговый publish payload.
Новое
Добавлены структурированные логи парсинга со стадиями обработки, статусами, временем выполнения, source_id, item_url и информацией об ошибках.
Новое
Добавлен мониторинг состояния источников: health status, fail streak, duplicate rate, average fetch/run time и время последнего успешного запуска.
Улучшение
Полностью переработана логика HTML-парсинга списка материалов: теперь обрабатываются все найденные контейнеры, а не только первый matched node.
Улучшение
HTML progress переведен на URL/cursor модель вместо count-based прогресса, что снижает риск пропуска новых материалов.
Улучшение
Исправлена стратегия cursor для RSS, Hybrid и Sitemap в режиме new_to_old, чтобы новые материалы в верхней части источника не пропускались.
Улучшение
Улучшен Hybrid режим: добавлена обработка ошибок по материалам, advancement cursor при сбоях и защита от бесконечного застревания на одном item.
Улучшение
Добавлена поддержка HTML category selector в Hybrid режиме и политика объединения категорий RSS/HTML.
Улучшение
Усилен механизм поиска дублей: добавлена нормализация URL, GUID/external id, fingerprint заголовка и hash контента.
Улучшение
Улучшена нормализация URL перед проверкой дублей: учитываются trailing slash, fragment, tracking-параметры и различия в формате ссылок.
Улучшение
Усилен CSS selector engine: добавлена поддержка групп, комбинаторов, атрибутных селекторов и ряда pseudo-селекторов.
Улучшение
Добавлены предупреждения о поддерживаемом subset CSS-селекторов в help-разделе и test result.
Улучшение
Улучшена AI-обработка HTML: сохранение структуры тегов, защита media/code/pre блоков, повторная проверка неполных переводов и более стабильная работа с длинным контентом.
Улучшение
Улучшена генерация и перевод тегов, включая fallback-механизм, если AI не вернул корректный результат.
Исправление
Исправлено сохранение изображений при отключенном reformat: теперь сохраняется реальный исходный формат файла.
Исправление
Исправлены случаи, когда AI мог вернуть ссылки или HTML, не соответствующие настройкам очистки контента.
Исправление
Исправлена обработка figure/img блоков: изображения корректно извлекаются, очищаются и могут быть загружены на сервер.
Исправление
Исправлены случаи, когда code/pre блоки могли быть пропущены или удалены во время AI-обработки.
Исправление
Исправлены проблемы с незакрытыми ul/ol/li тегами в AI-переводах.
Исправление
Исправлена совместимость DB reconnect check с PHP 8 и mysqli.
Исправление
Найдены и исправлены другие мелкие ошибки.
Версия 2.1.4 11.03.2026
Исправление
Обнаружены и исправлены некоторые баги.
Комментарии 4
  1. Прошу уточнить приблизительную стоимость рерайта ДипСиком за 1000 знаков. Возможна ли настройка на сокращение текста, например рерайт статьи 5000 знаков в статью 1000 знаков. Если уже есть рерайт модули, работающие на других ИИ, можно ли их включить в данный модуль и выбирать в настройках оптимальную нейронку под определенную тему. Например, по теме медицины пишет Джемини, по теме ИТ - Клод, по искусству - ДипСик и тд. Или же исходя из стоимости токенов - где выгоднее, на тот ИИ и переключиться.
  2. Здравствуйте. Я какая будет цена AI-рерайта через DeepSeek к примеру за одну новость. И как пополнят DeepSeek
  3. +1
    Здравствуйте! Планирую купить DLE Parser PRO. Подскажите, смогу ли я использовать одну лицензию на 2-3 сайтах одновременно? Или она строго привязывается к одному домену?
    1. +1
      Здравствуйте. Да, можете. Модуль с открытым исходным кодом и не привязан к домену. Купив один раз, вы можете использовать его на неограниченном количестве сайтов.