DLE Parser PRO

DLE Parser PRO — профессиональный модуль для автоматизации парсинга и публикации контента из внешних источников в DataLife Engine. Поддерживает три режима: HTML-парсинг (CSS-селекторы/XPath), импорт из RSS/Atom и гибридный режим. Автоматически определяет CMS (WordPress, Joomla, Drupal и др.), скачивает и конвертирует изображения в WebP, выполняет AI-рерайт через DeepSeek. Встроенный Round-Robin планировщик равномерно распределяет материалы между источниками.

Купить сейчас
Версия модуля2.0.0
PHP version7.4 - 8.3
Версия DLE13.x - 19․0

DLE Parser PRO — это комплексное решение корпоративного уровня для владельцев веб-проектов на DataLife Engine, которым необходима полная автоматизация процесса наполнения сайта качественным контентом. Модуль представляет собой мощную систему извлечения, обработки и публикации материалов из внешних источников с применением передовых технологий искусственного интеллекта.

Архитектура модуля: три режима парсинга

HTML Parser — классический веб-скрейпинг

  • Извлечение контента непосредственно из HTML-структуры веб-страниц
  • Поддержка сложной пагинации с настраиваемыми паттернами навигации
  • Автоматическое определение структуры сайта и CMS
  • Точное извлечение через CSS-селекторы и XPath-выражения
  • Обработка динамического контента и AJAX-загрузок
  • Поддержка двунаправленного парсинга (от новых к старым / от старых к новым)
  • Настройка диапазона страниц с автоматическим отслеживанием прогресса

RSS/Atom Parser — работа с лентами новостей

  • Нативная поддержка RSS 2.0, RSS 1.0 (RDF) и Atom 1.0 форматов
  • Интеллектуальное извлечение изображений из множественных источников (enclosure, media:content, media:thumbnail, media:group)
  • Автоматическая обработка namespaces (media, content, dc, atom)
  • Извлечение метаданных: автор, дата публикации, категории
  • Поддержка полного и краткого контента (content:encoded, description)
  • Фильтрация и очистка RSS-контента от рекламных блоков

Hybrid Parser — оптимальное сочетание RSS и HTML

  • Использование RSS для получения списка актуальных материалов
  • Парсинг полного контента с HTML-версии страницы
  • Приоритетная система выбора данных (HTML превалирует над RSS)
  • Объединение метаданных из обоих источников
  • Оптимальная скорость работы при максимальном качестве извлечения
  • Автоматическое определение наиболее полного источника изображений

Технологическая база и инфраструктура

Интеллектуальная система обнаружения CMS

  • Автоматическое распознавание 18+ популярных CMS и фреймворков
  • Поддерживаемые платформы: WordPress, Joomla, Drupal, 1C-Bitrix, DLE, MODX, OpenCart
  • Платформы блогов: Ghost, Medium, Blogger, Tilda, Webflow
  • jаvascript-фреймворки: Next.js, Gatsby, Hugo, Jekyll
  • E-commerce: Shopify, WooCommerce, Magento
  • Анализ HTTP-заголовков и meta-тегов для точного определения
  • Автоматическое предложение оптимальных CSS-селекторов для каждой CMS

AI-рерайтинг через DeepSeek API

  • Интеграция с DeepSeek-V3 — передовой языковой моделью с 671B параметрами
  • Chunk-based обработка: разбиение длинных статей на оптимальные фрагменты
  • Сохранение HTML-структуры при рерайте (теги, форматирование, списки)
  • Трёхуровневая обработка: заголовки, краткое описание, полный текст
  • Настраиваемые промпты для каждого типа контента
  • Автоматическое удаление артефактов AI (code blocks, пояснения)
  • Rate limiting и обработка ошибок API с автоматическими повторами
  • Экономичность: стоимость обработки в 20 раз ниже GPT-4

Двухуровневая система обхода защиты:

  • Level 1: Enhanced cURL
    • HTTP/2 поддержка с полной имитацией Chrome 131
    • Sec-Fetch-* headers для обхода базовой фильтрации
    • Cookie persistence между запросами
    • Автоматическое определение Cloudflare challenges
  • Level 2: FlareSolverr Integration (опционально)
    • Полноценный headless Chrome для обхода jаvascript challenges
    • Автоматическое решение Cloudflare captcha
    • Поддержка Turnstile и других защитных механизмов
    • Прозрачное переключение при обнаружении блокировки
  • Интеллектуальное определение необходимости bypass:
    • Проверка на "Just a moment", "Checking your browser"
    • Детектирование cf-browser-verification
    • Автоматический fallback на стандартный cURL при доступности
  • Системные требования для Cloudflare bypass:
    • Docker (для FlareSolverr)
    • Минимум 1GB RAM
    • VPS с возможностью запуска контейнеров

Профессиональная обработка изображений

  • Автоматическое скачивание изображений с поддержкой HTTPS и редиректов
  • Конвертация в WebP для экономии 30-50% дискового пространства
  • Интеллектуальный resize с сохранением пропорций (GD/Imagick)
  • Поддержка множественных форматов: JPEG, PNG, GIF, WebP
  • Сохранение главного изображения в xfield с метаданными
  • Замена всех изображений в контенте на локальные копии
  • Автоматическая генерация уникальных имён файлов
  • Организация файловой структуры по датам (YYYY-MM)

Round-Robin планировщик задач

  • Равномерное распределение нагрузки между всеми активными источниками
  • Автоматическая ротация источников для сбалансированного импорта
  • Отслеживание прогресса для каждого источника индивидуально
  • Настройка количества постов за одно выполнение CRON
  • Защита CRON-эндпоинта через Secret Key (32-символьный токен)
  • Детальное логирование всех операций парсинга
  • Поддержка как старых (engine/ajax/controller.php), так и новых (index.php?controller=ajax) версий DLE

Система управления категориями

Интеллектуальный маппинг категорий

  • Автоматический сбор категорий из RSS-лент и HTML-структуры
  • Пакетная обработка статей для извлечения всех уникальных категорий
  • Визуальный интерфейс для сопоставления категорий источника с категориями DLE
  • Поддержка иерархических категорий DLE
  • Категория по умолчанию для немаппированных материалов
  • Множественные категории для одного материала

Защита и надёжность

Система предотвращения дубликатов

  • Проверка существования материала по URL источника в xfields
  • Отслеживание последней обработанной позиции (страница/URL)
  • Автоматический пропуск уже импортированных материалов
  • Сохранение прогресса в БД для каждого источника

Стабильность работы

  • Автоматическое восстановление соединения с БД при таймаутах
  • Обработка ошибок cURL с детальным логированием
  • Поддержка SSL-сертификатов и обход блокировок
  • User-Agent rotation для имитации браузерных запросов
  • Timeout-контроль для долгих операций

Cloudflare Bypass через FlareSolverr

  • Интеграция с FlareSolverr для обхода Cloudflare Bot Management
  • Автоматическое переключение на headless browser при обнаружении защиты
  • Опциональная активация через настройки (не требуется для всех источников)
  • Graceful degradation: работа с обычными сайтами при отключенном FlareSolverr
  • Docker-based решение с автоматическим управлением сессиями
  • Поддержка jаvascript challenges и cookie-based проверок
  • Детальное логирование попыток обхода защиты

Расширенные возможности

Настройка пагинации и навигации

  • Поддержка стандартных паттернов: /page/{page}/, ?page={page}, /p/{page}, /offset/{page}
  • Кастомные паттерны для нестандартных сайтов
  • Query-параметры и сложные URL-схемы
  • Автоматическое построение URL следующей страницы
  • Настройка диапазона страниц (start_page, end_page)
  • Указание количества постов на странице для точного отслеживания

Гибкая настройка селекторов

  • Поддержка CSS-селекторов любой сложности (классы, ID, атрибуты, псевдоклассы)
  • XPath-совместимость для сложных структур
  • Селекторы исключения для удаления рекламы и мусора
  • Встроенный тестер с предварительным просмотром результатов
  • Валидация селекторов перед сохранением

Административная панель

  • Интуитивный интерфейс для управления источниками
  • Детальная статистика по каждому источнику (обработано материалов, прогресс, последний запуск)
  • Быстрое включение/отключение источников
  • Сброс прогресса для переобработки
  • Редактирование источников с сохранением прогресса
  • Встроенная система проверки обновлений модуля
  • Логирование всех действий в admin_logs

Интеллектуальная система сохранения изображений при AI-обработке:

    • Извлечение медиа-элементов перед рерайтом:
      • Автоматическое обнаружение <img>, <figure>, <picture>, <iframe>, <video>
      • Замена на HTML-комментарии placeholder'ы
      • Сохранение позиций в структуре документа
    • Трёхуровневая система восстановления:
      • Level 1: Прямое сопоставление по маркерам
      • Level 2: Интеллектуальная вставка между параграфами
      • Level 3: Добавление в конец документа при полной потере
    • Финальная очистка:
      • Удаление случайно сохранённых маркеров из title/description
      • Нормализация HTML-структуры
      • Валидация медиа-элементов

Множественные источники извлечения главного изображения:

    • Meta-теги Open Graph и Twitter:
      • meta[property="og:image"]
      • meta[name="twitter:image"]
      • meta[name="twitter:image:src"]
    • Адаптивные изображения:
      • Поддержка srcset атрибута
      • Автоматический выбор наибольшего разрешения
      • Fallback на data-src и data-lazy-src
    • Вложенные структуры:
      • Извлечение из <figure>, <picture> контейнеров
      • Поиск img внутри wrapper-элементов
      • Поддержка CSS background-image

Преимущества использования

  • Экономия времени: полная автоматизация процесса наполнения сайта — от парсинга до публикации
  • Уникальность контента: AI-рерайт обеспечивает оригинальность текстов, проходящих проверку антиплагиата
  • SEO-оптимизация: автоматическая генерация ЧПУ (alt_name), структурированные данные
  • Низкая стоимость: использование DeepSeek снижает расходы на AI в 20 раз по сравнению с GPT-4
  • Масштабируемость: неограниченное количество источников с Round-Robin балансировкой
  • Надёжность: защита от дубликатов, автоматическое восстановление соединений
  • Простота настройки: автоопределение CMS, встроенный тестер селекторов
  • Универсальность: поддержка любых сайтов с HTML-структурой, RSS-лент и гибридных схем
  • Модульность: гибкая архитектура с возможностью отключения ненужных компонентов
  • Производительность: chunk-based обработка, оптимизированные SQL-запросы
  • Обход защиты сайтов: автоматический bypass Cloudflare и других антибот систем без прокси-сервисов
  • Гибкость настройки: возможность работы как с защищёнными, так и с обычными источниками
  • Экономия на прокси: FlareSolverr — бесплатная альтернатива платным proxy-сервисам

Сценарии применения

  • Новостные агрегаторы: автоматический сбор новостей с нескольких региональных источников
  • Тематические блоги: перевод и адаптация зарубежного контента для русскоязычной аудитории
  • Обзорные порталы: импорт обзоров технологий, гаджетов, программного обеспечения
  • Региональные СМИ: агрегация местных новостей с последующим рерайтом
  • Развлекательные ресурсы: автоматическое наполнение разделов статьями, гайдами, топами
  • Образовательные платформы: импорт учебных материалов, статей, руководств
  • Бизнес-порталы: сбор отраслевых новостей и аналитики


Технические требования и совместимость

  • DLE версии: 13.x, 14.x, 15.x, 16.x, 17.x, 18.x, 19.x (полная совместимость)
  • PHP: 7.4+ (рекомендуется 8.0+)
  • Расширения PHP: CURL, DOM, XPath, libxml, GD или Imagick, JSON, mbstring
  • MySQL: 5.7+ или MariaDB 10.2+
  • Права доступа: запись в /uploads/posts/, /engine/data/, /engine/cache/
  • Внешние API: DeepSeek API (опционально, для AI-рерайта)
  • CRON: доступ к настройке заданий crontab

Скриншоты

Выберите подходящий тариф

Мы предлагаем гибкие варианты лицензирования в зависимости от ваших потребностей.

Стандарт

5000 ₽
  • Неограниченное количество сайтов
  • Открытый исходный код
  • Базовая поддержка
  • Без дальнейших обновлений

Расширенный

6000 ₽
  • Неограниченное количество сайтов
  • Открытый исходный код
  • Приоритетная поддержка
  • Бесплатные обновления — (12 месяцев)

Премиум

11000 ₽
  • Неограниченное количество сайтов
  • Открытый исходный код
  • Приоритетная поддержка + консультация
  • Бесплатные обновления — бессрочно
  • Установка и настройка модуля
  • Адаптация под вашего сайта (включая разумную доработку кода под индивидуальные требования)

История изменений

Релизов: 3
Функций: 8
Исправлений: 3
Улучшений: 2
Версия 2.0.0 15.02.2026
Новое
Добавлена поддержка Proxy (HTTP/SOCKS5) для обхода блокировок и смены IP
Новое
Интеграция FlareSolverr для автоматического обхода Cloudflare защиты
Новое
Гибкая настройка очистки контента из админ-панели (удаление scripts, styles, links, атрибутов)
Новое
FlareSolverr fallback для изображений при неудачной загрузке через cURL
Новое
Автоматическое определение и использование Proxy из настроек во всех AJAX endpoints
Новое
Проверка статуса FlareSolverr в режиме реального времени
Новое
Тестирование Proxy прямо из настроек с определением IP и геолокации
Улучшение
Улучшенная архитектура
Улучшение
Обновлен интерфейс настроек: 6 категорий (Основные, Cloudflare, Proxy, Очистка контента, AI Rewrite, Изображения)
Исправление
Исправлены проблемы с загрузкой страниц, защищенных Cloudflare
Исправление
Устранены конфликты имен функций между разными модулями
Версия 1.0.1 05.01.2026
Исправление
Обнаружены и исправлены некоторые баги.
Комментарии 2
  1. Здравствуйте! Планирую купить DLE Parser PRO. Подскажите, смогу ли я использовать одну лицензию на 2-3 сайтах одновременно? Или она строго привязывается к одному домену?
    1. Здравствуйте. Да, можете. Модуль с открытым исходным кодом и не привязан к домену. Купив один раз, вы можете использовать его на неограниченном количестве сайтов.