DLEModМодули для DLE • DLE Parser PRO

DLE Parser PRO

DLE Parser PRO — профессиональный модуль для автоматизации парсинга и публикации контента из внешних источников в DataLife Engine. Поддерживает три режима: HTML-парсинг (CSS-селекторы/XPath), импорт из RSS/Atom и гибридный режим. Автоматически определяет CMS (WordPress, Joomla, Drupal и др.), скачивает и конвертирует изображения в WebP, выполняет AI-рерайт через DeepSeek. Встроенный Round-Robin планировщик равномерно распределяет материалы между источниками.

Купить сейчас
Версия модуля2.1.4
PHP version7.4 - 8.4
Версия DLE13.x - 19․1

DLE Parser PRO — это комплексное решение корпоративного уровня для владельцев веб-проектов на DataLife Engine, которым необходима полная автоматизация процесса наполнения сайта качественным контентом. Модуль представляет собой мощную систему извлечения, обработки и публикации материалов из внешних источников с применением передовых технологий искусственного интеллекта.

Архитектура модуля: три режима парсинга

HTML Parser — классический веб-скрейпинг

  • Извлечение контента непосредственно из HTML-структуры веб-страниц
  • Поддержка сложной пагинации с настраиваемыми паттернами навигации
  • Автоматическое определение структуры сайта и CMS
  • Точное извлечение через CSS-селекторы и XPath-выражения
  • Обработка динамического контента и AJAX-загрузок
  • Поддержка двунаправленного парсинга (от новых к старым / от старых к новым)
  • Настройка диапазона страниц с автоматическим отслеживанием прогресса
  • Автоматическое скачивание файлов, изображений, видео и галерей в дополнительные поля DLE — через CSS-селекторы прямо из HTML-страницы статьи
  • Поддержка всех типов извлечения: href, src, data-src, data-href, content, text, html
  • Сохранение полных HTML-блоков (таблицы характеристик, форматированные описания) в дополнительные поля через фильтр очистки контента

RSS/Atom Parser — работа с лентами новостей

  • Нативная поддержка RSS 2.0, RSS 1.0 (RDF) и Atom 1.0 форматов
  • Интеллектуальное извлечение изображений из множественных источников (enclosure, media:content, media:thumbnail, media:group)
  • Автоматическая обработка namespaces (media, content, dc, atom)
  • Извлечение метаданных: автор, дата публикации, категории
  • Поддержка полного и краткого контента (content:encoded, description)
  • Фильтрация и очистка RSS-контента от рекламных блоков
  • Приоритетное получение главного изображения через meta[property="og:image"] и meta[property="twitter:image"] непосредственно со страницы статьи; RSS-изображение используется как резервный источник

Hybrid Parser — оптимальное сочетание RSS и HTML

  • Использование RSS для получения списка актуальных материалов
  • Парсинг полного контента с HTML-версии страницы
  • Приоритетная система выбора данных (HTML превалирует над RSS)
  • Объединение метаданных из обоих источников
  • Оптимальная скорость работы при максимальном качестве извлечения
  • Автоматическое определение наиболее полного источника изображений

Технологическая база и инфраструктура

Интеллектуальная система обнаружения CMS

  • Автоматическое распознавание 18+ популярных CMS и фреймворков
  • Поддерживаемые платформы: WordPress, Joomla, Drupal, 1C-Bitrix, DLE, MODX, OpenCart
  • Платформы блогов: Ghost, Medium, Blogger, Tilda, Webflow
  • jаvascript-фреймворки: Next.js, Gatsby, Hugo, Jekyll
  • E-commerce: Shopify, WooCommerce, Magento
  • Анализ HTTP-заголовков и meta-тегов для точного определения
  • Автоматическое предложение оптимальных CSS-селекторов для каждой CMS

AI-рерайтинг через DeepSeek API

  • Интеграция с DeepSeek-V3 — передовой языковой моделью с 671B параметрами
  • Chunk-based обработка: разбиение длинных статей на оптимальные фрагменты
  • Сохранение HTML-структуры при рерайте (теги, форматирование, списки)
  • Трёхуровневая обработка: заголовки, краткое описание, полный текст
  • Настраиваемые промпты для каждого типа контента
  • Автоматическое удаление артефактов AI (code blocks, пояснения)
  • Rate limiting и обработка ошибок API с автоматическими повторами
  • Экономичность: стоимость обработки в 20 раз ниже GPT-4

Двухуровневая система обхода защиты:

  • Level 1: Enhanced cURL
    • HTTP/2 поддержка с полной имитацией Chrome 131
    • Sec-Fetch-* headers для обхода базовой фильтрации
    • Cookie persistence между запросами
    • Автоматическое определение Cloudflare challenges
  • Level 2: FlareSolverr Integration (опционально)
    • Полноценный headless Chrome для обхода jаvascript challenges
    • Автоматическое решение Cloudflare captcha
    • Поддержка Turnstile и других защитных механизмов
    • Прозрачное переключение при обнаружении блокировки
  • Интеллектуальное определение необходимости bypass:
    • Проверка на \"Just a moment\", \"Checking your browser\"
    • Детектирование cf-browser-verification
    • Автоматический fallback на стандартный cURL при доступности
  • Системные требования для Cloudflare bypass:
    • Docker (для FlareSolverr)
    • Минимум 1GB RAM
    • VPS с возможностью запуска контейнеров

Профессиональная обработка изображений

  • Автоматическое скачивание изображений с поддержкой HTTPS и редиректов
  • Конвертация в WebP для экономии 30-50% дискового пространства
  • Интеллектуальный resize с сохранением пропорций (GD/Imagick)
  • Поддержка множественных форматов: JPEG, PNG, GIF, WebP
  • Сохранение главного изображения в xfield с метаданными
  • Замена всех изображений в контенте на локальные копии
  • Автоматическая генерация уникальных имён файлов
  • Организация файловой структуры по датам (YYYY-MM)

Round-Robin планировщик задач

  • Равномерное распределение нагрузки между всеми активными источниками
  • Автоматическая ротация источников для сбалансированного импорта
  • Отслеживание прогресса для каждого источника индивидуально
  • Настройка количества постов за одно выполнение CRON
  • Защита CRON-эндпоинта через Secret Key (32-символьный токен)
  • Детальное логирование всех операций парсинга
  • Поддержка как старых (engine/ajax/controller.php), так и новых (index.php?controller=ajax) версий DLE

Система управления категориями

Интеллектуальный маппинг категорий

  • Автоматический сбор категорий из RSS-лент и HTML-структуры
  • Пакетная обработка статей для извлечения всех уникальных категорий
  • Визуальный интерфейс для сопоставления категорий источника с категориями DLE
  • Поддержка иерархических категорий DLE
  • Категория по умолчанию для немаппированных материалов
  • Множественные категории для одного материала

Защита и надёжность

Система предотвращения дубликатов

  • Проверка существования материала по URL источника в xfields
  • Отслеживание последней обработанной позиции (страница/URL)
  • Автоматический пропуск уже импортированных материалов
  • Сохранение прогресса в БД для каждого источника

Стабильность работы

  • Автоматическое восстановление соединения с БД при таймаутах
  • Обработка ошибок cURL с детальным логированием
  • Поддержка SSL-сертификатов и обход блокировок
  • User-Agent rotation для имитации браузерных запросов
  • Timeout-контроль для долгих операций

Cloudflare Bypass через FlareSolverr

  • Интеграция с FlareSolverr для обхода Cloudflare Bot Management
  • Автоматическое переключение на headless browser при обнаружении защиты
  • Опциональная активация через настройки (не требуется для всех источников)
  • Graceful degradation: работа с обычными сайтами при отключенном FlareSolverr
  • Docker-based решение с автоматическим управлением сессиями
  • Поддержка jаvascript challenges и cookie-based проверок
  • Детальное логирование попыток обхода защиты

Расширенные возможности

Дополнительные поля: скачивание файлов, медиа и галерей

  • Настройка произвольного числа дополнительных полей для каждого источника — прямо из формы добавления/редактирования
  • Для каждого поля задаётся: CSS-селектор элемента, атрибут извлечения (href, src, data-src, data-href, content, text, html) и тип действия
  • Поддерживаемые типы действий: сохранение URL/текста, скачивание файла, скачивание изображения с метаданными, скачивание видео, внешняя ссылка на видео (YouTube/Vimeo), галерея с массовым скачиванием изображений, галерея из URL-списка
  • Галерейный режим: автоматический обход всех найденных элементов по селектору, скачивание каждого и сохранение в формат DLE-галереи в одно поле
  • Видеофайлы и скачиваемые файлы сохраняются в uploads/public_files/ с организацией по датам (YYYY-MM)
  • Изображения дополнительных полей сохраняются в uploads/posts/ с автоматическим определением размеров и генерацией метаданных в формате DLE (ширина×высота, размер файла)
  • Видеополя оформляются в нативный формат DLE: тип 3 (локальное видео) или тип 1 (внешняя ссылка)
  • Метод extractExtraFieldsFromDom() вынесен в базовый класс BaseParser (protected) — доступен как для HTML, так и для Hybrid парсера без дублирования кода

Настройка пагинации и навигации

  • Поддержка стандартных паттернов: /page/{page}/, ?page={page}, /p/{page}, /offset/{page}
  • Кастомные паттерны для нестандартных сайтов
  • Query-параметры и сложные URL-схемы
  • Автоматическое построение URL следующей страницы
  • Настройка диапазона страниц (start_page, end_page)
  • Указание количества постов на странице для точного отслеживания

Гибкая настройка селекторов

  • Поддержка CSS-селекторов любой сложности (классы, ID, атрибуты, псевдоклассы)
  • XPath-совместимость для сложных структур
  • Селекторы исключения для удаления рекламы и мусора
  • Встроенный тестер с предварительным просмотром результатов
  • Валидация селекторов перед сохранением

Административная панель

  • Интуитивный интерфейс для управления источниками
  • Детальная статистика по каждому источнику (обработано материалов, прогресс, последний запуск)
  • Быстрое включение/отключение источников
  • Сброс прогресса для переобработки
  • Редактирование источников с сохранением прогресса
  • Встроенная система проверки обновлений модуля
  • Логирование всех действий в admin_logs

Интеллектуальная система сохранения изображений при AI-обработке:

    • Извлечение медиа-элементов перед рерайтом:
      • Автоматическое обнаружение <img>, <figure>, <picture>, <iframe>, <video>
      • Замена на HTML-комментарии placeholder\'ы
      • Сохранение позиций в структуре документа
    • Трёхуровневая система восстановления:
      • Level 1: Прямое сопоставление по маркерам
      • Level 2: Интеллектуальная вставка между параграфами
      • Level 3: Добавление в конец документа при полной потере
    • Финальная очистка:
      • Удаление случайно сохранённых маркеров из title/description
      • Нормализация HTML-структуры
      • Валидация медиа-элементов

Множественные источники извлечения главного изображения:

    • Meta-теги Open Graph и Twitter:
      • meta[property=\"og:image\"]
      • meta[name=\"twitter:image\"]
      • meta[name=\"twitter:image:src\"]
    • Адаптивные изображения:
      • Поддержка srcset атрибута
      • Автоматический выбор наибольшего разрешения
      • Fallback на data-src и data-lazy-src
    • Вложенные структуры:
      • Извлечение из <figure>, <picture> контейнеров
      • Поиск img внутри wrapper-элементов
      • Поддержка CSS background-image

Преимущества использования

  • Экономия времени: полная автоматизация процесса наполнения сайта — от парсинга до публикации
  • Уникальность контента: AI-рерайт обеспечивает оригинальность текстов, проходящих проверку антиплагиата
  • SEO-оптимизация: автоматическая генерация ЧПУ (alt_name), структурированные данные
  • Низкая стоимость: использование DeepSeek снижает расходы на AI в 20 раз по сравнению с GPT-4
  • Масштабируемость: неограниченное количество источников с Round-Robin балансировкой
  • Надёжность: защита от дубликатов, автоматическое восстановление соединений
  • Простота настройки: автоопределение CMS, встроенный тестер селекторов
  • Универсальность: поддержка любых сайтов с HTML-структурой, RSS-лент и гибридных схем
  • Модульность: гибкая архитектура с возможностью отключения ненужных компонентов
  • Производительность: chunk-based обработка, оптимизированные SQL-запросы
  • Обход защиты сайтов: автоматический bypass Cloudflare и других антибот систем без прокси-сервисов
  • Гибкость настройки: возможность работы как с защищёнными, так и с обычными источниками
  • Экономия на прокси: FlareSolverr — бесплатная альтернатива платным proxy-сервисам

Сценарии применения

  • Новостные агрегаторы: автоматический сбор новостей с нескольких региональных источников
  • Тематические блоги: перевод и адаптация зарубежного контента для русскоязычной аудитории
  • Обзорные порталы: импорт обзоров технологий, гаджетов, программного обеспечения
  • Региональные СМИ: агрегация местных новостей с последующим рерайтом
  • Развлекательные ресурсы: автоматическое наполнение разделов статьями, гайдами, топами
  • Образовательные платформы: импорт учебных материалов, статей, руководств
  • Бизнес-порталы: сбор отраслевых новостей и аналитики


Технические требования и совместимость

  • DLE версии: 13.x, 14.x, 15.x, 16.x, 17.x, 18.x, 19.x, 19.1 (полная совместимость)
  • PHP: 7.4+ (рекомендуется 8.0+)
  • Расширения PHP: CURL, DOM, XPath, libxml, GD или Imagick, JSON, mbstring
  • MySQL: 5.7+ или MariaDB 10.2+
  • Права доступа: запись в /uploads/posts/, /engine/data/, /engine/cache/
  • Внешние API: DeepSeek API (опционально, для AI-рерайта)
  • CRON: доступ к настройке заданий crontab

Скриншоты

Выберите подходящий тариф

Мы предлагаем гибкие варианты лицензирования в зависимости от ваших потребностей.

Стандарт

5000 ₽
  • Неограниченное количество сайтов
  • Открытый исходный код
  • Базовая поддержка
  • Без дальнейших обновлений

Расширенный

6000 ₽
  • Неограниченное количество сайтов
  • Открытый исходный код
  • Приоритетная поддержка
  • Бесплатные обновления — (12 месяцев)

Премиум

11000 ₽
  • Неограниченное количество сайтов
  • Открытый исходный код
  • Приоритетная поддержка + консультация
  • Бесплатные обновления — бессрочно
  • Установка и настройка модуля
  • Адаптация под вашего сайта (включая разумную доработку кода под индивидуальные требования)

История изменений

Все версии (8)
Все версии (8)
Версия 2.1.4
Версия 2.1.3
Версия 2.1.2
Версия 2.1.1
Версия 2.1.0
Версия 2.0.0
Версия 1.0.1
Версия 1.0.0
Релизов: 8
Функций: 16
Исправлений: 7
Улучшений: 2
Версия 2.1.4 11.03.2026
Исправление
Обнаружены и исправлены некоторые баги.
Версия 2.1.3 08.03.2026
Исправление
Обнаружены и исправлены некоторые баги.
Комментарии 4
  1. Прошу уточнить приблизительную стоимость рерайта ДипСиком за 1000 знаков. Возможна ли настройка на сокращение текста, например рерайт статьи 5000 знаков в статью 1000 знаков. Если уже есть рерайт модули, работающие на других ИИ, можно ли их включить в данный модуль и выбирать в настройках оптимальную нейронку под определенную тему. Например, по теме медицины пишет Джемини, по теме ИТ - Клод, по искусству - ДипСик и тд. Или же исходя из стоимости токенов - где выгоднее, на тот ИИ и переключиться.
  2. Здравствуйте. Я какая будет цена AI-рерайта через DeepSeek к примеру за одну новость. И как пополнят DeepSeek
  3. +1
    Здравствуйте! Планирую купить DLE Parser PRO. Подскажите, смогу ли я использовать одну лицензию на 2-3 сайтах одновременно? Или она строго привязывается к одному домену?
    1. +1
      Здравствуйте. Да, можете. Модуль с открытым исходным кодом и не привязан к домену. Купив один раз, вы можете использовать его на неограниченном количестве сайтов.