DLEMod • Модули для DLE • DLE Parser PRO

DLE Parser PRO

DLE Parser PRO — профессиональный модуль для автоматизации парсинга и публикации контента из внешних источников в DataLife Engine. Поддерживает три режима: HTML-парсинг (CSS-селекторы/XPath), импорт из RSS/Atom и гибридный режим. Автоматически определяет CMS (WordPress, Joomla, Drupal и др.), скачивает и конвертирует изображения в WebP, выполняет AI-рерайт через DeepSeek. Встроенный Round-Robin планировщик равномерно распределяет материалы между источниками.

Купить сейчас

Версия модуля2.1.4

PHP version7.4 - 8.4

Версия DLE13.x - 19․1

Документация

DLE Parser PRO — это комплексное решение корпоративного уровня для владельцев веб-проектов на DataLife Engine, которым необходима полная автоматизация процесса наполнения сайта качественным контентом. Модуль представляет собой мощную систему извлечения, обработки и публикации материалов из внешних источников с применением передовых технологий искусственного интеллекта.

Архитектура модуля: три режима парсинга

HTML Parser — классический веб-скрейпинг

Извлечение контента непосредственно из HTML-структуры веб-страниц
Поддержка сложной пагинации с настраиваемыми паттернами навигации
Автоматическое определение структуры сайта и CMS
Точное извлечение через CSS-селекторы и XPath-выражения
Обработка динамического контента и AJAX-загрузок
Поддержка двунаправленного парсинга (от новых к старым / от старых к новым)
Настройка диапазона страниц с автоматическим отслеживанием прогресса
Автоматическое скачивание файлов, изображений, видео и галерей в дополнительные поля DLE — через CSS-селекторы прямо из HTML-страницы статьи
Поддержка всех типов извлечения: href, src, data-src, data-href, content, text, html
Сохранение полных HTML-блоков (таблицы характеристик, форматированные описания) в дополнительные поля через фильтр очистки контента

RSS/Atom Parser — работа с лентами новостей

Нативная поддержка RSS 2.0, RSS 1.0 (RDF) и Atom 1.0 форматов
Интеллектуальное извлечение изображений из множественных источников (enclosure, media:content, media:thumbnail, media:group)
Автоматическая обработка namespaces (media, content, dc, atom)
Извлечение метаданных: автор, дата публикации, категории
Поддержка полного и краткого контента (content:encoded, description)
Фильтрация и очистка RSS-контента от рекламных блоков
Приоритетное получение главного изображения через meta[property="og:image"] и meta[property="twitter:image"] непосредственно со страницы статьи; RSS-изображение используется как резервный источник

Hybrid Parser — оптимальное сочетание RSS и HTML

Использование RSS для получения списка актуальных материалов
Парсинг полного контента с HTML-версии страницы
Приоритетная система выбора данных (HTML превалирует над RSS)
Объединение метаданных из обоих источников
Оптимальная скорость работы при максимальном качестве извлечения
Автоматическое определение наиболее полного источника изображений

Технологическая база и инфраструктура

Интеллектуальная система обнаружения CMS

Автоматическое распознавание 18+ популярных CMS и фреймворков
Поддерживаемые платформы: WordPress, Joomla, Drupal, 1C-Bitrix, DLE, MODX, OpenCart
Платформы блогов: Ghost, Medium, Blogger, Tilda, Webflow
jаvascript-фреймворки: Next.js, Gatsby, Hugo, Jekyll
E-commerce: Shopify, WooCommerce, Magento
Анализ HTTP-заголовков и meta-тегов для точного определения
Автоматическое предложение оптимальных CSS-селекторов для каждой CMS

AI-рерайтинг через DeepSeek API

Интеграция с DeepSeek-V3 — передовой языковой моделью с 671B параметрами
Chunk-based обработка: разбиение длинных статей на оптимальные фрагменты
Сохранение HTML-структуры при рерайте (теги, форматирование, списки)
Трёхуровневая обработка: заголовки, краткое описание, полный текст
Настраиваемые промпты для каждого типа контента
Автоматическое удаление артефактов AI (code blocks, пояснения)
Rate limiting и обработка ошибок API с автоматическими повторами
Экономичность: стоимость обработки в 20 раз ниже GPT-4

Двухуровневая система обхода защиты:

Level 1: Enhanced cURL
- HTTP/2 поддержка с полной имитацией Chrome 131
- Sec-Fetch-* headers для обхода базовой фильтрации
- Cookie persistence между запросами
- Автоматическое определение Cloudflare challenges
Level 2: FlareSolverr Integration (опционально)
- Полноценный headless Chrome для обхода jаvascript challenges
- Автоматическое решение Cloudflare captcha
- Поддержка Turnstile и других защитных механизмов
- Прозрачное переключение при обнаружении блокировки
Интеллектуальное определение необходимости bypass:
- Проверка на \"Just a moment\", \"Checking your browser\"
- Детектирование cf-browser-verification
- Автоматический fallback на стандартный cURL при доступности
Системные требования для Cloudflare bypass:
- Docker (для FlareSolverr)
- Минимум 1GB RAM
- VPS с возможностью запуска контейнеров

Профессиональная обработка изображений

Автоматическое скачивание изображений с поддержкой HTTPS и редиректов
Конвертация в WebP для экономии 30-50% дискового пространства
Интеллектуальный resize с сохранением пропорций (GD/Imagick)
Поддержка множественных форматов: JPEG, PNG, GIF, WebP
Сохранение главного изображения в xfield с метаданными
Замена всех изображений в контенте на локальные копии
Автоматическая генерация уникальных имён файлов
Организация файловой структуры по датам (YYYY-MM)

Round-Robin планировщик задач

Равномерное распределение нагрузки между всеми активными источниками
Автоматическая ротация источников для сбалансированного импорта
Отслеживание прогресса для каждого источника индивидуально
Настройка количества постов за одно выполнение CRON
Защита CRON-эндпоинта через Secret Key (32-символьный токен)
Детальное логирование всех операций парсинга
Поддержка как старых (engine/ajax/controller.php), так и новых (index.php?controller=ajax) версий DLE

Система управления категориями

Интеллектуальный маппинг категорий

Автоматический сбор категорий из RSS-лент и HTML-структуры
Пакетная обработка статей для извлечения всех уникальных категорий
Визуальный интерфейс для сопоставления категорий источника с категориями DLE
Поддержка иерархических категорий DLE
Категория по умолчанию для немаппированных материалов
Множественные категории для одного материала

Защита и надёжность

Система предотвращения дубликатов

Проверка существования материала по URL источника в xfields
Отслеживание последней обработанной позиции (страница/URL)
Автоматический пропуск уже импортированных материалов
Сохранение прогресса в БД для каждого источника

Стабильность работы

Автоматическое восстановление соединения с БД при таймаутах
Обработка ошибок cURL с детальным логированием
Поддержка SSL-сертификатов и обход блокировок
User-Agent rotation для имитации браузерных запросов
Timeout-контроль для долгих операций

Cloudflare Bypass через FlareSolverr

Интеграция с FlareSolverr для обхода Cloudflare Bot Management
Автоматическое переключение на headless browser при обнаружении защиты
Опциональная активация через настройки (не требуется для всех источников)
Graceful degradation: работа с обычными сайтами при отключенном FlareSolverr
Docker-based решение с автоматическим управлением сессиями
Поддержка jаvascript challenges и cookie-based проверок
Детальное логирование попыток обхода защиты

Расширенные возможности

Дополнительные поля: скачивание файлов, медиа и галерей

Настройка произвольного числа дополнительных полей для каждого источника — прямо из формы добавления/редактирования
Для каждого поля задаётся: CSS-селектор элемента, атрибут извлечения (href, src, data-src, data-href, content, text, html) и тип действия
Поддерживаемые типы действий: сохранение URL/текста, скачивание файла, скачивание изображения с метаданными, скачивание видео, внешняя ссылка на видео (YouTube/Vimeo), галерея с массовым скачиванием изображений, галерея из URL-списка
Галерейный режим: автоматический обход всех найденных элементов по селектору, скачивание каждого и сохранение в формат DLE-галереи в одно поле
Видеофайлы и скачиваемые файлы сохраняются в uploads/public_files/ с организацией по датам (YYYY-MM)
Изображения дополнительных полей сохраняются в uploads/posts/ с автоматическим определением размеров и генерацией метаданных в формате DLE (ширина×высота, размер файла)
Видеополя оформляются в нативный формат DLE: тип 3 (локальное видео) или тип 1 (внешняя ссылка)
Метод extractExtraFieldsFromDom() вынесен в базовый класс BaseParser (protected) — доступен как для HTML, так и для Hybrid парсера без дублирования кода

Настройка пагинации и навигации

Поддержка стандартных паттернов: /page/{page}/, ?page={page}, /p/{page}, /offset/{page}
Кастомные паттерны для нестандартных сайтов
Query-параметры и сложные URL-схемы
Автоматическое построение URL следующей страницы
Настройка диапазона страниц (start_page, end_page)
Указание количества постов на странице для точного отслеживания

Гибкая настройка селекторов

Поддержка CSS-селекторов любой сложности (классы, ID, атрибуты, псевдоклассы)
XPath-совместимость для сложных структур
Селекторы исключения для удаления рекламы и мусора
Встроенный тестер с предварительным просмотром результатов
Валидация селекторов перед сохранением

Административная панель

Интуитивный интерфейс для управления источниками
Детальная статистика по каждому источнику (обработано материалов, прогресс, последний запуск)
Быстрое включение/отключение источников
Сброс прогресса для переобработки
Редактирование источников с сохранением прогресса
Встроенная система проверки обновлений модуля
Логирование всех действий в admin_logs

Интеллектуальная система сохранения изображений при AI-обработке:

- Извлечение медиа-элементов перед рерайтом:
  - Автоматическое обнаружение <img>, <figure>, <picture>, <iframe>, <video>
  - Замена на HTML-комментарии placeholder\'ы
  - Сохранение позиций в структуре документа
- Трёхуровневая система восстановления:
  - Level 1: Прямое сопоставление по маркерам
  - Level 2: Интеллектуальная вставка между параграфами
  - Level 3: Добавление в конец документа при полной потере
- Финальная очистка:
  - Удаление случайно сохранённых маркеров из title/description
  - Нормализация HTML-структуры
  - Валидация медиа-элементов

Множественные источники извлечения главного изображения:

- Meta-теги Open Graph и Twitter:
  - meta[property=\"og:image\"]
  - meta[name=\"twitter:image\"]
  - meta[name=\"twitter:image:src\"]
- Адаптивные изображения:
  - Поддержка srcset атрибута
  - Автоматический выбор наибольшего разрешения
  - Fallback на data-src и data-lazy-src
- Вложенные структуры:
  - Извлечение из <figure>, <picture> контейнеров
  - Поиск img внутри wrapper-элементов
  - Поддержка CSS background-image

Преимущества использования

Экономия времени: полная автоматизация процесса наполнения сайта — от парсинга до публикации
Уникальность контента: AI-рерайт обеспечивает оригинальность текстов, проходящих проверку антиплагиата
SEO-оптимизация: автоматическая генерация ЧПУ (alt_name), структурированные данные
Низкая стоимость: использование DeepSeek снижает расходы на AI в 20 раз по сравнению с GPT-4
Масштабируемость: неограниченное количество источников с Round-Robin балансировкой
Надёжность: защита от дубликатов, автоматическое восстановление соединений
Простота настройки: автоопределение CMS, встроенный тестер селекторов
Универсальность: поддержка любых сайтов с HTML-структурой, RSS-лент и гибридных схем
Модульность: гибкая архитектура с возможностью отключения ненужных компонентов
Производительность: chunk-based обработка, оптимизированные SQL-запросы
Обход защиты сайтов: автоматический bypass Cloudflare и других антибот систем без прокси-сервисов
Гибкость настройки: возможность работы как с защищёнными, так и с обычными источниками
Экономия на прокси: FlareSolverr — бесплатная альтернатива платным proxy-сервисам

Сценарии применения

Новостные агрегаторы: автоматический сбор новостей с нескольких региональных источников
Тематические блоги: перевод и адаптация зарубежного контента для русскоязычной аудитории
Обзорные порталы: импорт обзоров технологий, гаджетов, программного обеспечения
Региональные СМИ: агрегация местных новостей с последующим рерайтом
Развлекательные ресурсы: автоматическое наполнение разделов статьями, гайдами, топами
Образовательные платформы: импорт учебных материалов, статей, руководств
Бизнес-порталы: сбор отраслевых новостей и аналитики

Технические требования и совместимость

DLE версии: 13.x, 14.x, 15.x, 16.x, 17.x, 18.x, 19.x, 19.1 (полная совместимость)
PHP: 7.4+ (рекомендуется 8.0+)
Расширения PHP: CURL, DOM, XPath, libxml, GD или Imagick, JSON, mbstring
MySQL: 5.7+ или MariaDB 10.2+
Права доступа: запись в /uploads/posts/, /engine/data/, /engine/cache/
Внешние API: DeepSeek API (опционально, для AI-рерайта)
CRON: доступ к настройке заданий crontab

Скриншоты

Выберите подходящий тариф

Мы предлагаем гибкие варианты лицензирования в зависимости от ваших потребностей.

Стандарт

5000 ₽

Неограниченное количество сайтов
Открытый исходный код
Базовая поддержка
Без дальнейших обновлений

Расширенный

6000 ₽

Неограниченное количество сайтов
Открытый исходный код
Приоритетная поддержка
Бесплатные обновления — (12 месяцев)

Премиум

11000 ₽

Неограниченное количество сайтов
Открытый исходный код
Приоритетная поддержка + консультация
Бесплатные обновления — бессрочно
Установка и настройка модуля
Адаптация под вашего сайта (включая разумную доработку кода под индивидуальные требования)

История изменений

Релизов: 8

Функций: 16

Исправлений: 7

Улучшений: 2

Версия 2.1.4 11.03.2026

Исправление

Обнаружены и исправлены некоторые баги.

Версия 2.1.3 08.03.2026

Исправление

Обнаружены и исправлены некоторые баги.

Версия 2.1.2 28.02.2026

Исправление

Обнаружены и исправлены некоторые баги.

Версия 2.1.1 27.02.2026

Новое

Добавлена автоматическая генерация тегов через DeepSeek AI — анализирует заголовок и текст статьи и предлагает теги на русском языке

Новое

Новая настройка в разделе «Основные» — включение/отключение генерации тегов с указанием зависимости от AI Rewrite

Новое

Настраиваемый промпт для генерации тегов добавлен в раздел «AI Rewrite»

Версия 2.1.0 24.02.2026

Новое

Добавлена поддержка DLE 19.1

Новое

Теперь парсер умеет автоматически скачивать с сайта-донора файлы, видео, изображения и целые галереи — и сохранять всё это в дополнительные поля вашего сайта. Торренты, обложки, скриншоты, локальные видео — всё подтягивается само

Новое

Можно сохранять в дополнительное поле любой текстовый блок со страницы — например, таблицу характеристик или описание, прямо с форматированием

Новое

При парсинге RSS лента теперь старается взять обложку статьи с самой страницы (более качественную), а не из RSS-потока

Новое

В раздел «Помощь» добавлено подробное руководство по дополнительным полям — с примерами для каждого типа данных (файл, фото, видео, галерея, текст) и советами по частым ошибкам

Исправление

Найдены и исправлены некоторые мелкие баги.

Версия 2.0.0 15.02.2026

Новое

Добавлена поддержка Proxy (HTTP/SOCKS5) для обхода блокировок и смены IP

Новое

Интеграция FlareSolverr для автоматического обхода Cloudflare защиты

Новое

Гибкая настройка очистки контента из админ-панели (удаление scripts, styles, links, атрибутов)

Новое

FlareSolverr fallback для изображений при неудачной загрузке через cURL

Новое

Автоматическое определение и использование Proxy из настроек во всех AJAX endpoints

Новое

Проверка статуса FlareSolverr в режиме реального времени

Новое

Тестирование Proxy прямо из настроек с определением IP и геолокации

Улучшение

Улучшенная архитектура

Улучшение

Обновлен интерфейс настроек: 6 категорий (Основные, Cloudflare, Proxy, Очистка контента, AI Rewrite, Изображения)

Исправление

Исправлены проблемы с загрузкой страниц, защищенных Cloudflare

Исправление

Устранены конфликты имен функций между разными модулями

Версия 1.0.1 05.01.2026

Исправление

Обнаружены и исправлены некоторые баги.

Версия 1.0.0 03.01.2026

Новое

Первый релиз модуля

Комментарии 4

oldnick Посетители

15 марта 2026 07:03

0

Прошу уточнить приблизительную стоимость рерайта ДипСиком за 1000 знаков. Возможна ли настройка на сокращение текста, например рерайт статьи 5000 знаков в статью 1000 знаков. Если уже есть рерайт модули, работающие на других ИИ, можно ли их включить в данный модуль и выбирать в настройках оптимальную нейронку под определенную тему. Например, по теме медицины пишет Джемини, по теме ИТ - Клод, по искусству - ДипСик и тд. Или же исходя из стоимости токенов - где выгоднее, на тот ИИ и переключиться.

Пожаловаться
Masterwen Посетители

10 марта 2026 07:23

0

Здравствуйте. Я какая будет цена AI-рерайта через DeepSeek к примеру за одну новость. И как пополнят DeepSeek

Пожаловаться
Ghost Клиенты

9 февраля 2026 23:17

+1

Здравствуйте! Планирую купить DLE Parser PRO. Подскажите, смогу ли я использовать одну лицензию на 2-3 сайтах одновременно? Или она строго привязывается к одному домену?

Пожаловаться
1. admin Админ
  
  9 февраля 2026 23:19
  
  +1
  
  Здравствуйте. Да, можете. Модуль с открытым исходным кодом и не привязан к домену. Купив один раз, вы можете использовать его на неограниченном количестве сайтов.
  
  Пожаловаться

Продукты

Информация

Поддержка

Мы в соц․ сетях

Смена темы

DLE Parser PRO

Архитектура модуля: три режима парсинга

Технологическая база и инфраструктура

Система управления категориями

Защита и надёжность

Расширенные возможности

Преимущества использования

Сценарии применения

Технические требования и совместимость

Скриншоты

Выберите подходящий тариф

Стандарт

Расширенный

Премиум

История изменений