DLEMod • Модули для DLE • DLE Parser PRO

DLE Parser PRO

DLE Parser PRO — профессиональный модуль для автоматизации парсинга и публикации контента из внешних источников в DataLife Engine. Поддерживает три режима: HTML-парсинг (CSS-селекторы/XPath), импорт из RSS/Atom и гибридный режим. Автоматически определяет CMS (WordPress, Joomla, Drupal и др.), скачивает и конвертирует изображения в WebP, выполняет AI-рерайт через DeepSeek. Встроенный Round-Robin планировщик равномерно распределяет материалы между источниками.

Купить сейчас

Версия модуля3.0.0

PHP version7.4 - 8.4

Версия DLE13.x - 19․1

Документация

DLE Parser PRO — это комплексное решение для DataLife Engine, предназначенное для автоматического импорта, обработки, перевода и публикации материалов из внешних источников. Модуль объединяет HTML-парсинг, RSS/Atom-ленты, гибридный режим RSS + HTML, импорт через Sitemap, обработку изображений, дополнительные поля DLE, защиту от дублей, AI-рерайтинг и интеграцию с DLE Multi-Language.

Система рассчитана на владельцев новостных сайтов, тематических порталов, блогов, агрегаторов и контентных проектов, которым важно не просто скопировать материал, а получить готовую публикацию: с очищенным HTML, локальными изображениями, категориями, тегами, дополнительными полями, ЧПУ, переводами и диагностикой каждого этапа обработки.

Архитектура модуля: четыре режима парсинга

HTML Parser — классический веб-скрейпинг

Извлечение материалов напрямую из HTML-структуры сайта-донора
Корректная обработка списков материалов: парсер проходит по всем найденным контейнерам и ищет ссылку внутри каждого блока
URL-based progress: отслеживание последнего обработанного материала по URL, а не по порядковому номеру на странице
Поддержка направления обработки: от новых к старым и от старых к новым
Настраиваемая пагинация: /page/{page}/, ?page={page}, /p/{page}, /offset/{page} и кастомные паттерны
Извлечение заголовка, полного текста, категорий, главного изображения и дополнительных полей через CSS-селекторы
Локальная очистка контента внутри выбранного блока, без удаления элементов из всего DOM документа
Автоматическое скачивание изображений из текста материала и замена внешних ссылок на локальные
Поддержка дополнительных полей DLE: файлы, изображения, видео, галереи, HTML-блоки и текстовые значения

RSS/Atom Parser — работа с новостными лентами

Поддержка RSS 2.0, RSS 1.0 (RDF) и Atom 1.0
Извлечение контента из content:encoded, description и Atom content
Обработка namespaces: media, content, dc, atom
Получение изображений из enclosure, media:content, media:thumbnail, media:group и HTML-контента
Дополнительный поиск главного изображения на странице статьи через Open Graph и Twitter meta-теги
Извлечение категорий из ленты и маппинг на категории DLE
Раздельная стратегия cursor для режимов new_to_old и old_to_new, чтобы новые материалы в верхней части RSS не пропускались
Очистка RSS-контента от рекламных и служебных блоков через селекторы исключения

Hybrid Parser — сочетание RSS и HTML

RSS используется для быстрого получения списка актуальных материалов
HTML-страница используется для извлечения полного текста, изображений, категорий и дополнительных полей
Поддержка HTML category selector с политикой объединения категорий: RSS first, HTML fallback или HTML priority
Защита от зависания на проблемном материале: item-level failure tracking, fail cursor advancement и лимит повторных попыток
Объединение данных из RSS и HTML с приоритетом более полного источника
Поддержка скачивания медиа и дополнительных полей из HTML-версии статьи
Оптимальный режим для сайтов, где RSS содержит только анонс, а полный материал доступен на странице

Sitemap Parser — импорт материалов из sitemap.xml

Поддержка обычных sitemap.xml и sitemap index с вложенными sitemap-файлами
Автоматическое получение списка URL материалов из Sitemap
Кэширование sitemap-инвентаря для ускорения повторных запусков и снижения нагрузки на сайт-донор
Поддержка направления обработки: от новых к старым и от старых к новым
Извлечение заголовка, полного текста, категорий, изображений и дополнительных полей через CSS-селекторы
Отслеживание общего количества URL и прогресса обработки
Защита от повторной публикации уже импортированных материалов

AI-рерайтинг, переводы и DLE Multi-Language

AI-обработка через DeepSeek и OpenAI

Поддержка DeepSeek и OpenAI в качестве AI-провайдера
Рерайт заголовка, краткого описания и полного текста материала
Chunk-based обработка длинных статей с разбиением на безопасные фрагменты
Сохранение HTML-структуры при рерайте и переводе: параграфы, списки, заголовки, blockquote, code/pre
Защита медиа-элементов перед AI-обработкой: изображения, figure, picture, iframe, video и pre/code блоки временно заменяются маркерами
Автоматическое восстановление медиа-элементов после AI-обработки
Настраиваемые промпты для заголовка, краткого описания, полного текста и тегов
Повторная обработка подозрительных фрагментов, если AI оставил часть текста на исходном языке
Дополнительная нормализация HTML после AI-ответа для предотвращения сломанных списков и незакрытых тегов

Интеграция с DLE Multi-Language

Автоматическое определение активных языков из конфигурации DLE Multi-Language
Заполнение языковых колонок: title_{iso}, short_story_{iso}, full_story_{iso}, tags_{iso}
Перевод полного материала, краткого описания, заголовка и тегов для каждого активного языка
Сохранение основной языковой версии отдельно от переводов
Генерация alt_name для языковой версии по переведённому заголовку
Проверка наличия языковых колонок перед сохранением, чтобы избежать ошибок БД
Fallback для тегов: если AI не смог перевести tags, модуль формирует теги из уже переведённого контента
Поддержка разных языковых сценариев: основной язык сайта может отличаться от языка сайта-донора

Тестирование и предпросмотр перед публикацией

Real dry-run pipeline

Тестирование источника использует тот же pipeline, что и реальный парсинг
Dry-run режим не сохраняет материал в БД, но показывает итоговый результат обработки
Предпросмотр включает финальный заголовок, краткое описание, полный текст, категории, изображения, xfields, tags и duplicate verdict
Тест помогает увидеть реальный результат после очистки, AI-рерайта, перевода, скачивания изображений и обработки дополнительных полей
В интерфейсе добавлено предупреждение: полная симуляция может занимать несколько минут и использовать AI/API-запросы
Результат тестирования максимально соответствует тому, что будет опубликовано при реальном запуске CRON

CSS-селекторы и извлечение данных

Расширенный selector engine

Поддержка базовых CSS-селекторов: теги, классы, ID, атрибуты
Поддержка групп через запятую: h1, .title, [itemprop="headline"]
Поддержка вложенности, прямых потомков и соседних элементов: .article .text, .post > p, h1 + .lead
Поддержка нескольких классов на одном элементе: .post.featured
Поддержка атрибутов: [href], [data-src], [itemprop="articleBody"], [class*="content"]
Поддержка ряда псевдоклассов: :first-child, :last-child, :nth-child(), :contains(), :not(), :is(), :where(), :has() в поддерживаемых пределах
Предупреждения в тестовом режиме для слишком сложных или неподдерживаемых селекторов
Подробная справка в админ-панели с примерами и объяснением поддерживаемого синтаксиса

Дополнительные поля DLE

Скачивание файлов, медиа и галерей

Настройка произвольного количества дополнительных полей для каждого источника
Для каждого поля задаётся CSS-селектор, атрибут извлечения и тип действия
Поддерживаемые атрибуты: href, src, data-src, data-href, content, text, html
Поддерживаемые действия: сохранить URL/текст, скачать файл, скачать изображение, скачать видео, сохранить внешнее видео, собрать галерею
Галереи автоматически обходят все найденные элементы и сохраняют результат в формате DLE
Файлы и видео сохраняются в uploads/public_files/
Изображения сохраняются в uploads/posts/ с метаданными размера
HTML-блоки могут сохраняться в дополнительные поля с применением политики очистки контента

Изображения и медиа

Профессиональная обработка изображений

Автоматическое скачивание изображений из полного текста материала
Поддержка HTTPS, редиректов и относительных URL
Сохранение изображений с организацией по датам
Замена внешних URL в контенте на локальные копии
Поддержка JPEG, PNG, GIF и WebP
Опциональная конвертация в WebP
Корректное сохранение оригинального формата, если конвертация отключена
Resize с сохранением пропорций через GD или Imagick
Извлечение изображений из figure, picture, img, srcset, lazy-load атрибутов и meta-тегов

Категории и теги

Интеллектуальное управление категориями

Извлечение категорий из RSS, HTML и Sitemap-страниц
Визуальный маппинг категорий сайта-донора на категории DLE
Поддержка категории по умолчанию для немаппированных материалов
Поддержка множественных категорий для одного материала
Для Hybrid-режима доступна политика объединения категорий из RSS и HTML

Генерация и перевод тегов

Автоматическая генерация тегов через AI
Fallback-генерация тегов из категорий, заголовка и текста, если AI не вернул корректный результат
Перевод тегов для DLE Multi-Language
Fallback для tags_{iso} из переведённого контента, если AI-перевод тегов недоступен
Нормализация списка тегов: удаление мусора, дублей и слишком длинных фраз

Защита от дублей и надёжный прогресс

Система предотвращения дубликатов

Нормализация URL перед проверкой дублей
Проверка по source_url, GUID, заголовку и fingerprint контента
Корректная обработка duplicate skip без ложной ошибки сохранения
Очистка dedupe-прогресса при полном сбросе источника
Защита от повторной публикации после изменения URL-параметров, trailing slash или tracking-параметров

Progress и cursor model

HTML-источники используют URL cursor вместо счётчика позиции на странице
RSS и Sitemap используют отдельные стратегии для new_to_old и old_to_new
Hybrid-режим продвигает cursor даже при контролируемых ошибках, чтобы источник не зависал на одном материале
Сброс прогресса очищает связанные dedupe-записи источника

Structured logs, статистика и мониторинг

Структурированные логи

Каждый этап парсинга записывается как structured event
Лог содержит source_id, source_type, source_name, item_url, stage, status, message, duration_ms и дополнительный контекст
Отдельно логируются этапы fetch, parse, download_images, ai_rewrite, translate, generate_tags, translate_tags, db_save и duplicate check
Логи помогают быстро понять, где именно тратится время или возникает ошибка

Health monitoring источников

Отслеживание последнего успешного запуска
Fail streak для понимания количества последовательных ошибок
Duplicate rate для оценки качества источника
Average fetch time и average run time
Более точная статистика обработанных материалов по каждому source

Cloudflare, Proxy и сетевой слой

Двухуровневая система обхода защиты

Enhanced cURL с имитацией браузерных заголовков
Поддержка cookie persistence между запросами
Интеграция с FlareSolverr для обхода Cloudflare и jаvascript challenges
Опциональная поддержка HTTP/SOCKS5 proxy
Автоматическое переключение на FlareSolverr при обнаружении защитной страницы
Graceful fallback на обычный cURL, если обход защиты не требуется

Административная панель

Управление источниками и настройками

Добавление и редактирование HTML, RSS/Atom, Hybrid и Sitemap источников
Включение и отключение источников
Сброс прогресса и повторная обработка
Подробная справка по режимам, селекторам, дополнительным полям и настройкам
Предупреждения о лимитах сервера при запуске полной симуляции парсинга
Встроенный preview итогового материала перед публикацией
Поддержка старых и новых AJAX endpoints DLE

Round-Robin планировщик

Равномерное распределение нагрузки между активными источниками
Автоматическая ротация источников
Настройка количества материалов за один запуск CRON
Защита CRON endpoint через secret key
Structured logging каждого запуска
Lock-защита от параллельного запуска одного и того же cron-процесса

Преимущества использования

Автоматизация: полный цикл от получения материала до сохранения готовой публикации в DLE
Мультиязычность: автоматическое заполнение языковых полей DLE Multi-Language
Гибкость: четыре режима работы для разных типов источников
Качество контента: AI-рерайт, перевод, генерация тегов и сохранение HTML-структуры
Надёжность: защита от дублей, устойчивый cursor, controlled failure handling
Прозрачность: structured logs, health metrics и понятный preview перед публикацией
Медиа: локальное сохранение изображений, файлов, видео и галерей
Масштабируемость: неограниченное количество источников с Round-Robin обработкой
Совместимость: поддержка актуальных версий DLE и PHP 7.4-8.4

Сценарии применения

Новостные агрегаторы: регулярный импорт материалов из нескольких RSS, HTML и Sitemap источников
Тематические блоги: адаптация и перевод зарубежного контента под основной язык сайта
Мультиязычные сайты: автоматическое заполнение языковых версий материалов
Обзорные порталы: импорт обзоров, инструкций, гайдов и технических статей
Региональные СМИ: сбор публикаций из локальных источников с последующей обработкой
Образовательные проекты: импорт учебных материалов, руководств и документации
Контентные порталы: массовое наполнение разделов с контролем дублей, категорий и тегов

Технические требования и совместимость

DLE: 13.x - 19.1
PHP: 7.4 - 8.4
PHP extensions: CURL, DOM, XPath, libxml, GD или Imagick, JSON, mbstring
MySQL/MariaDB: совместимая версия, поддерживаемая вашей версией DLE
Права доступа: запись в /uploads/posts/, /uploads/public_files/, /engine/data/, /engine/cache/
AI API: DeepSeek или OpenAI, если используется рерайт, перевод или генерация тегов
CRON: доступ к настройке планировщика задач
FlareSolverr: опционально, требуется только для сайтов с Cloudflare/jаvascript защитой

Скриншоты

Выберите подходящий тариф

Мы предлагаем гибкие варианты лицензирования в зависимости от ваших потребностей.

Стандарт

5000 ₽

Неограниченное кол-во сайтов
Открытый исходный код
Базовая
Без дальнейших обновлений

Расширенный

6000 ₽

Неограниченное кол-во сайтов
Открытый исходный код
приоритетная
Бесплатные обновления — (12 месяцев)

Премиум

11000 ₽

Неограниченное кол-во сайтов
Открытый исходный код
Приоритетная поддержка + консультация
Бесплатные обновления — бессрочно
Установка и настройка модуля
Адаптация под ваш сайт (включая разумную доработку кода под индивидуальные требования)

История изменений

Релизов: 9

Функций: 21

Исправлений: 14

Улучшений: 13

Версия 3.0.0 27.04.2026

Новое

Добавлена полноценная интеграция с DLE Multi-Language: автоматическое сохранение переводов в title_{iso}, short_story_{iso}, full_story_{iso} и tags_{iso}.

Новое

Добавлен новый режим парсинга Sitemap с поддержкой больших sitemap-файлов, вложенных sitemap index и кеширования списка URL.

Новое

Добавлен реальный dry-run режим тестирования: проверка теперь выполняет симуляцию полного парсинга без записи в базу данных и показывает итоговый publish payload.

Новое

Добавлены структурированные логи парсинга со стадиями обработки, статусами, временем выполнения, source_id, item_url и информацией об ошибках.

Новое

Добавлен мониторинг состояния источников: health status, fail streak, duplicate rate, average fetch/run time и время последнего успешного запуска.

Улучшение

Полностью переработана логика HTML-парсинга списка материалов: теперь обрабатываются все найденные контейнеры, а не только первый matched node.

Улучшение

HTML progress переведен на URL/cursor модель вместо count-based прогресса, что снижает риск пропуска новых материалов.

Улучшение

Исправлена стратегия cursor для RSS, Hybrid и Sitemap в режиме new_to_old, чтобы новые материалы в верхней части источника не пропускались.

Улучшение

Улучшен Hybrid режим: добавлена обработка ошибок по материалам, advancement cursor при сбоях и защита от бесконечного застревания на одном item.

Улучшение

Добавлена поддержка HTML category selector в Hybrid режиме и политика объединения категорий RSS/HTML.

Улучшение

Усилен механизм поиска дублей: добавлена нормализация URL, GUID/external id, fingerprint заголовка и hash контента.

Улучшение

Улучшена нормализация URL перед проверкой дублей: учитываются trailing slash, fragment, tracking-параметры и различия в формате ссылок.

Улучшение

Усилен CSS selector engine: добавлена поддержка групп, комбинаторов, атрибутных селекторов и ряда pseudo-селекторов.

Улучшение

Добавлены предупреждения о поддерживаемом subset CSS-селекторов в help-разделе и test result.

Улучшение

Улучшена AI-обработка HTML: сохранение структуры тегов, защита media/code/pre блоков, повторная проверка неполных переводов и более стабильная работа с длинным контентом.

Улучшение

Улучшена генерация и перевод тегов, включая fallback-механизм, если AI не вернул корректный результат.

Исправление

Исправлено сохранение изображений при отключенном reformat: теперь сохраняется реальный исходный формат файла.

Исправление

Исправлены случаи, когда AI мог вернуть ссылки или HTML, не соответствующие настройкам очистки контента.

Исправление

Исправлена обработка figure/img блоков: изображения корректно извлекаются, очищаются и могут быть загружены на сервер.

Исправление

Исправлены случаи, когда code/pre блоки могли быть пропущены или удалены во время AI-обработки.

Исправление

Исправлены проблемы с незакрытыми ul/ol/li тегами в AI-переводах.

Исправление

Исправлена совместимость DB reconnect check с PHP 8 и mysqli.

Исправление

Найдены и исправлены другие мелкие ошибки.

Версия 2.1.4 11.03.2026

Исправление

Обнаружены и исправлены некоторые баги.

Версия 2.1.3 08.03.2026

Исправление

Обнаружены и исправлены некоторые баги.

Версия 2.1.2 28.02.2026

Исправление

Обнаружены и исправлены некоторые баги.

Версия 2.1.1 27.02.2026

Новое

Добавлена автоматическая генерация тегов через DeepSeek AI — анализирует заголовок и текст статьи и предлагает теги на русском языке

Новое

Новая настройка в разделе «Основные» — включение/отключение генерации тегов с указанием зависимости от AI Rewrite

Новое

Настраиваемый промпт для генерации тегов добавлен в раздел «AI Rewrite»

Версия 2.1.0 24.02.2026

Новое

Добавлена поддержка DLE 19.1

Новое

Теперь парсер умеет автоматически скачивать с сайта-донора файлы, видео, изображения и целые галереи — и сохранять всё это в дополнительные поля вашего сайта. Торренты, обложки, скриншоты, локальные видео — всё подтягивается само

Новое

Можно сохранять в дополнительное поле любой текстовый блок со страницы — например, таблицу характеристик или описание, прямо с форматированием

Новое

При парсинге RSS лента теперь старается взять обложку статьи с самой страницы (более качественную), а не из RSS-потока

Новое

В раздел «Помощь» добавлено подробное руководство по дополнительным полям — с примерами для каждого типа данных (файл, фото, видео, галерея, текст) и советами по частым ошибкам

Исправление

Найдены и исправлены некоторые мелкие баги.

Версия 2.0.0 15.02.2026

Новое

Добавлена поддержка Proxy (HTTP/SOCKS5) для обхода блокировок и смены IP

Новое

Интеграция FlareSolverr для автоматического обхода Cloudflare защиты

Новое

Гибкая настройка очистки контента из админ-панели (удаление scripts, styles, links, атрибутов)

Новое

FlareSolverr fallback для изображений при неудачной загрузке через cURL

Новое

Автоматическое определение и использование Proxy из настроек во всех AJAX endpoints

Новое

Проверка статуса FlareSolverr в режиме реального времени

Новое

Тестирование Proxy прямо из настроек с определением IP и геолокации

Улучшение

Улучшенная архитектура

Улучшение

Обновлен интерфейс настроек: 6 категорий (Основные, Cloudflare, Proxy, Очистка контента, AI Rewrite, Изображения)

Исправление

Исправлены проблемы с загрузкой страниц, защищенных Cloudflare

Исправление

Устранены конфликты имен функций между разными модулями

Версия 1.0.1 05.01.2026

Исправление

Обнаружены и исправлены некоторые баги.

Версия 1.0.0 03.01.2026

Новое

Первый релиз модуля

Комментарии 6

kosti kazancev Посетители

24 июня 2026 13:04

0

так же интересует как настраевается шаблон если в доноре это перекрестный ссылки и с категориями у вас 1 селект но в доноре может быть несколько категорий + в разных местах типо жанр год итд , и какая категория к какому слову как присваевается тоже не понятно , и по доп полям как у категорий там может быть в ссылках текст итд или в других тегах

Пожаловаться
kosti kazancev Посетители

24 июня 2026 11:05

0

здраствуйте нормальный прогеры делают админку обрезанную с плагином итд чтоб покупатели могли почупать плагин настроки итд потестит подходить ли он или нет , скрины это хорошо но тесты всегда лудше , но как понимаю у вас такой нет так ?

Пожаловаться
oldnick Посетители

15 марта 2026 07:03

0

Прошу уточнить приблизительную стоимость рерайта ДипСиком за 1000 знаков. Возможна ли настройка на сокращение текста, например рерайт статьи 5000 знаков в статью 1000 знаков. Если уже есть рерайт модули, работающие на других ИИ, можно ли их включить в данный модуль и выбирать в настройках оптимальную нейронку под определенную тему. Например, по теме медицины пишет Джемини, по теме ИТ - Клод, по искусству - ДипСик и тд. Или же исходя из стоимости токенов - где выгоднее, на тот ИИ и переключиться.

Пожаловаться
Masterwen Посетители

10 марта 2026 07:23

0

Здравствуйте. Я какая будет цена AI-рерайта через DeepSeek к примеру за одну новость. И как пополнят DeepSeek

Пожаловаться
Ghost Клиенты

9 февраля 2026 23:17

+3

Здравствуйте! Планирую купить DLE Parser PRO. Подскажите, смогу ли я использовать одну лицензию на 2-3 сайтах одновременно? Или она строго привязывается к одному домену?

Пожаловаться
1. admin Админ
  
  9 февраля 2026 23:19
  
  +1
  
  Здравствуйте. Да, можете. Модуль с открытым исходным кодом и не привязан к домену. Купив один раз, вы можете использовать его на неограниченном количестве сайтов.
  
  Пожаловаться

Продукты

Информация

Поддержка

Мы в соц․ сетях

Смена темы

DLE Parser PRO

Архитектура модуля: четыре режима парсинга

AI-рерайтинг, переводы и DLE Multi-Language

Тестирование и предпросмотр перед публикацией

CSS-селекторы и извлечение данных

Дополнительные поля DLE

Изображения и медиа

Категории и теги

Защита от дублей и надёжный прогресс

Structured logs, статистика и мониторинг

Cloudflare, Proxy и сетевой слой

Административная панель

Round-Robin планировщик

Преимущества использования

Сценарии применения

Технические требования и совместимость

Скриншоты

Выберите подходящий тариф

Стандарт

Расширенный

Премиум

История изменений