DLEMod • Модулі для DLE • DLE Parser PRO

DLE Parser PRO

DLE Parser PRO — професійний модуль для автоматизації парсингу та публікації контенту із зовнішніх джерел у DataLife Engine. Підтримує три режими: HTML-парсинг (CSS-селектори/XPath), імпорт із RSS/Atom і гібридний режим. Автоматично визначає CMS (WordPress, Joomla, Drupal тощо), завантажує та конвертує зображення у WebP, виконує AI-рерайт через DeepSeek. Вбудований планувальник Round-Robin рівномірно розподіляє матеріали між джерелами.

Купити зараз

Версія модуля3.0.0

PHP version7.4 - 8.4

Версія DLE13.x - 19․1

Документація

DLE Parser PRO — це комплексне рішення корпоративного рівня для власників вебпроєктів на DataLife Engine, яким необхідна повна автоматизація процесу наповнення сайту якісним контентом. Модуль є потужною системою вилучення, обробки та публікації матеріалів із зовнішніх джерел із застосуванням передових технологій штучного інтелекту.

Архітектура модуля: три режими парсингу

HTML Parser — класичний вебскрейпінг

Вилучення контенту безпосередньо з HTML-структури вебсторінок
Підтримка складної пагінації з настроюваними патернами навігації
Автоматичне визначення структури сайту та CMS
Точне вилучення через CSS-селектори та XPath-вирази
Обробка динамічного контенту та AJAX-завантажень
Підтримка двонаправленого парсингу (від нових до старих / від старих до нових)
Налаштування діапазону сторінок з автоматичним відстеженням прогресу
Автоматичне завантаження файлів, зображень, відео та галерей у додаткові поля DLE — через CSS-селектори прямо з HTML-сторінки статті
Підтримка всіх типів вилучення: href, src, data-src, data-href, content, text, html
Збереження повних HTML-блоків (таблиці характеристик, форматовані описи) у додаткові поля через фільтр очищення контенту

RSS/Atom Parser — робота зі стрічками новин

Нативна підтримка форматів RSS 2.0, RSS 1.0 (RDF) та Atom 1.0
Інтелектуальне вилучення зображень із множинних джерел (enclosure, media:content, media:thumbnail, media:group)
Автоматична обробка namespaces (media, content, dc, atom)
Вилучення метаданих: автор, дата публікації, категорії
Підтримка повного та короткого контенту (content:encoded, description)
Фільтрація та очищення RSS-контенту від рекламних блоків
Пріоритетне отримання головного зображення через meta[property="og:image"] і meta[property="twitter:image"] безпосередньо зі сторінки статті; RSS-зображення використовується як резервне джерело

Hybrid Parser — оптимальне поєднання RSS і HTML

Використання RSS для отримання списку актуальних матеріалів
Парсинг повного контенту з HTML-версії сторінки
Пріоритетна система вибору даних (HTML має перевагу над RSS)
Об'єднання метаданих із обох джерел
Оптимальна швидкість роботи за максимальної якості вилучення
Автоматичне визначення найбільш повного джерела зображень

Технологічна база та інфраструктура

Інтелектуальна система виявлення CMS

Автоматичне розпізнавання 18+ популярних CMS і фреймворків
Підтримувані платформи: WordPress, Joomla, Drupal, 1C-Bitrix, DLE, MODX, OpenCart
Платформи блогів: Ghost, Medium, Blogger, Tilda, Webflow
jаvascript-фреймворки: Next.js, Gatsby, Hugo, Jekyll
E-commerce: Shopify, WooCommerce, Magento
Аналіз HTTP-заголовків і meta-тегів для точного визначення
Автоматична пропозиція оптимальних CSS-селекторів для кожної CMS

AI-рерайтинг через DeepSeek API

Інтеграція з DeepSeek-V3 — передовою мовною моделлю з 671B параметрами
Chunk-based обробка: розбиття довгих статей на оптимальні фрагменти
Збереження HTML-структури під час рерайту (теги, форматування, списки)
Трирівнева обробка: заголовки, короткий опис, повний текст
Налаштовувані промпти для кожного типу контенту
Автоматичне видалення артефактів AI (code blocks, пояснення)
Rate limiting і обробка помилок API з автоматичними повторами
Економічність: вартість обробки у 20 разів нижча за GPT-4

Дворівнева система обходу захисту:

Level 1: Enhanced cURL
- Підтримка HTTP/2 з повною імітацією Chrome 131
- Sec-Fetch-* headers для обходу базової фільтрації
- Cookie persistence між запитами
- Автоматичне визначення Cloudflare challenges
Level 2: FlareSolverr Integration (опціонально)
- Повноцінний headless Chrome для обходу jаvascript challenges
- Автоматичне вирішення Cloudflare captcha
- Підтримка Turnstile та інших захисних механізмів
- Прозоре перемикання при виявленні блокування
Інтелектуальне визначення необхідності bypass:
- Перевірка на \"Just a moment\", \"Checking your browser\"
- Детектування cf-browser-verification
- Автоматичний fallback на стандартний cURL за наявності доступу
Системні вимоги для Cloudflare bypass:
- Docker (для FlareSolverr)
- Мінімум 1GB RAM
- VPS із можливістю запуску контейнерів

Професійна обробка зображень

Автоматичне завантаження зображень із підтримкою HTTPS і редиректів
Конвертація у WebP для економії 30-50% дискового простору
Інтелектуальний resize зі збереженням пропорцій (GD/Imagick)
Підтримка множинних форматів: JPEG, PNG, GIF, WebP
Збереження головного зображення в xfield з метаданими
Заміна всіх зображень у контенті на локальні копії
Автоматична генерація унікальних імен файлів
Організація файлової структури за датами (YYYY-MM)

Round-Robin планувальник задач

Рівномірний розподіл навантаження між усіма активними джерелами
Автоматична ротація джерел для збалансованого імпорту
Відстеження прогресу для кожного джерела індивідуально
Налаштування кількості постів за одне виконання CRON
Захист CRON-ендпоінта через Secret Key (32-символьний токен)
Детальне логування всіх операцій парсингу
Підтримка як старих (engine/ajax/controller.php), так і нових (index.php?controller=ajax) версій DLE

Система управління категоріями

Інтелектуальний мапінг категорій

Автоматичний збір категорій із RSS-стрічок та HTML-структури
Пакетна обробка статей для вилучення всіх унікальних категорій
Візуальний інтерфейс для зіставлення категорій джерела з категоріями DLE
Підтримка ієрархічних категорій DLE
Категорія за замовчуванням для немапованих матеріалів
Множинні категорії для одного матеріалу

Захист і надійність

Система запобігання дублікатам

Перевірка існування матеріалу за URL джерела в xfields
Відстеження останньої обробленої позиції (сторінка/URL)
Автоматичний пропуск уже імпортованих матеріалів
Збереження прогресу в БД для кожного джерела

Стабільність роботи

Автоматичне відновлення з'єднання з БД при таймаутах
Обробка помилок cURL із детальним логуванням
Підтримка SSL-сертифікатів і обходу блокувань
User-Agent rotation для імітації браузерних запитів
Timeout-контроль для довгих операцій

Cloudflare Bypass через FlareSolverr

Інтеграція з FlareSolverr для обходу Cloudflare Bot Management
Автоматичне перемикання на headless browser при виявленні захисту
Опціональна активація через налаштування (не потрібна для всіх джерел)
Graceful degradation: робота зі звичайними сайтами при вимкненому FlareSolverr
Docker-based рішення з автоматичним керуванням сесіями
Підтримка jаvascript challenges і cookie-based перевірок
Детальне логування спроб обходу захисту

Розширені можливості

Додаткові поля: завантаження файлів, медіа та галерей

Налаштування довільної кількості додаткових полів для кожного джерела — прямо з форми додавання/редагування
Для кожного поля задається: CSS-селектор елемента, атрибут для витягання (href, src, data-src, data-href, content, text, html) і тип дії
Підтримувані типи дій: збереження URL/тексту, завантаження файлу, завантаження зображення з метаданими, завантаження відео, зовнішнє посилання на відео (YouTube/Vimeo), галерея з масовим завантаженням зображень, галерея зі списку URL
Галерейний режим: автоматичний обхід усіх знайдених елементів за селектором, завантаження кожного та збереження у формат DLE-галереї в одне поле
Відеофайли та файли для завантаження зберігаються в uploads/public_files/ з організацією за датами (YYYY-MM)
Зображення додаткових полів зберігаються в uploads/posts/ з автоматичним визначенням розмірів і генерацією метаданих у форматі DLE (ширина×висота, розмір файлу)
Відеополя оформлюються в нативний формат DLE: тип 3 (локальне відео) або тип 1 (зовнішнє посилання)
Метод extractExtraFieldsFromDom() винесено в базовий клас BaseParser (protected) — доступний як для HTML, так і для Hybrid парсера без дублювання коду

Налаштування пагінації та навігації

Підтримка стандартних патернів: /page/{page}/, ?page={page}, /p/{page}, /offset/{page}
Кастомні патерни для нестандартних сайтів
Query-параметри та складні URL-схеми
Автоматичне побудування URL наступної сторінки
Налаштування діапазону сторінок (start_page, end_page)
Вказання кількості постів на сторінці для точного відстеження

Гнучке налаштування селекторів

Підтримка CSS-селекторів будь-якої складності (класи, ID, атрибути, псевдокласи)
XPath-сумісність для складних структур
Селектори виключення для видалення реклами та сміття
Вбудований тестер із попереднім переглядом результатів
Валідація селекторів перед збереженням

Адміністративна панель

Інтуїтивний інтерфейс для керування джерелами
Детальна статистика по кожному джерелу (оброблено матеріалів, прогрес, останній запуск)
Швидке увімкнення/вимкнення джерел
Скидання прогресу для повторної обробки
Редагування джерел із збереженням прогресу
Вбудована система перевірки оновлень модуля
Логування всіх дій у admin_logs

Інтелектуальна система збереження зображень під час AI-обробки:

- Витягування медіа-елементів перед рерайтом:
  - Автоматичне виявлення <img>, <figure>, <picture>, <iframe>, <video>
  - Заміна на HTML-коментарі placeholder\'и
  - Збереження позицій у структурі документа
- Трирівнева система відновлення:
  - Level 1: Пряме зіставлення за маркерами
  - Level 2: Інтелектуальне вставлення між параграфами
  - Level 3: Додавання в кінець документа при повній втраті
- Фінальне очищення:
  - Видалення випадково збережених маркерів із title/description
  - Нормалізація HTML-структури
  - Валідація медіа-елементів

Множинні джерела витягування головного зображення:

- Meta-теги Open Graph і Twitter:
  - meta[property=\"og:image\"]
  - meta[name=\"twitter:image\"]
  - meta[name=\"twitter:image:src\"]
- Адаптивні зображення:
  - Підтримка srcset атрибута
  - Автоматичний вибір найбільшої роздільної здатності
  - Fallback на data-src і data-lazy-src
- Вкладені структури:
  - Витягування з <figure>, <picture> контейнерів
  - Пошук img всередині wrapper-елементів
  - Підтримка CSS background-image

Переваги використання

Економія часу: повна автоматизація процесу наповнення сайту — від парсингу до публікації
Унікальність контенту: AI-рерайт забезпечує оригінальність текстів, що проходять перевірку антиплагіатом
SEO-оптимізація: автоматична генерація ЧПУ (alt_name), структуровані дані
Низька вартість: використання DeepSeek знижує витрати на AI у 20 разів порівняно з GPT-4
Масштабованість: необмежена кількість джерел із Round-Robin балансуванням
Надійність: захист від дублікатів, автоматичне відновлення з'єднань
Простота налаштування: авто-визначення CMS, вбудований тестер селекторів
Універсальність: підтримка будь-яких сайтів з HTML-структурою, RSS-стрічок і гібридних схем
Модульність: гнучка архітектура з можливістю вимкнення непотрібних компонентів
Продуктивність: chunk-based обробка, оптимізовані SQL-запити
Обхід захисту сайтів: автоматичний bypass Cloudflare та інших антибот систем без proxy-сервісів
Гнучкість налаштування: можливість роботи як із захищеними, так і зі звичайними джерелами
Економія на проксі: FlareSolverr — безкоштовна альтернатива платним proxy-сервісам

Сценарії застосування

Новинні агрегатори: автоматичний збір новин із кількох регіональних джерел
Тематичні блоги: переклад і адаптація закордонного контенту для російськомовної аудиторії
Оглядові портали: імпорт оглядів технологій, гаджетів, програмного забезпечення
Регіональні ЗМІ: агрегація місцевих новин із подальшим рерайтом
Розважальні ресурси: автоматичне наповнення розділів статтями, гайдами, топами
Освітні платформи: імпорт навчальних матеріалів, статей, посібників
Бізнес-портали: збір галузевих новин і аналітики

Технічні вимоги та сумісність

DLE версії: 13.x, 14.x, 15.x, 16.x, 17.x, 18.x, 19.x, 19.1 (повна сумісність)
PHP: 7.4+ (рекомендується 8.0+)
Розширення PHP: CURL, DOM, XPath, libxml, GD або Imagick, JSON, mbstring
MySQL: 5.7+ або MariaDB 10.2+
Права доступу: запис у /uploads/posts/, /engine/data/, /engine/cache/
Зовнішні API: DeepSeek API (опціонально, для AI-рерайту)
CRON: доступ до налаштування завдань crontab

Скріншоти

Виберіть відповідний тариф

Ми пропонуємо гнучкі варіанти ліцензування залежно від ваших потреб.

Стандарт

5000 ₽

Необмежена кількість сайтів
Відкритий вихідний код
Базова
Без подальших оновлень

Розширений

6000 ₽

Необмежена кількість сайтів
Відкритий вихідний код
пріоритетна
Безкоштовні оновлення — (12 місяців)

Преміум

11000 ₽

Необмежена кількість сайтів
Відкритий вихідний код
Пріоритетна підтримка + консультація
Безплатні оновлення — безстроково
Встановлення та налаштування модуля
Адаптація під ваш сайт (включно з розумним доопрацюванням коду під індивідуальні вимоги)

История изменений

Релизов: 9

Функций: 21

Исправлений: 14

Улучшений: 13

Версия 3.0.0 27.04.2026

Новое

Добавлена полноценная интеграция с DLE Multi-Language: автоматическое сохранение переводов в title_{iso}, short_story_{iso}, full_story_{iso} и tags_{iso}.

Новое

Добавлен новый режим парсинга Sitemap с поддержкой больших sitemap-файлов, вложенных sitemap index и кеширования списка URL.

Новое

Добавлен реальный dry-run режим тестирования: проверка теперь выполняет симуляцию полного парсинга без записи в базу данных и показывает итоговый publish payload.

Новое

Добавлены структурированные логи парсинга со стадиями обработки, статусами, временем выполнения, source_id, item_url и информацией об ошибках.

Новое

Добавлен мониторинг состояния источников: health status, fail streak, duplicate rate, average fetch/run time и время последнего успешного запуска.

Улучшение

Полностью переработана логика HTML-парсинга списка материалов: теперь обрабатываются все найденные контейнеры, а не только первый matched node.

Улучшение

HTML progress переведен на URL/cursor модель вместо count-based прогресса, что снижает риск пропуска новых материалов.

Улучшение

Исправлена стратегия cursor для RSS, Hybrid и Sitemap в режиме new_to_old, чтобы новые материалы в верхней части источника не пропускались.

Улучшение

Улучшен Hybrid режим: добавлена обработка ошибок по материалам, advancement cursor при сбоях и защита от бесконечного застревания на одном item.

Улучшение

Добавлена поддержка HTML category selector в Hybrid режиме и политика объединения категорий RSS/HTML.

Улучшение

Усилен механизм поиска дублей: добавлена нормализация URL, GUID/external id, fingerprint заголовка и hash контента.

Улучшение

Улучшена нормализация URL перед проверкой дублей: учитываются trailing slash, fragment, tracking-параметры и различия в формате ссылок.

Улучшение

Усилен CSS selector engine: добавлена поддержка групп, комбинаторов, атрибутных селекторов и ряда pseudo-селекторов.

Улучшение

Добавлены предупреждения о поддерживаемом subset CSS-селекторов в help-разделе и test result.

Улучшение

Улучшена AI-обработка HTML: сохранение структуры тегов, защита media/code/pre блоков, повторная проверка неполных переводов и более стабильная работа с длинным контентом.

Улучшение

Улучшена генерация и перевод тегов, включая fallback-механизм, если AI не вернул корректный результат.

Исправление

Исправлено сохранение изображений при отключенном reformat: теперь сохраняется реальный исходный формат файла.

Исправление

Исправлены случаи, когда AI мог вернуть ссылки или HTML, не соответствующие настройкам очистки контента.

Исправление

Исправлена обработка figure/img блоков: изображения корректно извлекаются, очищаются и могут быть загружены на сервер.

Исправление

Исправлены случаи, когда code/pre блоки могли быть пропущены или удалены во время AI-обработки.

Исправление

Исправлены проблемы с незакрытыми ul/ol/li тегами в AI-переводах.

Исправление

Исправлена совместимость DB reconnect check с PHP 8 и mysqli.

Исправление

Найдены и исправлены другие мелкие ошибки.

Версия 2.1.4 11.03.2026

Исправление

Обнаружены и исправлены некоторые баги.

Версия 2.1.3 08.03.2026

Исправление

Обнаружены и исправлены некоторые баги.

Версия 2.1.2 28.02.2026

Исправление

Обнаружены и исправлены некоторые баги.

Версия 2.1.1 27.02.2026

Новое

Добавлена автоматическая генерация тегов через DeepSeek AI — анализирует заголовок и текст статьи и предлагает теги на русском языке

Новое

Новая настройка в разделе «Основные» — включение/отключение генерации тегов с указанием зависимости от AI Rewrite

Новое

Настраиваемый промпт для генерации тегов добавлен в раздел «AI Rewrite»

Версия 2.1.0 24.02.2026

Новое

Добавлена поддержка DLE 19.1

Новое

Теперь парсер умеет автоматически скачивать с сайта-донора файлы, видео, изображения и целые галереи — и сохранять всё это в дополнительные поля вашего сайта. Торренты, обложки, скриншоты, локальные видео — всё подтягивается само

Новое

Можно сохранять в дополнительное поле любой текстовый блок со страницы — например, таблицу характеристик или описание, прямо с форматированием

Новое

При парсинге RSS лента теперь старается взять обложку статьи с самой страницы (более качественную), а не из RSS-потока

Новое

В раздел «Помощь» добавлено подробное руководство по дополнительным полям — с примерами для каждого типа данных (файл, фото, видео, галерея, текст) и советами по частым ошибкам

Исправление

Найдены и исправлены некоторые мелкие баги.

Версия 2.0.0 15.02.2026

Новое

Добавлена поддержка Proxy (HTTP/SOCKS5) для обхода блокировок и смены IP

Новое

Интеграция FlareSolverr для автоматического обхода Cloudflare защиты

Новое

Гибкая настройка очистки контента из админ-панели (удаление scripts, styles, links, атрибутов)

Новое

FlareSolverr fallback для изображений при неудачной загрузке через cURL

Новое

Автоматическое определение и использование Proxy из настроек во всех AJAX endpoints

Новое

Проверка статуса FlareSolverr в режиме реального времени

Новое

Тестирование Proxy прямо из настроек с определением IP и геолокации

Улучшение

Улучшенная архитектура

Улучшение

Обновлен интерфейс настроек: 6 категорий (Основные, Cloudflare, Proxy, Очистка контента, AI Rewrite, Изображения)

Исправление

Исправлены проблемы с загрузкой страниц, защищенных Cloudflare

Исправление

Устранены конфликты имен функций между разными модулями

Версия 1.0.1 05.01.2026

Исправление

Обнаружены и исправлены некоторые баги.

Версия 1.0.0 03.01.2026

Новое

Первый релиз модуля

Коментарі 6

kosti kazancev Відвідувачі

24 червня 2026 13:04

0

так же интересует как настраевается шаблон если в доноре это перекрестный ссылки и с категориями у вас 1 селект но в доноре может быть несколько категорий + в разных местах типо жанр год итд , и какая категория к какому слову как присваевается тоже не понятно , и по доп полям как у категорий там может быть в ссылках текст итд или в других тегах

Поскаржитися
kosti kazancev Відвідувачі

24 червня 2026 11:05

0

здраствуйте нормальный прогеры делают админку обрезанную с плагином итд чтоб покупатели могли почупать плагин настроки итд потестит подходить ли он или нет , скрины это хорошо но тесты всегда лудше , но как понимаю у вас такой нет так ?

Поскаржитися
oldnick Відвідувачі

15 березня 2026 07:03

0

Прошу уточнить приблизительную стоимость рерайта ДипСиком за 1000 знаков. Возможна ли настройка на сокращение текста, например рерайт статьи 5000 знаков в статью 1000 знаков. Если уже есть рерайт модули, работающие на других ИИ, можно ли их включить в данный модуль и выбирать в настройках оптимальную нейронку под определенную тему. Например, по теме медицины пишет Джемини, по теме ИТ - Клод, по искусству - ДипСик и тд. Или же исходя из стоимости токенов - где выгоднее, на тот ИИ и переключиться.

Поскаржитися
Masterwen Відвідувачі

10 березня 2026 07:23

0

Здравствуйте. Я какая будет цена AI-рерайта через DeepSeek к примеру за одну новость. И как пополнят DeepSeek

Поскаржитися
Ghost Clients

9 лютого 2026 23:17

+3

Здравствуйте! Планирую купить DLE Parser PRO. Подскажите, смогу ли я использовать одну лицензию на 2-3 сайтах одновременно? Или она строго привязывается к одному домену?

Поскаржитися
1. admin Адмін
  
  9 лютого 2026 23:19
  
  +1
  
  Здравствуйте. Да, можете. Модуль с открытым исходным кодом и не привязан к домену. Купив один раз, вы можете использовать его на неограниченном количестве сайтов.
  
  Поскаржитися

Продукти

Інформація

Поддержка

Ми в соцмережах

Зміна теми

DLE Parser PRO

Архітектура модуля: три режими парсингу

Технологічна база та інфраструктура

Система управління категоріями

Захист і надійність

Розширені можливості

Переваги використання

Сценарії застосування

Технічні вимоги та сумісність

Скріншоти

Виберіть відповідний тариф

Стандарт

Розширений

Преміум

История изменений