DLEModМодулі для DLE • DLE Parser PRO

DLE Parser PRO

DLE Parser PRO — професійний модуль для автоматизації парсингу та публікації контенту із зовнішніх джерел у DataLife Engine. Підтримує три режими: HTML-парсинг (CSS-селектори/XPath), імпорт із RSS/Atom і гібридний режим. Автоматично визначає CMS (WordPress, Joomla, Drupal тощо), завантажує та конвертує зображення у WebP, виконує AI-рерайт через DeepSeek. Вбудований планувальник Round-Robin рівномірно розподіляє матеріали між джерелами.

Купити зараз
Версія модуля3.0.0
PHP version7.4 - 8.4
Версія DLE13.x - 19․1

DLE Parser PRO — це комплексне рішення корпоративного рівня для власників вебпроєктів на DataLife Engine, яким необхідна повна автоматизація процесу наповнення сайту якісним контентом. Модуль є потужною системою вилучення, обробки та публікації матеріалів із зовнішніх джерел із застосуванням передових технологій штучного інтелекту.

Архітектура модуля: три режими парсингу

HTML Parser — класичний вебскрейпінг

  • Вилучення контенту безпосередньо з HTML-структури вебсторінок
  • Підтримка складної пагінації з настроюваними патернами навігації
  • Автоматичне визначення структури сайту та CMS
  • Точне вилучення через CSS-селектори та XPath-вирази
  • Обробка динамічного контенту та AJAX-завантажень
  • Підтримка двонаправленого парсингу (від нових до старих / від старих до нових)
  • Налаштування діапазону сторінок з автоматичним відстеженням прогресу
  • Автоматичне завантаження файлів, зображень, відео та галерей у додаткові поля DLE — через CSS-селектори прямо з HTML-сторінки статті
  • Підтримка всіх типів вилучення: href, src, data-src, data-href, content, text, html
  • Збереження повних HTML-блоків (таблиці характеристик, форматовані описи) у додаткові поля через фільтр очищення контенту

RSS/Atom Parser — робота зі стрічками новин

  • Нативна підтримка форматів RSS 2.0, RSS 1.0 (RDF) та Atom 1.0
  • Інтелектуальне вилучення зображень із множинних джерел (enclosure, media:content, media:thumbnail, media:group)
  • Автоматична обробка namespaces (media, content, dc, atom)
  • Вилучення метаданих: автор, дата публікації, категорії
  • Підтримка повного та короткого контенту (content:encoded, description)
  • Фільтрація та очищення RSS-контенту від рекламних блоків
  • Пріоритетне отримання головного зображення через meta[property="og:image"] і meta[property="twitter:image"] безпосередньо зі сторінки статті; RSS-зображення використовується як резервне джерело

Hybrid Parser — оптимальне поєднання RSS і HTML

  • Використання RSS для отримання списку актуальних матеріалів
  • Парсинг повного контенту з HTML-версії сторінки
  • Пріоритетна система вибору даних (HTML має перевагу над RSS)
  • Об'єднання метаданих із обох джерел
  • Оптимальна швидкість роботи за максимальної якості вилучення
  • Автоматичне визначення найбільш повного джерела зображень

Технологічна база та інфраструктура

Інтелектуальна система виявлення CMS

  • Автоматичне розпізнавання 18+ популярних CMS і фреймворків
  • Підтримувані платформи: WordPress, Joomla, Drupal, 1C-Bitrix, DLE, MODX, OpenCart
  • Платформи блогів: Ghost, Medium, Blogger, Tilda, Webflow
  • jаvascript-фреймворки: Next.js, Gatsby, Hugo, Jekyll
  • E-commerce: Shopify, WooCommerce, Magento
  • Аналіз HTTP-заголовків і meta-тегів для точного визначення
  • Автоматична пропозиція оптимальних CSS-селекторів для кожної CMS

AI-рерайтинг через DeepSeek API

  • Інтеграція з DeepSeek-V3 — передовою мовною моделлю з 671B параметрами
  • Chunk-based обробка: розбиття довгих статей на оптимальні фрагменти
  • Збереження HTML-структури під час рерайту (теги, форматування, списки)
  • Трирівнева обробка: заголовки, короткий опис, повний текст
  • Налаштовувані промпти для кожного типу контенту
  • Автоматичне видалення артефактів AI (code blocks, пояснення)
  • Rate limiting і обробка помилок API з автоматичними повторами
  • Економічність: вартість обробки у 20 разів нижча за GPT-4

Дворівнева система обходу захисту:

  • Level 1: Enhanced cURL
    • Підтримка HTTP/2 з повною імітацією Chrome 131
    • Sec-Fetch-* headers для обходу базової фільтрації
    • Cookie persistence між запитами
    • Автоматичне визначення Cloudflare challenges
  • Level 2: FlareSolverr Integration (опціонально)
    • Повноцінний headless Chrome для обходу jаvascript challenges
    • Автоматичне вирішення Cloudflare captcha
    • Підтримка Turnstile та інших захисних механізмів
    • Прозоре перемикання при виявленні блокування
  • Інтелектуальне визначення необхідності bypass:
    • Перевірка на \"Just a moment\", \"Checking your browser\"
    • Детектування cf-browser-verification
    • Автоматичний fallback на стандартний cURL за наявності доступу
  • Системні вимоги для Cloudflare bypass:
    • Docker (для FlareSolverr)
    • Мінімум 1GB RAM
    • VPS із можливістю запуску контейнерів

Професійна обробка зображень

  • Автоматичне завантаження зображень із підтримкою HTTPS і редиректів
  • Конвертація у WebP для економії 30-50% дискового простору
  • Інтелектуальний resize зі збереженням пропорцій (GD/Imagick)
  • Підтримка множинних форматів: JPEG, PNG, GIF, WebP
  • Збереження головного зображення в xfield з метаданими
  • Заміна всіх зображень у контенті на локальні копії
  • Автоматична генерація унікальних імен файлів
  • Організація файлової структури за датами (YYYY-MM)

Round-Robin планувальник задач

  • Рівномірний розподіл навантаження між усіма активними джерелами
  • Автоматична ротація джерел для збалансованого імпорту
  • Відстеження прогресу для кожного джерела індивідуально
  • Налаштування кількості постів за одне виконання CRON
  • Захист CRON-ендпоінта через Secret Key (32-символьний токен)
  • Детальне логування всіх операцій парсингу
  • Підтримка як старих (engine/ajax/controller.php), так і нових (index.php?controller=ajax) версій DLE

Система управління категоріями

Інтелектуальний мапінг категорій

  • Автоматичний збір категорій із RSS-стрічок та HTML-структури
  • Пакетна обробка статей для вилучення всіх унікальних категорій
  • Візуальний інтерфейс для зіставлення категорій джерела з категоріями DLE
  • Підтримка ієрархічних категорій DLE
  • Категорія за замовчуванням для немапованих матеріалів
  • Множинні категорії для одного матеріалу

Захист і надійність

Система запобігання дублікатам

  • Перевірка існування матеріалу за URL джерела в xfields
  • Відстеження останньої обробленої позиції (сторінка/URL)
  • Автоматичний пропуск уже імпортованих матеріалів
  • Збереження прогресу в БД для кожного джерела

Стабільність роботи

  • Автоматичне відновлення з'єднання з БД при таймаутах
  • Обробка помилок cURL із детальним логуванням
  • Підтримка SSL-сертифікатів і обходу блокувань
  • User-Agent rotation для імітації браузерних запитів
  • Timeout-контроль для довгих операцій

Cloudflare Bypass через FlareSolverr

  • Інтеграція з FlareSolverr для обходу Cloudflare Bot Management
  • Автоматичне перемикання на headless browser при виявленні захисту
  • Опціональна активація через налаштування (не потрібна для всіх джерел)
  • Graceful degradation: робота зі звичайними сайтами при вимкненому FlareSolverr
  • Docker-based рішення з автоматичним керуванням сесіями
  • Підтримка jаvascript challenges і cookie-based перевірок
  • Детальне логування спроб обходу захисту

Розширені можливості

Додаткові поля: завантаження файлів, медіа та галерей

  • Налаштування довільної кількості додаткових полів для кожного джерела — прямо з форми додавання/редагування
  • Для кожного поля задається: CSS-селектор елемента, атрибут для витягання (href, src, data-src, data-href, content, text, html) і тип дії
  • Підтримувані типи дій: збереження URL/тексту, завантаження файлу, завантаження зображення з метаданими, завантаження відео, зовнішнє посилання на відео (YouTube/Vimeo), галерея з масовим завантаженням зображень, галерея зі списку URL
  • Галерейний режим: автоматичний обхід усіх знайдених елементів за селектором, завантаження кожного та збереження у формат DLE-галереї в одне поле
  • Відеофайли та файли для завантаження зберігаються в uploads/public_files/ з організацією за датами (YYYY-MM)
  • Зображення додаткових полів зберігаються в uploads/posts/ з автоматичним визначенням розмірів і генерацією метаданих у форматі DLE (ширина×висота, розмір файлу)
  • Відеополя оформлюються в нативний формат DLE: тип 3 (локальне відео) або тип 1 (зовнішнє посилання)
  • Метод extractExtraFieldsFromDom() винесено в базовий клас BaseParser (protected) — доступний як для HTML, так і для Hybrid парсера без дублювання коду

Налаштування пагінації та навігації

  • Підтримка стандартних патернів: /page/{page}/, ?page={page}, /p/{page}, /offset/{page}
  • Кастомні патерни для нестандартних сайтів
  • Query-параметри та складні URL-схеми
  • Автоматичне побудування URL наступної сторінки
  • Налаштування діапазону сторінок (start_page, end_page)
  • Вказання кількості постів на сторінці для точного відстеження

Гнучке налаштування селекторів

  • Підтримка CSS-селекторів будь-якої складності (класи, ID, атрибути, псевдокласи)
  • XPath-сумісність для складних структур
  • Селектори виключення для видалення реклами та сміття
  • Вбудований тестер із попереднім переглядом результатів
  • Валідація селекторів перед збереженням

Адміністративна панель

  • Інтуїтивний інтерфейс для керування джерелами
  • Детальна статистика по кожному джерелу (оброблено матеріалів, прогрес, останній запуск)
  • Швидке увімкнення/вимкнення джерел
  • Скидання прогресу для повторної обробки
  • Редагування джерел із збереженням прогресу
  • Вбудована система перевірки оновлень модуля
  • Логування всіх дій у admin_logs

Інтелектуальна система збереження зображень під час AI-обробки:

    • Витягування медіа-елементів перед рерайтом:
      • Автоматичне виявлення <img>, <figure>, <picture>, <iframe>, <video>
      • Заміна на HTML-коментарі placeholder\'и
      • Збереження позицій у структурі документа
    • Трирівнева система відновлення:
      • Level 1: Пряме зіставлення за маркерами
      • Level 2: Інтелектуальне вставлення між параграфами
      • Level 3: Додавання в кінець документа при повній втраті
    • Фінальне очищення:
      • Видалення випадково збережених маркерів із title/description
      • Нормалізація HTML-структури
      • Валідація медіа-елементів

Множинні джерела витягування головного зображення:

    • Meta-теги Open Graph і Twitter:
      • meta[property=\"og:image\"]
      • meta[name=\"twitter:image\"]
      • meta[name=\"twitter:image:src\"]
    • Адаптивні зображення:
      • Підтримка srcset атрибута
      • Автоматичний вибір найбільшої роздільної здатності
      • Fallback на data-src і data-lazy-src
    • Вкладені структури:
      • Витягування з <figure>, <picture> контейнерів
      • Пошук img всередині wrapper-елементів
      • Підтримка CSS background-image

Переваги використання

  • Економія часу: повна автоматизація процесу наповнення сайту — від парсингу до публікації
  • Унікальність контенту: AI-рерайт забезпечує оригінальність текстів, що проходять перевірку антиплагіатом
  • SEO-оптимізація: автоматична генерація ЧПУ (alt_name), структуровані дані
  • Низька вартість: використання DeepSeek знижує витрати на AI у 20 разів порівняно з GPT-4
  • Масштабованість: необмежена кількість джерел із Round-Robin балансуванням
  • Надійність: захист від дублікатів, автоматичне відновлення з'єднань
  • Простота налаштування: авто-визначення CMS, вбудований тестер селекторів
  • Універсальність: підтримка будь-яких сайтів з HTML-структурою, RSS-стрічок і гібридних схем
  • Модульність: гнучка архітектура з можливістю вимкнення непотрібних компонентів
  • Продуктивність: chunk-based обробка, оптимізовані SQL-запити
  • Обхід захисту сайтів: автоматичний bypass Cloudflare та інших антибот систем без proxy-сервісів
  • Гнучкість налаштування: можливість роботи як із захищеними, так і зі звичайними джерелами
  • Економія на проксі: FlareSolverr — безкоштовна альтернатива платним proxy-сервісам

Сценарії застосування

  • Новинні агрегатори: автоматичний збір новин із кількох регіональних джерел
  • Тематичні блоги: переклад і адаптація закордонного контенту для російськомовної аудиторії
  • Оглядові портали: імпорт оглядів технологій, гаджетів, програмного забезпечення
  • Регіональні ЗМІ: агрегація місцевих новин із подальшим рерайтом
  • Розважальні ресурси: автоматичне наповнення розділів статтями, гайдами, топами
  • Освітні платформи: імпорт навчальних матеріалів, статей, посібників
  • Бізнес-портали: збір галузевих новин і аналітики


Технічні вимоги та сумісність

  • DLE версії: 13.x, 14.x, 15.x, 16.x, 17.x, 18.x, 19.x, 19.1 (повна сумісність)
  • PHP: 7.4+ (рекомендується 8.0+)
  • Розширення PHP: CURL, DOM, XPath, libxml, GD або Imagick, JSON, mbstring
  • MySQL: 5.7+ або MariaDB 10.2+
  • Права доступу: запис у /uploads/posts/, /engine/data/, /engine/cache/
  • Зовнішні API: DeepSeek API (опціонально, для AI-рерайту)
  • CRON: доступ до налаштування завдань crontab

Скріншоти

Виберіть відповідний тариф

Ми пропонуємо гнучкі варіанти ліцензування залежно від ваших потреб.

Стандарт

5000 ₽
  • Необмежена кількість сайтів
  • Відкритий вихідний код
  • Базова
  • Без подальших оновлень

Розширений

6000 ₽
  • Необмежена кількість сайтів
  • Відкритий вихідний код
  • пріоритетна
  • Безкоштовні оновлення — (12 місяців)

Преміум

11000 ₽
  • Необмежена кількість сайтів
  • Відкритий вихідний код
  • Пріоритетна підтримка + консультація
  • Безплатні оновлення — безстроково
  • Встановлення та налаштування модуля
  • Адаптація під ваш сайт (включно з розумним доопрацюванням коду під індивідуальні вимоги)

История изменений

Все версии (9)
Все версии (9)
Версия 3.0.0
Версия 2.1.4
Версия 2.1.3
Версия 2.1.2
Версия 2.1.1
Версия 2.1.0
Версия 2.0.0
Версия 1.0.1
Версия 1.0.0
Релизов: 9
Функций: 21
Исправлений: 14
Улучшений: 13
Версия 3.0.0 27.04.2026
Новое
Добавлена полноценная интеграция с DLE Multi-Language: автоматическое сохранение переводов в title_{iso}, short_story_{iso}, full_story_{iso} и tags_{iso}.
Новое
Добавлен новый режим парсинга Sitemap с поддержкой больших sitemap-файлов, вложенных sitemap index и кеширования списка URL.
Новое
Добавлен реальный dry-run режим тестирования: проверка теперь выполняет симуляцию полного парсинга без записи в базу данных и показывает итоговый publish payload.
Новое
Добавлены структурированные логи парсинга со стадиями обработки, статусами, временем выполнения, source_id, item_url и информацией об ошибках.
Новое
Добавлен мониторинг состояния источников: health status, fail streak, duplicate rate, average fetch/run time и время последнего успешного запуска.
Улучшение
Полностью переработана логика HTML-парсинга списка материалов: теперь обрабатываются все найденные контейнеры, а не только первый matched node.
Улучшение
HTML progress переведен на URL/cursor модель вместо count-based прогресса, что снижает риск пропуска новых материалов.
Улучшение
Исправлена стратегия cursor для RSS, Hybrid и Sitemap в режиме new_to_old, чтобы новые материалы в верхней части источника не пропускались.
Улучшение
Улучшен Hybrid режим: добавлена обработка ошибок по материалам, advancement cursor при сбоях и защита от бесконечного застревания на одном item.
Улучшение
Добавлена поддержка HTML category selector в Hybrid режиме и политика объединения категорий RSS/HTML.
Улучшение
Усилен механизм поиска дублей: добавлена нормализация URL, GUID/external id, fingerprint заголовка и hash контента.
Улучшение
Улучшена нормализация URL перед проверкой дублей: учитываются trailing slash, fragment, tracking-параметры и различия в формате ссылок.
Улучшение
Усилен CSS selector engine: добавлена поддержка групп, комбинаторов, атрибутных селекторов и ряда pseudo-селекторов.
Улучшение
Добавлены предупреждения о поддерживаемом subset CSS-селекторов в help-разделе и test result.
Улучшение
Улучшена AI-обработка HTML: сохранение структуры тегов, защита media/code/pre блоков, повторная проверка неполных переводов и более стабильная работа с длинным контентом.
Улучшение
Улучшена генерация и перевод тегов, включая fallback-механизм, если AI не вернул корректный результат.
Исправление
Исправлено сохранение изображений при отключенном reformat: теперь сохраняется реальный исходный формат файла.
Исправление
Исправлены случаи, когда AI мог вернуть ссылки или HTML, не соответствующие настройкам очистки контента.
Исправление
Исправлена обработка figure/img блоков: изображения корректно извлекаются, очищаются и могут быть загружены на сервер.
Исправление
Исправлены случаи, когда code/pre блоки могли быть пропущены или удалены во время AI-обработки.
Исправление
Исправлены проблемы с незакрытыми ul/ol/li тегами в AI-переводах.
Исправление
Исправлена совместимость DB reconnect check с PHP 8 и mysqli.
Исправление
Найдены и исправлены другие мелкие ошибки.
Версия 2.1.4 11.03.2026
Исправление
Обнаружены и исправлены некоторые баги.
Коментарі 4
  1. Прошу уточнить приблизительную стоимость рерайта ДипСиком за 1000 знаков. Возможна ли настройка на сокращение текста, например рерайт статьи 5000 знаков в статью 1000 знаков. Если уже есть рерайт модули, работающие на других ИИ, можно ли их включить в данный модуль и выбирать в настройках оптимальную нейронку под определенную тему. Например, по теме медицины пишет Джемини, по теме ИТ - Клод, по искусству - ДипСик и тд. Или же исходя из стоимости токенов - где выгоднее, на тот ИИ и переключиться.
  2. Здравствуйте. Я какая будет цена AI-рерайта через DeepSeek к примеру за одну новость. И как пополнят DeepSeek
  3. +3
    Здравствуйте! Планирую купить DLE Parser PRO. Подскажите, смогу ли я использовать одну лицензию на 2-3 сайтах одновременно? Или она строго привязывается к одному домену?
    1. +1
      Здравствуйте. Да, можете. Модуль с открытым исходным кодом и не привязан к домену. Купив один раз, вы можете использовать его на неограниченном количестве сайтов.