DLE Parser PRO
DLE Parser PRO — професійний модуль для автоматизації парсингу та публікації контенту із зовнішніх джерел у DataLife Engine. Підтримує три режими: HTML-парсинг (CSS-селектори/XPath), імпорт із RSS/Atom і гібридний режим. Автоматично визначає CMS (WordPress, Joomla, Drupal тощо), завантажує та конвертує зображення у WebP, виконує AI-рерайт через DeepSeek. Вбудований планувальник Round-Robin рівномірно розподіляє матеріали між джерелами.
Купити заразDLE Parser PRO — це комплексне рішення корпоративного рівня для власників вебпроєктів на DataLife Engine, яким необхідна повна автоматизація процесу наповнення сайту якісним контентом. Модуль є потужною системою вилучення, обробки та публікації матеріалів із зовнішніх джерел із застосуванням передових технологій штучного інтелекту.
Архітектура модуля: три режими парсингу
HTML Parser — класичний вебскрейпінг
- Вилучення контенту безпосередньо з HTML-структури вебсторінок
- Підтримка складної пагінації з настроюваними патернами навігації
- Автоматичне визначення структури сайту та CMS
- Точне вилучення через CSS-селектори та XPath-вирази
- Обробка динамічного контенту та AJAX-завантажень
- Підтримка двонаправленого парсингу (від нових до старих / від старих до нових)
- Налаштування діапазону сторінок з автоматичним відстеженням прогресу
- Автоматичне завантаження файлів, зображень, відео та галерей у додаткові поля DLE — через CSS-селектори прямо з HTML-сторінки статті
- Підтримка всіх типів вилучення: href, src, data-src, data-href, content, text, html
- Збереження повних HTML-блоків (таблиці характеристик, форматовані описи) у додаткові поля через фільтр очищення контенту
RSS/Atom Parser — робота зі стрічками новин
- Нативна підтримка форматів RSS 2.0, RSS 1.0 (RDF) та Atom 1.0
- Інтелектуальне вилучення зображень із множинних джерел (enclosure, media:content, media:thumbnail, media:group)
- Автоматична обробка namespaces (media, content, dc, atom)
- Вилучення метаданих: автор, дата публікації, категорії
- Підтримка повного та короткого контенту (content:encoded, description)
- Фільтрація та очищення RSS-контенту від рекламних блоків
- Пріоритетне отримання головного зображення через meta[property="og:image"] і meta[property="twitter:image"] безпосередньо зі сторінки статті; RSS-зображення використовується як резервне джерело
Hybrid Parser — оптимальне поєднання RSS і HTML
- Використання RSS для отримання списку актуальних матеріалів
- Парсинг повного контенту з HTML-версії сторінки
- Пріоритетна система вибору даних (HTML має перевагу над RSS)
- Об'єднання метаданих із обох джерел
- Оптимальна швидкість роботи за максимальної якості вилучення
- Автоматичне визначення найбільш повного джерела зображень
Технологічна база та інфраструктура
Інтелектуальна система виявлення CMS
- Автоматичне розпізнавання 18+ популярних CMS і фреймворків
- Підтримувані платформи: WordPress, Joomla, Drupal, 1C-Bitrix, DLE, MODX, OpenCart
- Платформи блогів: Ghost, Medium, Blogger, Tilda, Webflow
- jаvascript-фреймворки: Next.js, Gatsby, Hugo, Jekyll
- E-commerce: Shopify, WooCommerce, Magento
- Аналіз HTTP-заголовків і meta-тегів для точного визначення
- Автоматична пропозиція оптимальних CSS-селекторів для кожної CMS
AI-рерайтинг через DeepSeek API
- Інтеграція з DeepSeek-V3 — передовою мовною моделлю з 671B параметрами
- Chunk-based обробка: розбиття довгих статей на оптимальні фрагменти
- Збереження HTML-структури під час рерайту (теги, форматування, списки)
- Трирівнева обробка: заголовки, короткий опис, повний текст
- Налаштовувані промпти для кожного типу контенту
- Автоматичне видалення артефактів AI (code blocks, пояснення)
- Rate limiting і обробка помилок API з автоматичними повторами
- Економічність: вартість обробки у 20 разів нижча за GPT-4
Дворівнева система обходу захисту:
- Level 1: Enhanced cURL
- Підтримка HTTP/2 з повною імітацією Chrome 131
- Sec-Fetch-* headers для обходу базової фільтрації
- Cookie persistence між запитами
- Автоматичне визначення Cloudflare challenges
- Level 2: FlareSolverr Integration (опціонально)
- Повноцінний headless Chrome для обходу jаvascript challenges
- Автоматичне вирішення Cloudflare captcha
- Підтримка Turnstile та інших захисних механізмів
- Прозоре перемикання при виявленні блокування
- Інтелектуальне визначення необхідності bypass:
- Перевірка на \"Just a moment\", \"Checking your browser\"
- Детектування cf-browser-verification
- Автоматичний fallback на стандартний cURL за наявності доступу
- Системні вимоги для Cloudflare bypass:
- Docker (для FlareSolverr)
- Мінімум 1GB RAM
- VPS із можливістю запуску контейнерів
Професійна обробка зображень
- Автоматичне завантаження зображень із підтримкою HTTPS і редиректів
- Конвертація у WebP для економії 30-50% дискового простору
- Інтелектуальний resize зі збереженням пропорцій (GD/Imagick)
- Підтримка множинних форматів: JPEG, PNG, GIF, WebP
- Збереження головного зображення в xfield з метаданими
- Заміна всіх зображень у контенті на локальні копії
- Автоматична генерація унікальних імен файлів
- Організація файлової структури за датами (YYYY-MM)
Round-Robin планувальник задач
- Рівномірний розподіл навантаження між усіма активними джерелами
- Автоматична ротація джерел для збалансованого імпорту
- Відстеження прогресу для кожного джерела індивідуально
- Налаштування кількості постів за одне виконання CRON
- Захист CRON-ендпоінта через Secret Key (32-символьний токен)
- Детальне логування всіх операцій парсингу
- Підтримка як старих (engine/ajax/controller.php), так і нових (index.php?controller=ajax) версій DLE
Система управління категоріями
Інтелектуальний мапінг категорій
- Автоматичний збір категорій із RSS-стрічок та HTML-структури
- Пакетна обробка статей для вилучення всіх унікальних категорій
- Візуальний інтерфейс для зіставлення категорій джерела з категоріями DLE
- Підтримка ієрархічних категорій DLE
- Категорія за замовчуванням для немапованих матеріалів
- Множинні категорії для одного матеріалу
Захист і надійність
Система запобігання дублікатам
- Перевірка існування матеріалу за URL джерела в xfields
- Відстеження останньої обробленої позиції (сторінка/URL)
- Автоматичний пропуск уже імпортованих матеріалів
- Збереження прогресу в БД для кожного джерела
Стабільність роботи
- Автоматичне відновлення з'єднання з БД при таймаутах
- Обробка помилок cURL із детальним логуванням
- Підтримка SSL-сертифікатів і обходу блокувань
- User-Agent rotation для імітації браузерних запитів
- Timeout-контроль для довгих операцій
Cloudflare Bypass через FlareSolverr
- Інтеграція з FlareSolverr для обходу Cloudflare Bot Management
- Автоматичне перемикання на headless browser при виявленні захисту
- Опціональна активація через налаштування (не потрібна для всіх джерел)
- Graceful degradation: робота зі звичайними сайтами при вимкненому FlareSolverr
- Docker-based рішення з автоматичним керуванням сесіями
- Підтримка jаvascript challenges і cookie-based перевірок
- Детальне логування спроб обходу захисту
Розширені можливості
Додаткові поля: завантаження файлів, медіа та галерей
- Налаштування довільної кількості додаткових полів для кожного джерела — прямо з форми додавання/редагування
- Для кожного поля задається: CSS-селектор елемента, атрибут для витягання (href, src, data-src, data-href, content, text, html) і тип дії
- Підтримувані типи дій: збереження URL/тексту, завантаження файлу, завантаження зображення з метаданими, завантаження відео, зовнішнє посилання на відео (YouTube/Vimeo), галерея з масовим завантаженням зображень, галерея зі списку URL
- Галерейний режим: автоматичний обхід усіх знайдених елементів за селектором, завантаження кожного та збереження у формат DLE-галереї в одне поле
- Відеофайли та файли для завантаження зберігаються в uploads/public_files/ з організацією за датами (YYYY-MM)
- Зображення додаткових полів зберігаються в uploads/posts/ з автоматичним визначенням розмірів і генерацією метаданих у форматі DLE (ширина×висота, розмір файлу)
- Відеополя оформлюються в нативний формат DLE: тип 3 (локальне відео) або тип 1 (зовнішнє посилання)
- Метод extractExtraFieldsFromDom() винесено в базовий клас BaseParser (protected) — доступний як для HTML, так і для Hybrid парсера без дублювання коду
Налаштування пагінації та навігації
- Підтримка стандартних патернів: /page/{page}/, ?page={page}, /p/{page}, /offset/{page}
- Кастомні патерни для нестандартних сайтів
- Query-параметри та складні URL-схеми
- Автоматичне побудування URL наступної сторінки
- Налаштування діапазону сторінок (start_page, end_page)
- Вказання кількості постів на сторінці для точного відстеження
Гнучке налаштування селекторів
- Підтримка CSS-селекторів будь-якої складності (класи, ID, атрибути, псевдокласи)
- XPath-сумісність для складних структур
- Селектори виключення для видалення реклами та сміття
- Вбудований тестер із попереднім переглядом результатів
- Валідація селекторів перед збереженням
Адміністративна панель
- Інтуїтивний інтерфейс для керування джерелами
- Детальна статистика по кожному джерелу (оброблено матеріалів, прогрес, останній запуск)
- Швидке увімкнення/вимкнення джерел
- Скидання прогресу для повторної обробки
- Редагування джерел із збереженням прогресу
- Вбудована система перевірки оновлень модуля
- Логування всіх дій у admin_logs
Інтелектуальна система збереження зображень під час AI-обробки:
-
- Витягування медіа-елементів перед рерайтом:
- Автоматичне виявлення <img>, <figure>, <picture>, <iframe>, <video>
- Заміна на HTML-коментарі placeholder\'и
- Збереження позицій у структурі документа
- Трирівнева система відновлення:
- Level 1: Пряме зіставлення за маркерами
- Level 2: Інтелектуальне вставлення між параграфами
- Level 3: Додавання в кінець документа при повній втраті
- Фінальне очищення:
- Видалення випадково збережених маркерів із title/description
- Нормалізація HTML-структури
- Валідація медіа-елементів
- Витягування медіа-елементів перед рерайтом:
Множинні джерела витягування головного зображення:
-
- Meta-теги Open Graph і Twitter:
- meta[property=\"og:image\"]
- meta[name=\"twitter:image\"]
- meta[name=\"twitter:image:src\"]
- Адаптивні зображення:
- Підтримка srcset атрибута
- Автоматичний вибір найбільшої роздільної здатності
- Fallback на data-src і data-lazy-src
- Вкладені структури:
- Витягування з <figure>, <picture> контейнерів
- Пошук img всередині wrapper-елементів
- Підтримка CSS background-image
- Meta-теги Open Graph і Twitter:
Переваги використання
- Економія часу: повна автоматизація процесу наповнення сайту — від парсингу до публікації
- Унікальність контенту: AI-рерайт забезпечує оригінальність текстів, що проходять перевірку антиплагіатом
- SEO-оптимізація: автоматична генерація ЧПУ (alt_name), структуровані дані
- Низька вартість: використання DeepSeek знижує витрати на AI у 20 разів порівняно з GPT-4
- Масштабованість: необмежена кількість джерел із Round-Robin балансуванням
- Надійність: захист від дублікатів, автоматичне відновлення з'єднань
- Простота налаштування: авто-визначення CMS, вбудований тестер селекторів
- Універсальність: підтримка будь-яких сайтів з HTML-структурою, RSS-стрічок і гібридних схем
- Модульність: гнучка архітектура з можливістю вимкнення непотрібних компонентів
- Продуктивність: chunk-based обробка, оптимізовані SQL-запити
- Обхід захисту сайтів: автоматичний bypass Cloudflare та інших антибот систем без proxy-сервісів
- Гнучкість налаштування: можливість роботи як із захищеними, так і зі звичайними джерелами
- Економія на проксі: FlareSolverr — безкоштовна альтернатива платним proxy-сервісам
Сценарії застосування
- Новинні агрегатори: автоматичний збір новин із кількох регіональних джерел
- Тематичні блоги: переклад і адаптація закордонного контенту для російськомовної аудиторії
- Оглядові портали: імпорт оглядів технологій, гаджетів, програмного забезпечення
- Регіональні ЗМІ: агрегація місцевих новин із подальшим рерайтом
- Розважальні ресурси: автоматичне наповнення розділів статтями, гайдами, топами
- Освітні платформи: імпорт навчальних матеріалів, статей, посібників
- Бізнес-портали: збір галузевих новин і аналітики
Технічні вимоги та сумісність
- DLE версії: 13.x, 14.x, 15.x, 16.x, 17.x, 18.x, 19.x, 19.1 (повна сумісність)
- PHP: 7.4+ (рекомендується 8.0+)
- Розширення PHP: CURL, DOM, XPath, libxml, GD або Imagick, JSON, mbstring
- MySQL: 5.7+ або MariaDB 10.2+
- Права доступу: запис у /uploads/posts/, /engine/data/, /engine/cache/
- Зовнішні API: DeepSeek API (опціонально, для AI-рерайту)
- CRON: доступ до налаштування завдань crontab
Скріншоти
Виберіть відповідний тариф
Ми пропонуємо гнучкі варіанти ліцензування залежно від ваших потреб.













