DLE Parser PRO
DLE Parser PRO — профессиональный модуль для автоматизации парсинга и публикации контента из внешних источников в DataLife Engine. Поддерживает три режима: HTML-парсинг (CSS-селекторы/XPath), импорт из RSS/Atom и гибридный режим. Автоматически определяет CMS (WordPress, Joomla, Drupal и др.), скачивает и конвертирует изображения в WebP, выполняет AI-рерайт через DeepSeek. Встроенный Round-Robin планировщик равномерно распределяет материалы между источниками.
Купить сейчасDLE Parser PRO — это комплексное решение корпоративного уровня для владельцев веб-проектов на DataLife Engine, которым необходима полная автоматизация процесса наполнения сайта качественным контентом. Модуль представляет собой мощную систему извлечения, обработки и публикации материалов из внешних источников с применением передовых технологий искусственного интеллекта.
Архитектура модуля: три режима парсинга
HTML Parser — классический веб-скрейпинг
- Извлечение контента непосредственно из HTML-структуры веб-страниц
- Поддержка сложной пагинации с настраиваемыми паттернами навигации
- Автоматическое определение структуры сайта и CMS
- Точное извлечение через CSS-селекторы и XPath-выражения
- Обработка динамического контента и AJAX-загрузок
- Поддержка двунаправленного парсинга (от новых к старым / от старых к новым)
- Настройка диапазона страниц с автоматическим отслеживанием прогресса
RSS/Atom Parser — работа с лентами новостей
- Нативная поддержка RSS 2.0, RSS 1.0 (RDF) и Atom 1.0 форматов
- Интеллектуальное извлечение изображений из множественных источников (enclosure, media:content, media:thumbnail, media:group)
- Автоматическая обработка namespaces (media, content, dc, atom)
- Извлечение метаданных: автор, дата публикации, категории
- Поддержка полного и краткого контента (content:encoded, description)
- Фильтрация и очистка RSS-контента от рекламных блоков
Hybrid Parser — оптимальное сочетание RSS и HTML
- Использование RSS для получения списка актуальных материалов
- Парсинг полного контента с HTML-версии страницы
- Приоритетная система выбора данных (HTML превалирует над RSS)
- Объединение метаданных из обоих источников
- Оптимальная скорость работы при максимальном качестве извлечения
- Автоматическое определение наиболее полного источника изображений
Технологическая база и инфраструктура
Интеллектуальная система обнаружения CMS
- Автоматическое распознавание 18+ популярных CMS и фреймворков
- Поддерживаемые платформы: WordPress, Joomla, Drupal, 1C-Bitrix, DLE, MODX, OpenCart
- Платформы блогов: Ghost, Medium, Blogger, Tilda, Webflow
- jаvascript-фреймворки: Next.js, Gatsby, Hugo, Jekyll
- E-commerce: Shopify, WooCommerce, Magento
- Анализ HTTP-заголовков и meta-тегов для точного определения
- Автоматическое предложение оптимальных CSS-селекторов для каждой CMS
AI-рерайтинг через DeepSeek API
- Интеграция с DeepSeek-V3 — передовой языковой моделью с 671B параметрами
- Chunk-based обработка: разбиение длинных статей на оптимальные фрагменты
- Сохранение HTML-структуры при рерайте (теги, форматирование, списки)
- Трёхуровневая обработка: заголовки, краткое описание, полный текст
- Настраиваемые промпты для каждого типа контента
- Автоматическое удаление артефактов AI (code blocks, пояснения)
- Rate limiting и обработка ошибок API с автоматическими повторами
- Экономичность: стоимость обработки в 20 раз ниже GPT-4
Двухуровневая система обхода защиты:
- Level 1: Enhanced cURL
- HTTP/2 поддержка с полной имитацией Chrome 131
- Sec-Fetch-* headers для обхода базовой фильтрации
- Cookie persistence между запросами
- Автоматическое определение Cloudflare challenges
- Level 2: FlareSolverr Integration (опционально)
- Полноценный headless Chrome для обхода jаvascript challenges
- Автоматическое решение Cloudflare captcha
- Поддержка Turnstile и других защитных механизмов
- Прозрачное переключение при обнаружении блокировки
- Интеллектуальное определение необходимости bypass:
- Проверка на "Just a moment", "Checking your browser"
- Детектирование cf-browser-verification
- Автоматический fallback на стандартный cURL при доступности
- Системные требования для Cloudflare bypass:
- Docker (для FlareSolverr)
- Минимум 1GB RAM
- VPS с возможностью запуска контейнеров
Профессиональная обработка изображений
- Автоматическое скачивание изображений с поддержкой HTTPS и редиректов
- Конвертация в WebP для экономии 30-50% дискового пространства
- Интеллектуальный resize с сохранением пропорций (GD/Imagick)
- Поддержка множественных форматов: JPEG, PNG, GIF, WebP
- Сохранение главного изображения в xfield с метаданными
- Замена всех изображений в контенте на локальные копии
- Автоматическая генерация уникальных имён файлов
- Организация файловой структуры по датам (YYYY-MM)
Round-Robin планировщик задач
- Равномерное распределение нагрузки между всеми активными источниками
- Автоматическая ротация источников для сбалансированного импорта
- Отслеживание прогресса для каждого источника индивидуально
- Настройка количества постов за одно выполнение CRON
- Защита CRON-эндпоинта через Secret Key (32-символьный токен)
- Детальное логирование всех операций парсинга
- Поддержка как старых (engine/ajax/controller.php), так и новых (index.php?controller=ajax) версий DLE
Система управления категориями
Интеллектуальный маппинг категорий
- Автоматический сбор категорий из RSS-лент и HTML-структуры
- Пакетная обработка статей для извлечения всех уникальных категорий
- Визуальный интерфейс для сопоставления категорий источника с категориями DLE
- Поддержка иерархических категорий DLE
- Категория по умолчанию для немаппированных материалов
- Множественные категории для одного материала
Защита и надёжность
Система предотвращения дубликатов
- Проверка существования материала по URL источника в xfields
- Отслеживание последней обработанной позиции (страница/URL)
- Автоматический пропуск уже импортированных материалов
- Сохранение прогресса в БД для каждого источника
Стабильность работы
- Автоматическое восстановление соединения с БД при таймаутах
- Обработка ошибок cURL с детальным логированием
- Поддержка SSL-сертификатов и обход блокировок
- User-Agent rotation для имитации браузерных запросов
- Timeout-контроль для долгих операций
Cloudflare Bypass через FlareSolverr
- Интеграция с FlareSolverr для обхода Cloudflare Bot Management
- Автоматическое переключение на headless browser при обнаружении защиты
- Опциональная активация через настройки (не требуется для всех источников)
- Graceful degradation: работа с обычными сайтами при отключенном FlareSolverr
- Docker-based решение с автоматическим управлением сессиями
- Поддержка jаvascript challenges и cookie-based проверок
- Детальное логирование попыток обхода защиты
Расширенные возможности
Настройка пагинации и навигации
- Поддержка стандартных паттернов: /page/{page}/, ?page={page}, /p/{page}, /offset/{page}
- Кастомные паттерны для нестандартных сайтов
- Query-параметры и сложные URL-схемы
- Автоматическое построение URL следующей страницы
- Настройка диапазона страниц (start_page, end_page)
- Указание количества постов на странице для точного отслеживания
Гибкая настройка селекторов
- Поддержка CSS-селекторов любой сложности (классы, ID, атрибуты, псевдоклассы)
- XPath-совместимость для сложных структур
- Селекторы исключения для удаления рекламы и мусора
- Встроенный тестер с предварительным просмотром результатов
- Валидация селекторов перед сохранением
Административная панель
- Интуитивный интерфейс для управления источниками
- Детальная статистика по каждому источнику (обработано материалов, прогресс, последний запуск)
- Быстрое включение/отключение источников
- Сброс прогресса для переобработки
- Редактирование источников с сохранением прогресса
- Встроенная система проверки обновлений модуля
- Логирование всех действий в admin_logs
Интеллектуальная система сохранения изображений при AI-обработке:
-
- Извлечение медиа-элементов перед рерайтом:
- Автоматическое обнаружение <img>, <figure>, <picture>, <iframe>, <video>
- Замена на HTML-комментарии placeholder'ы
- Сохранение позиций в структуре документа
- Трёхуровневая система восстановления:
- Level 1: Прямое сопоставление по маркерам
- Level 2: Интеллектуальная вставка между параграфами
- Level 3: Добавление в конец документа при полной потере
- Финальная очистка:
- Удаление случайно сохранённых маркеров из title/description
- Нормализация HTML-структуры
- Валидация медиа-элементов
- Извлечение медиа-элементов перед рерайтом:
Множественные источники извлечения главного изображения:
-
- Meta-теги Open Graph и Twitter:
- meta[property="og:image"]
- meta[name="twitter:image"]
- meta[name="twitter:image:src"]
- Адаптивные изображения:
- Поддержка srcset атрибута
- Автоматический выбор наибольшего разрешения
- Fallback на data-src и data-lazy-src
- Вложенные структуры:
- Извлечение из <figure>, <picture> контейнеров
- Поиск img внутри wrapper-элементов
- Поддержка CSS background-image
- Meta-теги Open Graph и Twitter:
Преимущества использования
- Экономия времени: полная автоматизация процесса наполнения сайта — от парсинга до публикации
- Уникальность контента: AI-рерайт обеспечивает оригинальность текстов, проходящих проверку антиплагиата
- SEO-оптимизация: автоматическая генерация ЧПУ (alt_name), структурированные данные
- Низкая стоимость: использование DeepSeek снижает расходы на AI в 20 раз по сравнению с GPT-4
- Масштабируемость: неограниченное количество источников с Round-Robin балансировкой
- Надёжность: защита от дубликатов, автоматическое восстановление соединений
- Простота настройки: автоопределение CMS, встроенный тестер селекторов
- Универсальность: поддержка любых сайтов с HTML-структурой, RSS-лент и гибридных схем
- Модульность: гибкая архитектура с возможностью отключения ненужных компонентов
- Производительность: chunk-based обработка, оптимизированные SQL-запросы
- Обход защиты сайтов: автоматический bypass Cloudflare и других антибот систем без прокси-сервисов
- Гибкость настройки: возможность работы как с защищёнными, так и с обычными источниками
- Экономия на прокси: FlareSolverr — бесплатная альтернатива платным proxy-сервисам
Сценарии применения
- Новостные агрегаторы: автоматический сбор новостей с нескольких региональных источников
- Тематические блоги: перевод и адаптация зарубежного контента для русскоязычной аудитории
- Обзорные порталы: импорт обзоров технологий, гаджетов, программного обеспечения
- Региональные СМИ: агрегация местных новостей с последующим рерайтом
- Развлекательные ресурсы: автоматическое наполнение разделов статьями, гайдами, топами
- Образовательные платформы: импорт учебных материалов, статей, руководств
- Бизнес-порталы: сбор отраслевых новостей и аналитики
Технические требования и совместимость
- DLE версии: 13.x, 14.x, 15.x, 16.x, 17.x, 18.x, 19.x (полная совместимость)
- PHP: 7.4+ (рекомендуется 8.0+)
- Расширения PHP: CURL, DOM, XPath, libxml, GD или Imagick, JSON, mbstring
- MySQL: 5.7+ или MariaDB 10.2+
- Права доступа: запись в /uploads/posts/, /engine/data/, /engine/cache/
- Внешние API: DeepSeek API (опционально, для AI-рерайта)
- CRON: доступ к настройке заданий crontab
Скриншоты
Выберите подходящий тариф
Мы предлагаем гибкие варианты лицензирования в зависимости от ваших потребностей.












