DLE Parser PRO
DLE Parser PRO — dış kaynaklardan içerik ayrıştırma ve yayınlama işlemlerini DataLife Engine içinde otomatikleştirmek için profesyonel bir modüldür. Üç modu destekler: HTML ayrıştırma (CSS seçicileri/XPath), RSS/Atom'dan içe aktarma ve hibrit mod. CMS'yi (WordPress, Joomla, Drupal vb.) otomatik olarak algılar, görselleri indirir ve WebP'ye dönüştürür, DeepSeek aracılığıyla AI yeniden yazımı gerçekleştirir. Yerleşik Round-Robin zamanlayıcı, materyalleri kaynaklar arasında eşit şekilde dağıtır.
Şimdi satın alDLE Parser PRO — DataLife Engine üzerinde çalışan web projelerinin sahipleri için, siteyi kaliteli içerikle doldurma sürecinin tam otomasyonuna ihtiyaç duyanlar için kurumsal düzeyde kapsamlı bir çözümdür. Modül, yapay zekânın ileri teknolojilerini kullanarak dış kaynaklardan materyalleri çıkaran, işleyen ve yayınlayan güçlü bir sistemdir.
Modül mimarisi: üç ayrıştırma modu
HTML Parser — klasik web scraping
- İçeriğin doğrudan web sayfalarının HTML yapısından çıkarılması
- Özelleştirilebilir gezinme kalıplarıyla karmaşık sayfalama desteği
- Site yapısının ve CMS'nin otomatik olarak tespit edilmesi
- CSS seçicileri ve XPath ifadeleriyle hassas çıkarım
- Dinamik içerik ve AJAX yüklemelerinin işlenmesi
- İki yönlü ayrıştırma desteği (yeniden eskiye / eskiden yeniye)
- İlerlemenin otomatik takibiyle sayfa aralığı ayarlama
- HTML sayfasındaki makale içeriğinden doğrudan CSS seçicileri aracılığıyla DLE'nin ek alanlarına dosyaların, görsellerin, videoların ve galerilerin otomatik indirilmesi
- Tüm çıkarım türlerinin desteği: href, src, data-src, data-href, content, text, html
- İçerik temizleme filtresi aracılığıyla tam HTML bloklarının (özellik tabloları, biçimlendirilmiş açıklamalar) ek alanlarda korunması
RSS/Atom Parser — haber beslemeleriyle çalışma
- RSS 2.0, RSS 1.0 (RDF) ve Atom 1.0 formatları için yerel destek
- Birden çok kaynaktan görsellerin akıllı çıkarımı (enclosure, media:content, media:thumbnail, media:group)
- Namespace'lerin otomatik işlenmesi (media, content, dc, atom)
- Meta verilerin çıkarılması: yazar, yayın tarihi, kategoriler
- Tam ve kısa içeriğin desteği (content:encoded, description)
- RSS içeriğinin reklam bloklarından filtrelenmesi ve temizlenmesi
- Birincil görselin doğrudan makale sayfasından meta[property="og:image"] ve meta[property="twitter:image"] üzerinden öncelikli olarak alınması; RSS görseli yedek kaynak olarak kullanılır
Hybrid Parser — RSS ve HTML'in en uygun birleşimi
- Güncel materyallerin listesini almak için RSS kullanımı
- İçeriğin tamamının HTML sürümünden ayrıştırılması
- Öncelikli veri seçimi sistemi (HTML, RSS'ye göre önceliklidir)
- Her iki kaynaktan gelen meta verilerin birleştirilmesi
- Maksimum çıkarım kalitesiyle optimal çalışma hızı
- Görseller için en kapsamlı kaynağın otomatik olarak belirlenmesi
Teknolojik temel ve altyapı
Akıllı CMS tespit sistemi
- 18+ popüler CMS ve framework'ün otomatik olarak tanınması
- Desteklenen platformlar: WordPress, Joomla, Drupal, 1C-Bitrix, DLE, MODX, OpenCart
- Blog platformları: Ghost, Medium, Blogger, Tilda, Webflow
- jаvascript framework'leri: Next.js, Gatsby, Hugo, Jekyll
- E-ticaret: Shopify, WooCommerce, Magento
- Kesin tespit için HTTP başlıklarının ve meta etiketlerinin analizi
- Her CMS için en uygun CSS seçicilerinin otomatik önerilmesi
DeepSeek API üzerinden AI yeniden yazımı
- DeepSeek-V3 ile entegrasyon — 671B parametreye sahip ileri düzey bir dil modeli
- Chunk-based işleme: uzun makalelerin en uygun parçalara bölünmesi
- Yeniden yazım sırasında HTML yapısının korunması (etiketler, biçimlendirme, listeler)
- Üç seviyeli işleme: başlıklar, kısa açıklama, tam metin
- Her içerik türü için özelleştirilebilir istemler
- AI artefaktlarının otomatik temizlenmesi (code blocks, açıklamalar)
- Oran sınırlama ve otomatik yeniden denemelerle API hata işleme
- Ekonomiklik: işlem maliyeti GPT-4'e göre 20 kat daha düşük
İki seviyeli koruma atlatma sistemi:
- Level 1: Gelişmiş cURL
- Chrome 131'in tam taklidiyle HTTP/2 desteği
- Temel filtrelemeyi aşmak için Sec-Fetch-* başlıkları
- İstekler arasında çerez kalıcılığı
- Cloudflare challenges'ların otomatik tespiti
- Level 2: FlareSolverr Integration (isteğe bağlı)
- jаvascript challenges'ları aşmak için tam teşekküllü headless Chrome
- Cloudflare captcha'sının otomatik çözümü
- Turnstile ve diğer koruma mekanizmalarının desteği
- Engelleme tespit edildiğinde şeffaf geçiş
- Bypass ihtiyacının akıllı tespiti:
- \"Just a moment\", \"Checking your browser\" kontrolleri
- cf-browser-verification algılama
- Uygun olduğunda standart cURL'e otomatik fallback
- Cloudflare bypass için sistem gereksinimleri:
- Docker (FlareSolverr için)
- En az 1GB RAM
- Konteyner çalıştırabilen VPS
Profesyonel görsel işleme
- HTTPS ve yönlendirme desteğiyle görsellerin otomatik indirilmesi
- Disk alanında %30-50 tasarruf için WebP'ye dönüştürme
- Oranları koruyarak akıllı yeniden boyutlandırma (GD/Imagick)
- Birden çok format desteği: JPEG, PNG, GIF, WebP
- Ana görselin meta verilerle birlikte xfield'da saklanması
- İçerikteki tüm görsellerin yerel kopyalarla değiştirilmesi
- Benzersiz dosya adlarının otomatik oluşturulması
- Tarih bazlı dosya yapısının düzenlenmesi (YYYY-MM)
Round-Robin görev zamanlayıcı
- Tüm aktif kaynaklar arasında yükün eşit dağıtılması
- Dengeli içe aktarma için kaynakların otomatik rotasyonu
- Her kaynak için ilerlemenin ayrı ayrı izlenmesi
- Bir CRON çalıştırmasında işlenecek gönderi sayısının ayarlanması
- Secret Key (32 karakterli token) ile CRON endpoint koruması
- Tüm ayrıştırma işlemlerinin ayrıntılı kaydı
- Hem eski (engine/ajax/controller.php) hem de yeni (index.php?controller=ajax) DLE sürümlerinin desteği
Kategori yönetim sistemi
Akıllı kategori eşleştirme
- RSS akışlarından ve HTML yapısından kategorilerin otomatik toplanması
- Tüm benzersiz kategorileri çıkarmak için makalelerin toplu işlenmesi
- Kaynak kategorilerini DLE kategorileriyle eşleştirmek için görsel arayüz
- DLE hiyerarşik kategorilerinin desteği
- Eşleştirilmemiş materyaller için varsayılan kategori
- Tek bir materyal için birden çok kategori
Koruma ve güvenilirlik
Yinelenenleri önleme sistemi
- xfields’te kaynak URL’sine göre materyalin varlığının kontrol edilmesi
- Son işlenen konumun (sayfa/URL) izlenmesi
- Zaten içe aktarılmış materyallerin otomatik olarak atlanması
- Her kaynak için ilerlemenin veritabanında kaydedilmesi
Çalışma kararlılığı
- Zaman aşımı durumlarında veritabanı bağlantısının otomatik olarak yeniden kurulması
- Ayrıntılı günlükleme ile cURL hatalarının işlenmesi
- SSL sertifikalarına destek ve engellemelerin aşılması
- Tarayıcı isteklerini taklit etmek için User-Agent rotasyonu
- Uzun süren işlemler için timeout kontrolü
FlareSolverr üzerinden Cloudflare Bypass
- Cloudflare Bot Management’i aşmak için FlareSolverr ile entegrasyon
- Koruma tespit edildiğinde headless browser’a otomatik geçiş
- Ayarlar üzerinden isteğe bağlı etkinleştirme (tüm kaynaklar için gerekli değildir)
- Graceful degradation: FlareSolverr devre dışıyken normal sitelerle çalışma
- Oturumların otomatik yönetimiyle Docker tabanlı çözüm
- jаvascript challenges ve cookie tabanlı kontroller için destek
- Koruma aşma girişimlerinin ayrıntılı günlüğe kaydedilmesi
Genişletilmiş özellikler
Ek alanlar: dosya, medya ve galeri indirme
- Her kaynak için form üzerinden doğrudan isteğe göre ek alan sayısı ayarlama — ekleme/düzenleme formundan
- Her alan için şu bilgiler belirlenir: öğenin CSS seçicisi, çıkarma niteliği (href, src, data-src, data-href, content, text, html) ve işlem türü
- Desteklenen işlem türleri: URL/metin kaydetme, dosya indirme, meta verilerle birlikte görsel indirme, video indirme, videoya dış bağlantı (YouTube/Vimeo), toplu görsel indirmeli galeri, URL listesinden galeri
- Galeri modu: seçiciyle bulunan tüm öğelerin otomatik olarak taranması, her birinin indirilmesi ve tek bir alanda DLE galeri formatında kaydedilmesi
- Video dosyaları ve indirilebilir dosyalar uploads/public_files/ içine tarih bazlı yapı ile (YYYY-MM) kaydedilir
- Ek alan görselleri uploads/posts/ içine otomatik boyut tespiti ve DLE formatında meta veri oluşturma ile kaydedilir (genişlik×yükseklik, dosya boyutu)
- Video alanları yerel DLE formatında düzenlenir: tip 3 (yerel video) veya tip 1 (dış bağlantı)
- extractExtraFieldsFromDom() metodu temel sınıf BaseParser’a (protected) taşındı — hem HTML hem de Hybrid parser için kod tekrarı olmadan erişilebilir
Sayfalama ve gezinme ayarları
- Standart kalıplar desteği: /page/{page}/, ?page={page}, /p/{page}, /offset/{page}
- Standart olmayan siteler için özel kalıplar
- Sorgu parametreleri ve karmaşık URL şemaları
- Sonraki sayfa URL’sinin otomatik oluşturulması
- Sayfa aralığı ayarı (start_page, end_page)
- Hassas izleme için sayfa başına gönderi sayısının belirtilmesi
Esnek seçici ayarları
- Her karmaşıklıkta CSS seçicileri desteği (sınıflar, ID, nitelikler, sözde sınıflar)
- Karmaşık yapılar için XPath uyumluluğu
- Reklamları ve gereksiz içeriği kaldırmak için dışlama seçicileri
- Sonuçların önizlemesiyle yerleşik test aracı
- Kaydetmeden önce seçici doğrulaması
Yönetim paneli
- Kaynakları yönetmek için sezgisel arayüz
- Her kaynak için ayrıntılı istatistikler (işlenen içerikler, ilerleme, son çalıştırma)
- Kaynakları hızlıca etkinleştirme/devre dışı bırakma
- Yeniden işleme için ilerlemeyi sıfırlama
- İlerlemi koruyarak kaynakları düzenleme
- Modül güncellemelerini kontrol etmek için yerleşik sistem
- Tüm işlemlerin admin_logs içinde kaydedilmesi
AI işleme sırasında görselleri kaydetmek için akıllı sistem:
-
- Yeniden yazımdan önce medya öğelerinin çıkarılması:
- <img>, <figure>, <picture>, <iframe>, <video> öğelerinin otomatik olarak algılanması
- HTML yorumları placeholder\'ları ile değiştirilmesi
- Belge yapısındaki konumların korunması
- Üç seviyeli geri yükleme sistemi:
- Seviye 1: İşaretleyicilerle doğrudan eşleştirme
- Seviye 2: Paragraflar arasına akıllı ekleme
- Seviye 3: Tam kayıp durumunda belgenin sonuna ekleme
- Nihai temizlik:
- title/description içinden yanlışlıkla kaydedilen işaretleyicilerin kaldırılması
- HTML yapısının normalleştirilmesi
- Medya öğelerinin doğrulanması
- Yeniden yazımdan önce medya öğelerinin çıkarılması:
Ana görseli çıkarmak için çoklu kaynaklar:
-
- Open Graph ve Twitter meta etiketleri:
- meta[property=\"og:image\"]
- meta[name=\"twitter:image\"]
- meta[name=\"twitter:image:src\"]
- Uyarlanabilir görseller:
- srcset özniteliği desteği
- En yüksek çözünürlüğün otomatik seçimi
- data-src ve data-lazy-src için fallback
- İç içe yapılar:
- <figure>, <picture> kapsayıcılarından çıkarma
- wrapper öğeleri içindeki img arama
- CSS background-image desteği
- Open Graph ve Twitter meta etiketleri:
Kullanım avantajları
- Zaman tasarrufu: site içerik doldurma sürecinin tam otomasyonu — ayrıştırmadan yayına kadar
- İçeriğin özgünlüğü: AI yeniden yazımı, antiplajyarizm kontrolünden geçen metinlerin özgünlüğünü sağlar
- SEO optimizasyonu: otomatik SEF URL (alt_name) üretimi, yapılandırılmış veriler
- Düşük maliyet: DeepSeek kullanımı, GPT-4 ile karşılaştırıldığında AI maliyetlerini 20 kat azaltır
- Ölçeklenebilirlik: Round-Robin dengeleme ile sınırsız sayıda kaynak
- Güvenilirlik: yinelenenlere karşı koruma, bağlantıların otomatik olarak yeniden kurulması
- Kolay kurulum: CMS otomatik algılama, yerleşik seçici test aracı
- Çok yönlülük: HTML yapısına sahip herhangi bir site, RSS akışları ve hibrit şemalar desteği
- Modülerlik: gereksiz bileşenleri devre dışı bırakma imkânına sahip esnek mimari
- Performans: chunk tabanlı işleme, optimize edilmiş SQL sorguları
- Sitelerin korumasını aşma: proxy servisleri olmadan Cloudflare ve diğer antibot sistemlerinin otomatik bypass edilmesi
- Kurulum esnekliği: hem korumalı hem de sıradan kaynaklarla çalışma imkânı
- Proxy tasarrufu: FlareSolverr — ücretli proxy servislerine ücretsiz alternatif
Kullanım Senaryoları
- Haber toplayıcılar: birkaç bölgesel kaynaktan haberlerin otomatik toplanması
- Tematik bloglar: yabancı içeriğin Rusça konuşan kitle için çevrilmesi ve uyarlanması
- İnceleme portalları: teknoloji, gadget ve yazılım incelemelerinin içe aktarılması
- Bölgesel medya: yerel haberlerin toplanıp ardından yeniden yazılması
- Eğlence kaynakları: bölümlerin makaleler, rehberler ve top listeleriyle otomatik doldurulması
- Eğitim platformları: eğitim materyallerinin, makalelerin ve kılavuzların içe aktarılması
- İş portalları: sektör haberlerinin ve analizlerin toplanması
Teknik gereksinimler ve uyumluluk
- DLE sürümleri: 13.x, 14.x, 15.x, 16.x, 17.x, 18.x, 19.x, 19.1 (tam uyumluluk)
- PHP: 7.4+ (önerilen 8.0+)
- PHP uzantıları: CURL, DOM, XPath, libxml, GD veya Imagick, JSON, mbstring
- MySQL: 5.7+ veya MariaDB 10.2+
- Erişim izinleri: /uploads/posts/, /engine/data/, /engine/cache/ dizinlerine yazma
- Dış API'ler: DeepSeek API (isteğe bağlı, AI yeniden yazımı için)
- CRON: crontab görevlerini yapılandırma erişimi
Ekran görüntüleri
Uygun planı seçin
İhtiyaçlarınıza bağlı olarak esnek lisanslama seçenekleri sunuyoruz.













