CL Pipeline v5.1
Infrastructure & Architecture — Compliance Labs
Online v5.1 OVH Debian 2026-05-05
🎬 Vue Animée
📊 Vue Structurée
📄 Documentation
📥 Batch JSON
software · vendor · category · doc_url
🔍 domain_validator.py
5 niveaux L1–L4 · score 0–100 · VALIDATED / WARNING / REJECTED
⚡ PIPELINE ORCHESTRATOR
pipeline.py · parallel_batch.py (2 workers max)
🔗 DocFinder
Trouve doc_url
Sup D0–D3
🌐 HTMLHunter
deep-crawler v4.0
Sup S1–S6
📄 PDFHunter
pdftext extraction
Sup P0–P4
📚 KBHunter
Articles Knowledge Base
Sup K0–K4
🔌 APIDocHunter
API documentation
Sup A0–A4
🔎 search_router.py
Fallback chain · Cache 24h JSON
Tavily API
$0.008/req · contenu direct
Brave API
BSA5ZO… · cache 7j
DuckDuckGo
fallback gratuit
✅ content_validator.py
VALID · MARKETING · THIN · GATED · keyword scoring + LLM optionnel
🧠 vector_memory.py
LanceDB TF-IDF · remember/find_similar · EMBED_DIM=128
📦 all_resolved.json + Reports JSON/MD
Dashboard Node.js :8585 · /home/debian/.openclaw/workspace/
🔄 recover.py
7 types d'échecs
semantic_domain_search · Tavily
📊 doc_analyzer.py
10 catégories exhaustives
Security · Compliance · CVE…
⚙️ parallel_batch.py
2 workers max
contrainte OVH anti-DDoS
VPS OVH Debian
57.129.78.250
8GB RAM · 74GB disque · 46% utilisé
Docker: openclaw
En ligne
Pipeline isolation
Docker: n8n
En ligne
Workflow automation
Dashboard Node.js
:8585
dashboard.compliance-labs.com
📈 Statistiques globales
8
Fichiers Python
5
Outils collecte
5
Superviseurs
3
Sources Search
4
Labels validation
7
Types recovery
10
Catégories docs
2
Workers max
🗂️ Composants
Composant Fichier Rôle Entrée → Sortie Statut
Domain Validator domain_validator.py 5 niveaux L1–L4, score 0–100 Domaine → VALIDATED / WARNING / REJECTED ✓ Actif
Pipeline Orchestrator pipeline.py Orchestre 5 outils en séquence/parallèle Batch JSON → all_resolved.json ✓ Actif
DocFinder pipeline.py Trouve l'URL de documentation officielle Domaine → doc_url ✓ Sup D0–D3
HTMLHunter deep-crawler.py Crawl HTML (sitemap, SPA 3 strategies) doc_url → HTML pages ✓ v4.0 Sup S1–S6
PDFHunter pipeline.py Collecte PDFs (pdftext) doc_url → PDFs ✓ Sup P0–P4
KBHunter pipeline.py Articles Knowledge Base Domaine → Articles KB ✓ Sup K0–K4
APIDocHunter pipeline.py Documentation API Domaine → API docs ✓ Sup A0–A4
Search Router search_router.py Chaîne fallback Tavily→Brave→DDG, cache 24h Query → Résultats web ✓ Actif
Content Validator content_validator.py VALID / MARKETING / THIN / GATED HTML/MD/PDF → Label + score ✓ v2 LLM optionnel
Vector Memory vector_memory.py LanceDB TF-IDF, EMBED_DIM=128 Texte → Vecteur/Similarité ✓ Actif
Recover recover.py 7 types d'échecs, Tavily-powered Échecs → Retry corrigés ✓ semantic_domain_search
Doc Analyzer doc_analyzer.py 10 catégories (Security, CVE, Compliance…) Docs → Catégories + scores ✓ Actif
Parallel Batch parallel_batch.py 2 workers max (OVH anti-DDoS) Batch → Résultats parallèles ✓ Actif
🤖 Superviseurs Self-Improvement
Superviseur Trigger Stratégies Learning DB
HTMLHunterSupervisor HTMLHunter < 500 chars S1S2S3S4S5S6 learning-db.json
DocFinderSupervisor doc_url == None D0D1D2D3 learning-db.json
PDFHunterSupervisor < 3 PDFs P0P1P2P3P4 learning-db.json
KBHunterSupervisor < 2 articles KB K0K1K2K3K4 learning-db.json
APIDocHunterSupervisor < 2 API docs A0A1A2A3A4 learning-db.json
🔗 Matrice de dépendances
Appelant → domain_validator pipeline deep-crawler search_router content_validator vector_memory recover doc_analyzer
pipeline.py
deep-crawler.py
recover.py
doc_analyzer.py
parallel_batch.py

CL Pipeline v5.1 — Documentation Technique

Infrastructure de collecte automatique de documentation pour 1500+ produits logiciels, hébergée sur VPS OVH Debian.

1. Architecture globale

Le pipeline suit une architecture en 6 étapes :

2. Self-Improvement

Chaque superviseur enregistre ses tentatives (succès/échec) dans learning-db.json. Au run suivant sur le même domaine, il consulte l'historique, skip les échecs connus, et va directement aux stratégies qui fonctionnent.

{
  "sites": {},
  "patterns": {},
  "stats": {},
  "crawl_outcomes": {},
  "successful_strategies": {},
  "doc_urls": {},
  "pdf_sources": {},
  "kb_sources": {},
  "api_sources": {}
}

3. Search Router

Chaîne de fallback unifiée :

Cache 24h JSON dans /home/debian/.openclaw/workspace/search_cache.json

4. Content Validator v2

Labels de classification :

LLM fallback Claude Sonnet pour cas UNKNOWN (si ANTHROPIC_API_KEY défini).

5. Infrastructure VPS

6. Contraintes OVH

Le VPS a une IP datacenter OVH. Certains sites (CTERA, etc.) bloquent les IPs datacenter — comportement normal, pas un bug. Maximum 2 workers en parallèle pour éviter les blocages anti-DDoS.

7. Déploiement

# Éditer localement dans sources/
# Upload :
scp -i ~/.ssh/vps_key "sources/fichier.py" debian@57.129.78.250:/tmp/
ssh -i ~/.ssh/vps_key debian@57.129.78.250 "sudo cp /tmp/fichier.py /opt/tools/fichier.py"
# Vérifier :
ssh -i ~/.ssh/vps_key debian@57.129.78.250 "python3 -c 'import sys; sys.path.insert(0,\"/opt/tools\"); import pipeline; print(\"OK\")'"