Tous les services
🔎 Recherche Produits
Extraction documentaire autonome — machine déterministe + secours IA
📊 Répartition qualité note honnête
📋 Statut des fiches temps réel
🚑 Activité du secours live
Chargement…
Le système prend une liste de 236 produits et, pour chacun, fabrique une fiche de documentation : il trouve la vraie doc, l'aspire, la note honnêtement. Ce qui échoue ou reste pauvre part dans une file qu'un autopilote de secours draine seul, avec un cerveau (Opus). Rien ne tourne inutilement, rien n'écrase jamais un bon résultat.
🐳 cl-masterdrain liste
- Refait les 236 produits via l'entonnoir, de zéro.
- 2 workers, sémaphore 2 slots (anti-saturation mémoire).
- Resumable & reboot-proof.
🚑 cl-secourstimer 10 min
- L'autopilote : 1 cas par tour.
- Phase 1 : répare les fiches rouges.
- Phase 2 : vérifie la complétude des autres.
🌉 hermes-job-bridgedéclencheur
- Hermès déclenche une extraction (bordé).
📊 dashboardcette UI
- Vue live services, crawls, qualité.
1 · 🔍 Resolver
- Trouve l'URL de doc : sitemap, sous-domaines docs./developer.
2 · 📥 Deep-crawler
- Aspire les pages, délai adaptatif.
- Bascule navigateur (camoufox) si JS.
3 · ✓ Validator
- Mesure la pertinence du contenu.
4 · ⚖️ Score honnête
- pertinence × volume × couverture × anti-marketing.
- Une page quasi-vide ne peut plus afficher 100.
5 · 🎯 Décision
- ≥ 80 vert fiche faite.
- 30–79 jaune correcte.
- < 30 rouge → secours.
Phase 1 — réparer le rouge
- Tavily : URLs candidates (web).
- Opus 4.7 : choisit la vraie doc (anti-homonyme).
- Opus 4.8 (web, 14 tours) : cas durs.
- Extraction escaladée : deep → camoufox → proxy.
- → résolu (q≥80) ou needs_human.
Phase 2 — complétude
- Démarre quand plus aucun rouge.
- Coup d'œil gratuit : pages vs sitemap.
- Effort dégressif : faibles ++ · moyens + · excellents : intouchables.
🛡️ Gardes (stabilité)
- Anti-régression : essai moins bon ⇒ restauration exacte.
- Verrou par fiche : pas deux process sur un cas.
- Tampon « vérifié » : pas de boucle.
Le pipeline au centre, ses 5 domaines en branches, et le détail développé en sous-nœuds.
Le flux de bout en bout, façon n8n : chaque nœud est une étape, les couleurs indiquent le type.
docs., sitemap)camoufox si JSdeep → camoufox → proxyMonitoring systeme
🎯 Prod — Bench des moteurs
Comparatif des collecteurs d'extraction · juge constant (même rubrique pour tous)
🏗️ Infrastructure — Pipeline géant
Chaîne d'escalade : on commence cheap, on monte en puissance seulement si la doc manque. Chaque étage ne se déclenche que si le précédent échoue.
1 🖥️ VPS Infra déterministe + LLM d'urgence 💶 · gros volume
- Sitemap / robots / llms.txt → crawl4ai → camoufox si JS. Découverte + extraction automatiques.
- Quelques appels LLM ponctuels : « parmi ces URLs, laquelle est la vraie doc ? » (resolver / secours).
- Traite la majorité de la doc publique facile, sans coût LLM significatif.
2 🌐 Chrome Infra navigateur résidentiel + LLM d'urgence 💶💶
- Mêmes méthodes mais dans un vrai Chrome (IP résidentielle) : JS rendu, cookies, anti-bot léger contourné gratuitement.
- Quelques appels LLM d'urgence (mêmes garde-fous).
3 🧠 Claude Chrome Infra raisonnement max 💶💶💶
- Chrome piloté par Claude Code + TOUTES les méthodes de l'infra pour maximiser nos chances.
- Web search → PDFs profonds (User Guides non liés), détection du vrai portail (pas le marketing/homonyme), API JSON interne (Zendesk…), extraction PDF.
- C'est l'étage qui a fait passer la médiane du bench de 9 → 19.
4 🔒 Résidentiel + Auto-login dernier recours 💶💶💶💶
- Session connectée + auto-register (identité standard), ou extension Claude for Chrome (orange).
- Pour les rares docs derrière login / inscription gratuite.
- Si vraiment rien → 🔴 honnête : pas de doc publique (on n'invente jamais) → revue humaine.
💡 Principes (issus du bench 10 produits)
- Le raisonnement est le levier, pas le navigateur ni l'IP (Claude Chrome 19 vs déterministes 8-9).
- L'IP résidentielle ne sert qu'au gated/WAF (étage 4) — inutile de monter avant.
- Vérifier la catégorie taxo avant de scorer (Langner +13 juste en corrigeant).
- Le mur n'est presque jamais le login : cause n°1 = l'éditeur ne publie pas de doc conformité. On n'invente pas.
🔋 PC a distance
🔌 Multiprise — touchez une prise pour l'allumer/éteindre
⚡ Consommation & coût (estimation)
Lance
Install-PilotagePC.ps1 sur le PC.Parametres
Informations VPS
Apparence
Systeme
Export / Import
Exporter ou importer la configuration (todos, parametres)