Lab

Publications et projets en ligne

Articles, repos et notes de travail, en accès libre.

Coût d'inférencePublié - 9 avril 2026

Batch Inference

Pourquoi le batch inference peut réduire nettement les coûts sur les workloads IA qui n'ont pas besoin de temps réel.

La valeur vient souvent d'abord d'une meilleure architecture de coût, pas d'un modèle plus gros.

Workflows agentiquesPublié - 27 janvier 2026

Claude-Book

La version publique actuelle de Claude-Book montre comment j'orchestre plusieurs agents, des états et plusieurs passes de travail autour d'un système d'écriture.

Comment concevoir des workflows agentiques plus riches qu'un wrapper ou qu'un chatbot linéaire.

Simplification RAGPublié - 29 mars 2026

retrieval-arena

Un repo pour comparer des approches de retrieval et documenter quand les embeddings ajoutent vraiment de la valeur.

Réduire la complexité d'un stack RAG améliore souvent le délai de livraison, la maintenance et le coût total.