Définition
Inférence
L’inférence est le moment où un modèle IA applique ce qu’il a appris à une nouvelle entrée et produit une sortie. En production, c’est là que latence, coût, contrôles de sécurité, retrieval, logs et expérience utilisateur se rencontrent.
Dernière mise à jour : 25 juin 2026
Pourquoi c’est important
C’est le moment où l’IA cesse d’être une démo et devient un coût opérationnel et un sujet de fiabilité.
Signaux à repérer
- Une requête atteint le modèle
- Le modèle renvoie une sortie
- La latence et le coût sont mesurés