AI Insights

Qualité, latence, cache et fallback par fonction AI — lecture directe de ClickHouse (observabilité TensorZero).

Deà
Inférences
Épisodes
Succès gen.
Cache hit
Fallback modèle
Latence p50
Latence p95
TTFT p95
Troncature
Volume d'inférences, par fonction
Aucune donnée sur la période.
Finish reasons (appels modèle)
Aucune donnée sur la période.
Top modèles (appels)
Aucune donnée sur la période.
Par fonction — qualité, latence & cache
FonctionInf.Succèsp50p95TTFT p95Tronq.CacheTok. inTok. outCoût
Aucune donnée.

« Succès » = metric generation_success (fonctions JSON uniquement). Le fallback modèle est détaillé plus bas.

Détail tokens
Tokens in
Tokens out
Total
Cache-read
Cache-write
% input en cache
Coût
Aucune donnée sur la période.
FonctionAppelsInOutTotalCache-read% cacheCache-writeMoy. in/appelMoy. out/appelCoût
Aucune donnée.

« Cache-read/write » = prompt cache provider (Anthropic/Bedrock). « % cache » = part de l'input servie depuis le cache (lecture à ~10% du prix). « Moy. in/appel » élevé = prompt volumineux.

Profondeur des conversations chat

Aucune donnée.

Fallback modèle par fonction
FonctionPrincipal (observé)Inf.FallbackTop fallback
Aucune donnée.

Part des inférences servies hors du variant le plus utilisé de la fonction (modèle principal de facto). = le candidat configuré (candidate_variants) n'est pas le modèle réellement servi.

Top users (volume d'inférences)
UserInf.Épisodes
Aucune donnée.
Par modèle × provider
ModèleAppelsCachep50p95Tok. inTok. outCoût
Aucune donnée.