AI Insights
Qualité, latence, cache et fallback par fonction AI — lecture directe de ClickHouse (observabilité TensorZero).
Deà
Inférences
—
Épisodes
—
Succès gen.
—
Cache hit
—
Fallback modèle
—
Latence p50
—
Latence p95
—
TTFT p95
—
Troncature
—
Volume d'inférences, par fonction
Aucune donnée sur la période.
Finish reasons (appels modèle)
Aucune donnée sur la période.
Top modèles (appels)
Aucune donnée sur la période.
Par fonction — qualité, latence & cache
| Fonction | Inf. | Succès | p50 | p95 | TTFT p95 | Tronq. | Cache | Tok. in | Tok. out | Coût |
|---|---|---|---|---|---|---|---|---|---|---|
| Aucune donnée. | ||||||||||
« Succès » = metric generation_success (fonctions JSON uniquement). Le fallback modèle est détaillé plus bas.
Détail tokens
Tokens in
—
Tokens out
—
Total
—
Cache-read
—
Cache-write
—
% input en cache
—
Coût
—
Aucune donnée sur la période.
| Fonction | Appels | In | Out | Total | Cache-read | % cache | Cache-write | Moy. in/appel | Moy. out/appel | Coût |
|---|---|---|---|---|---|---|---|---|---|---|
| Aucune donnée. | ||||||||||
« Cache-read/write » = prompt cache provider (Anthropic/Bedrock). « % cache » = part de l'input servie depuis le cache (lecture à ~10% du prix). « Moy. in/appel » élevé = prompt volumineux.
Profondeur des conversations chat
Aucune donnée.
Fallback modèle par fonction
| Fonction | Principal (observé) | Inf. | Fallback | Top fallback |
|---|---|---|---|---|
| Aucune donnée. | ||||
Part des inférences servies hors du variant le plus utilisé de la fonction (modèle principal de facto). ⚠ = le candidat configuré (candidate_variants) n'est pas le modèle réellement servi.
Top users (volume d'inférences)
| User | Inf. | Épisodes |
|---|---|---|
| Aucune donnée. | ||
Par modèle × provider
| Modèle | Appels | Cache | p50 | p95 | Tok. in | Tok. out | Coût |
|---|---|---|---|---|---|---|---|
| Aucune donnée. | |||||||