AI Insights

Qualité, latence, cache et fallback par fonction AI — lecture directe de ClickHouse (observabilité TensorZero).

Deà

Inférences

—

Épisodes

—

Succès gen.

—

Cache hit

—

Fallback modèle

—

Latence p50

—

Latence p95

—

TTFT p95

—

Troncature

—

Volume d'inférences, par fonction

Aucune donnée sur la période.

Finish reasons (appels modèle)

Aucune donnée sur la période.

Top modèles (appels)

Aucune donnée sur la période.

Par fonction — qualité, latence & cache

Fonction	Inf.	Succès	p50	p95	TTFT p95	Tronq.	Cache	Tok. in	Tok. out	Coût
Aucune donnée.

« Succès » = metric generation_success (fonctions JSON uniquement). Le fallback modèle est détaillé plus bas.

Détail tokens

Tokens in

—

Tokens out

—

Total

—

Cache-read

—

Cache-write

—

% input en cache

—

Coût

—

Aucune donnée sur la période.

Fonction	Appels	In	Out	Total	Cache-read	% cache	Cache-write	Moy. in/appel	Moy. out/appel	Coût
Aucune donnée.

« Cache-read/write » = prompt cache provider (Anthropic/Bedrock). « % cache » = part de l'input servie depuis le cache (lecture à ~10% du prix). « Moy. in/appel » élevé = prompt volumineux.

Profondeur des conversations chat

Aucune donnée.

Fallback modèle par fonction

Fonction	Principal (observé)	Inf.	Fallback	Top fallback
Aucune donnée.

Part des inférences servies hors du variant le plus utilisé de la fonction (modèle principal de facto). ⚠ = le candidat configuré (candidate_variants) n'est pas le modèle réellement servi.

Top users (volume d'inférences)

User	Inf.	Épisodes
Aucune donnée.

Par modèle × provider

Modèle	Appels	Cache	p50	p95	Tok. in	Tok. out	Coût
Aucune donnée.