Les mêmes questions ne coûtent qu’une fois
Latenza détecte les requêtes sémantiquement similaires et renvoie une réponse cachée instantanément. Réduction des coûts mesurable dès les premiers jours, sans dégrader la qualité.
- Atout
- jusqu’à −30% de coûts
- Atout
- TTL de 1 h à 7 j
- Atout
- ~0 ms sur un hit
{
"route": "/api/faq",
"cache": {
"mode": "semantic",
"similarity_threshold": 0.92,
"ttl": "1h"
}
}Ce que ça change
Caching sémantique, en pratique.
Cache sémantique
La similarité est évaluée par embeddings — pas seulement une correspondance exacte du prompt.
TTL configurable
Définissez la durée de vie du cache par route, de quelques minutes à plusieurs jours.
Réduction de coûts
Chaque hit évite un appel provider facturé. L’économie est visible dans votre dashboard.
Latence quasi nulle
Une réponse servie depuis le cache revient en quelques millisecondes au lieu de centaines.
Comment ça marche
Le caching, en deux paramètres
- 1Activez le cacheActivez le caching sémantique sur les routes éligibles depuis le dashboard.
- 2Réglez le seuilAjustez le seuil de similarité et le TTL selon la sensibilité de chaque route.
- 3Économisez en continuLes requêtes répétées sont servies depuis le cache, le hit-rate s’affiche en temps réel.
Activez, choisissez un seuil de similarité et un TTL. Latenza gère l’indexation et l’expiration.
{
"route": "/api/faq",
"cache": {
"mode": "semantic",
"similarity_threshold": 0.92,
"ttl": "1h"
}
}Explorez les autres fonctionnalités
Routing multi-provider
Définissez des règles par coût, latence ou contexte. Latenza évalue chaque appel en temps réel et sélectionne le provider optimal — sans changer une ligne dans votre code applicatif.
Failover automatique
Panne OpenAI, quota Anthropic dépassé, timeout réseau ? La requête bascule sur le provider suivant en moins de 100 ms. Vos utilisateurs ne voient jamais l’incident.
Observabilité
Latence p50/p95/p99, tokens consommés, coût par requête — découpés par assistant, feature ou équipe. Alertes de dérive budgétaire en temps réel. Fini les mauvaises surprises en fin de mois.
Rate limiting
Quota par clé API, par organisation ou par modèle. Protégez votre budget, évitez les abus et garantissez un service équitable entre vos équipes — le tout configuré en quelques clics.