Caching

Les mêmes questions ne coûtent qu’une fois

Latenza détecte les requêtes sémantiquement similaires et renvoie une réponse cachée instantanément. Réduction des coûts mesurable dès les premiers jours, sans dégrader la qualité.

Atout: jusqu’à −30% de coûts
Atout: TTL de 1 h à 7 j
Atout: ~0 ms sur un hit

cache.config.json

{
  "route": "/api/faq",
  "cache": {
    "mode": "semantic",
    "similarity_threshold": 0.92,
    "ttl": "1h"
  }
}

Ce que ça change

Caching sémantique, en pratique.

Cache sémantique

La similarité est évaluée par embeddings — pas seulement une correspondance exacte du prompt.

TTL configurable

Définissez la durée de vie du cache par route, de quelques minutes à plusieurs jours.

Réduction de coûts

Chaque hit évite un appel provider facturé. L’économie est visible dans votre dashboard.

Latence quasi nulle

Une réponse servie depuis le cache revient en quelques millisecondes au lieu de centaines.

Comment ça marche

Le caching, en deux paramètres

1Activez le cacheActivez le caching sémantique sur les routes éligibles depuis le dashboard.
2Réglez le seuilAjustez le seuil de similarité et le TTL selon la sensibilité de chaque route.
3Économisez en continuLes requêtes répétées sont servies depuis le cache, le hit-rate s’affiche en temps réel.

Activez, choisissez un seuil de similarité et un TTL. Latenza gère l’indexation et l’expiration.

cache.config.json

{
  "route": "/api/faq",
  "cache": {
    "mode": "semantic",
    "similarity_threshold": 0.92,
    "ttl": "1h"
  }
}

Routing multi-provider

Définissez des règles par coût, latence ou contexte. Latenza évalue chaque appel en temps réel et sélectionne le provider optimal — sans changer une ligne dans votre code applicatif.

Failover automatique

Panne OpenAI, quota Anthropic dépassé, timeout réseau ? La requête bascule sur le provider suivant en moins de 100 ms. Vos utilisateurs ne voient jamais l’incident.

Observabilité

Latence p50/p95/p99, tokens consommés, coût par requête — découpés par assistant, feature ou équipe. Alertes de dérive budgétaire en temps réel. Fini les mauvaises surprises en fin de mois.

Rate limiting

Quota par clé API, par organisation ou par modèle. Protégez votre budget, évitez les abus et garantissez un service équitable entre vos équipes — le tout configuré en quelques clics.

Prêt à essayer caching sémantique ?

Commencez gratuitement. Aucune carte bancaire. Déployé en 5 minutes.