Aller au contenu

Open Beta— Latenza est disponible dès maintenant.Commencer gratuitement →

Caching

Les mêmes questions ne coûtent qu’une fois

Latenza détecte les requêtes sémantiquement similaires et renvoie une réponse cachée instantanément. Réduction des coûts mesurable dès les premiers jours, sans dégrader la qualité.

Atout
jusqu’à −30% de coûts
Atout
TTL de 1 h à 7 j
Atout
~0 ms sur un hit
cache.config.json
{
  "route": "/api/faq",
  "cache": {
    "mode": "semantic",
    "similarity_threshold": 0.92,
    "ttl": "1h"
  }
}

Ce que ça change

Caching sémantique, en pratique.

Cache sémantique

La similarité est évaluée par embeddings — pas seulement une correspondance exacte du prompt.

TTL configurable

Définissez la durée de vie du cache par route, de quelques minutes à plusieurs jours.

Réduction de coûts

Chaque hit évite un appel provider facturé. L’économie est visible dans votre dashboard.

Latence quasi nulle

Une réponse servie depuis le cache revient en quelques millisecondes au lieu de centaines.

Comment ça marche

Le caching, en deux paramètres

  1. 1Activez le cacheActivez le caching sémantique sur les routes éligibles depuis le dashboard.
  2. 2Réglez le seuilAjustez le seuil de similarité et le TTL selon la sensibilité de chaque route.
  3. 3Économisez en continuLes requêtes répétées sont servies depuis le cache, le hit-rate s’affiche en temps réel.

Activez, choisissez un seuil de similarité et un TTL. Latenza gère l’indexation et l’expiration.

cache.config.json
{
  "route": "/api/faq",
  "cache": {
    "mode": "semantic",
    "similarity_threshold": 0.92,
    "ttl": "1h"
  }
}

Prêt à essayer caching sémantique ?

Commencez gratuitement. Aucune carte bancaire. Déployé en 5 minutes.