Inemuri — la mémoire de la conversation
Tous les modèles de langage ont une limite de contexte — une fenêtre maximale de tokens qu'ils peuvent traiter en une seule fois. BATEN AI résout ce problème avec Inemuri, un module de condensation intelligente.
Le problème que résout Inemuri
Sans Inemuri, une longue conversation forcerait un choix brutal : tronquer les anciens messages (perte de contexte) ou surcharger le modèle (lenteur, coûts, erreurs). Inemuri condense progressivement les échanges passés en gardant l'essentiel.
Les 3 états de la mémoire
- Éveil (Wake) — Tous les messages sont dans le contexte actif. La conversation est jeune.
- Sieste légère (Light Nap) — Les messages au-delà d'un certain seuil sont résumés. Un résumé compact prend la place de 10-20 messages.
- Sommeil profond (Deep REM) — Les résumés eux-mêmes sont archivés. Seuls les points clés et le fil narratif persistent. La qualité de la mémoire reste élevée, le volume de tokens reste faible.
Ce qui est conservé dans la condensation
Inemuri ne résume pas aléatoirement. Il identifie le centroïde sémantique de chaque bloc de messages — le point attrait central — et construit le résumé autour de lui. Les termes importants, les décisions prises, les définitions établies sont préservés. Le bavardage de transition est éliminé.
Analogie
C'est exactement ce que fait votre cerveau après une longue réunion : vous ne vous souvenez pas de chaque phrase prononcée, mais vous retenez les décisions, les tensions, les moments importants. Inemuri fait la même chose pour la conversation.