Selon Beating, Google a déployé l'architecture Multi-Token Prediction (MTP) sur les appareils Pixel 9 et Pixel 10, accélérant considérablement le modèle Gemini Nano v3 embarqué. La nouvelle architecture a augmenté la vitesse d'inférence de plus de 50 % tout en préservant l'alignement de sécurité et la qualité des résultats du modèle.
Le mécanisme de copie zéro permet à la tête de prédiction de réutiliser directement les caractéristiques mises en cache du modèle principal via une attention croisée, éliminant ainsi la surcharge de cache clé-valeur distincte des modèles de brouillon traditionnels. Cette conception a économisé environ 130 Mo de mémoire tout en réduisant la latence de démarrage. Dans des applications réelles comme le résumé de notifications et les réponses intelligentes, MTP a obtenu une augmentation de 55 % du taux d'acceptation des tokens, réduisant la fréquence de réveil du processeur et abaissant la consommation électrique du système.