Lost in the Middle: How Language Models Use Long Contexts — Veille IA

En une phrase

Une étude empirique révèle que les modèles de langage actuels, malgré l'augmentation de leur fenêtre de contexte, peinent à utiliser efficacement les informations situées au milieu de contextes longs, montrant une courbe de performance en U et une dégradation avec l'allongement du contexte.

Points clés

Le défi des contextes longs pour les Transformers : La complexité quadratique de leur mécanisme d'auto-attention limite intrinsèquement les modèles de langage basés sur les Transformers à des fenêtres de contexte relativement courtes en termes de temps et de mémoire.
Avancées et extension des fenêtres de contexte : Grâce aux progrès matériels (GPU plus rapides, plus de mémoire) et algorithmiques (comme FlashAttention), les modèles récents tels que GPT-4, Claude, MPT-30B et LongChat ont considérablement augmenté leurs capacités de traitement de contexte, atteignant des dizaines de milliers, voire des millions de tokens.
Méthodologie expérimentale : L'étude a mené des expériences contrôlées sur des tâches de question-réponse multi-documents et de récupération clé-valeur synthétique, en manipulant la longueur du contexte d'entrée et la position des informations pertinentes. Les données proviennent du benchmark NaturalQuestions avec des passages de Wikipédia.
La "courbe de performance en U" : Un résultat clé est que les modèles atteignent leur meilleure performance lorsque l'information pertinente est située au tout début ou à la toute fin du contexte d'entrée, tandis que leur performance se dégrade significativement lorsque cette information est au milieu.
Limitations des modèles à contexte étendu : La performance des modèles diminue progressivement avec l'allongement du contexte, et même les modèles conçus pour des contextes étendus ne surpassent pas toujours les autres en matière d'utilisation efficace du contexte, échouant notamment à tirer parti de plus de 20 documents récupérés.
Pistes de recherche futures : Pour améliorer l'utilisation du contexte par les LLM, des investigations sont nécessaires concernant l'architecture des modèles, la contextualisation sensible à la requête et les instructions de fine-tuning, notamment pour résoudre le problème de l'accès aux informations centrales.

Ressources

Transformers — architecture de réseau de neurones pour le traitement du langage naturel
FlashAttention — algorithme pour améliorer l'efficacité de l'auto-attention
OpenAI API — interface de programmation pour les modèles OpenAI
GPT-4 — modèle de langage d'OpenAI
GPT-3.5-Turbo — modèle de langage d'OpenAI
Claude — modèle de langage d'Anthropic
Anthropic API — interface de programmation pour les modèles Anthropic
MPT-30B-Instruct — modèle de langage open-source de MosaicML
LLaMA-13B — modèle de langage open-source de Meta AI
LongChat-7B/13B — modèle de langage open-source basé sur LLaMA, optimisé pour les longs contextes
Bing Chat — application de recherche et de question-réponse de Microsoft
NaturalQuestions — benchmark de questions-réponses
NaturalQuestions-Open — sous-ensemble de NaturalQuestions pour le question-réponse en domaine ouvert
Wikipedia — encyclopédie en ligne utilisée comme source de documents
Contriever — système de récupération de documents de Facebook AI Research