En une phrase
Une étude empirique révèle que les modèles de langage actuels, malgré l'augmentation de leur fenêtre de contexte, peinent à utiliser efficacement les informations situées au milieu de contextes longs, montrant une courbe de performance en U et une dégradation avec l'allongement du contexte.
Points clés
- Le défi des contextes longs pour les Transformers : La complexité quadratique de leur mécanisme d'auto-attention limite intrinsèquement les modèles de langage basés sur les Transformers à des fenêtres de contexte relativement courtes en termes de temps et de mémoire.
- Avancées et extension des fenêtres de contexte : Grâce aux progrès matériels (GPU plus rapides, plus de mémoire) et algorithmiques (comme FlashAttention), les modèles récents tels que GPT-4, Claude, MPT-30B et LongChat ont considérablement augmenté leurs capacités de traitement de contexte, atteignant des dizaines de milliers, voire des millions de tokens.
- Méthodologie expérimentale : L'étude a mené des expériences contrôlées sur des tâches de question-réponse multi-documents et de récupération clé-valeur synthétique, en manipulant la longueur du contexte d'entrée et la position des informations pertinentes. Les données proviennent du benchmark NaturalQuestions avec des passages de Wikipédia.
- La "courbe de performance en U" : Un résultat clé est que les modèles atteignent leur meilleure performance lorsque l'information pertinente est située au tout début ou à la toute fin du contexte d'entrée, tandis que leur performance se dégrade significativement lorsque cette information est au milieu.
- Limitations des modèles à contexte étendu : La performance des modèles diminue progressivement avec l'allongement du contexte, et même les modèles conçus pour des contextes étendus ne surpassent pas toujours les autres en matière d'utilisation efficace du contexte, échouant notamment à tirer parti de plus de 20 documents récupérés.
- Pistes de recherche futures : Pour améliorer l'utilisation du contexte par les LLM, des investigations sont nécessaires concernant l'architecture des modèles, la contextualisation sensible à la requête et les instructions de fine-tuning, notamment pour résoudre le problème de l'accès aux informations centrales.
Ressources
- Transformers — architecture de réseau de neurones pour le traitement du langage naturel
- FlashAttention — algorithme pour améliorer l'efficacité de l'auto-attention
- OpenAI API — interface de programmation pour les modèles OpenAI
- GPT-4 — modèle de langage d'OpenAI
- GPT-3.5-Turbo — modèle de langage d'OpenAI
- Claude — modèle de langage d'Anthropic
- Anthropic API — interface de programmation pour les modèles Anthropic
- MPT-30B-Instruct — modèle de langage open-source de MosaicML
- LLaMA-13B — modèle de langage open-source de Meta AI
- LongChat-7B/13B — modèle de langage open-source basé sur LLaMA, optimisé pour les longs contextes
- Bing Chat — application de recherche et de question-réponse de Microsoft
- NaturalQuestions — benchmark de questions-réponses
- NaturalQuestions-Open — sous-ensemble de NaturalQuestions pour le question-réponse en domaine ouvert
- Wikipedia — encyclopédie en ligne utilisée comme source de documents
- Contriever — système de récupération de documents de Facebook AI Research
