Yash KANKANAMPATI | Ecole doctorale Galilée

Discipline : Informatique

Laboratoire : LIPN

Directeur de thèse : Joseph Le Roux

Intégrer des connaissances externes dans de grands modèles de langage

Les progrès récents dans le traitement du langage naturel ont conduit au développement de systèmes très performants tels que des chatbots et des assistants virtuels. Ces systèmes excellent dans les tâches générales telles que la réponse aux questions et l’extraction d’informations, grâce à des modèles linguistiques étendus (LLM) formés sur de grandes quantités de données. Cependant, les LLM sont confrontés à des défis lorsqu’ils traitent des tâches spécifiques à un domaine, comme celles des soins de santé ou de la finance, ou avec des données qui n’étaient pas disponibles pendant leur formation. De plus, tenter d’affiner davantage le modèle sur de nouvelles données est une tâche d’un coût prohibitif.
Mes recherches visent à relever ces défis en développant des méthodes permettant d’intégrer des connaissances externes dans les LLM avec un minimum de réglages. Les LLM fonctionnent comme une série de blocs de raisonnement séquentiels, où chaque bloc traite les sorties du bloc précédent pour générer sa propre sortie intermédiaire. Mon travail améliore ces modèles en incorporant des données et un raisonnement supplémentaires via des modules supplémentaires qui traitent ces résultats intermédiaires. En développant ces techniques, mes recherches visent à permettre aux LLM de mieux comprendre et de mieux travailler avec des données inédites, les rendant utiles pour des tâches dans des domaines spécialisés tels que la santé, la finance et au-delà.

Integraing external knowledge into large language models

Recent advancements in Natural Language Processing have led to the development of highly capable systems such as chatbots and virtual assistants. These systems excel at general-purpose tasks such as question-answering and information extraction, thanks to Large Language Models (LLMs) trained on vast amounts of data. However, LLMs face challenges when dealing with domain-specific tasks, such as those in healthcare or finance, or with data that wasn’t available during their training. Moreover, trying to finetune the model further on new data is a prohibitively expensive task.
My research aims to tackle these challenges by developing methods to integrate external knowledge into LLMs with minimal finetuning. LLMs function as a series of sequential reasoning blocks, where each block processes the previous block’s outputs to generate its own intermediate output. My work enhances these models by incorporating additional data and reasoning through supplementary modules that process these intermediate outputs. By developing these techniques, my research aims to enable LLMs to better understand and work with previously unseen data, making them useful for tasks in specialized fields such as healthcare, finance, and beyond.