Un article scientifique international de haut niveau rédigé par Luca Dini, chercheur en linguistique computationnelle et l’enseignant chercheur Pierre Jourlin d’ Avignon Université en partenariat avec Skilit vient d’être accepté par la Conférence internationale d’Extraction et Gestion des Connaissances - EGC, événement annuel se déroulant fin janvier 2025 à Strasbourg réunissant des chercheurs et praticiens de disciplines relevant des sciences des données et des connaissances.

Résumé :

Cet article explore l'intégration d'un traitement symbolique des sorties d'un modèle de langage LLM pour obtenir une extraction d'événements à haute granularité.

Les arguments développés démontrent que la faiblesse des LLM dans la production d'informations structurées, souvent soulignée dans la littérature, peut être surmontée en concevant une fonction d'appariement (hybridation) adaptée au domaine.

" Afin de prouver cette affirmation, nous avons comparé les résultats d'une méthode d'apprentissage en contexte avec notre approche hybride et nous montrons que cette dernière permet d'obtenir des résultats supérieurs (+6,3 %) sur un nouvel ensemble de données de triplets sujet-prédicat-objet dans le domaine médical (681 triplets pour 200 phrases). Ce résultat est obtenu en laissant le LLM (Llama-3) libre de générer les types de prédicats avec lesquels il est le plus familier, et en appliquant à posteriori une fonction de normalisation. Outre l'amélioration de l'explicabilité et de la contrôlabilité de la sortie, l'intervention d'une telle fonction (qui a été mise en œuvre en 5 jours) permet de réduire de moitié les émissions de gaz à effet de serre nécessaires au traitement du corpus".

Skilit et ses chercheurs => Lauréat 2024 de la collaboration académique la plus prometteuse