Recrutement : Contrat postdoc : Sémantique Diachronique Computationnelle


Dans le cadre des travaux de notre Axe 5 (Analyse Sémantique Computationnelle), nous sommes à la recherche d'un.e chercheur.e postdoctoral.e en Sémantique Diachronique Computationnelle.


Sujet: modèles computationnels interprétables pour la détection et le suivi automatiques des évolutions sémantiques : combinaison des approches Contextual Embeddings et Pattern Mining


Durée du contrat : 18 mois


Localisation : Paris


Établissement et laboratoire de rattachement : Université Sorbonne Paris Nord, LIPN

UMR7030 CNRS


Date limite pour candidater : 15 janvier 2022


Période des auditions : 15-30 janvier 2022


Date de prise de fonctions : à partir du 1er février 2022


Contexte, problématiques et axes de la recherche


Les langues évoluent continuellement, poussées par la double nécessité de s'adapter aux développements socioculturels et technologiques et de rendre la communication plus efficace et expressive. En particulier, des mots nouveaux sont forgés ou empruntés à d'autres langues, certains mots deviennent obsolètes, d’autres enfin acquièrent de nouvelles significations ou perdent des significations existantes.


En TAL, l’étude du dynamisme des langues, notamment du point de vue lexical, est devenu depuis quelques années un sujet de recherche important qui complète les approches synchroniques. Le champ de recherche se structure, avec des états de l’art récents (Monteirol et al., 2021; Tahmasebi et al., 2021) et plusieurs manifestations scientifiques (International Workshop on Computational Approaches to Historical Language Change 2019 et 2021, ACL 2019 et 2020). Deux premières tâches d’évaluation des systèmes de détection ont été proposées (Unsupervised Lexical Semantic Change Detection Task, SemEval2020) et des jeux de références ont été mis en place pour quatre langues (anglais, latin, suédois et allemand).


Les systèmes de détection des changements lexicaux ont suivi les avancées des méthodes de TAL : après les premiers systèmes essentiellement basés sur les évolutions de fréquence (par exemple Gulordova & Baroni, 2011), les systèmes ont utilisé les word embeddings (Kim et al., 2014, Schletchweg et al., 2019) puis les contextual embeddings (Hu et al., 2019; Martinc et al., 2019; Giulianelli et al., 2020). Ces derniers systèmes procèdent généralement en regroupant les représentations vectorielles contextuelles des différents usages en clusters de sens, puis détectent les évolutions selon différentes métriques (Monteirol et al. 2021). Les systèmes actuels connaissent encore de nombreuses limitations. Principalement, l’opacité des modèles neuronaux ne permet pas de caractériser ces évolutions, en particulier il est difficile, voire impossible de lier les changements sémantiques à des caractéristiques linguistiques (morphologique, syntaxique, lexico-syntaxique), ou de catégoriser les types de changements (extension, restriction, métaphore, métonymie, etc.).


Dans ce but, une piste serait de combiner les approches neuronales avec des approches

Pattern Mining ou de fouille de motifs (Béchet et al. 2015) ou encore des méthodes issues de la linguistique de corpus (par exemple Gries, 2012) qui permettent d’extraire les

constructions lexico-syntaxiques les plus saillantes d’un corpus d’occurrences et d’identifier leurs évolutions. Il serait également intéressant d’exploiter les informations contextuelles des occurrences des nouveaux emplois (date, type de source, de domaine, origine géographique, etc.) pour caractériser et suivre l’évolution des emplois.


L’objectif est donc de mettre en place une approche permettant de caractériser

automatiquement les évolutions sémantiques. Une première étape consistera à

expérimenter les travaux de l’état de l’art pour la détection des évolutions. Il s’agira ensuite à partir des embeddings contextuels et des corpus diachroniques de concevoir une approche pour mettre en évidence les caractéristiques linguistiques de chacun des clusters de sens et leur évolution. Les corpus étudiés seront principalement en anglais et en français. Le postdoctorant ou la postdoctorante travaillera en collaboration avec des informaticiens et des linguistes qui construisent actuellement un corpus de référence d’évolutions sémantiques pour le français (méthodologie Durel : Schlechtweg et al., 2018).

D’autres problématiques pourront, dans un second temps, également être abordées par la personne recrutée et notamment : les systèmes actuels ne tiennent pas compte de

l’évolution graduelle, se limitant généralement à comparer deux états de langue

synchroniques ; pour obtenir la représentation vectorielle d’une lexie dans un contexte, il

est possible d’utiliser l’une des couches cachées ou une combinaison de celles-ci. Il n’existe pas aujourd’hui de consensus sur la couche à prendre en compte pour obtenir la

représentation sémantique la plus adéquate.


La personne recrutée rejoindra, dans l’axe 5 du Labex “Sémantique computationnelle”,

l’équipe de chercheurs et d’enseignants-chercheurs du Labex qui travaillent sur l’opération “Variation et changement sémantique” qui vise à :


- développer de nouveaux modèles et méthodes pour la détection automatique des

changements sémantiques lexicaux, la typologie des changements des points de vue intra-linguistiques, diachroniques et diastratiques ;

- développer un jeu de référence d’évolutions sémantiques pour le français

contemporain, en s’appuyant sur les corpus diachroniques disponibles.


Profil recherché

‐ doctorat en informatique spécialisé en Traitement Automatique des Langues et

Apprentissage Automatique

- maîtrise des méthodes d’apprentissage profond et des modèles de langue

‐ langue de travail : français et/ou anglais


Composition du dossier

  • une lettre de motivation

  • un descriptif du projet de recherche en lien avec la problématique à résoudre

  • un CV avec liste de publications et 3 publications représentatives (pdf ou lien),

  • lettres de recommandations ou noms de deux référents.

Le dossier sera envoyé à