Offre : Contrat Postdoctoral "Distantly Supervised Relation Extraction for Scientific Texts"




Le LabEx Empirical Foundations of Linguistics recrute un chercheur post-doctoral. Cette recherche s'effectuera dans le cadre d'une collaboration de l’axe 5 du LabEx entre le LIPN (http://lipn.univ-paris13.fr/en/laboratory), l'équipe RCLN "Représentation des Connaissances et Langage Naturel" et le laboratoire de recherche ERTIM "Equipe de Recherche Textes, Informatique, Multilinguisme" (http://www.er-tim.fr). Ces partenaires ont déjà mené plusieurs travaux sur l'extraction non supervisée de connaissances à partir d'articles scientifiques [7,8,9]. Ce post-doc s'inscrit dans le prolongement de cette collaboration et portera plus particulièrement sur l'extraction de relations dans les textes scientifiques par des méthodes d'apprentissage avec une supervision distante (“Distantly Supervised Relation Extraction for Scientific Texts'').

Contexte :

L'extraction de relations sémantiques est une tâche centrale pour identifier les connaissances spécifiques à un domaine dans un texte et les structurer en bases de connaissances. En général, une relation sémantique est codée comme un triplet (entité_1, r, entité_2) où les deux entités sont liées par une relation r. Actuellement, la plupart des systèmes utilisés pour effectuer cette tâche sont basés sur des paradigmes non supervisés ou supervisés. Les méthodes non supervisées reposent généralement sur des modèles manuels qui peuvent avoir une très bonne précision mais une couverture limitée. Les modèles eux-mêmes peuvent être plus faciles à définir pour certaines relations mais plus difficiles pour d'autres. Les méthodes supervisées obtiennent généralement un meilleur résultat global (en termes d'équilibre entre la précision et le rappel) mais elles nécessitent des données annotées qui sont coûteuses à produire. Dans des travaux précédents, nous avons exploré la portée et les avantages de ces paradigmes [8, 11]. Nous avons constaté que si les deux méthodes ont des forces complémentaires, les techniques d'hybridation permettent d'améliorer leurs performances. Ces expériences ont été réalisées sur le corpus ACL-RelAcs [7] d'articles scientifiques. Le jeu de données a également été exploité pour une campagne d'évaluation SemEval en extraction supervisée d'informations scientifiques [10]. Une méthodologie qui ne présente pas le problème de l'intervention manuelle, que ce soit pour la composition des règles ou pour l'annotation des données, est la supervision à distance (DS). Avec la DS, tout texte contenant le couple d'entités à relier peut constituer un exemple d'entraînement [13]. Récemment, la DS a fait l'objet de divers travaux qui ont mis en évidence son efficacité, notamment lorsqu'elle est couplée à des méthodes d'apprentissage profond [14,15,16].

Nos travaux de recherche sur l'extraction de relations dans des textes scientifiques ont mis en évidence la difficulté de cette tâche dans ce domaine spécifique. Les difficultés sont multiples : les entités ou concepts ne sont pas que des "entités nommées" comme dans d'autres bases de connaissances, les entités peuvent apparaître comme sujet ou objet dans différentes relations, et les relations peuvent être exprimées de diverses façons ou encore couvrir plusieurs phrases. "utilisé par", "appliqué à", ..., "améliore"... etc., sont des exemples de relations que l'on trouve dans les textes scientifiques. Dans nos travaux précédents [12], nous avons combiné différents extracteurs pour compenser les déficiences des extracteurs pris individuellement et obtenir une meilleure précision des relations extraites. L'idée principale de ce post-doc est d'utiliser la supervision à distance pour améliorer le processus d'extraction voire remplacer les extracteurs d'ensemble. Le post-doctorant examinera l'état de l'art existant dans le domaine de l'extraction de relations supervisée à distance et, en collaboration avec l'équipe, travaillera à la définition d'une méthodologie supervisée à distance pour l'extraction de relations dans les textes scientifiques.

Salaire : environ 2100 à 2300€ /month (net)

Compétences attendues :

  • doctorat en informatique

- Expérience et/ou intérêt dans les domaines suivants ::

  • Traitement Automatique des Langues ;

  • Fouille de textes et apprentissage automatique ;

  • Ingénierie des connaissances, Web Sémantique.

  • Compétence en rédaction

  • Programmation Python, connaissance de PyTorch (ou autre framework de Deep Learnin)

Durée : 12 months Localisation : LIPN et ERTIM

Début du contrat : à partir de septembre 2022

Note : premières auditions se dérouleront le 29/06/2022 après-midi

Les candidatures doivent être envoyées à Davide Buscaldi (davide.buscaldi@lipn.univ- paris13.fr) et Kata Gábor (kata.gabor@inalco.fr) et comportées ::

  • un CV (avec une liste de publications)

  • une lettre de motivation

  • les noms et e-mails of deux personnes référentes

Bibliography

  1. Agirre E., Olatz A., Hovy E.H., Martinez D. (2000) Enriching very large ontologies using the WWW. In ECAI Workshop on Ontology Learning.

  2. Chavalarias, D. and Cointet, J.-P. (2013). Phylomemetic patterns in science evolution - the rise and fall of scientific fields. PLOS ONE, 8(2).

  3. Fabian M. Suchanek, Mauro Sozio,Gerhard Weikum (2009). Sofie: A self-organizing framework for information extraction. In WWW conference, pp. 631– 640.

  4. Bunescu and Mooney (2005). A shortest path dependency kernel for relation extraction. InProceedings of Empricial Methods in Natural Language Processing, EMNLP ’05, p.724–731.

  5. Auger, A., & Barrière, C. (2008). Pattern-based approaches to semantic relation extraction: A state- of-the-art. In Terminology, 14(1), pp. 1-19.

  6. Nicolas Béchet, Peggy Cellier, Thierry Charnois, Bruno Crémilleux (2012). Discovering Linguistic Patterns Using Sequence Mining. In CICLing 2012. pp. 154-165

  7. Gábor K., Zargayouna H., Buscaldi D., Tellier I., Charnois T. (2016) : Semantic Annotation of the ACL Anthology Corpus for the Automatic Analysis of Scientific Literature, LREC, Portoroz (Slovenia).

  8. Gábor K., Zargayouna H., Buscaldi D., Tellier I., Charnois T. (2016) : Unsupervised Relation Extraction in Specialized Corpora Using Sequence Mining, Advances in Intelligent Data Analysis XV (IDA 2016), LNCS 9897, p.237-248, Stokholm (Sweden).

  9. Gábor K., Zargayouna H., Tellier I., Buscaldi D., Charnois T. (2016) : A Typology of Semantic Relations Dedicated to Scientific Literature Analysis. SAVE-SD Workshop at the 25th World Wide Web Conference.

  10. Gábor K., Buscaldi D., Schumann A-K., QasemiZadeh B., Zargayouna H., Charnois T.: Semeval- 2018 Task 7: Semantic Relation Extraction and Classification in Scientific Papers. In Proceedings of the 12th International Workshop on Semantic Evaluation (SemEval-2018), New Orleans, USA.

  11. Gábor K, Zargayouna H, Tellier I, Buscaldi D, Charnois T: Exploring Vector Spaces for Semantic Relations. In: EMNLP 2017, Copenhagen, Denmark.

  12. Dessì, D., Osborne, F., Recupero Reforgiato, D., Buscaldi, D., & Motta E. (2020). Generating knowledge graphs by employing Natural Language Processing and Machine Learning techniques within the scholarly domain. Future Generation Computer Systems, 116, (pp. 253-264).

  13. Distantly Supervised Web Relation Extraction for Knowledge Base Population http://www.semantic- web-journal.net/system/files/swj885.pdf

  14. Distantly Supervised Relation Extraction using Multi-Layer Revision Network and Confidence-based Multi-Instance Learning https://aclanthology.org/2021.emnlp-main.15/

  15. Distantly Supervised Relation Extraction with Sentence Reconstruction and Knowledge Base Priors https://arxiv.org/abs/2104.08225

  16. Distantly Supervised Relation Extraction via Recursive Hierarchy-Interactive Attention and Entity- Order Perception https://arxiv.org/abs/2105.08213