Enrichissement de lexiques sémantiques approvisionnés par les foules : le système WISIGOTH appliqué à Wiktionary

Franck Sajous Emmanuel Navarro et Bruno Gaume 2011 TAL 52 1 11-35 PDF article ] F. Sajous, E. Navarro et B. Gaume (2011). Enrichissement de lexiques sémantiques approvisionnés par les foules : le système WISIGOTH appliqué à Wiktionary. TAL, 52(1), pp. 11-35. .bib ] réseaux de synonymie, similarité sémantique, ressources collaboratives, Wiktionary, enrichissement semi-automatique, marches aléatoires, réseaux petits mondes synonymy networks, semantic relatedness, collaboratively constructed resources, Wiktionary, semi-automatic enrichment, random walks, hierarchical small worlds Bien que de nombreuses applications de TAL reposent sur des ressources lexicales sémantiques, celles-ci sont rarement simultanément de qualité satisfaisante et librement disponibles. Partant de la confrontation entre méthodes traditionnelles et tendances émergentes de construction et d’évaluation de ressources lexicales, nous présentons dans cet article une nouvelle méthode fondée sur Wiktionary, un dictionnaire multilingue libre, disponible en ligne et construit collaborativement, puis nous proposons un enrichissement semi-automatique de son réseau de synonymie utilisant des données endogènes et exogènes, recourant à une validation » par les foules «. Nous décrivons enfin une implémentation de ce système baptisée WISIGOTH. Semantic lexical resources are a mainstay of various NLP applications. However, comprehensive and reliable resources rarely exist or are often not freely available. We discuss in this paper the context of lexical resources building and the problems of evaluation. We present Wiktionary, a freely available and collaboratively built multilingual dictionary and we propose a semi-automatic approach based on random walks for enriching its synonymy network, which uses endogenous and exogenous data. We then propose a validation “by crowds”. Finally, we present an implementation of this system called WISIGOTH.