Ajuster l'analyse distributionnelle à un corpus spécialisé de petite taille
Cécile Fabre,
Nabil Hathout,
Franck Sajous and
Ludovic Tanguy
2014
Actes de l'atelier SemDis 2014, 21e Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2014)
Marseille, France
266-279
Association pour le Traitement Automatique des Langues
[ PDF article ]
C. Fabre, N. Hathout, F. Sajous et L. Tanguy (2014).
Ajuster l'analyse distributionnelle à un corpus spécialisé de petite taille.
Actes de l'atelier SemDis 2014, 21e Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2014),
pp. 266-279, Marseille, France.
[ .bib ]
Sémantique distributionnelle, analyse syntaxique, corpus spécialisé, évaluation
Distributional semantics, syntactic analysis, specialized corpus, evaluation
L'analyse distributionnelle sur des corpus spécialisés de taille modeste constitue un objectif applicatif
important pour cette famille de méthodes d'extraction des relations sémantiques. Dans ce cadre, nous cherchons à optimiser
le calcul distributionnel pour traiter un corpus de 2 millions de mots composé d'articles de la conférence TALN. Notre
expertise dans ce champ nous permet de constituer des données d'évaluation adaptées au corpus et à la tâche, et fait de
cette configuration expérimentale un lieu idéal pour observer précisément les mécanismes distributionnels à l'&oelig,uvre. Un
paramétrage précis du calcul distributionnel, depuis l'analyse syntaxique jusqu'aux mesures de proximité sémantique,
met en évidence la variété des résultats obtenus, particulièrement selon les catégories grammaticales des mots cibles, et
permet de dégager des combinaisons performantes en jouant sur le nombre, la nature et la qualité des contextes pris en
compte dans le calcul.
Applying distributional semantic models to medium-size specialized corpora is an important objective
for the extraction of lexical and terminological ressources. In this context, we seek to optimize the distributional analysis
procedure on a 2 million word corpus consisting of NLP conference proceedings. Our expertise in this field allows us
to establish a relevant benchmark for the task, thus providing an ideal experimental setup to observe the distributional
mechanisms at work. We test several hundred configurations, with parameters ranging from syntactic analysis to
similarity measures. This study highlights the variety of the results, particularly according to the POS of the target words, and
allows for the identification of the best performing configurations by varying the number, nature and type of the contexts
considered.