Évaluation sur mesure de modèles distributionnels sur un corpus spécialisé : comparaison des approches par contextes syntaxiques et par fenêtres graphiques
Ludovic Tanguy,
Franck Sajous
et Nabil Hathout
2015
TAL
56
2
103-127
[ PDF article ]
L. Tanguy, F. Sajous et N. Hathout (2015).
Évaluation sur mesure de modèles distributionnels sur un corpus spécialisé :
comparaison des approches par contextes syntaxiques et par fenêtres graphiques.
TAL, 56(2), pp. 103-127.
[ .bib ]
sémantique distributionnelle, corpus spécialisé
distributional semantics, specialised corpus
Il est possible de construire des modèles distributionnels en ne considérant que la
cooccurrence graphique entre les mots, ou bien en utilisant des relations syntaxiques de complexité variable.
Si des comparaisons systématiques n'ont jamais pu trancher définitivement en
faveur de l'une ou de l'autre, elles ont rarement été menées sur un corpus de taille réduite ou
en langue de spécialité. Nous proposons ici une palette d'expériences visant l'observation d'un
ensemble de modèles distributionnels construits à partir d'un petit corpus d'articles en français
dans le domaine du TAL. Un jeu de données a été spécifiquement conçu pour l'évaluation des
différentes configurations. Ces expériences montrent que les modèles qui prennent en compte de
façon raisonnable les informations syntaxiques obtiennent globalement de meilleurs résultats.
Distributional semantics models can be built using simple bag-of-word representation
of a word's contexts (window-based) or using more complex syntactic information (syntax-based).
Previous studies have compared their relative efficiency without coming to a definitive
conclusion, but such examination has never been performed on small and specialised corpora.
We have run a set of such comparative experiments based on a collection of French NLP articles
and a custom-made gold standard. These experiments show a better global performance
of syntax-based models, as long as syntactic information is processed with appropriate care.