2015 Volume 56 Numéro 2
Direction : Cécile Fabre et Alessandro Lenci
L’utilisation du critère distributionnel pour calculer des liens de proximité sémantique entre les mots est une méthode devenue très courante en TAL. Sa popularité s’explique facilement : elle donne accès à des informations sémantiques en appliquant un principe simple, sans apport de connaissances autres que des informations relatives à la distribution des mots dans un corpus, brut ou annoté. Les systèmes ont généralement recours à des modèles d'espace vectoriel pour représenter et comparer les caractéristiques distributionnelles des unités lexicales. Cette approche a bénéficié ces dernières années de la disponibilité de grandes masses de données textuelles et de capacités informatiques accrues pour les traiter, ce qui a permis de produire des ressources distributionnelles à très grande échelle.
On peut dire aujourd’hui que le domaine est arrivé à maturité : des expérimentations nombreuses ont été menées sur plusieurs langues, des travaux de synthèse ont permis de stabiliser les notions et les procédures relatives au calcul distributionnel, divers modèles distributionnels sont disponibles ainsi que des jeux d’évaluation. Néanmoins, de nombreuses questions de recherche restent ouvertes pour mieux contrôler l’application de cette méthode distributionnelle et améliorer la compréhension des types d’information sémantique qu’elle permet de calculer.
Une première direction de recherche concerne l’optimisation de la méthode distributionnelle pour traiter des données toujours plus volumineuses, ainsi que le contrôle des nombreux paramètres susceptibles de jouer sur la qualité et la nature des relations sémantiques extraites (mesures de similarité, nature des contextes distributionnels, techniques de réduction de dimension, pondération des contextes, etc.). D’autres travaux s’intéressent plutôt à l’exploitation de ces données sémantiques, qu’il s’agisse de l’intégration d’indices distributionnels dans des applications de TAL (recherche d’information, résumé automatique, classification d’entités nommées, calcul d’inférence, etc.), ou de la construction de réseaux lexicaux permettant de visualiser les relations sémantiques entre les mots d’un corpus. Enfin, depuis quelques années, des travaux ont été consacrés à l’extension du calcul distributionnel à des unités plus larges ou plus petites que le mot, selon un principe de compositionnalité, ou à la modélisation de l’information distributionnelle pour la combiner avec d’autres modes de représentation du sens.
Nous souhaitons que ce numéro spécial soit représentatif de la richesse actuelle de ce champ, sur le plan à la fois linguistique et computationnel, et invitons par conséquent des contributions sur l’ensemble de ces aspects. Plus spécifiquement, les thématiques concernées sont (de façon non exclusive) les suivantes :
- utilisation d’indices distributionnels pour la construction de ressources lexicales et sémantiques
- compositionnalité sémantique dans le cadre distributionnel
- repérage de relations sémantiques spécifiques
- exploitation de la proximité distributionnelle dans des tâches de TAL
- optimisation du calcul de similarité sémantique
- visualisation et manipulation graphique des espaces de mots
- évaluation de ressources distributionnelles
- impact des corpus (taille, contenu, genre, annotations, traitements) sur la méthode distributionnelle
- intégration d’informations sémantiques distributionnelles et non-distributionnelles
- sémantique distributionnelle et deep learning
- évaluation de modèles distributionnels