Segmentation de texte non-supervisée pour la détection de thématiques à l'aide de plongements lexicaux - Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur Accéder directement au contenu
Communication Dans Un Congrès Année : 2020

Segmentation de texte non-supervisée pour la détection de thématiques à l'aide de plongements lexicaux

Résumé

Cet article présente les principales méthodes de segmentation automatique de documents textuels spécifiques. La tâche de segmentation thématique de texte consiste à analyser un document pour en extraire des sections cohérentes. Les méthodes de segmentation non supervisées cherchent à optimiser une fonction de probabilité de segmentation ou une fonction de similarité qui peut être calculée entre les blocs ou au sein des blocs. Elles sont réparties en trois catégories : les méthodes statistiques, les méthodes à base de graphes et les approches neuronales. Parmi les approches neuronales utilisées, nous nous intéressons tout particulièrement à celles qui utilisent des plongements lexicaux pour représenter des phrases et définir des segments thématiques. Tout d’abord, nous montrons que les plongements lexicaux permettent une amélioration nette des performances par rapport à des méthodes statistiques. Ensuite, nous évaluons l’impact du choix de la représentation vectorielle des phrases pour cette tâche de segmentation non supervisée.
Fichier principal
Vignette du fichier
177.pdf (976.18 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte
Loading...

Dates et versions

hal-02786182 , version 1 (07-06-2020)
hal-02786182 , version 2 (17-06-2020)
hal-02786182 , version 3 (23-06-2020)

Identifiants

  • HAL Id : hal-02786182 , version 3

Citer

Alexandra Benamar. Segmentation de texte non-supervisée pour la détection de thématiques à l'aide de plongements lexicaux. 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL, Jun 2020, Nancy, France. pp.1-14. ⟨hal-02786182v3⟩
331 Consultations
353 Téléchargements

Partager

Gmail Facebook X LinkedIn More