Construire des modèles de langage multi-mots et les analyser avec le Machine Learning

Un n-gramme est un ensemble de n éléments successifs dans un document texte pouvant comprendre des mots, des nombres, des symboles et de la ponctuation. Les modèles n-gramme peuvent servir dans de nombreuses applications d'analyse de texte dans lesquelles les séquences de mots sont appropriées, comme l'analyse de sentiments, la classification de texte et la génération de texte. Par exemple, dans la phrase suivante :

« Les nuages de mots-clés provenant de tableaux de chaînes de caractères et les nuages de mots-clés provenant de modèles de sac de mots et des thèmes de LDA peuvent être créés avec Text Analytics Toolbox. »

« Les nuages » est un 2-gramme (bigramme), « sac de mots » est un 3-gramme (trigramme), « avec Text Analytics Toolbox » est un 4-gramme, et ainsi de suite. La taille du n-gramme dépend de l'application et de la taille des expressions courantes utilisées dans cette application.

La modélisation n-gramme est l'une des nombreuses techniques utilisées pour convertir du texte d'un format non structuré à un format structuré. Outre le n-gramme, il existe des techniques de word embedding comme word2vec. Il est possible de créer un modèle de langage avec les n-grammes en comptant le nombre de fois où chaque n-gramme apparaît dans un document. Cela s'appelle un modèle de sac de n-grammes. Dans l'exemple précédent, le modèle de sac de n-grammes pour n=2 donne le tableau suivant :

n-grammes Occurrences
nuages de mots-clés 2.
tableaux de chaînes de caractères 1.
modèles de sac de mots 1.

Une fois que le modèle de langage est construit, il peut être utilisé avec des algorithmes de Machine Learning pour créer des modèles prédictifs pour les applications d'analyse de texte. Pour en savoir plus sur les n-grammes et la création de modèles avec des données texte, consultez Text Analytics Toolbox™, à utiliser avec MATLAB®.



Voir aussi: traitement automatique du langage naturel, analyse de sentiments, word2vec, text mining avec MATLAB, Data Science, Deep Learning, Deep Learning Toolbox™, Predictive Maintenance Toolbox™