n-gramme

Construire des modèles de langage multi-mots et les analyser avec le Machine Learning

Un n-gramme est un ensemble de n éléments successifs dans un document texte pouvant comprendre des mots, des nombres, des symboles et de la ponctuation. Les modèles n-gramme peuvent servir dans de nombreuses applications d’analyse de texte dans lesquelles les séquences de mots sont appropriées, comme l’analyse de sentiments, la classification de texte et la génération de texte. La modélisation n-gramme est l'une des nombreuses techniques utilisées pour convertir du texte d'un format non structuré à un format structuré. Outre le n-gramme, il existe des techniques de word embedding comme word2vec.

Exemple

Il est possible de créer un modèle de langage avec des n-grammes en comptant le nombre de fois où chaque n-gramme apparaît dans un document. Cela s'appelle un modèle de sac de n-grammes. Dans MATLAB, un modèle de sac de n-grammes peut être créé à l’aide de la fonction « bagOfNgrams ».

Un nuage de mots-clés de n-grammes où n=2. Ce nuage de mots-clés présente les mots les plus importants en orange, tels que « robot arm » et « construct agent », entourés par une série de mots noirs moins importants dont la taille diminue.

Nuage de mots-clés de n-grammes avec n=2 (bigrammes).

Une fois que le modèle de langage est construit, il peut être utilisé avec des algorithmes de Machine Learning pour créer des modèles prédictifs pour les applications d'analyse de texte. Pour en savoir plus sur les n-grammes et la création de modèles avec des données texte, consultez Text Analytics Toolbox™, à utiliser avec MATLAB®.



Voir aussi: traitement automatique du langage naturel, analyse de sentiments, word2vec, text mining avec MATLAB, Data Science, Deep Learning, Deep Learning Toolbox™, Predictive Maintenance Toolbox™