Text Analytics Toolbox

Analyser et modéliser des données texte

 

Text Analytics Toolbox™ contient des algorithmes et des visualisations pour le prétraitement, l'analyse et la modélisation de données texte. Les modèles créés avec cette toolbox peuvent être utilisés dans des applications telles que l'analyse de sentiments, la maintenance prédictive ou la modélisation thématique.

Text Analytics Toolbox intègre des outils permettant de traiter du texte brut extrait de sources diverses, comme les logs d'un équipement, les fils d'actualités, des sondages, les rapports d'opérateur ou les réseaux sociaux. Vous pouvez extraire du texte depuis tous les formats de fichiers courants, prétraiter le texte brut, extraire des mots, convertir le texte en représentations numériques et construire des modèles statistiques.

Avec des techniques de Machine Learning telles que le LSA, le LDA et le word embedding, vous pouvez identifier des clusters et créer des caractéristiques à partir de jeux de données texte de grande dimension. Les caractéristiques créées avec Text Analytics Toolbox peuvent être combinées avec des caractéristiques provenant d'autres sources de données pour créer des modèles de Machine Learning tirant parti de données texte, numériques et autres.

En savoir plus :

Importer et visualiser des données texte

Réalisez l'extraction de données texte à partir de sources diverses comme les réseaux sociaux, les fils d'actualités, les logs d'un équipement, des rapports ou des sondages.

Extraire des données texte

Importez des données texte dans MATLAB® à partir de fichiers uniques ou de vastes collections de fichiers, notamment aux formats PDF, HTML, Microsoft® Word® et Excel®.

Extraction de données texte d'un ensemble de documents Microsoft Word

Visualiser du texte

Explorez visuellement des jeux de données texte en utilisant des nuages de mots-clés et des diagrammes de dispersion de texte.

Nuage de mots mettant en évidence la fréquence relative des mots en utilisant différentes couleurs et tailles de polices.

Support pour les langues

Text Analytics Toolbox offre des fonctionnalités de prétraitement spécifiques à l’anglais, au japonais, à l'allemand et au coréen. La plupart des fonctions sont également opérationnelles sur du texte rédigé dans d'autres langues.

Importation, préparation et analyse de données texte en japonais

Prétraiter des données texte

Réalisez l'extraction de mots significatifs d'un texte brut.

Nettoyer des données texte

Appliquez des fonctions de filtrage de haut niveau pour supprimer les éléments superflus, comme les URL, les balises HTML et la ponctuation, et corriger les fautes d'orthographe.

Simplifier un texte brut (à gauche) pour utiliser les mots les plus significatifs (à droite)

Filtrer les mots vides et normaliser les mots sous leur forme radicale

Priorisez les données texte significatives dans votre analyse en filtrant les mots courants, les mots qui apparaissent trop souvent ou trop rarement ainsi que les mots très longs et très courts. Réduisez le vocabulaire et focalisez-vous sur le sens ou le sentiment plus général du document en transformant les mots sous leur forme radicale (racinisation ou stemming) ou sous leur forme dictionnaire, sans genre, ni pluriel (lemmatisation)

Suppression des mots vides, comme « a » et « of », d'un document

Identifier les symboles, les phrases et la classe grammaticale

Découpez automatiquement le texte brut en une collection de mots en utilisant un algorithme de tokenisation. Ajoutez des limites de phrases, des détails sur les classes grammaticales des mots et d'autres informations pertinentes pour le contexte.

Ajout de détails sur les classes grammaticales et les phrases aux documents segmentés.

Convertir des données texte en format numérique

Convertissez les données texte en données numériques pour les utiliser en Machine Learning et en Deep Learning.

Comptage des mots et des N-grammes

Calculez les statistiques de fréquence des mots pour représenter numériquement les données texte.

Identifier et visualiser les mots les plus fréquents dans un modèle

Word embedding et encodage

Entraînez des modèles de word embedding, notamment les modèles word2vec CBOW (Continuous Bag-of-words) et Skip-Gram. Importez des modèles pré-entraînés comme fastText et GloVe.

Visualisation de clusters dans un diagramme de dispersion de texte avec des word embeddings 

Machine Learning et données texte

Effectuez la modélisation thématique, la classification et la réduction de dimensionnalité, ainsi que l'extraction du résumé d'un document, avec des algorithmes de Machine Learning.

Modélisation thématique

Découvrez et visualisez les patterns sous-jacents, les tendances et les relations complexes qui s'expriment dans de vastes jeux de données texte avec des algorithmes de Machine Learning tels que le LDA (Latent Dirichlet Allocation) ou le LSA (Latent Semantic Analysis).

Identification de thèmes dans les données d'un rapport météorologique

Résumé de documents et extraction de mots-clés

Réalisez l'extraction automatiquement d'un résumé et de mots-clés pertinents d'un ou plusieurs documents et évaluez la similarité et l'importance des documents.

Extraction d'un résumé à partir d'un texte

Deep Learning et données texte

Réalisez l'analyse de sentiments et la classification avec des réseaux de Deep Learning comme les LSTM (Long Short-Term Memory).

Analyse de sentiments

Identifiez le ton et l' opinion exprimés dans des données texte pour les catégoriser comme positifs, neutres ou négatifs. Construisez des modèles capables de prédire les sentiments en temps réel.

Identification de mots traduisant un sentiment positif et négatif 

Classification de texte

Classifiez les descriptions de texte avec des word embeddings permettant de reconnaître des catégories de texte avec le Deep Learning.

Apprentissage d'un réseau de neurones profond pour classifier des données texte

Génération de texte sur la base du roman Orgueil et Préjugés de Jane Austen avec un réseau de Deep Learning LSTM 

Nouveautés

Extraction de mots-clés

Réalisez l'extraction des mots-clés qui décrivent le mieux un document grâce aux algorithmes RAKE et TextRank

Consultez les notes de version pour en savoir plus sur ces fonctionnalités et les fonctions correspondantes.

Analyse de sentiments avec le Deep Learning

Analysez les sentiments sur des données Twitter temps réel pour comprendre comment un terme donné est perçu .

Ressources supplémentaires pour Text Analytics Toolbox