Text Analytics Toolbox

Analyse et modélisation de données texte

 

Text Analytics Toolbox™ contient des algorithmes et des visualisations pour le prétraitement, l'analyse et la modélisation de données texte. Les modèles créés avec cette toolbox peuvent être utilisés dans des applications telles que l'analyse des sentiments, la maintenance prédictive ou encore la modélisation thématique.

Text Analytics Toolbox intègre des outils permettant de traiter du texte brut extrait de sources diverses, comme les logs d'un équipement, des fils d'actualités, des sondages, des rapports d'opérateur ou encore les réseaux sociaux. Vous pouvez extraire du texte depuis tous les formats de fichiers courants, prétraiter le texte brut, extraire des mots spécifiques, convertir le texte en représentations numériques et construire des modèles statistiques.

Avec des techniques de Machine Learning telles que le LSA, le LDA et le word embedding, vous pouvez identifier des groupes et créer des variables à partir de jeux de données texte de grande dimension. Les variables créées avec Text Analytics Toolbox peuvent être combinées avec des variables provenant d'autres sources de données pour créer des modèles de Machine Learning tirant parti de données texte, numériques et autres.

 

Importation et visualisation de donnéestexte

Extraire des données texte à partir de sources, telles que les réseaux sociaux, les fils d'actualités, les logs d'un équipement, des rapports ou encore des sondages.

Extraction de données texte

Importez des données texte dans MATLAB® à partir de fichiers uniques ou de vastes collections de fichiers, y compris les formats PDF, HTML et Microsoft® Word® et Excel®.

Extraction de données texte d'une collection de documents Microsoft Word.

Visualisation du texte

Explorez visuellement des jeux de données texte à l'aide de nuages de mots et de diagrammes de dispersion de texte.

Diagramme de dispersion de texte mettant en évidence la fréquence relative des mots avec des tailles et de couleurs des caractères définies.

Langues supportées

Text Analytics Toolbox offre des fonctionnalités de prétraitement spécifiques à l’anglais et au japonais. La plupart des fonctions sont également opérationnelles sur le texte rédigé dans d'autres langues.

Importation, préparation et analyse de données texte en japonais.

Prétraitement des données texte

Extraire les mots significatifs d'un texte brut.

Nettoyage des données texte

Appliquez des fonctions de filtrage de haut niveau pour supprimer les éléments superflus, tels que les URL, les balises HTML et la ponctuation.

Simplification du texte brut (à gauche) pour l'utilisation des mots les plus significatifs (à droite).

Filtrage des mots vides et normalisation des mots à leur forme racine

Priorisez les données texte significatives dans votre analyse en filtrant les mots courants, les mots qui apparaissent trop souvent ou trop rarement ainsi que les mots très longs et très courts. Réduisez le vocabulaire et focalisez-vous sur le sens ou le sentiment plus général du document en racinisant les mots ou en les lemmatisant à leur forme canonique.

Suppression des mots vides, tels que « a » et « of », d'un document.

Identification des tokens, des phrases et de la classe grammaticale

Découpez automatiquement le texte brut en une collection de mots à l'aide d'un algorithme de tokenisation. Ajoutez les limites de phrases, les détails sur les classes grammaticales et autres informations pertinentes pour le contexte.

Diagrammes financiers et indicateurs techniques

Conversion des données texte en format numérique

Convertir les données texte en données numériques pour les utiliser en Machine Learning et en Deep Learning.

Comptage des mots et des N-grammes

Calculez les statistiques de fréquence des mots pour représenter numériquement les données texte.

Identification et visualisation des mots les plus fréquents dans un modèle.

Word embedding et codage

Entraînez des modèles de word-embedding, notamment word2vec CBOW (Continuous Bag-of-words) ou S-G (Skip-Gram). Importez des modèles préentraînés, y compris fastText et GloVe.

Visualisation de groupes dans un diagramme de dispersion du texte avec des word embeddings. 

Machine Learning et données texte

Effectuer la modélisation, la classification et la réduction de dimensionnalité des thèmes avec des algorithmes de Machine Learning tels que le LDA (Latent Dirichlet Allocation) ou le LSA (Latent Semantic Analysis).

Modélisation thématique

Découvrez et visualisez les patterns sous-jacents, les tendances et les relations complexes qui s'expriment dans de vastes jeux de données texte.

Identification de thèmes dans les données d'un rapport météorologique.

Deep Learning et données texte

Analyser et classifier des sentiments avec des réseaux de Deep Learning, tels que les LSTM (Long Short-Term Memory).

Analyse des sentiments

Identifiez les attitudes et les opinions exprimées dans les données texte pour les catégoriser comme positives, neutres ou négatives. Construisez des modèles capables de prédire les sentiments en temps réel.

Identification des mots traduisant un sentiment positif et négatif. 

Apprentissage d'un réseau de neurones profond pour classifier des données texte.

Génération de texte sur la base du roman Orgueil et Préjugés de Jane Austen avec un réseau de Deep Learning LSTM. 

Nouveautés

Analyse de sentiments 

évaluez les sentiments dans des données texte à l’aide d’algorithmes d’évaluation de sentiments comme VADER.

Support du coréen 

effectuez des analyses sur des textes en coréen, y compris la tokénisation, la lemmatisation, l’étiquetage morpho-syntaxique et la reconnaissance d’entités nommées.

Tokénisation du japonais et du coréen 

personnalisez les options de tokénisation, y compris les MeCab et les dictionnaires utilisateur.

Deep Learning 

initialisez des couches de word embedding avec des word embeddings pré-entraînés.

Reportez-vous aux notes de version pour en savoir plus sur ces fonctionnalités et les fonctions correspondantes.

Analyse de sentiments avec le Deep Learning

Analysez les sentiments sur les données Twitter en live pour comprendre comment est perçu un terme donné.

Vous avez des questions ?

Contactez Sohini Sarkar, experte technique Text Analytics Toolbox

Version d’évaluation

Bénéficiez d'une version d'évaluation de 30 jours.

Télécharger

Prêt à acheter ?

Obtenez les tarifs et explorez les produits associés.

Vous êtes étudiant ?

Obtenez la version étudiante des logiciels MATLAB et Simulink.

En savoir plus