Text Analytics Toolbox
Analyse et modélisation de données texte
Text Analytics Toolbox™ contient des algorithmes et des visualisations pour le prétraitement, l'analyse et la modélisation de données texte. Les modèles créés avec cette toolbox peuvent être utilisés dans des applications telles que l'analyse des sentiments, la maintenance prédictive ou encore la modélisation thématique.
Text Analytics Toolbox intègre des outils permettant de traiter du texte brut extrait de sources diverses, comme les logs d'un équipement, des fils d'actualités, des sondages, des rapports d'opérateur ou encore les réseaux sociaux. Vous pouvez extraire du texte depuis tous les formats de fichiers courants, prétraiter le texte brut, extraire des mots spécifiques, convertir le texte en représentations numériques et construire des modèles statistiques.
Avec des techniques de Machine Learning telles que le LSA, le LDA et le word embedding, vous pouvez identifier des groupes et créer des variables à partir de jeux de données texte de grande dimension. Les variables créées avec Text Analytics Toolbox peuvent être combinées avec des variables provenant d'autres sources de données pour créer des modèles de Machine Learning tirant parti de données texte, numériques et autres.
En savoir plus:
Extraction de données texte
Importez des données texte dans MATLAB® à partir de fichiers uniques ou de vastes collections de fichiers, y compris les formats PDF, HTML et Microsoft® Word® et Excel®.
Visualisation du texte
Explorez visuellement des jeux de données texte à l'aide de nuages de mots et de diagrammes de dispersion de texte.
Langues supportées
Text Analytics Toolbox offre des fonctionnalités de prétraitement spécifiques à l’anglais et au japonais. La plupart des fonctions sont également opérationnelles sur le texte rédigé dans d'autres langues.
Nettoyage des données texte
Appliquez des fonctions de filtrage de haut niveau pour supprimer les éléments superflus, tels que les URL, les balises HTML et la ponctuation.
Filtrage des mots vides et normalisation des mots à leur forme racine
Priorisez les données texte significatives dans votre analyse en filtrant les mots courants, les mots qui apparaissent trop souvent ou trop rarement ainsi que les mots très longs et très courts. Réduisez le vocabulaire et focalisez-vous sur le sens ou le sentiment plus général du document en racinisant les mots ou en les lemmatisant à leur forme canonique.
Identification des tokens, des phrases et de la classe grammaticale
Découpez automatiquement le texte brut en une collection de mots à l'aide d'un algorithme de tokenisation. Ajoutez les limites de phrases, les détails sur les classes grammaticales et autres informations pertinentes pour le contexte.
Comptage des mots et des N-grammes
Calculez les statistiques de fréquence des mots pour représenter numériquement les données texte.
Word embedding et codage
Entraînez des modèles de word-embedding, notamment word2vec CBOW (Continuous Bag-of-words) ou S-G (Skip-Gram). Importez des modèles préentraînés, y compris fastText et GloVe.
Machine Learning et données texte
Effectuer la modélisation, la classification et la réduction de dimensionnalité des thèmes avec des algorithmes de Machine Learning tels que le LDA (Latent Dirichlet Allocation) ou le LSA (Latent Semantic Analysis).
Modélisation thématique
Découvrez et visualisez les patterns sous-jacents, les tendances et les relations complexes qui s'expriment dans de vastes jeux de données texte.
Deep Learning et données texte
Analyser et classifier des sentiments avec des réseaux de Deep Learning, tels que les LSTM (Long Short-Term Memory).
Analyse des sentiments
Identifiez les attitudes et les opinions exprimées dans les données texte pour les catégoriser comme positives, neutres ou négatives. Construisez des modèles capables de prédire les sentiments en temps réel.
Classification du texte
Classifiez les descriptions de texte à l'aide de word embeddings permettant de reconnaître des catégories de texte à l'aide du Deep Learning.
Génération de texte
Utilisez le Deep Learning pour générer un texte nouveau compte tenu du texte observé.
Analyse de sentiments
évaluez les sentiments dans des données texte à l’aide d’algorithmes d’évaluation de sentiments comme VADER.
Support du coréen
effectuez des analyses sur des textes en coréen, y compris la tokénisation, la lemmatisation, l’étiquetage morpho-syntaxique et la reconnaissance d’entités nommées.
Tokénisation du japonais et du coréen
personnalisez les options de tokénisation, y compris les MeCab et les dictionnaires utilisateur.
Deep Learning
initialisez des couches de word embedding avec des word embeddings pré-entraînés.
Reportez-vous aux notes de version pour en savoir plus sur ces fonctionnalités et les fonctions correspondantes.
Analyse de sentiments avec le Deep Learning
Analysez les sentiments sur les données Twitter en live pour comprendre comment est perçu un terme donné.
Vous avez des questions ?
Contactez Sohini Sarkar, experte technique Text Analytics Toolbox