Le Big Data avec MATLAB

Le Big Data avec MATLAB

Explorer, analyser et exploiter des Big Data pour le développement de modèles prédictifs

MATLAB simplifie le travail avec les Big Data en accédant et en s'intégrant à votre système de stockage de Big Data existant, et s'adapte à vos besoins de traitement de données en fonction des ressources disponibles.

Avec MATLAB, vous pouvez :

  • Accéder aux Big Data à partir de différents systèmes de stockage, tels que les systèmes de fichiers traditionnels, les stockages basés dans le cloud (AWS® S3, Azure® Blob), les bases de données SQL et NoSQL et les plateformes de données
  • Nettoyer et analyser de petits échantillons de données, et les exploiter pour développer des modèles de Machine Learning
  • Passer à l'échelle supérieure et appliquer votre code sur des Big Data sans avoir à réécrire vos algorithmes
  • Utiliser une puissance de traitement adaptée à vos besoins, que ce soit sur votre machine locale, sur des clusters HPC traditionnels, des clusters Spark™ ou des plateformes de données cloud

« La fonction de calcul haute performance de MATLAB nous permet de traiter de larges volumes de données jamais analysés auparavant. Nos découvertes nous éclairent sur l’impact des activités humaines sur la santé des écosystèmes et nous permettent de prendre des décisions responsables sur les actions de l’Homme sur terre et dans les océans. »

Dr Christopher Clark, Cornell University

Accéder aux données

Vous pouvez utiliser MATLAB pour lire des données à partir de grandes collections de fichiers, de bases de données, de plateformes de données et de systèmes de stockage dans le cloud. Les datastores de MATLAB vous permettent d'accéder à des données qui ne tiennent pas dans la mémoire d'un seul ordinateur ou qui sont réparties sur plusieurs fichiers. Ces datastores supportent différents formats de fichiers (CSV, Parquet, MDF, etc.) et systèmes de stockage (AWS S3, Azure Blob, HDFS, bases de données, plateformes de données). Vous pouvez également créer vos propres datastores pour des formats de fichiers personnalisés.

L'illustration montre que vous pouvez accéder à des données à partir de différentes sources : fichiers CSV ou Parquet, feuilles de calcul, bases de données, Databricks, Domino, Cloudera, et systèmes de stockage dans le cloud tels qu'AWS, Azure, etc.
Liste des fonctions servant à nettoyer, préparer, explorer et analyser des Big Data, et à développer des modèles de Machine Learning sur ces données.

Explorer, nettoyer, transformer et développer des modèles prédictifs

MATLAB vous permet de réaliser de manière efficace l'analyse et l'ingénierie des données sur les Big Data. MATLAB supporte l'opération Predicate Pushdown pour les fichiers Parquet, ce qui vous permet de filtrer les Big Data à la source. Une fois les données lues, vous pouvez les transformer et les combiner à partir de différents datastores pour le prétraitement et l'ingénierie des données.

Les tall arrays MATLAB utilisent un framework d'évaluation paresseuse, qui permet au code basé sur des structures de table et de timetable en mémoire d'être exécuté sur des Big Data, sans réécriture. Les tall arrays supportent des centaines de fonctions mathématiques, statistiques, de manipulation de données et de Machine Learning, que vous pouvez utiliser pour réaliser des analyses statistiques simples ou développer des modèles prédictifs sur les Big Data.

Intégrer les Big Data à votre infrastructure informatique et les exploiter

MATLAB peut vous aider à traiter des Big Data de manière efficace en les intégrant à votre infrastructure existante. Vous pouvez passer à l'échelle supérieure et exécuter votre code MATLAB de manière interactive en utilisant le traitement parallèle ainsi qu'en mode de production déployée. Vous pouvez déployer des analyses en streaming, et des applications en mode batch libres de droits. En outre, vous pouvez exécuter votre code et vos modèles MATLAB avec des Big Data sur différentes plateformes de données cloud telles que Databricks, Domino Data Lab et Google® BigQuery.

L'illustration montre une personne exécutant du code MATLAB sur Databricks, Domino, AWS, Azure et d'autres systèmes de Big Data.

Produits

Découvrez les produits utilisés avec le Deep Learning pour les applications de Big Data.