Cette page a été traduite par traduction automatique. Cliquez ici pour voir la dernière version en anglais.

Traitement des Big Data

Analyser de grands ensembles de données en parallèle à l'aide de tableaux distribués, de tall arrays, de datastores ou de mapreduce, sur des clusters Spark^® et Hadoop^®

Vous pouvez utiliser Parallel Computing Toolbox™ pour distribuer de grands tableaux en parallèle sur plusieurs nœuds de calcul MATLAB^®, afin de pouvoir exécuter des applications Big Data qui utilisent la mémoire combinée de votre cluster. Vous opérez sur l'ensemble du tableau en tant qu'entité unique, cependant, les workers n'opèrent que sur leur partie du tableau et transfèrent automatiquement les données entre eux lorsque cela est nécessaire. Parallel Computing Toolbox vous permet également d'exécuter des calculs de tall array MATLAB et datastore en parallèle, afin que vous puissiez analyser de grands ensembles de données qui ne rentrent pas dans la mémoire de votre cluster. Vous pouvez utiliser MATLAB Parallel Server™ pour exécuter des calculs de tall array et datastore en parallèle sur des clusters Hadoop compatibles Spark. Cela réduit considérablement le temps d’exécution des calculs de données très volumineux.

Sélection d՚exemples

Process Big Data in the Cloud

Access a large data set in the cloud and process it in a cloud cluster using MATLAB® capabilities for big data.

Ouvrir le live script

Use Parallel Computing to Optimize Big Data Set for Analysis

Optimize data preprocessing for analysis using parallel computing.

Depuis R2024a
Ouvrir le live script

Traitement des Big Data

Catégories

Sélection d՚exemples

Process Big Data in the Cloud

Use Parallel Computing to Optimize Big Data Set for Analysis