Tall Arrays et mapreduce
mapreduce
sur des clusters Spark™ et Hadoop® et des pools parallèlesVous pouvez utiliser Parallel Computing Toolbox™ pour évaluer des expressions de tall array en parallèle à l'aide d'un pool parallèle sur votre bureau. L'utilisation de tall arrays vous permet d'exécuter des applications Big Data qui ne tiennent pas en mémoire sur votre machine. Vous pouvez également utiliser Parallel Computing Toolbox pour étendre le traitement de grande taille en vous connectant à un pool parallèle exécuté sur un cluster MATLAB Parallel Server™. Vous pouvez également utiliser un cluster Hadoop configuré pour Spark exécutant MATLAB Parallel Server. Pour plus d’informations, consultez Big Data Workflow Using Tall Arrays and Datastores.
Fonctions
Classes
Exemples et procédures
- Big Data Workflow Using Tall Arrays and Datastores
Learn about typical workflows using tall arrays to analyze big data sets.
- Use Tall Arrays on a Parallel Pool
Discover tall arrays in Parallel Computing Toolbox and MATLAB Parallel Server.
- Process Big Data in the Cloud
This example shows how to access a large data set in the cloud and process it in a cloud cluster using MATLAB® capabilities for big data.
- Use Parallel Computing to Optimize Big Data Set for Analysis
This example shows how to optimize data preprocessing for analysis using parallel computing. (depuis R2024a)
- Use Tall Arrays on a Spark Cluster
Create and use tall tables on Spark clusters without changing your MATLAB code.
- Run mapreduce on a Parallel Pool
Try
mapreduce
for advanced analysis of big data using Parallel Computing Toolbox. - Run mapreduce on a Hadoop Cluster
Learn about
mapreduce
for advanced big data analysis on a Hadoop cluster. - Partition a Datastore in Parallel
Use
partition
to split yourdatastore
into smaller parts.
Concepts
- Exécuter du code sur des pools parallèles
Découvrez le démarrage et l’arrêt des pools parallèles, la taille du pool et la sélection du cluster.