Contenu principal

Cette page a été traduite par traduction automatique. Cliquez ici pour voir la dernière version en anglais.

Tall array et mapreduce

Analyser de grands ensembles de données en parallèle à l'aide de tableaux et de datastore de grande taille MATLAB® ou mapreduce sur des clusters Spark™ et Hadoop® et des pools parallèles

Vous pouvez utiliser Parallel Computing Toolbox™ pour évaluer des expressions de tableau de grande taille en parallèle à l’aide d’un pool parallèle sur votre desktop. L'utilisation de tall arrays vous permet d'exécuter des applications de données volumineuses qui ne tiennent pas dans la mémoire de votre machine. Vous pouvez également utiliser Parallel Computing Toolbox pour augmenter le traitement des tableaux de grande taille en vous connectant à un pool parallèle exécuté sur un cluster MATLAB Parallel Server™. Vous pouvez également utiliser un cluster Hadoop compatible Spark exécutant MATLAB Parallel Server. Pour plus d'informations, voir Big Data Workflow Using Tall Arrays and Datastores.

Fonctions

développer tout

tallCreate tall array
datastoreCreate datastore for large collections of data
mapreduceProgramming technique for analyzing data sets that do not fit in memory
mapreducerDefine parallel execution environment for mapreduce and tall arrays
partitionPartition a datastore
numpartitionsNumber of datastore partitions

Classes

développer tout

parallel.PoolPool parallèle de workers
parallel.cluster.HadoopHadoop cluster for mapreducer, mapreduce and tall arrays
parallel.cluster.SparkSpark cluster for mapreducer, mapreduce and tall arrays (depuis R2022b)

Exemples et procédures

Concepts

Sélection d՚exemples