Contenu principal

Cette page a été traduite par traduction automatique. Cliquez ici pour voir la dernière version en anglais.

Traitement des Big Data

Analyser de grands ensembles de données en parallèle à l'aide de tableaux distribués, de tall arrays, de datastores ou de mapreduce, sur des clusters Spark® et Hadoop®

Vous pouvez utiliser Parallel Computing Toolbox™ pour distribuer de grands tableaux en parallèle sur plusieurs nœuds de calcul MATLAB®, afin de pouvoir exécuter des applications Big Data qui utilisent la mémoire combinée de votre cluster. Vous opérez sur l'ensemble du tableau en tant qu'entité unique, cependant, les workers n'opèrent que sur leur partie du tableau et transfèrent automatiquement les données entre eux lorsque cela est nécessaire. Parallel Computing Toolbox vous permet également d'exécuter des calculs de tall array MATLAB et datastore en parallèle, afin que vous puissiez analyser de grands ensembles de données qui ne rentrent pas dans la mémoire de votre cluster. Vous pouvez utiliser MATLAB Parallel Server™ pour exécuter des calculs de tall array et datastore en parallèle sur des clusters Hadoop compatibles Spark. Cela réduit considérablement le temps d’exécution des calculs de données très volumineux.

Catégories

  • Tableaux distribués
    Analyser de grands ensembles de données en parallèle à l'aide de tableaux distribués et d'une exécution simultanée
  • Tall array et mapreduce
    Analyser de grands ensembles de données en parallèle à l'aide de tableaux et de datastore de grande taille MATLAB ou mapreduce sur des clusters Spark et Hadoop et des pools parallèles

Sélection d՚exemples