Main Content

Fichiers volumineux et Big Data

Accéder et traiter des collections de fichiers et des jeux de données volumineux

Les jeux de données volumineux peuvent être constitués de fichiers dont la taille est supérieure à la mémoire disponible ou dont le traitement prend beaucoup de temps. Il peut également s’agir d’une collection de fichiers de petite taille mais nombreux. Comme il n’existe pas d’approche unique permettant de travailler avec des jeux de données volumineux, MATLAB® propose plusieurs outils pour y accéder et les traiter.

Commencez par créer un datastore pouvant accéder à une petite partie des données à la fois. Vous pouvez utiliser ce datastore pour gérer l’importation incrémentale de données. Pour analyser les données avec des fonctions MATLAB courantes comme mean et histogram, créez un tall array basé sur le datastore. Pour les problèmes plus complexes, vous pouvez écrire un algorithme MapReduce définissant la division des données en blocs et leur réduction.

Catégories

  • Datastore
    Lire de grandes collections de données
  • Tall array
    Tableaux contenant davantage de lignes que ce que peut contenir la mémoire
  • MapReduce
    Technique de programmation pour l’analyse de jeux de données qui ne tiennent pas en mémoire
  • Fichiers MAT volumineux
    Accéder à des variables et les modifier sans les charger en mémoire
  • Fichiers Parquet
    Lire et écrire des fichiers Parquet
  • Mapping de la mémoire
    Mapper les données de fichiers sur la mémoire pour y accéder plus rapidement