La traduction de cette page n'est pas à jour. Cliquez ici pour voir la dernière version en anglais.
Fichiers volumineux et Big Data
Les jeux de données volumineux peuvent être constitués de fichiers dont la taille est supérieure à la mémoire disponible ou dont le traitement prend beaucoup de temps. Il peut également s’agir d’une collection de fichiers de petite taille mais nombreux. Comme il n’existe pas d’approche unique permettant de travailler avec des jeux de données volumineux, MATLAB® propose plusieurs outils pour y accéder et les traiter.
Commencez par créer un datastore pouvant accéder à une petite partie des données à la fois. Vous pouvez utiliser ce datastore pour gérer l’importation incrémentale de données. Pour analyser les données avec des fonctions MATLAB courantes comme mean
et histogram
, créez un tall array basé sur le datastore. Pour les problèmes plus complexes, vous pouvez écrire un algorithme MapReduce définissant la division des données en blocs et leur réduction.
Catégories
- Datastore
Lire de grandes collections de données
- Tall array
Tableaux contenant davantage de lignes que ce que peut contenir la mémoire
- MapReduce
Technique de programmation pour l’analyse de jeux de données qui ne tiennent pas en mémoire
- Fichiers MAT volumineux
Accéder à des variables et les modifier sans les charger en mémoire
- Fichiers Parquet
Lire et écrire des fichiers Parquet
- Mapping de la mémoire
Mapper les données de fichiers sur la mémoire pour y accéder plus rapidement