Visualisation de données

 

Introduction à la visualisation de données

3 choses à savoir

La visualisation de données est le processus de traduction des données en représentations graphiques telles que des tracés, des graphiques, des cartes et des visualisations 3D, qui vous aident à identifier facilement des motifs, des tendances et des valeurs aberrantes dans les données.

Ces visualisations de données font émerger des relations qu'il serait difficile, voire impossible de déceler par simple observation des données brutes. C'est particulièrement vrai pour les jeux de données volumineux provenant de sources telles que des capteurs, des enregistreurs de données, des dossiers médicaux, des tendances de recherche sur le web et des habitudes de consommation. La visualisation de données joue un rôle central dans la conversion des données en informations exploitables.

Comment la visualisation de données peut-elle vous aider ?

Les techniques de visualisation de données varient selon les domaines.

Finance computationnelle

En utilisant des données de marché historiques ou live, la visualisation de données permet d'identifier rapidement des motifs et des tendances, de détecter des anomalies et d'obtenir des informations pertinentes. La visualisation de données permet d'effectuer des analyses, de développer des modèles prédictifs, d'évaluer les risques et de formaliser les stratégies de trading.

Le graphique ci-dessous simule le comportement futur des prix spot de l'électricité à partir d'un modèle de séries temporelles ajusté aux données historiques.

Tracé des prix spot de l'électricité montrant les prix spot et les tendances historiques, conjointement aux prix spot et aux tendances simulés. L'abscisse représente les dates, et l'ordonnée le prix spot.

Tracé des prix spot de l'électricité montrant les données historiques ainsi que la tendance déterministe prévue.

Traitement du signal

Le traitement du signal est utilisé dans des applications telles que l'analyse de la parole, la surveillance de la fréquence cardiaque, les télécommunications, la télédétection, la surveillance du climat et la technologie GPS. Les tâches courantes incluent le prétraitement et la comparaison de signaux, le design de filtres numériques, la transformation de signaux, la réalisation de mesures et la détection de modèles et d'événements. Les visualisations de données servent à analyser les signaux d'intérêt dans les domaines temporel, fréquentiel et temps-fréquence.

Le graphique ci-dessous représente les données audio d'une baleine bleue du Pacifique. La visualisation est créée dans MATLAB® en utilisant l'application Signal Analyzer, qui permet de visualiser les signaux dans les domaines temporel et fréquentiel.

Capture d'écran de l'application Signal Analyzer montrant les données de signal extraites de l'enregistrement audio d'une baleine bleue du Pacifique, ainsi qu'un graphique des données.

Région d'intérêt extraite des données audio d'une baleine bleue du Pacifique.

Traitement d'images et Computer Vision

Le traitement d'images et de vidéos permet de trouver des formes, de compter des objets, d'identifier des couleurs, de mesurer les propriétés d'objets et d'extraire d'autres informations pertinentes. Les techniques de traitement d'images sont souvent appliquées dans le cadre d'une étape de prétraitement dans le workflow de Computer Vision. Les applications dans ce domaine comprennent la reconnaissance faciale pour les smartphones, l'évitement des piétons et des véhicules dans le domaine de la conduite autonome, la vidéosurveillance, la détection de tumeurs dans les IRM médicales, et d'autres systèmes de recherche d'images.

Par exemple, BMW utilise des fonctionnalités de Computer Vision dans l'Assisted Driving View (ADV) pour représenter les véhicules environnants et identifier leurs types.

Capture d'écran de l'Assisted Driving View de B M W illustrant la détection des objets.

Assisted Driving View de BMW. MATLAB a été utilisé pour la vérification automatisée, y compris le recalage d'images, la détection des objets, la labellisation des données de vérité terrain et le test de la scène ADV par rapport à la sortie du test.

Intelligence artificielle (IA)

La visualisation de données joue un rôle important dans le développement des modèles d'IA (qui utilisent le Machine Learning ou le Deep Learning), car ces modèles reposent sur des jeux de données volumineux, difficiles à interpréter. En Machine Learning, l'analyse de clusters aide à détecter les anomalies et à effectuer le prétraitement des données pour l'apprentissage supervisé. L'analyse en composantes principales (ACP) et l'algorithme t-SNE (t-distributed Stochastic Neighbor Embedding) sont les deux techniques de visualisation de données les plus utilisées, car elles permettent de réduire les dimensions des données permettant ainsi de se concentrer sur des dimensions de différenciation clés.

En Deep Learning, vous pouvez surveiller la progression de l'apprentissage grâce aux visualisations de données telles que les tracés des fonctions de précision et de perte (loss) du réseau, et analyser les réseaux entraînés en utilisant des techniques de visualisation telles que Grad-CAM (Gradient-weighted Class Activation Mapping), la sensibilité aux occlusions, LIME (Local Interpretable Model-agnostic Explanations) et Deep Dream.

Tracés de la distance de Mahalanobis, de la similarité cosinus, de la distance de Tchebychev et Euclidienne pour trois espèces différentes d'iris.

Tracés pour différentes espèces d'iris en utilisant le jeu de données Fisher sur les iris. Visualisations tracées avec la fonction tsne.

Comment fonctionne la visualisation de données ?

Les packages logiciels offrent des fonctionnalités permettant de transformer des données brutes en visualisations riches, telles que des tracés, des graphiques et des diagrammes. L'exemple suivant illustre l'analyse de données de densité du trafic cycliste. En se contentant d'une inspection visuelle des données brutes, il est difficile d'établir une relation entre les points de données.

Aperçu des données brutes de densité du trafic cycliste.
Horodatage Jour Total Vers l'ouest Vers l'est Heure
‘2015-06-24 07:00:00’ ‘Mercredi’ 141 13 128 7
‘2015-06-24 08:00:00’ ‘Mercredi’ 327 44 283 8
‘2015-06-24 09:00:00’ ‘Mercredi’ 184 32 152 9
‘2015-06-24 10:00:00’ ‘Mercredi’ 94 30 64 10
‘2015-06-24 11:00:00’ ‘Mercredi’ 67 24 43 11
‘2015-06-24 12:00:00’ ‘Mercredi’ 66 32 34 12
‘2015-06-24 13:00:00’ ‘Mercredi’ 67 32 35 13

Le diagramme à barres ci-dessous montre que la densité du trafic cycliste augmente et diminue au fil des jours de la semaine. Il est maintenant clair que le nombre de cyclistes est plus important en semaine que le week-end. Cette visualisation nous permet de déduire que les cyclistes empruntant cet itinéraire font principalement le trajet entre leur domicile et leur lieu de travail.

Diagramme à barres représentant le nombre médian de cyclistes par jour sur une semaine.

Données de trafic cycliste représentées dans un diagramme à barres.

Un scatter plot peut être utilisé pour tirer davantage d'informations des mêmes données. Le graphique suivant montre le nombre total de vélos se dirigeant respectivement vers l'est et vers l'ouest à des moments précis de la journée. Sur la base de ce graphique, nous pouvons conclure que les routes en direction de l'est conduisent aux quartiers d'affaires, tandis que les routes en direction de l'ouest conduisent aux zones résidentielles. De plus, nous pouvons établir que les heures de pointe du trafic sont de 8h00 à 10h00 en direction de l'est et de 16h00 à 18h00 en direction de l'ouest.

Scatter plot du trafic cycliste à Boston. L'abscisse représente l'heure de la journée, et l'ordonnée le nombre total de vélos. Les points bleus représentent des cyclistes allant vers l'est, et les points orange représentent les cyclistes allant vers l'ouest.

Trafic cycliste dans les directions est et ouest selon l'heure de la journée. 

Un diagramme en essaims est un type particulier de scatter plot qui permet de révéler les tendances en matière de densité du trafic cycliste en fonction des heures de la journée, des différents jours de la semaine et de la direction.

Diagramme en essaims du trafic cycliste à Boston, représentant le jour de la semaine, l'heure de la journée et la direction du déplacement pour illustrer la densité du nombre de locations de vélos.

Densité du trafic cycliste par jour et par direction.

Dans l'exemple du trafic cycliste, la visualisation de données avec différents types de tracés (graphiques à barres, scatter plot, diagramme en essaims) nous aide à extraire des informations utiles à partir du jeu de données, notamment les jours de trafic de pointe, la direction du trajet et l'heure la plus chargée de la journée.

Visualisation de données avec MATLAB

MATLAB est une plateforme de programmation et de calcul numérique utilisée pour l'analyse de données, le développement d'algorithmes et la création de modèles. Elle supporte l'ensemble du workflow d'analyse de données, y compris l'acquisition des données directement dans MATLAB, l'analyse et la visualisation de ces données, et l'exportation des résultats. Vous pouvez utiliser des applications interactives pour visualiser vos données sans avoir à écrire de code. Les applications génèrent automatiquement le code MATLAB approprié pour vous, ce qui vous permet d'automatiser et de réutiliser votre travail.

Créer des visualisations de données

MATLAB offre un large éventail de types de graphiques prédéfinis, notamment des graphiques linéaires, des scatter plots, des tracés de distribution et des tracés géographiques, permettant de visualiser des jeux de données provenant d'un ensemble diversifié d'applications. Avec le langage MATLAB, vous pouvez créer des visualisations de manière interactive ou programmatique.

Explorer les visualisations de données

Vous pouvez explorer votre visualisation de manière interactive, notamment :

  • Effectuer un zoom avant ou arrière sur une section spécifique du jeu de données
  • Explorer interactivement des visualisations en mode panoramique ou rotation
  • Afficher des lignes de tendance ou des valeurs de données directement sur la visualisation
  • Ombrer et mettre en surbrillance des points de données
  • Basculer entre les domaines (par exemple, domaine temporel, fréquentiel, S, Z)

Annoter et personnaliser les visualisations de données

Vous pouvez annoter vos visualisations de manière interactive en mettant l'accent sur les informations essentielles que vous souhaitez communiquer, par exemple :

  • Annoter des points de données clés
  • Ajouter des conseils sur les données
  • Ajouter des étiquettes aux axes
  • Effectuer des regroupements selon différents motifs et couleurs
  • Ajouter des marqueurs de données, des styles de ligne et des couleurs

MATLAB génère automatiquement le code correspondant aux modifications interactives que vous apportez à votre graphique. Vous pouvez réutiliser ce code en l'ajoutant à votre script.

Graphique du tracé d'un signal I-Q, avec x en abscisse et l'amplitude normalisée en ordonnée. Le graphique représente un signal en phase et un signal en quadrature.

Utilisez le bouton Update Code lorsque vous modifiez votre visualisation.

Les jeux de données complexes peuvent être difficiles à visualiser avec des graphiques simples. MATLAB vous permet de créer des graphiques personnalisés répondant à vos besoins de visualisation et de leur ajouter des interactions personnalisées. 

Exemples :

  • Composant sparklines—Créez de petits graphiques linéaires qui montrent la tendance générale de chaque vecteur dans un jeu de données multivecteurs tel qu'un tableau. Observez et comparez les tendances des données pour chaque ligne/colonne.
  • Scatter plot de densité : utilisez la couleur (ou la transparence) pour identifier la densité des points.
Capture d'écran d'un composant sparklines et d'un scatter plot de densité représentant tous deux des données non labellisées.

(Gauche) Composant sparklines et (droite) scatter plot de densité.

Explorez d'autres exemples de conteneurs de graphiques personnalisés sur File Exchange dans MATLAB Central.

Exporter des visualisations de données

Vous pouvez exporter directement vos visualisations personnalisées et annotées pour les utiliser sur le web ou dans des présentations et des rapports.

Capture d'écran illustrant l'enregistrement d'une figure à un emplacement donné.

Exportation d'une figure.

Intégrer la visualisation de données à l'analyse de données

La visualisation de données est souvent associée à l'analyse et au prétraitement des données. Les applications MATLAB comme Data Cleaner et Signal Analyzer combinent ces étapes.

Les contrôles interactifs vous permettent de spécifier des opérations sans avoir à écrire de code, et les visualisations de données correspondantes sont intégrées directement dans l'application. Vous pouvez ainsi voir immédiatement les résultats d'une tâche donnée. Une fois votre analyse et votre prétraitement terminés, les applications peuvent générer automatiquement le code MATLAB correspondant, ce qui vous permet d'automatiser les étapes, même sur des données différentes.

Visualisations spécifiques à l'application

Les toolboxes MATLAB proposent des visualisations spécifiques aux applications, ainsi que des applications interactives qui combinent la visualisation avec le prétraitement et l'analyse des données.

Capture d'écran de l'application Econometric Modeler

Application Econometric Modeler pour la visualisation et l'analyse de données de séries temporelles univariées ou multivariées (dans Econometrics Toolbox™).

Capture d'écran d'un graphique de réponse en amplitude avec la fréquence en MHz en abscisse et l'amplitude en ordonnée.

Réponse en fréquence des étages individuels d'un convertisseur abaisseur numérique à plusieurs étages (dans DSP System Toolbox™).

Capture d'écran d'un graphique traçant un spectre de signaux utiles et parasites, avec la fréquence en GHz en abscisse et les dBm en ordonnée.

Blocage Bluetooth LE, intermodulation et test de performance du rapport porteuse/interférence (dans Bluetooth® Toolbox).

Capture d'écran du graphique de beamforming d'un système de réseau d'antennes mesurant la puissance normalisée en dB pour plusieurs dimensions.

Beamforming pour un système de réseau d'antennes (dans Phased Array System Toolbox™).

Connecter MATLAB à d'autres outils de visualisation de données

Vous pouvez utiliser les capacités de calcul et de traitement de données de MATLAB pour créer des visualisations et des tableaux de bord avec d'autres outils d'informatique décisionnelle tels que :

Études de cas

Applications intéressantes de la visualisation de données

Les capacités de visualisation de données de MATLAB ont permis aux organisations d'atteindre efficacement leurs objectifs de recherche.

Ford développe un outil pour l'analyse des résultats des tests de cycle de conduite

L'équipe Vehicle Energy Management Engineering chez Ford a utilisé MATLAB pour développer leur outil CycleTool permettant d'évaluer les émissions, la consommation de carburant et les performances de leurs véhicules. L'outil leur permet d'évaluer les performances du système en visualisant les résultats des tests hardware par rapport aux prédictions et simulations de leur modèle.

Lisez l'article

Capture d'écran de MATLAB démontrant la capacité à visualiser les résultats des tests hardware par rapport aux prédictions et simulations d'un modèle.

Balayage des données pour repérer les tendances dans l'application de synthèse.

Décrypter le vol du papillon grâce à des caméras à haute vitesse et une soufflerie

Les chercheurs de l'Université de Lund ont découvert ce qui donne au vol des papillons ce motif de battement distinct, en utilisant MATLAB pour le traitement des images, l'analyse de données, la modélisation et les visualisations. Étudier le comportement de vol des papillons permet aux ingénieurs de construire des drones volants (ou même nageurs) plus efficaces et dynamiques. Les chercheurs ont utilisé les fonctionnalités de visualisation de données de MATLAB pour analyser et comparer les performances des designs d'ailes inspirés de leur analyse du comportement de vol des papillons.

Lisez l'article

Quatre graphiques qui illustrent différents types d'ailes avec l'impulsion et l'énergie en temps normalisé.

Une aile flexible améliore la force et l'efficacité du battement d'aile.

State Street Global Advisors développe un modèle de notation pour apporter de la transparence aux investissements ESG

L'équipe de développement de State Street Global Advisors a généré des histogrammes, scatter plots, box plots et autres visualisations pour affiner leurs algorithmes dans le cadre du développement de R-Factor™, un système qui aide les investisseurs à prendre des décisions éclairées et à améliorer leurs scores environnementaux, sociaux et de gouvernance (ESG).

Lisez l'article

Douze graphiques forment un histogramme montrant les scores ESG de R-Factor par secteur d'activité pour M S C I World.

Histogramme montrant les scores ESG de R-Factor par secteur d'activité.

Bosch développe une plateforme unique pour l'analyse et la visualisation des données de test automobile

Bosch a utilisé MATLAB pour développer ENValyzer (Engineering Test Data Visualizer and Analyzer), un outil servant à visualiser, traiter, analyser et générer des rapports sur les données de test obtenues à partir de dispositifs de mesure, de bancs d'essai et de véhicules. Les ingénieurs Bosch ont pu effectuer le rendu des données sous forme de diverses vues : unique, secondaire, tracé matriciel et multiaxes.

Lisez l'article

Un tracé ENValyzer affichant les résultats du spectre du taux de proéminence (PR) par rapport au nombre de tours par minutes (R P M).

Tracé ENValyzer affichant les résultats du spectre du taux de proéminence (PR) par rapport au nombre de tours par minutes (RPM).