Bioinformatics Toolbox

Lire, analyser et visualiser des données génomiques et protéomiques

 

Bioinformatics Toolbox™ propose des algorithmes et des applications pour le séquençage de nouvelle génération (NGS), l'analyse des biopuces, la spectrométrie de masse et l'ontologie génétique. Avec les fonctions de la toolbox, vous pouvez lire des données génomiques et protéomiques à partir de formats de fichier standard tels que SAM, FASTA, CEL et CDF, et à partir de bases de données en ligne, comme NCBI Gene Expression Omnibus et GenBank®. Vous pouvez parcourir et visualiser ces données avec des navigateurs de séquences, des cartes thermiques spatiales et des clustergrams. La toolbox propose également des techniques statistiques pour la détection de pics, la saisie de valeurs pour les données manquantes et la sélection de caractéristiques.

Vous pouvez combiner les fonctions de la toolbox pour supporter les processus bioinformatiques courants. Vous pouvez utiliser des données ChIP-Seq pour identifier les facteurs de transcription, analyser des données de séquences d'ARN pour identifier des gènes exprimés de manière différentielle, identifier des variantes de nombre de copies et des SNP dans des données de biopuces, et classifier des profils protéiques à partir de données de spectrométrie de masse.

En savoir plus sur la biologie computationnelle.

En savoir plus :

Analyse de séquençage de nouvelle génération

Bioinformatics Toolbox propose des algorithmes et des techniques de visualisation pour l'analyse de séquençage de nouvelle génération. La toolbox vous permet d'analyser des génomes dans leur intégralité, tout en effectuant des calculs à un niveau de résolution de paires de base. Vous pouvez utiliser le navigateur NGS pour visualiser et étudier des alignements à lecture courte à partir de lectures courtes en paire ou individuelles. Vous pouvez également créer des routines d'analyse personnalisées, comme indiqué dans les exemples suivants.

Visualisation et analyse d'alignements à lecture courte

Avec le navigateur NGS, vous pouvez vérifier et analyser l'alignement des séquences à lecture courte, de sorte à étayer les analyses qui mesurent la variation génétique et l'expression génétique. Le navigateur NGS vous permet d’effectuer les opérations suivantes :

  • Visualiser des données à lecture courte alignées à une séquence nucléotidique de référence
  • Comparer plusieurs jeux de données alignés avec une séquence de référence courante
  • Voir la couverture de différentes bases et régions de la séquence de référence
  • Analyser la qualité et d'autres détails des lectures alignées
  • Identifier des incohérences dues aux erreurs d'appel de bases ou aux polymorphismes
  • Visualiser les insertions et les suppressions
  • Accéder aux annotations de caractéristiques relatives à une région spécifique de la séquence de référence

Navigateur NGS affichant des polymorphismes nucléotidiques simples (SNP) en gras. Vous pouvez afficher plusieurs pistes de données, examiner des pics, identifier les insertions et les suppressions et étudier la qualité de lecture.

Stockage et gestion des données de séquences à lecture courte

Les jeux de données utilisés dans l'analyse de séquençage de nouvelle génération sont généralement trop volumineux pour être stockés dans la mémoire physique. Bioinformatics Toolbox fournit des conteneurs de données dédiés qui vous permettent d'analyser des génomes dans leur intégralité.

L'objet BioIndexedFile vous permet d'accéder aux contenus de fichiers texte contenant des entrées de taille non uniforme telles que des séquences, des annotations et des références croisées au jeu de données. Vous pouvez générer ces objets à partir de tableaux, de fichiers non hiérarchiques ou de formats spécifiques à une application (SAM, FASTA, FASTQ, etc.).

La classe BioMap enregistre des informations de séquences à lecture courte, notamment des en-têtes de séquences, des lectures de séquences, des scores de qualité ainsi que des données d'alignement et de cartographie à une séquence de référence simple. Vous pouvez utiliser des méthodes et des propriétés d'objet pour parcourir, accéder, filtrer et manipuler les données contenues dans un objet BioMap.

Analyse et visualisation de données de biopuces

Utilisez des applications et des fonctions pour acquérir, visualiser, analyser et traiter des images dans de nombreux types de données.

Normalisation de biopuces

Vous pouvez utiliser différentes méthodes pour normaliser des données de biopuces, comme la régression locale, la moyenne générale, l'écart absolu médian (MAD) et la normalisation quantile. Vous pouvez appliquer ces méthodes à l'ensemble de la biopuce, ou à des régions ou des blocs spécifiques. Les fonctions de filtrage et d'imputation vous permettent de nettoyer des données brutes avant d'exécuter les routines d'analyse et de visualisation.

Analyse et visualisation de données

Bioinformatics Toolbox vous permet d'effectuer des ajustements en arrière-plan et de calculer des valeurs d'expression de gène (ensemble de sondes) à partir des données de sonde de biopuces Affymetrix®, à l'aide des procédures Robust Multi-Array Average (RMA) et GC Robust Multi-Array Average (GCRMA). Vous pouvez appliquer une segmentation binaire circulaire aux données CGH de puces et estimer le taux d'erreur de plusieurs hypothèses testant les données d'expression génétique d'une expérience de biopuces. Vous pouvez également effectuer une normalisation de jeux invariants au rang, sur les intensités des sondes pour plusieurs fichiers CEL Affymetrix, ou sur les valeurs d'expression génétique de deux conditions expérimentales distinctes.

Les routines spécialisées pour la visualisation de données de biopuces comprennent des tracés en volcan, des tracés en boîte, des tracés loglog, des tracés I-R et des cartes thermiques spatiales de la biopuce. Vous pouvez également visualiser des idéogrammes avec des modèles de bandes G.

En utilisant des routines de Statistics and Machine Learning Toolbox™, vous pouvez classifier vos résultats, effectuer un partitionnement k-means ou hiérarchique, et représenter vos données de biopuces dans des visualisations statistiques, telles que des clustergrams 2D avec un ordonnancement optimal des feuilles, des cartes thermiques, des tracés des composants principaux et des arbres de classification.

Tracé en volcan de données de biopuces montrant la signification opposée au rapport d'expression génétique.

Analyse de données de spectrométrie de masse

Bioinformatics Toolbox propose un ensemble de fonctions dédiées à l'analyse de données de spectrométrie de masse. Ces fonctions permettent le prétraitement, la classification et l'identification de marqueurs à partir de données SELDI, MALDI, LC/MS et GC/MS. Les fonctions de prétraitement comprennent la correction, le lissage, le calibrage et le rééchantillonnage de référence. Vous pouvez aligner des données spectrales brutes en utilisant l'axe M/Z et effectuer un alignement du temps de rétention sur des données LC/MS et GC/MS. Vous pouvez tracer plusieurs spectres simultanément.

Vous pouvez lisser, aligner et normaliser des spectres, puis utiliser les outils de classification et d'apprentissage statistique pour créer des classificateurs et identifier des biomarqueurs potentiels.

Analyse protéomique et métabolomique différentielle sans étiquette avec Bioinformatics Toolbox.

Théorie des graphes, apprentissage statistique et ontologie génétique

Théorie et visualisation des graphes

Bioinformatics Toolbox vous permet d'appliquer la théorie des graphes à des matrices creuses. Vous pouvez créer, visualiser et manipuler des graphes tels que des cartes interactives, des tracés hiérarchiques et des chemins. Vous pouvez identifier et visualiser les chemins les plus courts dans des graphes, tester des cycles dans des graphes orientés et déterminer l'isomorphisme entre deux graphes.

Apprentissage et visualisation statistiques

Bioinformatics Toolbox offre des fonctions qui reposent sur les algorithmes de classification et d'apprentissage statistique dans Statistics and Machine Learning Toolbox, notamment :

  • Des machines à vecteurs de support (SVM) et des classificateurs des K plus proches voisins
  • Des fonctions pour mettre en place des expériences de validation croisée et pour évaluer les performances des différentes méthodes de classification
  • Des outils interactifs pour la sélection de caractéristiques, la cartographie et l'affichage de tracés hiérarchiques et de chemins

Apprentissage et visualisation statistiques.

Ontologie génétique

Bioinformatics Toolbox vous permet d'accéder à la base de données d'ontologie génétique depuis MATLAB®, d'analyser des fichiers annotés d'ontologie génétique et d'obtenir des sous-ensembles de l'ontologie tels que des ancêtres, des descendants ou des parents.

Analyse de séquences

Bioinformatics Toolbox comprend des outils d'analyse et de visualisation de séquences pour les données de séquences génomiques et protéomiques. Vous pouvez réaliser diverses analyses, notamment des alignements de séquences multiples, ainsi que la construction, la visualisation interactive et la manipulation d'arbres phylogénétiques.

Alignement de séquences

La toolbox propose des fonctions, des objets et des méthodes pour l'analyse de séquences, notamment l'alignement de séquences par paires, de profils de séquences et de séquences multiples. Ces fonctions incluent :

  • Des implémentations MATLAB d'algorithmes standard pour l'alignement local et global de séquences, tels que les algorithmes de Needleman-Wunsch, de Smith-Waterman et de modèles de Markov cachés.
  • L'alignement de séquences multiples progressif
  • Des représentations graphiques de matrices de résultats d'un alignement
  • Des matrices de notation standard, telles que les familles de matrices PAM et BLOSUM
  • Le calcul de la séquence consensus et l'affichage du logo de la séquence

Voir les 3 images

Utilitaires et statistiques de séquences

La toolbox vous permet de manipuler et d'analyser vos séquences afin de mieux comprendre vos données. Vous pouvez :

  • Convertir des séquences d'ADN ou d'ARN en séquences d'acides aminés en utilisant le code génétique
  • Effectuer des analyses statistiques sur les séquences et rechercher des modèles spécifiques au sein d'une séquence
  • Appliquer des protéases et des enzymes de restriction pour réaliser la digestion in silico de séquences ou créer des séquences aléatoires pour des cas de test
  • Prévoir la structure secondaire minimale d'énergie libre de séquences d'ARN

Visualisation de séquences

La toolbox vous permet de visualiser des séquences et des alignements. Vous pouvez visualiser des cartes linéaires ou circulaires de séquences annotées avec des fonctionnalités GenBank. Vous pouvez visualiser des diagrammes de la structure secondaire d'une séquence d'ARN. Les afficheurs interactifs vous permettent de parcourir et de modifier des alignements de séquences multiples et par paires.

Analyse d'arbres phylogénétiques

La toolbox vous permet de créer et de modifier des arbres phylogénétiques. Vous pouvez calculer des distances par paires entre des séquences de nucléotides ou d'acides aminés, qu'elles soient alignées ou non, en utilisant diverses mesures de similarité comme les méthodes de Jukes-Cantor, de la p-distance, du score d'alignement ou une méthode de distance définie par l'utilisateur. Les arbres phylogénétiques sont construits en utilisant une liaison hiérarchique avec une variété de techniques, y compris les méthodes du neighbor joining, de liaison simple et de liaison complète, et UPGMA (Unweighted Pair Group Method Average).

La toolbox permet de pondérer et de réenraciner des arbres, ainsi que de calculer des sous-arbres et la forme canonique des arbres. L'afficheur d'arbres phylogénétiques vous permet d'élaguer, de réorganiser et de renommer des branches, de parcourir des distances, ainsi que de lire ou d'écrire des fichiers au format Newick. Vous pouvez également utiliser les outils d'annotation dans MATLAB pour créer des arbres de qualité.

Analyse des caractéristiques protéiques

La toolbox offre des techniques d'analyse de séquences protéiques, notamment des routines pour le calcul de propriétés d'une séquence peptidique, telles que la composition atomique, le point isoélectrique et le poids moléculaire. Vous pouvez déterminer la composition en acides aminés des séquences protéiques, scinder une protéine avec une enzyme et créer des tracés de squelette et de Ramachandran de données PDB. Vous pouvez utiliser le Sequence Tool pour visualiser les propriétés d'une séquence d'acides aminés ou utiliser le Molecule Viewer pour afficher et manipuler des structures moléculaires en 3D.

Importation de données et déploiement d'applications

Formats de fichiers et accès aux bases de données

Vous pouvez accéder aux formats de fichiers standard pour les données biologiques, les bases de données en ligne et les sites web. Bioinformatics Toolbox vous permet d’effectuer les opérations suivantes :

  • Lire des données de séquences à partir de formats de fichiers standard, notamment FASTA, PDB et SCF
  • Lire des données de biopuces à partir de formats de fichiers DAT, EXP, CEL, CHP et CDF Affymetrix ; les données de format de résultats ImaGene® ; les fichiers du logiciel Agilent® Feature Extraction ; et les fichiers GPR et GAL GenePix®
  • Lire des données à partir de bases de données en ligne telles que GenBank, EMBL, NCBI BLAST et PDB
  • Importer directement des données depuis le site web NCBI Gene Expression Omnibus en une seule commande
  • Lire des informations sur les bandes cytogénétiques à partir d'idéogrammes NCBI ou de fichiers texte de cytobandes UCSC
  • Lire des données de spectrométrie de masse à partir de fichiers MZXML et JCAMP-DX

Partage d'algorithmes et déploiement d'applications

MATLAB propose des outils qui vous permettent de convertir votre programme d'analyse de données en une application logicielle personnalisée. Vous avez notamment accès à des outils de développement pour la création d'interfaces utilisateur, un environnement de développement visuel intégré et un profileur. Les produits de déploiement d'applications MATLAB vous permettent d'intégrer vos algorithmes MATLAB à des applications C, C++ et Java™, de déployer les algorithmes développés et les interfaces personnalisées sous forme d'applications autonomes, de convertir les algorithmes MATLAB en composants Microsoft® .NET ou COM accessibles depuis n'importe quelle application COM, ainsi que de créer des compléments Microsoft Excel®.

Vous pouvez intégrer MATLAB à des outils bioinformatiques couramment utilisés tels que BioPerl, des services Web basés sur SOAP et des plug-ins COM.

Partage d'algorithmes et déploiement d'applications.

Nouveautés

Genomics Viewer

Visualisez des données NGS avec une version intégrée de l'Integrative Genomics Viewer (IGV)

Cufflinks

Effectuez des analyses statistiques et différentielles sur des données de séquences d'ARN

Consultez les notes de version pour en savoir plus sur ces fonctionnalités et les fonctions correspondantes.