Articles techniques

Contrôle guidé par les données pour la reprogrammation cellulaire avec MATLAB

Par Dr. Indika Rajapakse


« MATLAB est le meilleur environnement dont nous disposons pour explorer les réseaux qui définissent le fonctionnement de la reprogrammation cellulaire, et pour exploiter son potentiel afin de contribuer à transformer le traitement du cancer et la médecine régénérative. »

La chimiothérapie est l'une de nos armes les plus puissantes dans la lutte contre la leucémie et d'autres cancers, mais elle peut être une arme à double tranchant. Dans le processus de destruction des cellules cancéreuses, elle anéantit fréquemment aussi le système immunitaire. Après avoir administré ce traitement, les médecins doivent souvent « traiter le traitement », en procédant à une greffe de moelle osseuse pour aider les patients à se rétablir en reconstruisant leur système immunitaire. Ces transplantations présentent leurs propres défis, car trouver un donneur compatible n'est pas chose facile, et même lorsqu'une compatibilité est trouvée, de graves complications telles que la maladie du greffon contre l'hôte peuvent survenir. 

Imaginez maintenant une autre manière de procéder. Et si nous pouvions transformer certaines cellules de la peau du patient en cellules de moelle osseuse dont il a besoin ? Les deux difficultés que représentent la recherche d'un donneur et le rejet des tissus prélevés seraient immédiatement éliminées. C’est la promesse de la reprogrammation cellulaire et elle est au cœur des travaux de mon groupe de recherche à l’Université du Michigan. Nous développons des méthodes permettant de convertir directement un type de cellule en un autre, en utilisant des molécules appelées facteurs de transcription (protéines qui aident à activer ou désactiver les gènes) pour réinitialiser l'identité d'une cellule. 

D'un point de vue ingénierie, cela peut être formulé comme un problème de contrôle classique. Si l'état actuel du système est une cellule de la peau et que l'objectif est une cellule de la moelle osseuse, comment guider le système vers cet objectif ? Nous le modélisons comme ẋ = f(x, u), où x est l'état de la cellule et u représente la quantité et le moment d'application des facteurs de transcription. Pour trouver le bon ensemble de facteurs, et quand les appliquer, nous menons des expériences qui génèrent d'importantes quantités de données brutes, notamment des données de séquençage d'ARN (RNA-Seq), des données d'organisation du génome 3D et des données sur la liaison des facteurs de transcription. 

Le succès de nos recherches dépend de notre capacité à traiter et à analyser les ensembles de données biologiques complexes que nous recueillons ; ils sont souvent volumineux, matriciels et multidimensionnels. Cela dépend aussi de notre capacité à comprendre les réseaux qui sous-tendent la régulation des gènes et l'organisation du génome. Dans nos travaux, les gènes et les régions génomiques sont les nœuds du réseau ; leurs interactions, à savoir les contacts physiques, l’influence régulatrice ou la co-expression, forment les arêtes. Ces réseaux peuvent être des graphes simples ou des hypergraphes plus complexes, et les deux sont naturellement représentés sous forme de matrices. Ces matrices constituent les structures de données de base transmises aux algorithmes et aux modèles, dont beaucoup reposent sur la décomposition en valeurs propres, la décomposition en valeurs singulières (SVD) et d'autres opérations d'algèbre linéaire, autant d'opérations gérées naturellement et efficacement dans MATLAB®. Nous utilisons MATLAB depuis des années pour construire les workflows qui constituent la base de notre travail et, plus récemment, nous avons commencé à utiliser l'application Biopipeline Designer pour définir et exécuter des portions de ces flux sous forme de pipelines bioinformatiques.

Bref historique de la reprogrammation cellulaire et de l'émergence du contrôle guidé par les données

Bien que l'idée de reprogrammer les cellules existe depuis des décennies, le domaine de la reprogrammation cellulaire a fait un bond spectaculaire en 2006 lorsque Shinya Yamanaka a démontré que seulement quatre facteurs de transcription pouvaient ramener une cellule cutanée mature à un état pluripotent, semblable à celui d'une cellule souche. Sa découverte des cellules souches pluripotentes induites lui a valu un prix Nobel et, à mon avis, a complètement changé le paradigme de la biologie. Il est intéressant de noter que, bien que les travaux de Shinya Yamanaka aient attiré l'attention du monde entier, il ne s'agissait pas de la première démonstration que les cellules pouvaient fondamentalement changer d'identité et de fonction. Une vingtaine d'années auparavant, Harold Weintraub, qui travaillait au Fred Hutchinson Cancer Research Center, où j'ai ensuite effectué mon stage postdoctoral en biologie cellulaire et génomique, avait démontré qu'un type de cellule mature pouvait être directement converti en un autre, court-circuitant complètement l'état pluripotent. Il a publié cet ouvrage en 1987, mais à l'époque, le domaine n'était pas encore prêt à comprendre l’importance de ses découvertes et la portée de son travail.

S’appuyant sur la vision de ces pionniers, notre laboratoire a concentré ses efforts sur la reprogrammation directe, et plus particulièrement sur la manière de la rendre plus fiable et prévisible. Parmi nos principales contributions figure un cadre appelé contrôle guidé par les données (Figure 1). Cette approche optimise l'utilisation des facteurs de transcription dans la reprogrammation cellulaire en employant des principes issus de la théorie du contrôle mathématique. 

Un schéma illustrant comment les facteurs de transcription guident la reprogrammation cellulaire à l'aide de la théorie du contrôle et des réseaux d'expression génique.

Figure 1. Un aperçu du contrôle guidé par les données, comprenant un résumé des variables de l'équation de contrôle (A), la représentation des domaines d'association topologique (TAD) comme des nœuds dans un réseau dynamique avec des arêtes déterminées à partir de données RNA-Seq de séries temporelles (B), une illustration conceptuelle de l'identification d'un ensemble de TF qui poussent l'état de la cellule d'un bassin à un autre (C).

Dans le contrôle guidé par les données, nous construisons des modèles pour l'évolution naturelle des populations cellulaires en échantillonnant l'expression des gènes à plusieurs moments tout au long du cycle cellulaire. Pour gérer la complexité, nous regroupons l'expression des gènes en fonction des domaines d'association topologique (TAD) et modélisons la dynamique de leurs niveaux d'expression. (Les TAD sont des régions du génome qui interagissent physiquement entre elles plus fréquemment qu'avec des régions extérieures, formant des unités structurelles tridimensionnelles discrètes.) Pour construire ces modèles dynamiques, nous intégrons les données Hi-C, qui cartographient les interactions physiques entre différentes régions du génome, avec les données RNA-Seq qui suivent comment l'expression des gènes change au fil du temps (Figure 2). Les modèles, combinés aux données sur les sites de liaison et l'activité des facteurs de transcription, nous permettent d'identifier systématiquement les candidats facteurs de transcription les plus prometteurs pour des tâches de reprogrammation spécifiques. 

Une représentation visuelle combinant la structure 3D du génome et les données d'expression génique pour faciliter l'analyse de la reprogrammation cellulaire.

Figure 2. La reprogrammation cellulaire nécessite l'intégration de différents types de données (Hi-C pour la structure du génome 3D et RNA-Seq pour l'expression des gènes) afin de comprendre à la fois l'organisation structurelle (TAD) et les aspects fonctionnels du génome.

Grâce à un contrôle guidé par les données, nous avons identifié avec succès des facteurs précédemment validés dans des expériences de reprogrammation. Plus important encore, nous l'avons utilisé pour identifier de nouvelles combinaisons potentiellement puissantes. Les capacités matricielles et de visualisation de MATLAB se sont révélées précieuses dans ce travail, nous permettant de traiter efficacement les opérations mathématiques complexes sous-jacentes à nos algorithmes de contrôle et d'interpréter les données biologiques multidimensionnelles qui en résultent.

Rationalisation des pipelines d'analyse d'hypergraphes et de bioinformatique

Si le contrôle guidé par les données nous permet de modéliser la dynamique de l'expression des gènes, expliquer cette dynamique nécessite souvent de saisir des interactions régulatrices qui vont au-delà des simples modèles par paires. De nombreuses interactions biologiques impliquent non pas deux, mais plusieurs composants cellulaires simultanément. Par exemple, la régulation des gènes nécessite souvent la liaison coordonnée de plusieurs facteurs de transcription et coactivateurs aux régions amplificatrices et promotrices du génome. Les modèles de réseaux standard, qui représentent les relations comme des connexions entre paires d'éléments, ne peuvent pas saisir correctement ces interactions multidirectionnelles. Pour remédier à cette complexité, notre laboratoire a développé le Hypergraph Analysis Toolbox (HAT), a toolbox accessible au public pour analyser et visualiser les structures d'ordre supérieur dans MATLAB. HAT permet aux chercheurs de construire, visualiser et analyser des hypergraphes, des structures mathématiques où une seule connexion (hyperarête) peut relier plusieurs nœuds, représentant précisément les interactions à plusieurs voies dans les systèmes biologiques complexes. Cette capacité est particulièrement précieuse dans la reprogrammation cellulaire, où la compréhension de la dynamique complexe des réseaux de régulation génétique et des interactions de la chromatine peut révéler des points d'intervention optimaux pour convertir un type cellulaire en un autre. HAT nous aide à identifier les modules de régulation critiques et les points de contrôle qui seraient invisibles pour les modèles de réseaux par paires, améliorant ainsi notre capacité à concevoir des stratégies de reprogrammation efficaces.

L'analyse d'hypergraphes est souvent réalisée dans le cadre d'un processus ou d'un pipeline à plusieurs étapes. Nos protocoles expérimentaux comprennent généralement la collecte de données brutes provenant de plateformes de séquençage, l'alignement sur des génomes de référence, le filtrage et d'autres étapes en aval. L’application Biopipeline Designer nous permet de rationaliser ces processus (Figure 3). Nous pouvons, par exemple, construire un pipeline qui commence par des données de séquençage, les aligne, quantifie l'expression des gènes, effectue un filtrage et une normalisation, puis extrait des caractéristiques biologiquement significatives que l’on peut qualifier de signature, qui peuvent être utilisées pour identifier ou classer les cellules, suivre les progrès de la reprogrammation ou guider les interventions. Nous pouvons construire et exécuter de manière interactive des workflows bioinformatiques de bout en bout, en connectant à la fois des outils bioinformatiques établis et du code développé sur mesure dans des pipelines analytiques cohérents. De plus, nous pouvons créer des blocs personnalisés pour représenter n'importe quelle fonction MATLAB, y compris nos fonctions HAT, et les intégrer à des blocs préconstruits pour les opérations bioinformatiques courantes. 

Capture d'écran de l'application Biopipeline Designer sous MATLAB affichant un workflow bioinformatique modulaire.

Figure 3. L'application Biopipeline Designer. 

Cette approche est particulièrement efficace pour le traitement de nos données RNA-Seq en vue de l'analyse de l'expression génique. Ces données sont essentielles pour éclairer notre compréhension de l'état cellulaire et de la dynamique de reprogrammation. L'application Biopipeline Designer nous fait gagner du temps et garantit la reproductibilité, car les pipelines finalisés peuvent être partagés ou adaptés à différents types de données avec un minimum de modifications. Pour la recherche sur la reprogrammation cellulaire, où l'expérimentation et l'analyse itératives sont essentielles, nous comptons sur la capacité d'ajuster et de relancer rapidement les analyses avec différents paramètres afin d'affiner nos modèles informatiques et nos stratégies de contrôle.

MATLAB et la biologie mathématique en classe

Dans notre laboratoire, nous utilisons MATLAB pour pratiquement tout ce que nous faisons. Cette philosophie se retrouve dans mon enseignement de niveau supérieur, où j'enseigne les cours de Mathématiques des réseaux biologiques et de Mathématiques des données. Ces cours couvrent des concepts essentiels tels que la théorie spectrale des graphes, la contrôlabilité des réseaux, la SVD, la modélisation probabiliste et les réseaux de neurones, tous appliqués à des ensembles de données biologiques à l'aide de MATLAB. 

Lorsque cela est possible, nous proposons des conférences, notamment celle de Cleve Moler, cofondateur de MathWorks et créateur de MATLAB, dont la présentation « How SVD Saved the Universe ou Comment la SVD a sauvé l'univers » inspire mes étudiants et démontre l’impact profond de l’algèbre linéaire dans le calcul scientifique.

Évolutions actuelles et futures 

Alors que notre approche actuelle repose principalement sur les données Hi-C pour cartographier les interactions de la chromatine par paires et identifier les TAD, notre laboratoire travaille actuellement à intégrer la technologie de séquençage à longue lecture d'Oxford Nanopore Technologies afin d'améliorer notre compréhension de l'architecture de la chromatine (c’est-à-dire la manière dont l'ADN est empaqueté avec les protéines dans le noyau cellulaire). Contrairement au séquençage traditionnel à lecture courte, la méthode Pore-C de la société capture les interactions de la chromatine multidirectionnelles ainsi que les modifications épigénétiques, offrant une vue plus complète de la structure du génome 3D (Figure 4). Cette avancée nécessitera des adaptations de nos workflow de traitement des données et nous prévoyons d'utiliser Biopipeline Designer pour gérer et analyser les ensembles de données plus complexes impliqués. 

Comparaison visuelle des cartes de contact de la chromatine obtenues par Hi-C et Pore-C. Le panneau Hi-C présente une carte thermique des interactions par paires et des limites des TAD sur le chromosome 4. Le panneau Pore-C illustre un workflow de séquençage et des contacts multidirectionnels basés sur un hypergraphe à travers une région génomique.

Figure 4. Comparaison des cartes de contact à l'échelle du génome générées à l'aide des technologies Hi-C et Pore-C. 

Nous étendons également notre cadre de contrôle guidé par les données pour y intégrer des représentations hypergraphiques, ce qui nous permet de modéliser plus efficacement les interactions de régulation génique d'ordre supérieur. De plus, nous prévoyons d'aller au-delà de la reprogrammation à l'échelle de la population et d'intégrer la reprogrammation unicellulaire, dans le but d'améliorer les taux de réussite de la reprogrammation. Nous nous intéressons également à la fabrication de tissus, en explorant le potentiel d'assemblage de tissus fonctionnels à partir de cellules reprogrammées. Pour soutenir ces efforts, notre vision à long terme inclut le développement de systèmes de laboratoire entièrement automatisés, dans lesquels des jumeaux numériques des systèmes robotiques nécessaires seront modélisés et simulés dans Simulink®.​

Lorsque des chercheurs évoquent le prélèvement d'une cellule cutanée, sa reprogrammation et sa réintroduction chez un patient, cela peut sembler relever de la science-fiction. Comme l'a si bien dit l'auteur de science-fiction Arthur C. Clarke : « Toute technologie suffisamment avancée est indiscernable de la magie. » Dans cet esprit, je crois que les outils MATLAB sont essentiels pour nous permettre de transformer cette « magie » en réalité.

A propos de l'auteur

Le Dr Rajapakse est professeur de médecine computationnelle et de bioinformatique à la faculté de médecine de l'Université du Michigan et professeur de mathématiques au College of Literature, Science, and the Arts de l'Université du Michigan. Il a achevé son stage postdoctoral en biologie cellulaire et génomique au Fred Hutchinson Cancer Research Center en 2012. Il est également membre du Smale Institute et directeur scientifique et cofondateur d'iReprogram, Inc. Ses recherches portent notamment sur la reprogrammation cellulaire, la biologie numérique, l'apprentissage guidé par les données et le contrôle des structures d'ordre supérieur, ainsi que sur les mathématiques de la synchronisation.

Publié en 2025

Produits utilisés

En savoir plus

Consulter des articles relatifs à des fonctionnalités associées

Consulter des articles relatifs à des secteurs associés