Identification d'une voie évolutive secrète entre deux replis protéiques

Nouvelles

MaisonMaison / Nouvelles / Identification d'une voie évolutive secrète entre deux replis protéiques

Sep 10, 2023

Identification d'une voie évolutive secrète entre deux replis protéiques

Volume Communication Nature

Nature Communications volume 14, Numéro d'article : 3177 (2023) Citer cet article

317 accès

15 Altmétrique

Détails des métriques

Bien que l'on s'attende à ce que des séquences de protéines homologues adoptent des structures similaires, certaines substitutions d'acides aminés peuvent interconvertir les hélices α et les feuillets β. Un tel changement de pli peut s'être produit au cours de l'histoire de l'évolution, mais les preuves à l'appui ont été limitées par : (1) l'abondance et la diversité des gènes séquencés, (2) la quantité de structures protéiques déterminées expérimentalement et (3) les hypothèses sous-jacentes aux méthodes statistiques utilisées pour en déduire une homologie. Ici, nous surmontons ces barrières en appliquant plusieurs méthodes statistiques à une famille d'environ 600 000 protéines régulatrices de la réponse bactérienne. Nous constatons que leurs sous-unités homologues de liaison à l'ADN assument des structures divergentes : hélice-tour-hélice contre hélice α + feuillet β (hélice ailée). Les analyses phylogénétiques, la reconstruction de la séquence ancestrale et les modèles AlphaFold2 indiquent que les substitutions d'acides aminés ont facilité le passage de l'hélice-tour-hélice à l'hélice ailée. Cette transformation structurelle a probablement élargi la spécificité de liaison à l'ADN. Notre approche découvre une voie évolutive entre deux plis protéiques et fournit une méthodologie pour identifier la commutation de structure secondaire dans d'autres familles de protéines.

La vie est soutenue par les interactions chimiques et les réactions catalytiques de centaines de millions de protéines repliées. Les structures et les fonctions de ces protéines sont déterminées par leurs séquences d'acides aminés1. En tant que tels, les changements de séquence ont divers effets fonctionnels, allant d'aucun à une déficience intermédiaire à une perte complète2,3, avec des résultats biologiques allant d'aucun effet observable à une maladie débilitante4,5,6. Alors que de nombreuses études historiques indiquent que la variation des acides aminés peut déplier localement ou globalement la structure des protéines7,8, ces changements ne remodèlent généralement pas la structure secondaire, comme la conversion des hélices α en feuillets β. Ces découvertes confirment l'observation bien établie selon laquelle les protéines avec des séquences similaires ont des replis similaires et exécutent des fonctions similaires. À leur tour, ces similitudes sont utilisées pour classer les replis protéiques en familles9,10,11 et sous-tendent les méthodes de pointe de prédiction de la structure des protéines12,13,14.

Néanmoins, des travaux récents montrent qu'un sous-ensemble de changements d'acides aminés peut changer de structure secondaire. Ce processus a été appelé « métamorphose évolutive15 » et « changement de pli évolué16 ». Par exemple, la mutation associée au lymphome non hodgkinien la plus fréquente observée dans le facteur 2 activateur des mycocytes humains (MEF2) fait basculer une hélice α C-terminale vers un brin β, ce qui entrave probablement la fonction de MEF217. De plus, de nombreuses mutations uniques désactivent l'horloge circadienne des cyanobactéries en empêchant une transformation essentielle à son fonctionnement normal - le passage de son sous-domaine C-terminal d'un pli βααβ à un pli αββα18. Enfin, pour un variant de protéine G modifié, une seule mutation ou incorporation dans un domaine protéique plus grand peut faire basculer le faisceau d'hélices 3-α qui lie l'albumine sérique humaine à d'autres plis aux fonctions altérées, comme un pli α/β-grasp qui se lie aux immunoglobulines ou à un domaine protéique ribosomal à tresse α/β19,20,21,22,23.

Ces exemples suggèrent que le changement de pli évolué des structures secondaires, via des changements d'acides aminés par étapes, peut être un mécanisme par lequel de nouveaux plis protéiques apparaissent dans la nature. Si tel est le cas, ce mécanisme évolutif devrait être identifiable en recherchant des séquences protéiques homologues avec différentes structures déterminées expérimentalement (Fig. 1a). Des approches similaires ont identifié avec succès les relations évolutives entre les familles de plis protéiques avec des structures secondaires conservées mais des arrangements tertiaires différents24,25.

a L'interrogation de la séquence complète de FixJ (HTH4) par rapport à la PDB avec un tour de BLAST a donné une correspondance significative avec KdpE complet (wH). Notamment, dans deux régions, on a déterminé expérimentalement des hélices α alignées avec des feuillets β. b Une recherche PSI-BLAST ultérieure a confirmé une relation évolutive probable entre les séquences FixJ et KdpE pleine longueur ; les structures pleine longueur sont représentées avec les NTD conservés en gris, les lieurs en orange, HTH4 CTD en noir et wH CTD en jaune. L'alignement PSI-BLAST qui en résulte comprend le NTD et le CTD (en commençant par l'endroit où la séquence KdpE est surlignée en jaune) ; les acides aminés en gras sont identiques (noir) ou similaires (gris), les régions où les hélices α sont alignées avec les brins β sont roses ; les écarts sont notés '-'. c Régions de structure tridimensionnelle (à gauche) et de structure secondaire (à droite) où PSI-BLAST aligne les hélices α dans le pli HTH4 avec des séquences de brin β dans le pli wH (rose). Les régions grises indiquent une structure secondaire et tertiaire conservée; les régions beiges dans le wH correspondent à ses acides aminés supplémentaires dans l'alignement, indiqués comme des espaces ouverts dans la structure secondaire alignée de FixJ (à droite). Les données source sont fournies sous la forme d'un fichier de données source.

Cependant, les observations de l'interconversion de structure secondaire évoluée ont été entravées par plusieurs obstacles techniques : (1) l'abondance et la diversité limitées des gènes séquencés, (2) la quantité limitée de structures protéiques déterminées expérimentalement et (3) les hypothèses sous-jacentes aux méthodes statistiques. utilisé pour déduire l'homologie. En effet, les trois limitations ont eu un impact sur les travaux pionniers de Cordes et de ses collègues, qui ont identifié une relation évolutive probable entre les deux facteurs de transcription distinctement pliés, P22 Cro et λ Cro26,27,28. Structurellement, ces deux protéines partagent un noyau N-terminal à 3 hélices mais ont des régions C-terminales divergentes : la région C-terminale de P22 Cro se replie en deux hélices α, tandis que la partie C-terminale de λ Cro suppose une épingle à cheveux β. Bien que ces différences aient pu provenir d'un fold-switching évolué, les données disponibles étaient trop limitées pour être concluantes : au moment de leur étude, la famille de protéines ne comprenait que 55 séquences et 5 structures résolues (barrières (1) et (2)) . Les auteurs ont également proposé l'existence d'une barrière (3) : étant donné que les recherches PSI-BLAST sur l'ensemble de la base de données n'ont pas identifié P22 Cro et λ Cro comme homologues, les auteurs ont conclu que27, "les méthodes basées sur les profils pourraient être intrinsèquement mal adaptées... changement s'est produit, puisque les modèles de conservation de séquence changeront dans un tel cas."

Depuis que l'étude susmentionnée a été réalisée il y a près de 20 ans, le nombre de séquences disponibles dans la base de données RefSeq29 a augmenté de trois ordres de grandeur, et le nombre de structures déterminées expérimentalement déposées dans la Protein Data Bank (PDB) a augmenté d'un facteur de 730,31. Ainsi, nous avons émis l'hypothèse que suffisamment d'informations sur la séquence et la structure des protéines sont désormais disponibles pour détecter les changements d'acides aminés par étapes qui conduisent à un changement de pli évolué.

À cette fin, nous avons recherché des preuves parmi une grande famille de régulateurs de la réponse bactérienne comprenant environ 600 000 séquences et 76 structures uniques déterminées expérimentalement. Chaque homologue de cette famille constitue la moitié d'un « système à deux composants » bactérien ; l'autre moitié est une protéine de détection apparentée32. Ces paires de protéines travaillent ensemble pour permettre aux bactéries de réagir à leur environnement par le biais de la chimiotaxie33, de la résistance aux antibiotiques34, de la détection d'oxygène35, etc.36. Pour remplir sa fonction, chaque protéine capteur possède un domaine extracellulaire qui se lie à un ligand déclencheur, activant ainsi le domaine histidine kinase du capteur pour phosphoryler son régulateur de réponse apparenté à un aspartate conservé dans le domaine récepteur N-terminal. À son tour, cette modification amène le domaine de "sortie" C-terminal du régulateur de réponse à monter la réponse de l'organisme, telle qu'une régulation de la transcription altérée37.

Structurellement, les protéines régulatrices de la réponse partagent une architecture de domaine N-terminal commune, alors que les différences structurelles entre leurs domaines C-terminaux ont été utilisées pour les diviser en sous-familles37,38. Près de 50% des domaines C-terminaux se replient en domaines de liaison à l'ADN en hélice-tour-hélice (HTH) ou en hélice ailée (wH)37. (Ce ~ 50% correspond aux ~ 600 000 séquences mentionnées ci-dessus). Les deux plis du domaine C-terminal comprennent un faisceau central à 3 hélices flanqué soit (1) d'un lieur hélicoïdal N-terminal et d'une 4ème hélice C-terminale (par exemple, un HTH tétrahélicoïdal ou HTH4) ou (2) d'un segment à quatre brins Feuille β N-terminale (appelée ici un lieur pour faciliter la comparaison) et une épingle à cheveux β C-terminale (ou "aile", Fig. 1b et c). En moyenne, les régulateurs de réponse avec des domaines de sortie HTH4 sont environ 30 résidus plus courts que leurs homologues wH.

Une descendance évolutive commune des domaines régulateurs de réponse HTH4 et wH a été suggérée précédemment39. Cependant, un mécanisme évolutif n'a pas pu être détecté, encore une fois très probablement en raison du manque d'informations sur la séquence et la structure disponibles au moment de l'étude. Ainsi, il n'a pas été clair si les différences dans les structures secondaires de CTD résultaient d'insertions de séquences, d'une recombinaison complète ou partielle de domaines, de changements d'acides aminés par étapes (par exemple, changement de pli évolué) ou d'une combinaison des trois.

Dans ce travail, nous rapportons un support statistique solide pour la commutation de pli évoluée de la structure secondaire C-terminale dans les domaines HTH4 et wH et proposons une voie évolutive putative entre les deux plis. Tout d'abord, nous avons montré que l'hélice α C-terminale du HTH4 partage une relation évolutive avec l'aile du feuillet β du wH (Figs. 1 et 2). Cette relation a ensuite été renforcée par de multiples analyses statistiques des relations phylogénétiques, la reconstruction de séquences ancestrales avec des modèles AlphaFold2 et des analyses fonctionnelles. Toutes les sources de données indiquent systématiquement une trajectoire évolutive par laquelle une hélice α s'est transformée en une feuille β par mutation(s) progressive(s). Nos résultats suggèrent comment les mutations par étapes peuvent changer la structure secondaire des protéines et fournissent une méthodologie pour identifier le changement de pli évolué dans d'autres familles de protéines.

Nous avons précédemment utilisé la protéine BLAST40 pour rechercher dans la PDB des paires de séquences protéiques présentant une identité de séquence élevée (≥ 70% mais non identiques) mais des structures secondaires divergentes déterminées expérimentalement41 (Fig. 1a). Cette étude soutient l'hypothèse selon laquelle les protéines homologues peuvent changer de pli par mutation par étapes, mais n'a pas pu fournir une description détaillée de la façon dont les transitions structurelles se sont produites. En effet, parmi les protéines à commutation de pli signalées, NusG avait le plus grand ensemble de séquences, avec environ 16 000 séquences non redondantes42 ; cependant, ces séquences ne sont pas annotées de manière fiable42 et la/les transition(s) de pli est/sont difficile(s) à identifier43, confondant les analyses phylogénétiques qui pourraient potentiellement révéler la transition fold-switch.

Ici, nous avons estimé que la recherche de familles avec un plus grand nombre de séquences améliorerait les statistiques sous-jacentes à l'inférence d'homologie, augmenterait la précision de l'annotation des plis et permettrait les analyses phylogénétiques statistiquement significatives nécessaires pour identifier les protéines homologues mais distinctement pliées. Des familles plus grandes peuvent également permettre d'identifier des voies de commutation de pli évoluées parmi des séquences avec une identité ≤ 70 %. À cette fin, nous avons utilisé toutes les séquences d'environ 150 000 dans le PDB pour interroger toutes les autres séquences avec des structures secondaires divergentes (section "Méthodes") et avons identifié des correspondances de séquence avec des valeurs e de 1e-04 ou moins. Des valeurs e plus faibles indiquent qu'il est de moins en moins probable qu'une correspondance se produise par hasard, ce qui permet de déduire une homologie44. Notre seuil de 1e-04 est conservateur ; 5e-02 est souvent utilisé pour déduire l'homologie40 et certaines séquences avec des valeurs e encore plus élevées sont également homologues40.

Parmi les paires d'homologues potentiels à commutation de plis dans la PDB, nous avons identifié une correspondance entre les structures pleine longueur de FixJ de Bradyrhizobium japonicum (requête) et KdpE d'Escherichia coli, avec une valeur e de 1e-07. Il est important de noter que FixJPDB et KdpEPDB sont définis comme ayant des plis différents par plusieurs annotateurs indépendants, notamment Pfam, ECOD et SCOP (section "Méthodes"). FixJPDB et KdpEPDB sont tous deux des régulateurs de réponse de systèmes bactériens à deux composants. Ces protéines sont très abondantes au sein et parmi une myriade d'espèces bactériennes. Des séquences pour > 1 000 000 de gènes divers sont présentes dans la base de données nr, qui est près de 2 ordres de grandeur plus grande que la famille NusG mentionnée précédemment.

Structurellement, les domaines N-terminaux (NTD) de FixJPDB et KdpEPDB ont montré des similitudes de séquence et de structure élevées (Fig. 1b, à gauche), tandis que leurs lieurs et domaines C-terminaux (CTD) de liaison à l'ADN ont montré des similitudes de séquence modestes et des différences frappantes dans structure secondaire : le CTD de FixJPDB comprend une architecture hélice-tour-hélice tétrahélicoïdale (HTH4), tandis que le CTD de KdpEPDB comprend une hélice ailée (wH, Fig. 1). Le KdpEPDB CTD est également 15 aa plus long que celui de FixJPDB. Néanmoins, le lieur hélicoïdal de FixJ s'est aligné partiellement avec les quatre feuillets β du CTD de KdpE. (Pour faciliter la comparaison, nous appelons les deux régions, "linkers".)

Contrairement aux requêtes avec les protéines pleine longueur, les recherches BLAST et PSI-BLAST de la PDB en utilisant les séquences de CTD isolés de FixJPDB ou KdpEPDB en tant que requêtes n'ont identifié que les séquences des mêmes familles de pli (HTH4 ou wH). Les séquences codant pour la structure alternative n'ont pas été identifiées.

Deux possibilités pourraient expliquer ces résultats contradictoires. Premièrement, dans les séquences complètes, les fortes similitudes du NTD pourraient donner lieu à tort à l'alignement CTD par "surextension homologue", dans lequel des séquences flanquantes non homologues sont incluses à tort dans un alignement de séquence local45. Dans ce cas, les CTD distinctement pliés ne partageraient pas un ancêtre commun. Au lieu de cela, les gènes codant les CTD séparés se sont probablement recombinés avec les gènes codant les NTD des régulateurs de réponse. Conformément à cette possibilité, la couverture d'alignement après notre recherche BLAST initiale ne comprenait que 52 % de la séquence CTD. Alternativement, les domaines HTH4 et wH pourraient partager un ancêtre commun qui est difficile à déduire de manière robuste à partir des séquences CTD isolées et divergentes. Dans ce cas, la recherche avec des séquences complètes (NTD + CTD) a produit des alignements statistiquement significatifs qui suggéraient correctement une relation évolutive entre des CTD pliés alternativement. En effet, le deuxième phénomène a été proposé à la fois pour les protéines Cro26,27,28 et les facteurs de transcription NusG bactériens46.

Pour mieux distinguer si notre correspondance initiale FixJPDB/KdpEPDB HTH4/wH indiquait une véritable relation évolutive ou résultait d'une surextension homologue défectueuse, nous avons ensuite utilisé FixJPDB complet pour interroger la PDB avec 3 tours de PSI-BLAST40, un algorithme itératif qui identifie la conservation patrons parmi les séquences protéiques homologues. Contrairement à l'algorithme BLAST plus rapide (qui identifie les correspondances à l'aide d'identités par paires entre la séquence de requête et les entrées d'une base de données de séquences), PSI-BLAST recherche des séquences qui correspondent à des modèles de conservation dans un ensemble de séquences homologues utilisées pour générer une matrice de notation spécifique à la position. Cette matrice stocke les scores pour remplacer un acide aminé par un autre dans chaque position de séquence et est mise à jour après chaque itération PSI-BLAST si de nouvelles séquences sont trouvées dans la recherche. En tant que tel, PSI-BLAST identifie les modèles de conservation cachés caractéristiques d'une famille de protéines donnée qui ne peuvent pas être détectés par BLAST. En effet, PSI-BLAST a identifié des modèles de conservation plus forts entre les séquences codant pour les plis HTH4 et wH. Cette approche d'alignement a également déplacé les registres d'alignement des CTD, de sorte que 97 % de la séquence FixJPDB s'est alignée sur KdpEPDB avec une valeur e de 6 × 10−39 (Fig. 1b, à droite). Ce résultat soutient l'hypothèse selon laquelle les plis HTH4 et wH des CTD FixJ et KdpE sont des homologues distants plutôt que des artefacts d'alignement.

De plus, pour 11 des 20 meilleures correspondances PSI-BLAST de cette recherche, les CTD ont supposé le même pli wH que KdpEPDB, tandis que les 9 autres correspondances ont supposé le même pli HTH que la requête FixJPDB (tableau supplémentaire 1). Une recherche PSI-BLAST réciproque à trois tours utilisant la séquence KdpEPDB pleine longueur comme requête a aligné 90% de cette protéine avec FixJPDB, avec une valeur e de 10-29. Notamment, les séquences de domaines de liaison à l'ADN isolés avec des plis HTH ont été appariées avec le CTD de KdpEPDB (wH), et les séquences de domaines de liaison à l'ADN isolés avec des plis wH ont été appariées avec la séquence du CTD de FixJPDB (HTH4, tableau supplémentaire 2). Ensemble, ces résultats indiquent que : (1) les domaines HTH4 et wH partagent un ancêtre commun39 et (2) l'utilisation de séquences complètes dans nos analyses, plutôt que de domaines isolés, est à la fois légitime et nécessaire pour identifier la relation. Ainsi, toutes les recherches ultérieures ont utilisé des séquences complètes comme requêtes, sauf indication contraire.

Un examen plus approfondi des plis alignés FixJPDB HTH4 et KdpEPDB wH a révélé des régions de similarité et de dissemblance structurelles : les deux plis partagent un noyau trihélicoïdal conservé39 (Fig. 1c). En revanche, des régions frappantes de dissemblance sont évidentes entre (1) le lieur inter-domaine α-hélicoïdal de FixJPDB et le feuillet β quadruple brin correspondant de KdpE; de longs écarts dans cet alignement suggèrent que la région de liaison de KdpEPDB a été étendue par une insertion, et (2) l'hélice C-terminale de FixJPDB alignée avec "l'aile" en épingle à cheveux β C-terminale de KdpEPDB (Fig. 1c); l'alignement non troué de cette région suggère que l'une de ces deux structures secondaires peut avoir évolué vers l'autre par mutation par étapes.

Pour tester plus avant si des mutations par étapes auraient pu engendrer un passage des hélices α aux feuilles β (ou vice versa), nous avons ensuite utilisé un algorithme de recherche de séquence alternatif, jackhmmer, pour évaluer la relation évolutive potentielle entre les régulateurs de réponse avec sortie HTH4 et wH domaines. Bien que plus gourmandes en calculs, les recherches itératives basées sur le modèle de Markov caché (HMM) sont généralement plus sensibles que PSI-BLAST47 et peuvent mieux éviter la surextension homologue45. À cette fin, les séquences de 23 régulateurs de réponse pleine longueur non redondants avec les domaines HTH4 (11) et wH (12) ont été identifiées à partir de la PDB à l'aide de la base de données ECOD.

Dans cette série d'analyses, notre objectif était de déterminer si les séquences de tous les régulateurs de réponse pleine longueur déterminés expérimentalement avec les plis HTH4 et wH pouvaient être appariées aux séquences codant pour le pli alternatif (c'est-à-dire, les correspondances HTH4 à wH, et vice versa). À l'aide de jackhmmer47, chaque séquence complète a été utilisée pour interroger toutes les séquences de la PDB (section "Méthodes"). Comme prévu, les identités de séquence par paires de 23 régulateurs de réponse de pleine longueur se sont regroupées en deux sous-familles en fonction de leurs architectures CTD (HTH4 et wH, Fig. 2a), indiquant que les CTD dans les mêmes familles de plis ont des relations évolutives plus étroites que celles de plis différents. familles (Fig. 1 supplémentaire). Néanmoins, les hélices C-terminales des domaines HTH4 s'alignaient de manière cohérente avec une région des ailes en épingle à cheveux β C-terminales des domaines de pli wH (Fig. 2b). De plus, les lieurs interdomaines α-hélicoïdaux du HTH4 s'alignaient de manière cohérente avec les quatre brins β N-terminaux du domaine wH. Pour appuyer davantage la relation croisée, d'autres structures 19/34 uniquement CTD ont été identifiées par les requêtes complètes, encore une fois avec une reconnaissance croisée.

a Des séquences alignées Jackhmmer de régulateurs de réponse avec des structures déterminées expérimentalement (ID PDB) ont été utilisées pour calculer les identités de séquence par paires. Les séquences se regroupent en deux sous-familles, avec les domaines C-terminaux HTH4 (crochet supérieur droit) et wH (crochet inférieur droit). Chaque ligne indique le pourcentage d'identités alignées (nombres dans les cases) calculé à partir de comparaisons par paires. Les séquences identiques sont blanches ; tous les autres sont colorés par % d'identité (barre de couleur de gauche). b Structures secondaires déterminées expérimentalement de chaque séquence dans a. Le domaine N-terminal, le lieur et le domaine C-terminal sont indiqués par des couleurs de fond différentes. Les structures secondaires sont colorées par leurs alignements de structure secondaire basés sur la séquence avec les structures pliées alternativement (HTH4 aligné avec wH et vice versa). Les structures secondaires identiques qui s'alignent constamment sont violet foncé (par exemple, les hélices qui s'alignent toujours avec les hélices) ; les structures secondaires qui s'alignent sur les régions de bobines aléatoires vont du violet clair au rose ; Les hélices α qui s'alignent sur les feuillets β et vice versa sont colorées du rose au jaune, selon que l'alignement est plus ou moins fréquent. c Diagrammes en boîte et moustaches de log10(e-values) de recherches jackhmmer de séquences qui ont utilisé un pli pour interroger des séquences de la sous-famille alternative (HTH4 contre wH ou vice versa). Les distributions de chaque boîte HTH4 (fond gris)/wH (fond jaune) ont été dérivées de N = 12 (1A04, 1YIO, 3C3W, 4GVP, 4HYE, 4LDZ, 4YN8, 5F64, 5HEV, 5O8Y), 11 (1KGS, 1P2F, 2HQR, 4B09), 10 (5XSO, 2GWR, 4S04), 9 (2OQR), 8 (4KFC, 5VFA, 7LZ9), 7 (1YS6, 5ED4) valeurs e ; chaque case délimite l'intervalle interquartile (IQR) des données (du premier quartile, Q1 au troisième quartile, Q3) ; les médianes de chaque distribution sont des lignes grises à l'intérieur de chaque boîte noire ; la moustache inférieure est la donnée la plus basse au-dessus de Q1-1.5*IQR ; la moustache supérieure est la donnée la plus élevée en dessous de Q3 + 1,5 * IQR. Les données source sont fournies sous la forme d'un fichier de données source.

La relation possible entre les plis HTH4 et wH a été étayée en évaluant les distributions de valeur e à partir des alignements entre les protéines de pleine longueur avec (1) des homologues de leur propre sous-famille et (2) des homologues de la sous-famille alternativement pliée (Fig. 2c, arrière-plans gris/jaune, respectivement). Les valeurs e médianes des alignements entre la séquence d'un pli déterminé expérimentalement (HTH/wH) et l'ensemble de séquences avec le pli alternatif (wH/HTH) variaient de e-33 à e-43, suggérant des relations évolutives significatives à travers tous les membres des deux sous-familles (Fig. 2c). Comme prévu, les valeurs e médianes parmi les séquences de plis similaires allaient de e-54 à e-72 (Fig. 2a supplémentaire), indiquant des relations évolutives plus étroites.

Des alignements statistiquement significatifs ont également été identifiés entre les séquences de requête pleine longueur et les CTD isolés avec le pli alternatif dans les régulateurs de réponse pleine longueur 22/23. Les valeurs e médianes de ces alignements variaient de e-04 à e-09, tandis que les valeurs e médianes des séquences alignées de la même famille de plis variaient de e-17 à e-30 (Fig. 2b supplémentaire). Ces alignements spécifiques à un domaine soutiennent davantage la relation évolutive entre les domaines HTH4 et wH.

Ainsi, les résultats du marteau-piqueur (Fig. 2) sont cohérents avec l'alignement PSI-BLAST (Fig. 1b) et suggèrent deux types d'événements évolutifs : (1) le lieur peut avoir été étendu/raccourci par une insertion/délétion ; et (2) une mutation par étapes peut avoir induit une interconversion structurelle entre l'hélice α C-terminale du HTH4 et le feuillet β C-terminal du wH.

Bien que ces recherches de séquences basées sur la structure aient été cohérentes avec la commutation de plis évoluée dans les domaines HTH4 et wH C-terminaux, le mécanisme de conversion de la structure secondaire a été obscurci par les emplacements alternatifs des séquences insérées dans les homologues wH plus longs. PSI-BLAST a complètement aligné l'hélice α C-terminale du HTH4 avec l'épingle à cheveux β du wH (Fig. 1b), suggérant une conversion complète de la structure secondaire. En revanche, jackhmmer a aligné l'hélice α C-terminale du HTH4 avec uniquement le premier brin β du wH (Fig. 2b), suggérant une conversion partielle accompagnée d'une insertion. Pour faire la distinction entre ces options, nous avons ensuite collecté un grand nombre de séquences de régulateurs de réponse avec les domaines de sortie HTH4 et wH. À cette fin, les séquences FixJPDB et KdpEPDB ont été interrogées dans la base de données nr à l'aide de la protéine BLAST pour identifier 581 791 homologues putatifs. Compte tenu de la taille de cet ensemble de séquences, nous avons développé plusieurs stratégies de conservation et d'échantillonnage des données (section "Méthodes") afin que le sous-ensemble final de séquences soit suffisamment petit pour diverses analyses phylogénétiques mais suffisamment grand pour représenter adéquatement la grande famille de réponse régulateurs.

À cette fin, les 581 791 séquences ont été regroupées en 367 clusters à l'aide d'un algorithme de clustering glouton et filtrées à 85 % de redondance pour un nombre final de 23 791 séquences. Les clusters ont ensuite été comparés pour identifier 13 006 séquences de type FixJ et 10 785 séquences de type KdpE. Les séquences au sein de chaque groupe sont facilement alignées ; cependant, les deux groupes avaient des identités de séquence globalement faibles l'un avec l'autre. Plusieurs approches ont été tentées pour aligner ces groupes. Une tentative a identifié une "voie d'homologie transitive" de 7 séquences reliant HTH4 aux séquences wH (tableau supplémentaire 3, section "Méthodes") qui a été utilisée pour faire correspondre les alignements de type FixJ (HTH4) et de type KdpE (wH). Cependant, lorsqu'un arbre phylogénétique a été construit dans IQ-Tree pour les 23 791 séquences combinées, sa qualité était médiocre (c'est-à-dire 140 lacunes/360 positions dans la séquence KdpEPDB) et n'a pas réussi à converger après 3 cycles d'amorçage.

Néanmoins, la voie d'homologie transitive a suggéré l'existence de séquences supplémentaires qui pourraient relier les familles de plis HTH4 et wH. Ainsi, nous avons recherché l'ensemble de séquences d'origine avec une approche alternative. Premièrement, nous avons classé les clusters avec ≥ 100 séquences par leurs architectures CTD pour identifier 74 741/387 276 séquences avec des domaines de sortie HTH4/wH. Ces ensembles de séquences ont été utilisés pour construire des bibliothèques BLAST. Ensuite, les séquences avec les domaines de sortie HTH4 ont été filtrées jusqu'à une redondance de 50 %, et les 4520 séquences restantes ont été interrogées par rapport à la bibliothèque wH avec la protéine BLAST. Si une correspondance était statistiquement significative, nous avons recherché dans les enregistrements de séquences NCBI des deux séquences des annotations de structure CTD, qui sont généralement déduites des modèles de Markov cachés. Ces résultats ont été utilisés pour distinguer les correspondances BLAST entre différentes familles de plis (paires de séquences avec 1 HTH4 annoté et 1 wH annoté) des correspondances entre la même famille de plis. Les paires de séquences avec des annotations de différentes familles de plis ont été conservées ; ce processus a identifié 3136 correspondances entre 664 protéines HTH4 et 2541 protéines wH avec des valeurs e moyennes/médianes de 4 × 10−10/5 × 10−16. Des recherches BLAST réciproques, utilisant les séquences wH comme requêtes, ont été effectuées avec succès dans les 3136 cas, avec des valeurs e moyennes/médianes de 1 × 10−8/2 × 10−16 ; ces valeurs e plus élevées reflètent probablement la plus petite taille de la base de données HTH4 ou les longueurs plus longues des séquences wH par rapport à HTH4.

Ensuite, nous avons aligné les 3205 séquences en utilisant deux méthodes différentes, Clustal Omega48 et MUSCLE49 (Données supplémentaires 1). Encore une fois, une différence clé entre ces alignements de séquences multiples (MSA) interfamiliaux était l'emplacement des séquences insérées dans/supprimées des homologues wH plus longs/HTH4 plus courts. Néanmoins, dans les deux MSA interfamiliaux, l'hélice C-terminale du HTH4 s'alignait complètement avec l'aile C-terminale de la feuille β du wH, indiquant l'évolution de l'hélice α à la feuille β par mutation progressive plutôt que par insertion ou suppression. (Fig. 3a et Fig. 3 supplémentaire). Dans l'alignement Clustal Omega, un écart à deux résidus trouvé dans> 99% des plis HTH4 a également été trouvé dans un pli wH annoté (wHwing_gap), suggérant en outre que l'interconversion hélice α ↔ feuille β s'est produite par mutation par étapes. De plus, plusieurs séquences HTH4 avec des longueurs de lieur similaires aux séquences wH ont été identifiées (par exemple, l'insert HTH4_ sur la figure 3a), démontrant que les longs lieurs ne sont pas exclusifs aux plis wH. Les séquences au sein de l'alignement étaient diverses, avec des identités moyennes par paires de 31 % parmi les plis HTH4, 40 % parmi les plis wH et 31 % entre les plis. Notamment, les schémas de conservation évolutifs différaient entre les plis HTH4 et wH (Fig. 4 supplémentaire). En particulier, l'hélice C-terminale du HTH4 n'a pas montré de schémas de conservation forts, contrairement à l'aile du brin β du wH. Comme suggéré par Cordes et ses collègues27, de tels modèles de conservation distincts peuvent expliquer pourquoi l'homologie entre les séquences pour les domaines wH et HTH4 isolés n'a pas pu être déduite des recherches PSI-BLAST et jackhmmer contre le PDB.

un alignement Clustal Omega des séquences 3205 HTH4 et wH indique une conversion complète de la structure secondaire C-terminale au cours de l'histoire évolutive. Des diagrammes de structure secondaires ont été générés à l'aide des structures de FixJPDB (noir) et KdpEPDB (jaune). Les couleurs de fond des quatre séquences correspondent à celles de l'arbre phylogénétique. Les notes dans les espaces entre les séquences montrent des changements importants : (1) insertion de lieur orange (ou suppression, selon les propriétés des séquences ancestrales) (2) conversion de pli (3) allongement/délétion de séquence. Le mot devant une barre oblique représente ce qui se passe si une séquence change de haut en bas ; le mot suivant la barre oblique représente ce qui se passe si une séquence change de bas en haut. Un ancêtre commun entre les séquences FixJPDB et KdpEPDB est également possible. Les données source sont fournies sous la forme d'un fichier de données source. b Les arbres phylogénétiques à vraisemblance maximale suggèrent une voie évolutive entre les régulateurs de réponse avec les plis HTH4 et wH. Les séquences avec des domaines C-terminaux annotés comme HTH/wH à partir des enregistrements de protéines NCBI sont gris/jaune. Le clade contenant les 12 séquences de pontage identifiées est surligné en rose. HTH4_insert fournit un exemple d'une séquence HTH4 annotée dont la longueur du lieur était similaire à wH ; wHwing_gap fournit un exemple de séquence wH avec une délétion à 2 résidus similaire à celles trouvées dans > 99 % des hélices C-terminales des séquences HTH4 alignées. Les unités de distance sont arbitraires, bien que les séquences plus éloignées dans l'espace aient des relations évolutives plus éloignées.

Enfin, nous avons généré un arbre phylogénétique basé sur le bootstrap pour le MSA interfamilial. De manière frappante, les résultats ont révélé un clade de séquences qui semble relier les deux familles de plis (Fig. 3b et Fig. S5 et S6). Les 12 séquences de ce clade incluent une identifiée dans le chemin d'homologie transitive ; tous les 12 ont des domaines de sortie annotés HTH4 et proviennent de plusieurs phylums bactériens (tableau supplémentaire 4). Dans l'arbre phylogénétique, ces 12 séquences jouxtent des branches avec des CTD wH et HTH4 (Fig. 3b), suggérant que leurs ancêtres pourraient être des intermédiaires évolutifs entre les deux plis. Pour évaluer la robustesse statistique de l'interface HTH-pont-wH, nous avons quantifié la fréquence de son apparition à l'aide d'arbres enracinés dans les 6393 points de branchement possibles. La log-vraisemblance de chaque arbre enraciné a été calculée à l'aide du test approximativement impartial50 (p-AU, Fig. 7A supplémentaire). Sur les 6393 enracinements possibles, 18 avaient un score p-AU ≥ 0, 8 (Fig. 7B supplémentaire), indiquant une signification statistique. Dans les 18 cas, les séquences de pont jouxtaient des branches avec des domaines wH et HTH4 annotés (Fig. 8 supplémentaire), soutenant fortement le rôle de ce clade en tant que pont évolutif entre les deux plis.

Nous avons ensuite examiné les propriétés structurelles prédites des séquences dans le clade pont. À cette fin, des modèles structurels de chaque séquence de pont ont été produits avec AlphaFold214 (AF2). De manière frappante, tous les modèles ont supposé le pli HTH4 (Fig. 9 supplémentaire). Ce résultat suggère quelques possibilités. Tout d'abord, certaines séquences de pont peuvent s'interconvertir entre les plis HTH4 et wH ; des travaux antérieurs ont montré que l'AF2 ne prédit généralement qu'une seule conformation dominante des protéines qui peuvent basculer entre deux plis42,51. Deuxièmement, les prédictions AF2 pourraient ne pas être fiables et certaines ou toutes les séquences de pont pourraient, en fait, supposer des plis wH. Troisièmement, la transition de pli pourrait s'être produite chez des ancêtres antérieurs situés au niveau des nœuds reliant la plupart des séquences HTH4 et wH. Ces nœuds relient les deux familles de plis dans l'arbre (Fig. 5 supplémentaire), ce qui suggère que leurs séquences ancestrales correspondantes peuvent avoir eu des propriétés à la fois des plis HTH et wH.

Ainsi, nous avons ensuite effectué une reconstruction de séquence ancestrale et généré des modèles AF2 supplémentaires pour les séquences ancestrales reliant les plis HTH4 et wH (Fig. 4 et S5). Notez que les lieurs de toutes les séquences ancestrales étaient aussi longs que les lieurs wH. Notre raisonnement était que les lieurs de certaines séquences HTH4 près de la région du pont étaient aussi longs que les lieurs des séquences wH (Fig. 3 et Fig. 3 supplémentaire), ce qui suggère que ces lieurs ont peut-être déjà été modifiés par une grande insertion.

L'ancêtre le plus ancien semble être la version plus longue d'une hélice tétrahélicoïdale-tournante (HTH4), à partir de laquelle des plis d'hélice ailée (wH) ont évolué. L'hélice C-terminale à commutation de plis / épingle à cheveux β est représentée en rose et le lieur structurellement plastique est représenté en jaune. La séquence de pont utilisée dans ce graphique était TME68356.1, celle la plus proche du nœud ancestral sur la figure 3b.

Curieusement, les résultats de la reconstruction ancestrale suggèrent que les séquences ancestrales peuvent avoir eu des régions structurellement plastiques qui pourraient basculer entre les hélices α et les feuilles β en réponse à la mutation (Fig. 4 et Tableau supplémentaire 5). Notamment, l'élément de structure secondaire le plus C-terminal de l'Ancêtre 0 est une hélice α, l'Ancêtre 1 est une épingle à cheveux β et l'Ancêtre 2 revient à une hélice α (Fig. 4, rose). Fait intéressant, la séquence de l'épingle à cheveux β de l'Ancêtre 1 est identique à 83% aux séquences des hélices C-terminales de l'Ancêtre 0 et de l'Ancêtre 2, qui sont identiques à 75% l'une à l'autre. Ces résultats suggèrent que seulement deux mutations peuvent basculer l'hélice α C-terminale vers une feuille β et inversement via un ensemble différent de substitutions de séquences.

La région de liaison N-terminale (Fig. 4, jaune) semble également être en plastique. Dans les Ancêtres 0–2, ce lieur est partiellement replié en une structure en épingle à cheveux β, tandis que dans l'Ancêtre 3, le lieur suppose une structure à 4 feuillets β entièrement repliée. En revanche, le lieur prend une structure partiellement hélicoïdale dans Ancestors 4–5 et dans la séquence de pont moderne (Fig. 4).

Pris ensemble, ces résultats suggèrent que les ancêtres des séquences du clade pont peuvent avoir eu des propensions aux plis wH et HTH4. Pour tester davantage cette possibilité, des recherches PSI-BLAST et jackhmmer ont été effectuées entre les séquences CTD ancestrales et les structures PDB avec les plis HTH4 et wH. Des appariements croisés statistiquement significatifs ont été identifiés dans tous les cas, sauf pour Anc. 3 (Données supplémentaires 2). Par comparaison, les recherches antérieures PSI-BLAST et jackhmmer des CTD isolés des séquences HTH4 et wH existantes correspondaient à des homologues avec le même mais pas le pli alternatif.

Enfin, nous avons cherché à déterminer si le passage des plis HTH4 aux plis wH pouvait avoir eu un avantage évolutif. L'examen des structures de régulation de la réponse HTH4 et wH déterminées expérimentalement en complexe avec leurs partenaires d'ADN apparentés suggère qu'un avantage de la transformation structurelle pourrait avoir été une spécificité de liaison élargie. En moyenne, les plis HTH4 contactent 17 nucléotides uniques, tandis que les plis wH contactent 22 (Fig. 5a). Les plis HTH4 et wH ont tous deux une seule hélice de reconnaissance qui lie le bosquet principal, et l'épingle à cheveux β C-terminale des hélices ailées entre également en contact avec le sillon mineur (Fig. 5b). En tant que tels, les domaines wH peuvent probablement reconnaître des séquences de nucléotides plus uniques que HTH.

a Diagramme en boîte à moustaches simplifié avec des points de données superposés pour le nombre de contacts entre HTH4 et l'ADN (noir) et wH et l'ADN (jaune). En moyenne, les domaines HTH4 ont 5 contacts ADN de moins que les domaines wH. Les barres centrales correspondent aux moyennes, les barres supérieures/inférieures aux écarts-types. Les statistiques ont été dérivées de 16/15 structures déterminées indépendamment des complexes HTH-ADN/wH-ADN. Les données source sont fournies sous la forme d'un fichier de données source. b Exemples d'interactions ADN (gris) avec les domaines HTH4 et wH, respectivement au-dessus et en dessous. L'hélice α C-terminale du HTH4 (noir, ci-dessus) n'entre pas en contact avec l'ADN, tandis que l'aile en épingle à cheveux β du wH (jaune, ci-dessous) entre en contact avec le petit sillon. Les parties structurellement similaires des plis HTH4 (PDB ID : 1h0m, chaîne D) et wH (PDB ID : 4hf1, chaîne A) sont gris clair. Ce résultat et l'augmentation correspondante du nombre possible de séquences d'ADN uniques pouvant être reconnues par le wH pourraient expliquer pourquoi il a évolué à partir du HTH4 dans les régulateurs de réponse.

Des décennies de recherche suggèrent que la structure secondaire des protéines est largement conservée au cours de l'histoire de l'évolution52,53. En conséquence, diverses études ont montré que de nouveaux replis protéiques peuvent évoluer à travers divers mécanismes qui maintiennent la structure secondaire fixe, tels que les insertions, les délétions et la permutation circulaire54. D'autres ont montré que les protéines avec des structures secondaires conservées peuvent évoluer vers différents arrangements tertiaires24,25,55.

En revanche, plusieurs études récentes suggèrent que les mutations par étapes peuvent changer les structures secondaires des protéines, favorisant l'évolution de nouveaux replis protéiques19,28,56,57. Notre travail soutient cette hypothèse en identifiant une trajectoire évolutive statistiquement significative entre deux replis protéiques. Ces plis comprennent des fragments de régulateurs de réponse CTD qui passent de l'hélice α à la feuille β. Nos résultats sont étayés par la reconstruction de séquences ancestrales, des modèles structuraux et plusieurs méthodes d'alignement de séquences. De plus, ce changement de pli évolué a probablement eu une conséquence fonctionnelle : l'expansion de la spécificité de liaison à l'ADN. Notamment, les plis HTH4 et wH ne sont pas limités à la superfamille des régulateurs de réponse. Dans d'autres familles, les wH pourraient avoir évolué à partir des ancêtres HTH4 par des mécanismes différents ou supplémentaires (et l'ordre évolutif peut différer).

Étant donné que la région de commutation de pli observée ici comprend un fragment de la protéine entière, nous comparons notre mécanisme par étapes proposé à d'autres mécanismes d'évolution des protéines qui impliquent des fragments de protéines, tels que les "mots"58 et les "thèmes de pontage"59,60,61. Les travaux présentés ici diffèrent de ces études sur plusieurs points importants. Premièrement, les "mots" ont été définis comme des fragments de protéines présentant des "similitudes locales de séquence et de structure dans des plis globalement différents"58, et les "thèmes" de pont comprennent chacun un ensemble de "fragments de protéines homologues trouvés dans différents contextes séquentiels et structurels"59. En tant que telles, les séquences isolées de ces fragments ont une homologie discernable sans le contexte du reste de la protéine. En revanche, les séquences de commutation de pli des fragments HTH4 et wH rapportées ici ne présentaient une homologie discernable que dans le contexte de la protéine entière. En pratique, les recherches utilisées pour identifier les mots et les thèmes, qui reposent sur des correspondances entre des séquences homologues de fragments de protéines dans différents contextes protéiques, n'ont pas pu être utilisées pour identifier la transition évoluée de commutation de plis proposée ici.

Deuxièmement, le mécanisme évolutif sous-jacent aux mots et aux thèmes de pont diffère de la mutation par étapes qui a probablement fait évoluer les domaines HTH4 des régulateurs de réponse vers les plis wH. Les mots et les thèmes de pont sont des fragments de protéines conservés proposés pour se recombiner avec ou accréter des segments non homologues de la structure protéique pour former des domaines distincts. En revanche, la transition de commutation de pli proposée ici se produit dans un contexte de protéine conservée. Dans ce cas, des mutations par étapes semblent avoir provoqué le passage d'un fragment de protéine de l'hélice α à la feuille β sans recombinaison ni accrétion de fragment. Il est important de noter que la recombinaison de fragments, l'accrétion et la mutation par étapes sont tous des mécanismes évolutifs valides qui se produisent dans différentes situations.

Troisièmement, bien que certains thèmes de pontage changent de pli61, leur changement dépend probablement de leur contexte protéique plus large. Autrement dit, dans des domaines pliés différemment, le même thème de pont peut également assumer des plis différents. Ceci est également vrai des séquences de caméléons62,63, des fragments de protéines identiques avec des plis différents dans des contextes protéiques différents. En revanche, les séquences homologues dans ce travail assument des structures différentes dans des contextes protéiques homologues : les deux plis sont C-terminaux par rapport à une hélice trihélicoïdale conservée39. On ne saurait trop insister sur le fait que le fold switch que nous rapportons était caché : l'homologie entre les séquences de la région de fold-switching n'a pas pu être identifiée sans le contexte du reste de la protéine, y compris le domaine récepteur N-terminal. Ce point critique distingue nos résultats des études précédentes sur les mots et les thèmes de pont, ainsi que du mécanisme de "destruction créatrice" par lequel de nouveaux plis évoluent à travers des fusions de gènes codant pour des domaines distincts64.

Bien qu'en dehors de la portée de cette étude, les tests expérimentaux des séquences de pont rapportées et des ancêtres reconstruits peuvent révéler des détails mécanistes de la transition de HTH4 à wH. La question de savoir si l'une de ces séquences peuple les deux plis - comme cela a été observé pour d'autres protéines à commutation de plis57, 65 - serait particulièrement intéressante. Pour les ancêtres reconstruits, l'interconversion structurelle serait analogue aux études fonctionnelles des ancêtres reconstruits de protéines fluorescentes vertes et rouges qui émettent à la fois de la lumière verte et rouge66 ou des récepteurs de glucocorticoïdes promiscueux reconstruits à partir de récepteurs existants avec des spécificités de liaison uniques67. Comme des travaux antérieurs l'ont montré57, 68, 69, l'interconversion structurelle peut être observée avec la spectroscopie par résonance magnétique nucléaire (RMN). En effet, les études RMN du répresseur Arc70,71 et XCL157 ont identifié une poignée de mutations clés qui modifient les replis protéiques. En conséquence, il serait intéressant d'identifier expérimentalement des voies mutationnelles minimales qui basculent les séquences HTH4 vers wH et vice versa.

Les approches computationnelles basées sur la biophysique peuvent également fournir des informations sur le mécanisme et l'évolution des protéines régulatrices de la réponse avec les domaines HTH4 et wH. De telles études ont prédit avec succès des transitions de pli entre des variants de protéine G modifiés avec des niveaux élevés d'identité de séquence mais des plis différents72,73. D'autres modèles biophysiques ou approches hybrides théoriques-expérimentales peuvent être utilisés pour déduire les rôles des mutations ponctuelles, de la multifonctionnalité, de la pression sélective et de l'épistasie dans l'évolution des protéines74,75,76.

La commutation de structure secondaire, telle que l'instance identifiée ici, peut être plus courante dans l'enregistrement évolutif qu'actuellement réalisée. Parmi nos résultats, une voie évolutive de HTH4 à wH a été systématiquement observée, avec un clade de "séquences de pont" occupant un emplacement clé dans la voie. Notamment, ces séquences de pont ont été identifiées à partir du séquençage métagénomique effectué principalement en 2018 et 2019, ce qui démontre l'importance des nouvelles techniques et initiatives de séquençage pour faire avancer les études évolutives77 et suggère que davantage d'instances de changement de pli évolué pourraient désormais être identifiables.

Ainsi, nous terminons en proposant le guide étape par étape suivant (Fig. 6) pour faciliter les futures recherches informatiques sur la commutation de plis évolués :

Identifier les paires de séquences homologues avec des plis distincts. Ici, nous y sommes parvenus en effectuant une recherche tous contre tous de la PDB à l'aide de la protéine BLAST (Fig. 1, section "Méthodes"). Des cas supplémentaires de commutation de pli évoluée peuvent être identifiés à mesure que davantage de structures sont déposées. Alternativement, des modèles structurels générés par des algorithmes prédictifs tels que AlphaFold214, ColabFold78, RGN213 ou ESM-fold79 pourraient être utilisés à la place de prédictions déterminées expérimentalement. Bien que moins certaines que l'expérience, ces structures prédites pourraient fournir des points de départ utiles pour les analyses de séquence et les tests expérimentaux ultérieurs. Notamment, l'identification réussie de la voie évolutive rapportée ici nécessitait que la séquence protéique entière soit recherchée (domaines N-terminaux + C-terminaux) plutôt que le domaine C-terminal à commutation de plis uniquement.

Validez les résultats à l'aide de séquences homologues avec des structures déterminées expérimentalement. Ici, nous avons effectué des recherches jackhmmer de toutes les séquences de régulateur de réponse avec les domaines HTH4 et wH dont les structures avaient été déterminées expérimentalement. Nous avons trouvé des signes d'homologie croisée pour toutes les séquences (Fig. 2). Cette approche donne l'assurance que la relation évolutive identifiée à l'étape 1 s'étend sur les deux familles de protéines plutôt que d'être un seul coup obtenu par hasard. Des analyses similaires pourraient être effectuées sur des structures déterminées expérimentalement de commutateurs de pli évolués putatifs d'autres familles de protéines. Si de telles structures ne sont pas disponibles, elles pourraient être générées à l'aide d'algorithmes prédictifs. Si de nombreuses prédictions doivent être faites, nous vous recommandons d'utiliser ColabFold78 en raison de sa grande précision et de ses performances supérieures.

Identifier et regrouper les séquences homologues aux deux familles. Identité. Pour les séquences FixJ/KdpE, les recherches BLAST de la base de données nr ont renvoyé > 1 000 000 séquences. Nous avons utilisé BLAST en raison de son efficacité dans la recherche d'une base de données aussi volumineuse, bien qu'une méthode à haut rendement plus sensible telle que HHBlits80 puisse également être utilisée. La curation de l'ensemble de séquences (section "Méthodes") peut être nécessaire pour supprimer les séquences anormales. Grappe. Bien que nous ayons utilisé un algorithme de clustering glouton écrit sur mesure, MMSeqs281 pourrait également être utilisé. Ensuite, nous avons associé chaque cluster restant à un pli donné en BLASTant les séquences de FixJPDB et KdpEPDB contre chaque cluster et en calculant quelle séquence a donné plus de correspondances avec ≥ 200 résidus et des valeurs e ≥ 1e-04.

Obtenez un alignement de séquences interfamiliales contenant des séquences avec des valeurs e élevées mais des annotations structurelles différentes. Pour mener à bien les analyses en aval, cette étape "Goldilocks" est essentielle : des alignements trop importants peuvent conduire à des résultats ininterprétables (section "Méthodes"), mais des alignements trop petits pourraient omettre par inadvertance d'importants intermédiaires évolutifs. Pour ce travail, nous avons extrait et construit l'alignement interfamilial pertinent en recherchant toutes les séquences des clusters affectés à un pli (Fold1) par rapport à toutes les séquences des clusters affectés à l'autre (Fold2). Étant donné que ce processus impliquait des milliers de recherches indépendantes, la protéine BLAST a été utilisée pour son efficacité. Pour des raisons de cohérence, des recherches réciproques de correspondances Fold2 par rapport à la base de données Fold1 sont nécessaires. Comme étape de validation finale, il est conseillé de supprimer les séquences des clusters Fold1/Fold2 qui n'ont pas été annotées comme Fold1/Fold2 dans leurs enregistrements de séquence NCBI. L'ensemble restant de séquences interfamiliales peut ensuite être aligné à l'aide de plusieurs algorithmes. Dans ce cas, nous avons utilisé à la fois Clustal Omega48 et MUSCLE49.

Effectuer des analyses phylogénétiques en aval. Ici, nous avons effectué des analyses phylogénétiques sur notre alignement de séquences interfamiliales avec IQ-Tree82 et Consurf83 et la reconstruction de séquences ancestrales avec IQ-Tree. Un alignement interfamilial doit être compatible avec une gamme d'autres méthodes d'analyse phylogénétique.

1. Interrogez une séquence d'intérêt (noir) par rapport à la PDB (ou base de données des structures prédites) avec un tour de protéine BLAST (ou phmmer) et recherchez des résultats avec des structures secondaires distinctes (jaune). Les coups peuvent indiquer un changement de pli évolué. 2. Croix-valider les résultats de l'étape 1 en effectuant des recherches de séquences plus sensibles (par exemple, jackhmmer) de toutes les séquences homologues avec des structures déterminées expérimentalement. Séquences noires=Fold1 ; séquences jaunes=Fold2. Les régions noires de Fold2 ont les mêmes plis que Fold1 pour permettre la possibilité que Fold2 soit un sous-domaine protéique. 3. Si la validation croisée réussit, trouvez toutes les séquences homologues à Fold1 (noir) et Fold2 (jaune) ; séquences de clusters par famille de pli probable. 4. Obtenez un alignement de séquences interfamiliales en recherchant toutes les séquences de Fold1 contre Fold2 et en recherchant réciproquement les résultats de Fold2 contre Fold1. 5. Utilisez l'alignement interfamilial pour les analyses en aval, y compris, mais sans s'y limiter, IQ-Tree, ConSurf et AlphaFold2. Les descriptions complètes de chaque étape se trouvent dans le texte principal.

Pour identifier la relation évolutive putative entre FixJPDB et KdpEPDB, nous avons effectué des recherches BLAST de protéines avec une valeur e maximale de 1e-04 sur toutes les séquences de la Protein Data Bank (PDB) par rapport à toutes les autres séquences PDB16,41. Pour déterminer si des séquences homologues se sont repliées dans différentes structures, les annotations de structure secondaire de chaque PDB, par DSSP84, ont été alignées en registre avec leurs alignements BLAST correspondants et comparées une par une, position par position. Cette approche nous a permis d'évaluer quantitativement la similarité des structures secondaires alignées. Une correspondance potentielle devait avoir une région continue d'au moins 15 résidus dans laquelle au moins 50 % des résidus présentaient des différences d'hélice a ↔ feuillet ß. En utilisant cette approche, la séquence de FixJPDB correspondait à la séquence de KdpEPDB avec une valeur e de 1e-07 ; différentes structures secondaires dans les domaines de sortie C-terminaux ont été identifiées par comparaison DSSP. Des recherches PSI-BLAST ultérieures à trois tours de séquences FixJPDB et KdpEPDB contre toutes les séquences PDB ont été effectuées avec une pénalité d'ouverture d'écart de 10 et une pénalité d'extension d'écart de 1. Dans les recherches CTD PSI-BLAST, les séquences pour FixJPDB et KdpEPDB couvraient les résidus 124 –205 et résidus 129–225, respectivement. Il est important de noter que FixJPDB et KdpEPDB ont été définis pour avoir des plis différents par plusieurs annotateurs indépendants : Pfam85 (http://pfam.xfam.org) : PF00010 (hélice-tourner-hélice), PF02319 (hélice ailée). ECOD86 (http://prodata.swmed.edu/ecod/) les place dans différents groupes T (tétrahélicoïdaux HTH et ailés), SCOP10 (https://scop.mrc-lmb.cam.ac.uk) : HTH : 8034563 (domaine effecteur C-terminal de la superfamille des régulateurs de réponse bipartite) Hélice ailée : 8075578 (superfamille : PhoB-like).

Pour tester les résultats PSI-BLAST obtenus précédemment, des recherches jackhmmer ont également été effectuées sur des séquences HTH4 et wH avec des structures déterminées expérimentalement. En conséquence, les structures de 23 régulateurs de réponse pleine longueur avec les domaines de sortie HTH4 (11) et wH (12) ont été identifiées à partir de la base de données Evolutionary Classification of Protein Domains (ECOD)86. Cinq cycles de jackhmmer ont été exécutés sur chacune des 23 séquences avec des probabilités d'ouverture/d'extension d'écart de 0,05 et 0,5, respectivement, en utilisant une base de données de toutes les séquences téléchargées à partir de la PDB (15/07/2021) et en supprimant les doublons de séquence après la recherche. Les identités de séquence de chaque ligne de la figure 2a ont été calculées à partir de chaque alignement de séquence généré par jackhmmer exécuté sur la séquence de l'entrée PDB avec ID marquant chaque ligne respective.

Les annotations DSSP ont été alignées en registre avec chaque alignement de séquence généré par jackhmmer pour composer les diagrammes de structure secondaire de la figure 2b. Plus en détail, les annotations de structure secondaire de chacun des 11 HTH4 ont été comparées aux annotations de structure secondaire de 48 wH identifiées à partir d'ECOD ; de même, les annotations de structure secondaire de chacun des 12 wH ont été comparées aux annotations de structure secondaire de 35 HTH4 identifiées à partir d'ECOD (données supplémentaires 3). Les similarités de chaque paire de structure secondaire alignée (46 paires pour chacune des 11 protéines HTH4, 30 paires pour chacune des 12 protéines wH) ont été notées comme suit : +1 pour une position avec des structures secondaires identiques (hélice:hélice [H, G,I en notation DSSP] ou brin:brin [E en notation DSSP]) et -1 pour une position avec des structures secondaires alternatives (hélice:brin ou brin:hélice en utilisant les mêmes notations DSSP que ci-dessus). Les scores spécifiques à la position ont été normalisés par la fréquence des paires de résidus non brouillés dans chaque position, y compris les alignements de structure bobine-secondaire, effectivement notés comme 0. Ces scores normalisés spécifiques à la position ont été utilisés pour générer les cartes de couleurs de chaque diagramme de structure secondaire.

Les séquences complètes de FixJPDB (PDB ID 5XSO, chaîne A) et de KdpEPDB (PDB ID 4KFC, chaîne A) ont été recherchées dans la base de données nr (10/8/2020) à l'aide de la protéine BLAST avec une valeur e maximale de 1e–04 et un maximum de 500 000 alignements par recherche. Les séquences complètes de chaque alignement ont été récupérées par leurs codes d'accession NCBI à l'aide de blastdbcmd sur la base de données nr. Toutes les séquences des deux recherches ont été combinées, ce qui a totalisé 999 912 après suppression des doublons de séquence. Les séquences avec moins de 162 ou plus de 300 résidus ont été supprimées car elles manquaient probablement de la structure de domaine régulateur de réponse appropriée, laissant 581 791 séquences. C'était trop pour être conservé à l'aide d'outils standard, et de nombreuses identités de séquence étaient bien en dessous du seuil d'identité d'environ 40 %, en dessous duquel de nombreux outils d'alignement deviennent peu fiables87. Ainsi, pour analyser davantage ces séquences, nous avons appliqué les méthodes de regroupement et d'échantillonnage décrites dans les sections suivantes.

À partir d'un ensemble de 581 791 séquences, un ensemble de base de 367 séquences - chacune avec <24% d'identité par paire avec tous les autres membres de l'ensemble - a été sélectionné pour amorcer le regroupement des séquences. Au-dessus de ce seuil, on s'attendrait à ce que les séquences de régulateur de réponse adoptent des structures similaires52. Pour identifier cet ensemble de séquences de graines, la première séquence de la liste de 581 791 séquences (FixJPDB) a été choisie. Les séquences suivantes ont été alignées avec la séquence de FixJPDB à l'aide de Biopython88 pairwise2.align.localxs avec des pénalités d'ouverture/d'extension de -1, -0,5, respectivement. Si l'identité par paire d'une séquence avec la séquence FixJPDB <24 %, elle a été ajoutée à l'ensemble de base. Les séquences de la liste ont été alignées avec toutes les séquences précédemment ajoutées à l'ensemble de base et incluses uniquement si les identités de tous les alignements par paires étaient <24 %, ce qui a donné 367 séquences de base au total. Les 581 424 séquences restantes ont été regroupées avec la séquence de base avec laquelle elles avaient l'identité par paire alignée la plus élevée, déterminée de manière exhaustive en alignant toutes les séquences avec toutes les séquences de base à l'aide de pairwise2.align.localxs, avec les paramètres comme précédemment.

Pour réduire davantage le nombre total de séquences, nous avons ignoré les 251 clusters avec moins de 50 séquences. Les 116 clusters restants comprenaient 103 clusters "moyens" (<5000 séquences) et 13 "grands" clusters (> 4000 séquences). Parmi les grands clusters, l'un contenait la séquence de FixJ (PDB ID 5XSO) et 283 762 autres séquences, et un autre contenait la séquence de KdpE (PDB ID 4KFC) et 25 035 autres séquences.

Les séquences au sein de chaque groupe moyen ont d'abord été alignées à l'aide de Clustal Omega48. L'inspection visuelle a révélé que certains alignements étaient biaisés par des séquences sensiblement plus courtes ou plus longues que la majorité des homologues de leur groupe. Pour identifier et filtrer informatiquement ces séquences, nous avons identifié (i) des "zones clairsemées" en recherchant des fenêtres de 8 positions où plus de 95 % des séquences contenaient des lacunes, et (ii) des "zones peuplées" en recherchant des fenêtres de 10 positions où plus de 90 % des séquences contenaient des résidus d'acides aminés. Les séquences avec (1) ≥ 10 % de leurs acides aminés dans les zones clairsemées ou (2) < 10 % de leurs acides aminés dans les zones peuplées ont été retirées du cluster. Les seuils de 10 % ont été déterminés empiriquement pour réaliser au mieux cette étape de « culling ». Ensuite, nous avons effectué environ 2 à 7 itérations successives d'alignements d'élimination et de Clustal Omega, jusqu'à ce que le nombre de séquences dans chaque cluster converge. Au cours de ce processus, 9 grappes moyennes ont été réduites à moins de 50 séquences et ont ensuite été ignorées, laissant 94 grappes moyennes.

Enfin, étant donné que l'algorithme d'alignement global de Clustal Omega ne rapporte pas avec précision la phylogénie ou ne suggère pas de structure, les alignements de séquences multiples ont été davantage alignés à l'aide de PROMALS89, qui regroupe d'abord les séquences en fonction de la phylogénie, puis effectue l'alignement local des domaines structuraux reconnus. La qualité de tous les alignements de cluster a été inspectée visuellement.

Les grandes grappes, avec des milliers de séquences, nécessitaient différentes stratégies pour générer de manière appropriée un sous-échantillon qui était traitable pour des analyses de séquence supplémentaires. Pour déterminer les tailles de sous-échantillons qui représentaient de manière adéquate la composition de la séquence au sein des clusters, trois sous-échantillons aléatoires indépendants de 1 000 et 5 000 séquences ont été extraits du cluster FixJ, et trois sous-échantillons de séquence de 5 000 ont été extraits du cluster KdpE. Ces sous-échantillons ont été soumis à une sélection itérative et à des alignements comme les grappes moyennes (décrites ci-dessus).

Ensuite, les alignements de séquences multiples (MSA) de ces sous-échantillons ont été téléchargés sur ConSurf83 (https://consurf.tau.ac.il/consurf_index.php). Les scores résultants ont été comparés pour déterminer combien de séquences étaient nécessaires pour donner des taux d'évolution cohérents. Les résultats ont indiqué que 5000 séquences étaient nécessaires pour une représentation adéquate des clusters FixJ et KdpE. L'inspection visuelle des cartes thermiques générées à partir des matrices d'identité de séquence de ces alignements de séquences a permis de conclure que 5 000 séquences échantillonnaient uniformément l'espace de séquence. Ainsi, pour représenter les clusters FixJ et KdpE, nous avons choisi au hasard l'un de ses 5000 ensembles de séquences de sous-échantillons. Pour 8 des 11 grandes grappes avec plus de 5 000 séquences, nous avons également sous-échantillonné 5 000 séquences. Les 3 grands clusters avec <5000 séquences ont été organisés comme décrit pour les clusters moyens.

La grande diversité de séquences entre les clusters, avec des identités de séquences alignées par paires entre clusters souvent <24%, a entravé l'assemblage MSA de la superfamille FixJ-KdpE. Ainsi, nous avons recherché des stratégies pour assembler les séquences des 94 grappes moyennes, des 11 sous-échantillons de grandes grappes et des sous-échantillons de 5 000 séquences des grandes grappes FixJ et KdpE en un seul MSA combiné. Premièrement, nous avons classé les clusters en deux demi-familles avec des séquences ressemblant à celles des grands clusters FixJ ou KdpE. À cette fin, nous avons apparié les séquences de chaque cluster avec toutes les séquences des grands clusters FixJ et KdpE avec la protéine BLAST. Les séquences de ces clusters avaient tendance à s'aligner avec une signification statistique élevée sur l'un des grands clusters, mais pas sur les deux, ce qui simplifie la classification des clusters. Cette approche s'est avérée prometteuse car les séquences de chaque cluster s'alignaient sur les séquences d'autres clusters avec des identités ≥ 38 %, favorisant des alignements fiables. Après avoir terminé toutes les recherches BLAST, 45 clusters moyens et 6 grands clusters ont été attribués à la demi-famille FixJ pour un total de 13 006 séquences et 49 clusters moyens et 5 grands clusters à la demi-famille KdpE pour un total de 10 785 séquences.

Malgré l'échantillonnage et la curation, les deux demi-familles étaient trop grandes pour créer une MSA à l'aide d'outils conventionnels. Ainsi, nous avons utilisé une approche alternative dans laquelle deux alignements de référence ont été générés à l'aide de Clustal Omega pour aligner des séquences représentatives de chaque cluster (51 séquences pour FixJ et 54 pour KdpE). PROMALS a ensuite été utilisé pour affiner les deux MSA de référence demi-famille. Lors de l'inspection visuelle, 7 séquences ont été retirées du MSA de référence KdpE car elles ont généré de nombreuses lacunes dans l'alignement ; leurs grappes d'origine ont ensuite été ignorées. Les séquences restantes dans le MSA de référence KdpE ont été réalignées à l'aide de Clustal Omega et de PROMALS. Enfin, lors d'une inspection visuelle, les registres des prolines et des acides aminés chargés ont été modifiés manuellement pour correspondre à 3 séquences (PSQ94266, HBD38673 et KEZ75144) entre les registres 225 et 270 dans la référence KdpE MSA. Aucune curation manuelle de ce type n'était nécessaire dans le FixJ MSA. Les séquences de chacun des 98 clusters restants ont ensuite été (i) alignées indépendamment avec PROMALS et (ii) intégrées dans le MSA de référence de la demi-famille appropriée à l'aide de MARS (Maintainer of Alignments using Reference Sequences for Proteins90). Le programme MARS permet aux alignements de séquences organisés avec au moins une séquence en commun d'être fusionnés les uns avec les autres sans réaligner l'ensemble de séquences entier. À l'aide de ce programme, toutes les séquences des 51 clusters correspondants FixJ et le sous-échantillon organisé du cluster FixJ ont été fusionnés, en utilisant la référence MSA de la demi-famille FixJ comme guide. De même, toutes les séquences des 47 clusters correspondant à KdpE ainsi que le sous-échantillon organisé du cluster KdpE ont été fusionnés.

Les identités par paires des séquences dans les deux demi-familles étaient trop faibles pour créer de manière fiable un MSA. Ainsi, nous avons essayé une approche "d'homologie transitive" pour combiner les alignements de demi-famille en un seul alignement pour la superfamille. Tout d'abord, nous avons identifié un "chemin" de séquences apparentées91,92 en suivant la logique selon laquelle, si les séquences A et B sont homologues et les séquences B et C sont homologues, alors l'homologie entre les séquences A et C peut être supposée via la séquence "pont" B Pour mener à bien cette stratégie, nous avons utilisé la protéine BLAST pour rechercher la correspondance d'identité de séquence la plus élevée entre le FixJ non échantillonné et les grands clusters KdpE (c'est-à-dire les clusters avec> 250 000 et> 25 000 séquences). Ce résultat a ensuite été interrogé par rapport à la base de données du pli opposé et ainsi de suite jusqu'à ce que nous ayons identifié 7 séquences avec des alignements de séquences par paires, chacune avec une identité de séquence ≥ 38 % qui reliait la séquence FixJ à la séquence KdpE (tableau supplémentaire 3). Notez que la séquence "pont" TME68356 (tableau supplémentaire 4) pourrait bien s'aligner avec une autre séquence dans l'une ou l'autre demi-famille, bien qu'elle ait été initialement attribuée à la demi-famille KdpE. Les quatre séquences supérieures/inférieures du tableau supplémentaire 3 ont été alignées avec les demi-familles FixJ/KdpE à l'aide de Clustal Omega. Nous avons ensuite utilisé MARS pour combiner des alignements de demi-famille en utilisant la séquence de pont comme référence. L'ensemble de la famille MSA résultant contenait 45 199 séquences. Ces séquences ont été filtrées à 85 % de redondance avec CD-HIT, produisant finalement un MSA avec 23 791 séquences. Cependant, lorsqu'un arbre phylogénétique a été construit dans IQ-Tree pour cet ensemble de séquences, sa qualité était médiocre (c'est-à-dire 140 lacunes/360 positions dans la séquence KdpEPDB) et n'a pas réussi à converger après 3 cycles de 1000 itérations d'amorçage chacun.

Le chemin d'homologie transitive identifié ci-dessus (tableau supplémentaire 3) a suggéré l'existence de séquences supplémentaires qui pourraient relier les plis HTH4 et wH. En conséquence, les cinq/six clusters de séquences FixJ/KdpE précédemment attribués avec plus de 4000 séquences ont chacun été combinés et convertis en deux bases de données BLAST représentant les séquences HTH4 (de type FixJ) et wH4 (de type KdpE). Les séquences au sein des clusters de séquences FixJ combinés ont été réduites à 50 % de redondance à l'aide de CD-HIT93 avec une taille de mot de 2, comme recommandé. Des recherches Protein BLAST ont été effectuées sur chacune des 4520 séquences restantes avec une valeur e maximale de 1e–04 en utilisant la base de données complète KdpEPDB. Tous les 8607 alignements avec des identités de séquence minimales et des longueurs de 33 % et 200 résidus, respectivement, ont été considérés comme significatifs. Pour s'assurer que ces alignements correspondaient vraiment à HTH4 avec les séquences wH, les enregistrements NCBI de 1793 séquences HTH4 et 4995 wH ont été récupérés à l'aide de l'efetch du NCBI. Chaque enregistrement a été recherché pour les annotations structurelles de son CTD (HTH ou wH). Au final, 3074 correspondances BLAST, chacune avec un HTH annoté et un wH CTD annoté ont été retenues.

Pour identifier des séquences HTH supplémentaires qui pourraient correspondre à des séquences wH, des recherches BLAST supplémentaires ont été effectuées sur les 4 séquences HTH4 de notre ensemble de 3074 correspondances alignées avec des séquences wH avec une identité par paire ≥ 38 %. Cette fois, la base de données comprenait les 581 791 séquences de longueur limitée identifiées à partir des recherches initiales FixJ et KdpE BLAST. Ces recherches, destinées à identifier des séquences HTH4 supplémentaires indépendamment de la manière dont elles étaient regroupées, ont donné 66 séquences HTH putatives qui pourraient bien correspondre à des séquences wH supplémentaires. Enfin, 66 recherches supplémentaires de Protein BLAST ont été effectuées en interrogeant chacune des 66 séquences HTH putatives contre toutes les séquences des 47 clusters de correspondance KdpE identifiés précédemment. Les 62 correspondances résultantes avec des identités et des longueurs de séquence minimales de 33 % et 200 résidus et des annotations HTH/wH de leurs enregistrements NCBI, identifiées comme précédemment, ont été incluses, totalisant 3136 correspondances entre 3203 séquences. Pour référence, les séquences de FixJPDB et KdpEPDB ont également été incluses ; ces deux séquences avaient des identités et des longueurs minimales alignées de 32 % et 198, respectivement, aux séquences codant pour les plis alternatifs.

Les 3205 séquences résultantes ont été alignées de deux manières, avec Clustal Omega et avec MUSCLE49 version 3 à l'aide de la commande super5. Les colonnes avec des écarts > 75 % ont été supprimées des deux alignements à l'aide de Geneious Prime 2022.2.2 (https://www.geneious.com) pour des analyses plus approfondies. Les alignements finaux ont montré un chevauchement complet entre l'hélice C-terminale du HTH4 et l'aile en épingle à cheveux β du wH. Des analyses phylogénétiques ultérieures et une reconstruction de la séquence ancestrale ont été effectuées sur l'alignement Clustal Omega.

Une version de ConSurf pouvant être exécutée localement, Rate4Site 2.0194 (https://www.tau.ac.il/~itaymay/cp/rate4site.html), a également été utilisée pour calculer les taux d'évolution pour l'alignement complet de 3205 séquences. en tant que sous-familles séparées HTH4 et wH (séquences 664 et 2541, respectivement; Fig. 4 supplémentaire). Ce programme nécessite un fichier MSA pour calculer un arbre phylogénétique. Nous avons choisi la méthode bayésienne empirique pour générer les taux, ce qui améliore considérablement la précision des estimations des scores de conservation par rapport à la méthode du maximum de vraisemblance94. Les scores sont représentés sous forme de notes allant de conservé (9) à variable (1).

Un arbre phylogénétique à vraisemblance maximale (ML) a été déduit de l'alignement avec FastTree95,96, en utilisant les modèles Jones-Taylor-Thorton/JTT97 d'évolution des acides aminés et l'approximation CAT98 pour tenir compte des taux variables d'évolution entre les sites. Cet arbre a été en outre pris en charge par le démarrage ultrarapide (UFBoot99) tel qu'implémenté dans IQ-Tree282. Nous avons utilisé ModelFinder100 pour identifier le modèle évolutif le mieux adapté pour le MSA (modèle choisi - LG + F + R10), puis évalué le support de branche avec 1000 répliques UFBoot. Le coefficient de corrélation minimum pour le critère de convergence a été fixé à 0,99. Un arbre de consensus a également été généré (Fig. 5 supplémentaire).

Les arbres ML et consensus générés par FastTree et IQ-Tree2, respectivement, manquaient d'informations sur le placement des racines de la phylogénie estimée. Idéalement, des informations externes - telles qu'un groupe externe - sont utilisées pour enraciner l'arbre. Cependant, nous ne pouvions pas utiliser un groupe externe car il n'était pas possible d'identifier une seule séquence en dehors de notre alignement qui soit homologue aux deux plis. Par conséquent, nous avons combiné le modèle non réversible avec un modèle de maximum de vraisemblance101 utilisé pour calculer les log-vraisemblances des arbres étant enracinés sur chaque branche de l'arbre. Un amorçage de 10 000 répétitions a été effectué pour obtenir des résultats fiables. La méthode renvoie une liste de 6393 arbres enracinés à chaque nœud et triés par log-vraisemblances dans l'ordre décroissant, ainsi que d'autres scores par différents tests, comme suit ; bp-RELL : proportion bootstrap utilisant la méthode RELL102, p-KH : valeur p du test de Kishino-Hasegawa unilatéral103, p-SH : valeur p du test de Shimodaira-Hasegawa104, c-ELW : poids de vraisemblance attendu105 et le p- UA : valeur de p du test approximativement sans biais (AU)50.

Le test AU utilise une nouvelle technique d'amorçage multi-échelles développée pour réduire le biais du test et obtenir un ensemble fiable d'arbres statistiquement significatifs. Le test AU, comme le test SH, ajuste le biais de sélection négligé dans l'utilisation standard des tests de probabilité bootstrap et KH. Il élimine également les biais pouvant résulter du test SH50. Dans l'ensemble, le test AU s'est avéré moins biaisé que les autres méthodes dans des cas typiques de sélection d'arbres et est recommandé pour les problèmes de sélection généraux50. Par conséquent, nous nous sommes appuyés sur p-AU (valeurs de p de AU) pour obtenir une liste de 18 arbres enracinés les plus probables avec p-AU > 0,8.

La reconstruction de la séquence ancestrale a été réalisée à l'aide de méthodes de maximum de vraisemblance mises en œuvre dans IQ-Tree2, qui utilise l'algorithme décrit dans Yang et al.106. Les séquences ancestrales ont été déterminées pour tous les nœuds de l'arbre consensus (Fig. 5 supplémentaire) en utilisant la méthode bayésienne empirique. Les probabilités postérieures sont rapportées pour chaque état (acide aminé) à chaque nœud. Nous avons marqué les nœuds en trois étapes. Tout d'abord, nous avons calculé la probabilité moyenne en tenant compte de tous les états attribués au nœud. Ensuite, en remplaçant les états par les acides aminés dans la séquence pont (TME68356.1), nous avons calculé la p-value totale. Enfin, calcul de l'identité de séquence par paires entre la séquence ancestrale et la séquence de pont. En utilisant les trois critères, nous avons identifié 6 séquences reconstruites avec de faibles valeurs p près des séquences de pont. Ces séquences ont été utilisées pour l'analyse en aval et la construction de modèles.

Les séquences FASTA des 6 ancêtres reconstruits, ainsi que les 12 séquences de pont, ont été utilisées comme entrée pour la construction complète du modèle de prédiction de structure AlphaFold2.114. Les MSA ont été générés par la procédure par défaut consistant à combiner les recherches de séquences des bases de données BFD, MGnify et Uniref. Les prédictions ont été faites à l'aide de modèles avec une date maximale du 20/04/2022. Les structures classées 0 ont été représentées dans les Fig. 4 et S9. Pour tester la plausibilité des structures générées par AF2 pour les ancêtres reconstruits et les séquences de pont, nous avons examiné les prédictions AF2 récemment publiées pour 338 séquences HTH4 et 937 wH107. Les prédictions AF2 correspondaient aux annotations génomiques dans tous les cas. Les qualités de prédiction variaient : sur 1 275 structures prédites, 29 % étaient prédites avec une confiance élevée, 58 % avaient une confiance modérée et les 13 % restants avaient une confiance faible.

Les contacts nucléotidiques uniques entre les régulateurs de réponse et leurs séquences d'ADN correspondantes ont été identifiés à l'aide de Resmap108, un outil qui utilise les coordonnées atomiques des fichiers PDB pour calculer les distances intra-atomiques pour les interactions non covalentes sous des seuils définis. Les seuils de distance par défaut pour les différents types d'interaction qui ont été utilisés sont : (1) Liaisons hydrogène - ≤3,5 Å, (2) Interactions hydrophobes - ≤4,5 Å, (3) Interactions aromatiques - ≤4,5 Å, (4) Contacts déstabilisants - ≤ 3,5 Å, (5) Paires d'ions - ≤ 5,0 Å, (6) Autres contacts (qui incluent les interactions de van der Waals) - ≤ 3,5 Å. Étant donné que la nomenclature des atomes d'ADN a changé depuis le développement de Resmap, les fichiers PDB ont été modifiés manuellement pour correspondre au format d'entrée de Resmap avec les modifications suivantes : (1) remplacements de symboles de ' par *, (2) les atomes de nucléotide (A,C , G ou T) ont été ajoutés avec le préfixe « D » (DA, DC, DG, DT), (3) les atomes de nucléotide édités ont également reçu des numéros d'identification d'atome uniques. Les fichiers PDB avec ces modifications ont ensuite été entrés dans Resmap pour identifier les contacts uniques entre les atomes des chaînes de protéines et les atomes des chaînes d'ADN.

Les figures de protéines ont été générées dans PyMOL (The PyMOL Molecular Graphics System, Version 2.0 Schrödinger, LLC) (https://pymol.org/2/), les tracés et la carte thermique dans Matplotlib109 (https://matplotlib.org/stable/index. html) et seaborn110 (https://seaborn.pydata.org/). Les arbres phylogénétiques ont été visualisés avec ggtree (https://guangchuangyu.github.io/ggtree-book/chapter-ggtree.html) implémenté en tant que package R111.

De plus amples informations sur la conception de la recherche sont disponibles dans le résumé des rapports sur le portefeuille Nature lié à cet article.

Les données générées dans cette étude, y compris les alignements de séquences et les clusters, les analyses phylogénétiques et les modèles AlphaFold2, ont été déposées dans la base de données Zenodo sous le code d'accession https://doi.org/10.5281/zenodo.7837636. Les données à l'appui générées dans cette étude sont fournies dans les informations supplémentaires et le fichier de données source. Les données structurelles utilisées dans cette étude sont disponibles dans la Protein Data Bank (PDB) sous le code d'accession 5XSO, [https://doi.org/10.2210/pdb5SXO/pdb], chaîne A (FixJPDB) 4KFC, [https:// doi.org/10.2210/pdb4KFC/pdb], chaîne A (KdpEPDB), 1H0M [https://doi.org/10.2210/pdb1H0M/pdb], chaîne D et 4HF1 [https://doi.org/10.2210/ pdb4HF1/pdb], chaîne A. Les classifications de structure utilisées dans cette étude sont disponibles auprès de l'ECOD (http://prodata.swmed.edu/ecod/), SCOP (https://scop.mrc-lmb.cam.ac .uk) et bases de données Pfam (https://www.ebi.ac.uk/interpro/). Les données sources sont fournies avec ce document.

Le code utilisé pour générer les résultats rapportés dans ce manuscrit est disponible à : https://doi.org/10.5281/zenodo.7837636 et https://github.com/ncbi/FixJ_KdpE.

Anfinsen, CB Principes qui régissent le repliement des chaînes protéiques. Sciences 181, 223-230 (1973).

Article ADS CAS PubMed Google Scholar

Meinhardt, S., Manley, MW Jr., Parente, DJ & Swint-Kruse, L. Rhéostats et interrupteurs à bascule pour moduler la fonction des protéines. PLoS ONE 8, e83502 (2013).

Article ADS PubMed PubMed Central Google Scholar

Markin, CJ et al. Révéler l'architecture fonctionnelle enzymatique via une cinétique enzymatique microfluidique à haut débit. Sciences https://doi.org/10.1126/science.abf8761 (2021).

Cole-Strauss, A. et al. Correction de la mutation responsable de la drépanocytose par un oligonucléotide ARN-ADN. Sciences 273, 1386-1389 (1996).

Article ADS CAS PubMed Google Scholar

Morral, N. et al. L'origine de la mutation majeure de la mucoviscidose (delta F508) dans les populations européennes. Nat. Genet. 7, 169-175 (1994).

Article CAS PubMed Google Scholar

Muller, PA & Vousden, KH mutations p53 dans le cancer. Nat. Cell Biol. 15, 2–8 (2013).

Article CAS PubMed Google Scholar

Bai, Y. & Englander, SW Orientations futures du repliement : la nature multi-états de la structure des protéines. Protéines 24, 145-151 (1996).

3.0.CO;2-I" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291097-0134%28199602%2924%3A2%3C145%3A%3AAID-PROT1%3E3.0.CO%3B2-I" aria-label="Article reference 7" data-doi="10.1002/(SICI)1097-0134(199602)24:23.0.CO;2-I">Article CAS PubMed Google Scholar

Jackson, SE & Fersht, AR Pliage de l'inhibiteur de la chymotrypsine 2. 1. Preuve d'une transition à deux états. Biochimie 30, 10428-10435 (1991).

Article CAS PubMed Google Scholar

Orengo, CA, Pearl, FM & Thornton, JM La base de données de structure de domaine CATH. Méthodes Biochem. Anal. 44, 249-271 (2003).

CAS PubMed Google Scholar

Andreeva, A. et al. Croissance des données et son impact sur la base SCOP : nouveautés. Nucleic Acids Res. 36, D419–D425 (2008).

Article CAS PubMed Google Scholar

Greene, LH et al. La base de données de structure de domaine CATH : de nouveaux protocoles et niveaux de classification offrent une ressource plus complète pour explorer l'évolution. Nucleic Acids Res. 35, D291–D297 (2007).

Article CAS PubMed Google Scholar

Baek, M. et al. Prédiction précise des structures et des interactions des protéines à l'aide d'un réseau de neurones à trois voies. Sciences 373, 871–876 (2021).

Article ADS CAS PubMed PubMed Central Google Scholar

Chowdhury, R. et al. Prédiction de la structure des protéines à séquence unique à l'aide d'un modèle de langage et d'apprentissage en profondeur. Nat. Biotechnol. https://doi.org/10.1038/s41587-022-01432-w (2022).

Jumper, J. et al. Prédiction très précise de la structure des protéines avec AlphaFold. Nature 596, 583–589 (2021).

Article ADS CAS PubMed PubMed Central Google Scholar

Dishman, AF & Volkman, BF Dévoilement des mystères de la métamorphose des protéines. ACS Chem. Biol. 13, 1438-1446 (2018).

Article CAS PubMed PubMed Central Google Scholar

Porter, LL & Looger, LL Les protéines de commutation de repli existantes sont répandues. Proc. Natl Acad. Sci. États-Unis 115, 5968–5973 (2018).

Article ADS CAS PubMed PubMed Central Google Scholar

Lei, X. et al. La mutation cancéreuse D83V induit un changement de conformation de l'hélice alpha au brin bêta dans MEF2B. J. Mol. Biol. 430, 1157-1172 (2018).

Article CAS PubMed Google Scholar

Chang, YG et al. Rythmes circadiens. Un commutateur de repliement protéique rejoint l'oscillateur circadien pour synchroniser la sortie des cyanobactéries. Sciences 349, 324–328 (2015).

Article ADS CAS PubMed PubMed Central Google Scholar

Alexander, PA, He, Y., Chen, Y., Orban, J. & Bryan, PN Un code de séquence minimal pour changer la structure et la fonction des protéines. Proc. Natl Acad. Sci. États-Unis 106, 21149–21154 (2009).

Article ADS CAS PubMed PubMed Central Google Scholar

He, Y., Chen, Y., Alexander, PA, Bryan, PN et Orban, J. Points de basculement mutationnels pour la commutation des plis et des fonctions des protéines. Structure 20, 283–291 (2012).

Article CAS PubMed PubMed Central Google Scholar

Porter, LL, He, Y., Chen, Y., Orban, J. & Bryan, PN Les interactions de sous-domaine favorisent la conception de deux paires de protéines avec une identité de séquence d'environ 80 % mais des plis différents. Biophys. J. 108, 154–162 (2015).

Article ADS CAS PubMed PubMed Central Google Scholar

Ruan, B. et al. Conception et caractérisation d'un réseau de commutation de repliement protéique. Nat. Commun. 14, 431 (2023).

Article ADS CAS PubMed PubMed Central Google Scholar

Salomon, TL et al. Commutation réversible entre deux plis protéiques communs dans un système conçu utilisant uniquement la température. Proc. Natl Acad. Sci. États-Unis 120, e2215418120 (2023).

Article CAS PubMed Google Scholar

Alvarez-Carreno, C., Penev, PI, Petrov, AS & Williams, LD Fold Evolution avant LUCA : Ascendance commune des domaines SH3 et des domaines OB. Mol. Biol. Évol. 38, 5134–5143 (2021).

Article CAS PubMed PubMed Central Google Scholar

Farias-Rico, JA, Schmidt, S. & Hocker, B. Relation évolutive de deux anciens superplis protéiques. Nat. Chim. Biol. 10, 710–715 (2014).

Article CAS PubMed Google Scholar

Kumirov, VK et al. Transformation mutationnelle en plusieurs étapes d'un pli protéique par des intermédiaires structuraux. Protéine Sci. 27, 1767-1779 (2018).

Article CAS PubMed PubMed Central Google Scholar

Newlove, T., Konieczka, JH & Cordes, MH Commutation de structure secondaire dans l'évolution de la protéine Cro. Structure 12, 569–581 (2004).

Article CAS PubMed Google Scholar

Roessler, CG et al. Des études structurelles guidées par l'homologie transitive ont conduit à la découverte de protéines Cro avec une identité de séquence de 40 % mais des plis différents. Proc. Natl Acad. Sci. États-Unis 105, 2343–2348 (2008).

Article ADS CAS PubMed PubMed Central Google Scholar

O'Leary, NA et al. Base de données de séquences de référence (RefSeq) au NCBI : état actuel, expansion taxonomique et annotation fonctionnelle. Nucleic Acids Res. 44, D733–D745 (2016).

Article PubMed Google Scholar

Berman, HM et al. La banque de données sur les protéines. Acta Crystallogr. D Biol. Cristallologue. 58, 899–907 (2002).

Article PubMed Google Scholar

Burley, SK et al. Banque de données sur les protéines (PDB) : l'unique archive globale des structures macromoléculaires. Méthodes Mol. Biol. 1607, 627–641 (2017).

Article CAS PubMed PubMed Central Google Scholar

Koretke, KK, Lupas, AN, Warren, PV, Rosenberg, M. & Brown, JR Évolution de la transduction du signal à deux composants. Mol. Biol. Évol. 17, 1956-1970 (2000).

Article CAS PubMed Google Scholar

Stock, AM, Mottonen, JM, Stock, JB & Schutt, CE Structure tridimensionnelle de CheY, le régulateur de réponse de la chimiotaxie bactérienne. Nature 337, 745–749 (1989).

Article ADS CAS PubMed Google Scholar

Leonard, PG, Golemi-Kotra, D. & Stock, AM Modifications conformationnelles dépendantes de la phosphorylation et réarrangements de domaine dans l'activation de Staphylococcus aureus VraR. Proc. Natl Acad. Sci. États-Unis 110, 8525–8530 (2013).

Article ADS CAS PubMed PubMed Central Google Scholar

Wright, GSA et al. Architecture du système complet de transduction de signal à deux composants FixL-FixJ à détection d'oxygène. Sci. Signal. https://doi.org/10.1126/scisignal.aaq0825 (2018).

Gao, R., Mack, TR & Stock, AM Régulateurs de la réponse bactérienne : stratégies de régulation polyvalentes dans des domaines communs. Tendances Biochem. Sci. 32, 225-234 (2007).

Article CAS PubMed PubMed Central Google Scholar

Galperin, MY Diversité de la structure et de la fonction des domaines de sortie du régulateur de réponse. Courant. Avis. Microbiol. 13, 150-159 (2010).

Article CAS PubMed PubMed Central Google Scholar

Galperin, MY Classification structurale des régulateurs de la réponse bactérienne : diversité des domaines de sortie et des combinaisons de domaines. J. Bactériol. 188, 4169–4182 (2006).

Article CAS PubMed PubMed Central Google Scholar

Aravind, L., Anantharaman, V., Balaji, S., Babu, MM & Iyer, LM Les nombreux visages du domaine hélice-tour-hélice : régulation de la transcription et au-delà. Microbiol FEMS. Rév. 29, 231–262 (2005).

Article CAS PubMed Google Scholar

Altschul, SF et al. Gapped BLAST et PSI-BLAST : une nouvelle génération de programmes de recherche de bases de données de protéines. Nucleic Acids Res. 25, 3389–3402 (1997).

Article CAS PubMed PubMed Central Google Scholar

Kim, AK, Looger, LL & Porter, LL Une méthode prédictive à haut débit pour les commutateurs de plis similaires à la séquence. Biopolymères https://doi.org/10.1002/bip.23416 (2021).

Porter, LL et al. De nombreux domaines protéiques NusG dissemblables basculent entre les plis en hélice alpha et en feuillet bêta. Nat. Commun. 13, 3802 (2022).

Article ADS CAS PubMed PubMed Central Google Scholar

Wang, B., Gumerov, VM, Andrianova, EP, Zhulin, IB & Artsimovitch, I. Origines et évolution moléculaire du paralogue NusG RfaH. mBio https://doi.org/10.1128/mBio.02717-20 (2020).

Kerfeld, CA & Scott, KM Utilisation de BLAST pour enseigner les concepts "E-value-tionary". PLoS Biol. 9, e1001014 (2011).

Article CAS PubMed PubMed Central Google Scholar

Gonzalez, MW & Pearson, WR Surextension homologue : un défi pour les recherches itératives de similarité. Nucleic Acids Res. 38, 2177-2189 (2010).

Article CAS PubMed PubMed Central Google Scholar

Belogurov, GA et al. Base structurelle pour convertir un facteur de transcription général en un régulateur de virulence spécifique à l'opéron. Mol. Cellule 26, 117-129 (2007).

Article CAS PubMed PubMed Central Google Scholar

Eddy, SR Une nouvelle génération d'outils de recherche d'homologie basée sur l'inférence probabiliste. Génome Inf. 23, 205-211 (2009).

Google Scholar

Sievers, F. et al. Génération rapide et évolutive d'alignements de séquences multiples de protéines de haute qualité à l'aide de Clustal Omega. Mol. Syst. Biol. 7, 539 (2011).

Article PubMed PubMed Central Google Scholar

Edgar, RC MUSCLE : alignement de séquences multiples avec une grande précision et un haut débit. Nucleic Acids Res. 32, 1792–1797 (2004).

Article CAS PubMed PubMed Central Google Scholar

Shimodaira, H. Un test approximativement impartial de sélection d'arbres phylogénétiques. Syst. Biol. 51, 492–508 (2002).

Article PubMed Google Scholar

Chakravarty, D. & Porter, LL AlphaFold2 ne parvient pas à prédire le changement de repliement des protéines. Protéine Sci. 31, e4353 (2022).

Article CAS PubMed Google Scholar

Rost, B. Zone crépusculaire des alignements de séquences de protéines. Protéine Ing. 12, 85–94 (1999).

Article CAS PubMed Google Scholar

Bateman, A. et al. La base de données des familles de protéines Pfam. Nucleic Acids Res. 32, D138–D141 (2004).

Article CAS PubMed PubMed Central Google Scholar

Liberles, DA et al. L'interface de la structure des protéines, de la biophysique des protéines et de l'évolution moléculaire. Protéine Sci. 21, 769–785 (2012).

Article CAS PubMed PubMed Central Google Scholar

Yadid, I., Kirshenbaum, N., Sharon, M., Dym, O. & Tawfik, DS Les protéines métamorphiques interviennent dans les transitions évolutives de la structure. Proc. Natl Acad. Sci. États-Unis 107, 7287–7292 (2010).

Article ADS CAS PubMed PubMed Central Google Scholar

Alexander, PA, He, Y., Chen, Y., Orban, J. & Bryan, PN La conception et la caractérisation de deux protéines avec une identité de séquence de 88 % mais une structure et une fonction différentes. Proc. Natl Acad. Sci. États-Unis 104, 11963–11968 (2007).

Article ADS CAS PubMed PubMed Central Google Scholar

Dishman, AF et al. Évolution de la commutation de repliement dans une protéine métamorphique. Sciences 371, 86–90 (2021).

Article ADS CAS PubMed PubMed Central Google Scholar

Alva, V., Soding, J. & Lupas, AN Un vocabulaire des peptides anciens à l'origine des protéines repliées. Elife 4, e09410 (2015).

Article PubMed PubMed Central Google Scholar

Kolodny, R., Nepomnyachiy, S., Tawfik, DS & Ben-Tal, N. Thèmes de pontage : segments protéiques courts trouvés dans différentes architectures. Mol. Biol. Évol. 38, 2191-2208 (2021).

Article CAS PubMed PubMed Central Google Scholar

Nepomnyachiy, S., Ben-Tal, N. & Kolodny, R. Empreintes évolutives complexes révélées dans une analyse de segments protéiques réutilisés de diverses longueurs. Proc. Natl Acad. Sci. États-Unis 114, 11703–11708 (2017).

Article ADS CAS PubMed PubMed Central Google Scholar

Qiu, K., Ben-Tal, N. & Kolodny, R. Segments protéiques similaires partagés entre des domaines de différentes lignées évolutives. Protéine Sci. 31, e4407 (2022).

Article CAS PubMed PubMed Central Google Scholar

Li , W. , Kinch , LN , Karplus , PA & Grishin , NV ChSeq : une base de données de séquences de caméléons . Protéine Sci. Rév. 24, 1075-1086 (2015).

Article CAS PubMed PubMed Central Google Scholar

Mineur, DL Jr. & Kim, PS Formation de structure secondaire dépendante du contexte d'une séquence de protéine conçue. Nature 380, 730–734 (1996).

Article ADS CAS PubMed Google Scholar

Alvarez-Carreno, C., Gupta, RJ, Petrov, AS & Williams, LD Destruction créative : de nouvelles protéines se replient à partir d'anciennes. Proc. Natl Acad. Sci. États-Unis 119, e2207897119 (2022).

Article CAS PubMed PubMed Central Google Scholar

Liebau, J. et al. Dévoilement de la dynamique d'activation d'une glycosyltransférase bactérienne fold-switch par RMN (19)F. J. Biol. Chim. 295, 9868–9878 (2020).

Article CAS PubMed PubMed Central Google Scholar

Ugalde, JA, Chang, BS & Matz, MV Evolution des pigments coralliens recréés. Sciences 305, 1433 (2004).

Article CAS PubMed Google Scholar

Harms, MJ & Thornton, JW Contingence historique et sa base biophysique dans l'évolution des récepteurs des glucocorticoïdes. Nature 512, 203-207 (2014).

Article ADS CAS PubMed PubMed Central Google Scholar

Tuinstra, RL et al. Interconversion entre deux repliements protéiques non apparentés à l'état natif de la lymphotactine. Proc. Natl Acad. Sci. États-Unis 105, 5057–5062 (2008).

Article ADS CAS PubMed PubMed Central Google Scholar

Chakravarty, D., Schafer, JW & Porter, LL Caractéristiques distinctives des protéines à commutation de pli. Protéine Sci. 32, e4596 (2023).

Article CAS PubMed Google Scholar

Cordes, MH, Burton, RE, Walsh, NP, McKnight, CJ & Sauer, RT Un pont évolutif vers un nouveau repli protéique. Nat. Structure. Biol. 7, 1129-1132 (2000).

Article CAS PubMed Google Scholar

Cordes, MH, Walsh, NP, McKnight, CJ & Sauer, RT Evolution d'un repliement protéique in vitro. Sciences 284, 325-328 (1999).

Article ADS CAS PubMed Google Scholar

Sikosek, T., Krobath, H. & Chan, HS Aperçus théoriques de la biophysique de la bi-stabilité des protéines et des commutateurs évolutifs. Calcul PLoS. Biol. 12, e1004960 (2016).

Article ADS PubMed PubMed Central Google Scholar

Tian, ​​P. & Best, RB Exploration du paysage de fitness séquentiel d'un pont entre deux plis protéiques. Calcul PLoS. Biol. 16, e1008285 (2020).

Article ADS CAS PubMed PubMed Central Google Scholar

Sikosek, T. & Chan, HS Biophysique de l'évolution des protéines et biophysique évolutive des protéines. JR Soc. Interface 11, 20140419 (2014).

Article PubMed PubMed Central Google Scholar

Sikosek, T., Chan, HS & Bornberg-Bauer, E. Escape from Adaptive Conflict découle de faibles compromis fonctionnels et d'une robustesse mutationnelle. Proc. Natl Acad. Sci. États-Unis 109, 14888–14893 (2012).

Article ADS CAS PubMed PubMed Central Google Scholar

Morrison, AJ, Wonderlick, DR & Harms, MJ Epistasis d'ensemble : origines thermodynamiques de la non-additivité entre les mutations. Génétique 219, iyab105 (2021).

Article PubMed PubMed Central Google Scholar

Ovchinnikov, S. et al. Détermination de la structure des protéines à l'aide de données de séquence de métagénome. Sciences 355, 294-298 (2017).

Article ADS CAS PubMed PubMed Central Google Scholar

Mirdita, M. et al. ColabFold : rendre le repliement des protéines accessible à tous. Nat. Méthodes 19, 679–682 (2022).

Article CAS PubMed PubMed Central Google Scholar

Rao, R., Meier, J., Sercu, T., Ovchinnikov, S. & Rives, A. Les modèles de langage protéique transformateur sont des apprenants de structure non supervisés. bioRxiv https://doi.org/10.1101/2020.12.15.422761 (2020).

Remmert, M., Biegert, A., Hauser, A. & Soding, J. HHblits : recherche itérative ultra-rapide de séquences protéiques par alignement HMM-HMM. Nat. Méthodes 9, 173–175 (2011).

Article PubMed Google Scholar

Steinegger, M. & Soding, J. MMseqs2 permet la recherche de séquences de protéines sensibles pour l'analyse d'ensembles de données volumineux. Nat. Biotechnol. 35, 1026-1028 (2017).

Article CAS PubMed Google Scholar

Nguyen, LT, Schmidt, HA, von Haeseler, A. & Minh, BQ IQ-TREE : un algorithme stochastique rapide et efficace pour estimer les phylogénies à vraisemblance maximale. Mol. Biol. Évol. 32, 268-274 (2015).

Article CAS PubMed Google Scholar

Ashkenazy, H. et al. ConSurf 2016 : une méthodologie améliorée pour estimer et visualiser la conservation évolutive dans les macromolécules. Nucleic Acids Res. 44, W344–W350 (2016).

Article CAS PubMed PubMed Central Google Scholar

Kabsch, W. & Sander, C. Dictionnaire de la structure secondaire des protéines : reconnaissance de formes de caractéristiques liées à l'hydrogène et géométriques. Biopolymers 22, 2577-2637 (1983).

Article CAS PubMed Google Scholar

Mistry, J. et al. Pfam : La base de données des familles de protéines en 2021. Nucleic Acids Res. 49, D412–D419 (2021).

Article CAS PubMed Google Scholar

Cheng, H. et al. ECOD : une classification évolutive des domaines protéiques. Calcul PLoS. Biol. 10, e1003926 (2014).

Article PubMed PubMed Central Google Scholar

Wang, Y., Wu, H. & Cai, Y. Une étude de référence des méthodes d'alignement de séquences pour le regroupement de protéines. BMC Bioinform. 19, 529 (2018).

Article CAS Google Scholar

Coq, PJ et al. Biopython : outils Python disponibles gratuitement pour la biologie moléculaire computationnelle et la bioinformatique. Bioinformatique 25, 1422–1423 (2009).

Article CAS PubMed PubMed Central Google Scholar

Pei, J. & Grishin, NV PROMALS : vers des alignements précis de séquences multiples de protéines éloignées. Bioinformatique 23, 802–808 (2007).

Article CAS PubMed Google Scholar

Parente, DJ, Ray, JCJ & Swint-Kruse, L. Les positions d'acides aminés soumises à de multiples contraintes coévolutives peuvent être identifiées de manière robuste par leurs scores de centralité de réseau de vecteurs propres. Protéines 83, 2293–2306 (2015).

Article CAS PubMed PubMed Central Google Scholar

Bolten, E., Schliep, A., Schneckener, S., Schomburg, D. & Schrader, R. Regroupement des séquences de protéines - prédiction de la structure par homologie transitive. Bioinformatique 17, 935–941 (2001).

Article CAS PubMed MATH Google Scholar

Gerstein, M. Mesure de l'efficacité de la comparaison de séquence transitive, à travers une troisième séquence « intermédiaire ». Bioinformatique 14, 707–714 (1998).

Article CAS PubMed Google Scholar

Fu, L., Niu, B., Zhu, Z., Wu, S. & Li, W. CD-HIT : accéléré pour regrouper les données de séquençage de nouvelle génération. Bioinformatique 28, 3150–3152 (2012).

Article CAS PubMed PubMed Central Google Scholar

Mayrose, I., Graur, D., Ben-Tal, N. & Pupko, T. Comparaison des méthodes d'inférence de taux spécifiques au site pour les séquences de protéines : les méthodes bayésiennes empiriques sont supérieures. Mol. Biol. Évol. 21, 1781–1791 (2004).

Article CAS PubMed Google Scholar

Price, MN, Dehal, PS & Arkin, AP FastTree : calcul de grands arbres d'évolution minimale avec des profils au lieu d'une matrice de distance. Mol. Biol. Évol. 26, 1641-1650 (2009).

Article CAS PubMed PubMed Central Google Scholar

Price, MN, Dehal, PS & Arkin, AP FastTree 2-arbres à vraisemblance maximale approximative pour les grands alignements. PLoS ONE 5, e9490 (2010).

Article ADS PubMed PubMed Central Google Scholar

Jones, DT, Taylor, WR & Thornton, JM La génération rapide de matrices de données de mutation à partir de séquences protéiques. Calcul. Appl. Biosci. 8, 275-282 (1992).

CAS PubMed Google Scholar

Stamatakis, A. Dans Actes du 20e Symposium international IEEE sur le traitement parallèle et distribué. p. 8 (2006).

Hoang, DT, Chernomor, O., von Haeseler, A., Minh, BQ & Vinh, LS UFBoot2 : amélioration de l'approximation bootstrap ultrarapide. Mol. Biol. Évol. 35, 518–522 (2018).

Article CAS PubMed Google Scholar

Kalyaanamoorthy, S., Minh, BQ, Wong, TKF, von Haeseler, A. & Jermiin, LS ModelFinder : sélection rapide de modèles pour des estimations phylogénétiques précises. Nat. Méthodes 14, 587–589 (2017).

Article CAS PubMed PubMed Central Google Scholar

Naser-Khdour, S., Quang Minh, B. & Lanfear, R. Évaluation de la confiance dans le placement des racines sur les phylogénies : une étude empirique utilisant des modèles non réversibles pour les mammifères. Syst. Biol. 71, 959–972 (2022).

Article CAS PubMed Google Scholar

Kishino, H., Miyata, T. & Hasegawa, M. Inférence de vraisemblance maximale de la phylogénie des protéines et de l'origine des chloroplastes. J. Mol. Évol. 31, 151-160 (1990).

Article ADS CAS Google Scholar

Kishino, H. & Hasegawa, M. Évaluation de l'estimation du maximum de vraisemblance des topologies arborescentes évolutives à partir des données de séquence d'ADN et de l'ordre de ramification chez les hominoidea. J. Mol. Évol. 29, 170-179 (1989).

Article ADS CAS PubMed Google Scholar

Shimodaira, H. & Hasegawa, M. Comparaisons multiples de log-vraisemblances avec des applications à l'inférence phylogénétique. Mol. Biol. Évol. 16, 1114 (1999).

Article CAS Google Scholar

Strimmer, K. & Rambaut, A. Déduire des ensembles de confiance d'arbres génétiques éventuellement mal spécifiés. Proc. Biol. Sci. 269, 137-142 (2002).

Article PubMed PubMed Central Google Scholar

Yang, Z., Kumar, S. & Nei, M. Une nouvelle méthode d'inférence des séquences ancestrales de nucléotides et d'acides aminés. Génétique 141, 1641–1650 (1995).

Article CAS PubMed PubMed Central Google Scholar

Varadi, M. et al. Base de données sur la structure des protéines AlphaFold : étend massivement la couverture structurelle de l'espace des séquences protéiques avec des modèles de haute précision. Nucleic Acids Res. 50, D439–D444 (2021).

Article PubMed Central Google Scholar

Swint-Kruse, L. & Brown, CS Resmap : représentation automatisée des interfaces macromoléculaires sous forme de réseaux bidimensionnels. Bioinformatique 21, 3327–3328 (2005).

Article CAS PubMed Google Scholar

Hunter, JD Matplotlib : un environnement graphique 2D. Comput Sci. Ing. 9, 90–95 (2007).

Article Google Scholar

Waskom, ML seaborn : visualisation de données statistiques. J. Logiciel Open Source. https://doi.org/10.21105/joss.03021 (2021).

Yu, G., Smith, DK, Zhu, H., Guan, Y. & Lam, TT ggtree : un package R pour la visualisation et l'annotation des arbres phylogénétiques avec leurs covariables et autres données associées. Méthodes Écol. Évol. 8, 28–36 (2017).

Article Google Scholar

Télécharger les références

Nous remercions Carolyn Ott pour les discussions utiles et Loren Looger pour la lecture critique de ce manuscrit. Ce travail a utilisé le cluster NIH HPS Biowulf (http://hpc.nih.gov). Il a été financé en partie par le financement du programme de recherche intra-muros de la Bibliothèque nationale de médecine, des Instituts nationaux de la santé (LM202011, LLP), de l'Institut national des sciences médicales générales, des Instituts nationaux de la santé (GM118589 à LS-K.) et la Fondation WM Keck (LS-K.).

National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD, 20894, États-Unis

Devlina Chakravarty et Lauren L. Porter

Département de biochimie et de biologie moléculaire, Centre médical de l'Université du Kansas, Kansas City, KS, 66160, États-Unis

Shwetha Sreenivasan & Liskin Swint-Kruse

Centre de biochimie et de biophysique, Institut national du cœur, des poumons et du sang, Instituts nationaux de la santé, Bethesda, MD, 20892, États-Unis

Lauren L.Porter

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Conceptualisation : LLP et LSK Méthodologie : LLP, DC, LSK et SS Logiciel : DC, LLP et SS Enquête : LLP, DC, LSK et SS Conservation des données : SS, DC et LLP Visualisation : LLP, DC et SS Rédaction – ébauche originale : LLP, DC et SS Rédaction – révision et édition : LLP, LSK, DC et SS Supervision : LLP et LSK Administration du projet : LLP Acquisition de financement : LLP et LSK

Correspondance avec Lauren L. Porter.

Les auteurs ne déclarent aucun intérêt concurrent.

Nature Communications remercie Nir Ben-Tal, Hue Sun Chan et les autres examinateurs anonymes pour leur contribution à l'examen par les pairs de ce travail. Un fichier d'examen par les pairs est disponible.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Chakravarty, D., Sreenivasan, S., Swint-Kruse, L. et al. Identification d'une voie évolutive secrète entre deux replis protéiques. Nat Commun 14, 3177 (2023). https://doi.org/10.1038/s41467-023-38519-0

Télécharger la citation

Reçu : 07 décembre 2022

Accepté : 03 mai 2023

Publié: 01 juin 2023

DOI : https://doi.org/10.1038/s41467-023-38519-0

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.