PABLO MUÑOZ-RODRÍGUEZ, TOM CARRUTHERS, JOHN R.I. WOOD, BETHANY R.M. WILLIAMS, STEPHEN A. HARRIS, STEVEN KELLY, ROBERT W. SCOTLAND. Département des sciences végétales, Université d’Oxford, South Parks Road, Oxford OX1 3RB, Royaume-Uni
KEVIN WEITEMIER, LUCAS LONGWAY, AARON LISTON. Département de botanique et de pathologie végétale, Université d’État de l’Oregon, Corvallis, OR 97331, États-Unis.
BRENT KRONMILLER, Centre de recherche sur le genome et la bioinformatique, Université d’État de l’Oregon, Corvallis, OR 97331, États-Unis.
La patate douce est l’une des cultures les plus consommées au monde, mais son histoire évolutive est mal connue. Dans cet article, nous présentons une étude phylogénétique complète de toutes les espèces étroitement liées à la patate douce et abordons plusieurs questions relatives à la patate douce qui sont restées sans réponse. Nos recherches ont combiné l’écrémage du génome et la capture de l’ADN cible pour séquencer des chloroplastes entiers et 605 régions nucléaires à un exemplaire à partir de 199 spécimens représentant la patate douce et tous ses parents sauvages cultivés (PSC). Nous présentons des phylogénies nucléaires et chloroplastiques, démontrant que la patate douce a une origine autopolyploïde et que Ipomoea trifida est son parent le plus proche, confirmant qu’aucune autre espèce existante n’est impliquée dans son origine. L’analyse phylogénétique des génomes nucléaires et chloroplastiques montre des topologies contradictoires concernant la monophyie de la patate douce. Le processus de capture du chloroplaste explique ces topologies conflictuelles, indiquant que I. trifida a eu un double rôle dans l’origine de la patate douce, d’abord comme son géniteur et ensuite comme l’espèce avec laquelle la patate douce s’est introduite pour qu’une de ses lignées puisse capturer un chloroplaste I. trifida. En outre, nous apportons la preuve que la patate douce était présente en Polynésie à l’époque préhumaine. Ceci, ainsi que plusieurs autres exemples de dispersion sur de longues distances d’ Ipomoea, réfute une origine humaine de sa présence en Polynésie. Ces résultats ont des implications importantes pour la compréhension de l’origine et de l’évolution d’une importante culture alimentaire mondiale et remettent en question l’existence de contacts précolombiens entre la Polynésie et le continent américain.
Deux questions fondamentales liées à l’origine et à la dispersion de la patate douce (Ipomoea batatas (L.) Lam.) restent sans réponse. Premièrement, la patate douce a-t-elle évolué une ou plusieurs fois, et quelles sont les espèces impliquées dans son origine ? Ensuite, comment la patate douce, culture d’origine américaine, s’est-elle répandue en Polynésie avant l’arrivée des Européens ? Pour répondre à la première question, il faut connaître les relations évolutives entre la patate douce et les espèces qui lui sont le plus étroitement apparentées, souvent appelées “parents sauvages cultivés” (PSC ; figure 1). La compréhension de cette relation est la clé pour élucider l’origine de cette culture et a des implications pour la sécurité alimentaire car ces PSC constituent des sources potentielles de variation génétique pour l’amélioration future des cultures. Dans le cas de la patate douce, la connaissance de ces relations est particulièrement pauvre, même s’il s’agit d’une culture largement consommée¹ ² et une ressource importante pour lutter contre les carences en vitamine A, dont on estime qu’elles touchent plus de 190 millions d’enfants dans le monde³. La réponse à la deuxième question (comment la patate douce est-elle arrivée en Polynésie avant l’arrivée des Européens ?) induit deux questions supplémentaires. Premièrement, quelle est la possibilité que la patate douce se disperse depuis son aire de répartition naturelle en Amérique vers la Polynésie par des moyens naturels (c’est-à-dire le vent, l’eau ou les oiseaux) ? Deuxièmement, quand la patate douce a-t-elle colonisé la Polynésie ?
En réponse à la première question (la patate douce a-t-elle évolué une ou plusieurs fois ?), des preuves récentes viennent étayer les deux hypothèses. L’analyse des polymorphismes de longueur de fragments amplifiés (PLFA)⁴ et l’identification d’un transposon médié par Agrobacterium présent dans le génome nucléaire des cultivars de patate douce, mais absent des espèces sauvages apparentées échantillonnées⁵, peuvent être interprétées comme la preuve d’une origine unique. En revanche, l’identification de deux pools génétiques de patate douce à partir de l’analyse des marqueurs chloroplastiques a été interprétée comme la preuve d’origines multiples.6,7 La distinction entre ces hypothèses contrastées est une condition préalable pour répondre à d’autres questions fondamentales liées à la patate douce, telles que l’identité de son géniteur. Presque tous les parents sauvages ont été proposés comme géniteurs, en particulier Ipomoea trifida Kunth et I. triloba L.7, 8, 9, 10 mais des preuves concluantes pour une espèce donnée ont jusqu’à présent fait défaut. En outre, comme on ignore si la patate douce a évolué une ou plusieurs fois, il est impossible de savoir avec certitude si la patate douce hexaploïde a évolué par autopolyploïdie à partir d’un seul ancêtre ou par hybridation (allopolyploïdie) entre différentes espèces. La distinction entre ces voies très différentes de polyploïdie est cruciale pour l’interprétation et la compréhension correctes du génome de la patate douce¹¹. Enfin, la date de divergence entre la patate douce et ses parents sauvages n’a jamais été explorée de manière exhaustive et, par conséquent, la chronologie de l’évolution de la patate douce par rapport à l’histoire humaine et préhumaine est essentiellement inconnue.
La question de savoir comment la patate douce, une culture d’origine américaine, s’est répandue en Polynésie à l’arrivée des Européens a été source de controverses depuis le XIXe siècle.12,13 Plusieurs études antérieures ont cherché à expliquer sa présence en Polynésie par trois grandes introductions transocéaniques. Cette hypothèse dite “tripartite”explique sa présence par deux introductions relativement bien documentées de voyageurs espagnols et portugais17 et une présumée troisième introduction antérieure à l’époque précolombienne 14, 15, 16, 18, 19. Cependant, la question de savoir si cette introduction antérieure a existé et quand elle a eu lieu reste très spéculative et controversée.17, 19 La plupart des auteurs a expliqué l’introduction antérieure de la patate douce en Polynésie en postulant des contacts humains précolombiens entre les deux régions16, 18 plutôt que de considérer le transport par des moyens naturels tels que le vent, l’eau ou les oiseaux. 20, 21, 22 Des preuves supplémentaires de l’hypothèse du transport humain ont été trouvées dans les termes linguistiques quelque peu similaires utilisés pour la culture dans les deux régions.15, 23 Le transport possible de patates douces en Polynésie a suscité une grande attention ces derniers temps, surtout maintenant que la patate douce semble être la seule preuve biologique restante de ces prétendus contacts précolombiens ; d’autres preuves provenant de l’ADN de poulets et d’humains sont aujourd’hui considérées comme douteuses.24, 25
Dans cet article, nous présentons une étude phylogénétique complète de la patate douce et de tous ses PSC, basée sur le génome du chloroplaste entier et sur 605 régions de l’ADN nucléaire en un seul exemplaire. Nous apportons des réponses aux questions sur l’origine de la patate douce exposées ci-dessus et réexaminons son arrivée en Polynésie.
Nous avons produit des phylogénies nucléaires et chloroplastiques distinctes qui soutiennent fortement la monophyie de la série des Batatas, quel que soit le type d’analyse. Ces phylogénies résolvent également les relations bien étayées entre la patate douce et toutes les espèces étroitement apparentées, fournissant le cadre phylogénétique nécessaire pour étudier l’origine de la culture. Les données nucléaires montrent que Ipomoea splendor-sylvae House est la sœur du reste du groupe des Batatas, tandis que la phylogénie des chloroplastes a I. splendor-sylvae et I. ramosissima (Poir.) Choisy comme taxons frères et ensemble comme sœur des autres espèces du groupe des Batatas. La section est ensuite divisée en un groupe d’espèces pérennes (I. tiliacea Willd. Choisy, I. littoralis Blume, et I. lactifera J.R.I.Wood & Scotland, ainsi que I. ramosissima dans la phylogénie nucléaire) et un second groupe contenant deux clades : l’une formée par six espèces annuelles supposées (I. triloba L., I. cordatotriloba Dennst., I. lacunosa L., I. grandifolia Dammer O’Donell, I. cynanchifolia Meisn., et I. tenuissima Choisy), dont trois ne sont pas monophylétiques, et un autre formé par I. batatas et I. trifida. De plus, nos résultats montrent que I. leucantha Jacq., précédemment identifié comme un hybride26, est polyphylétique (figure S3) et confirme que I. tabascana J.A.McDonald & D.F.Austin est très probablement un hybride récent entre I. batatas et I. trifida. 10, 27
Selon notre analyse des données nucléaires, la patate douce est monophylétique et I. trifida est son plus proche parent (figure 2A). Ce résultat corrobore deux études précédentes qui impliquent une origine unique pour la culture 4, 5 et rejette les récentes allégations qui préconisent des origines multiples basées sur la découverte de deux pools génétiques de patates douces.6, 7 Il est donc raisonnable de supposer que la patate douce a une origine unique et a très probablement évolué à partir de I. trifida, une espèce des Caraïbes.
La patate douce est la seule espèce du groupe des Batatas qui soit hexaploïde (2n = 6× = 90), toutes les autres espèces étant soit diploïdes soit tétraploïdes.28, 29, 30 En tant qu’entité hexaploïde, on s’attendrait à ce que la patate douce contienne six allèles à chacun des loci génétiques analysés dans notre étude. Nous avons donc estimé la variation allélique au sein de chaque spécimen (voir Identification de l’haplotype dans les données nucléaires dans les méthodes STAR). L’analyse de ces allèles montre que pour la grande majorité des arbres génétiques, les six allèles putatifs de l’I. batatas hexaploïde sont plus étroitement liés entre eux qu’avec les allèles de toute autre espèce, y compris l’I. trifida (figure 2B). Cela suggère fortement une origine autopolyploïde de la patate douce et ne permet pas de soutenir une origine hybride (allopolyploïde) impliquant une autre espèce, y compris I. triloba, qui a été proposé comme géniteur de la culture par plusieurs auteurs.26, 31
Contrairement aux données nucléaires, l’analyse des génomes du chloroplaste entier a révélé quant à elle l’existence de deux pools génétiques distincts pour la patate douce (ici appelés lignées de chloroplastes 1 et 2), comme cela avait été déduit précédemment à partir de données limitées7 (figures 3A et 3B). Nos données montrent que la lignée chloroplastique 2 (CL2) est plus étroitement liée à I. trifida, tandis que la lignée chloroplastique 1 (CL1) est un groupe frère de ces deux-là.
Tous les tests statistiques et les analyses supplémentaires effectués sur les données du chloroplaste pour contester ce résultat confirment l’existence de deux pools génétiques distincts de patate douce (figures S5A-S5C). En outre, nous avons exploré visuellement l’alignement du chloroplaste et découvert qu’il n’y a pas d’indels partagés exclusivement par les deux pools de gènes du chloroplaste de la patate douce, mais que tous deux ont des indels uniques et que tous deux partagent également des indels avec I. trifida, comme on pourrait s’y attendre si la patate douce contenait deux haplotypes de chloroplaste mais hérités de I. trifida à des moments différents.
Si la patate douce avait des origines multiples, comme le suggèrent ces deux pools génétiques indépendants de chloroplastes,6, 7 ou si elle s’était progressivement diversifiée à partir d’un polymorphisme ancestral chez I. trifida (ce qui est peu probable, étant donné que I. trifida est monophyle dans l’arbre chloroplastique), on s’attendrait à identifier des traces de ce modèle dans le génome nucléaire. Nous avons ensuite exploré nos données nucléaires et une autre région non codante (espaceur interne transcrit de l’ADN ribosomique ou ribosomal DNA Internal Transcribed Spacer, ITS, en anglais), qui a été assemblée spécifiquement parce que la preuve de ces deux pools de gènes dans le génome nucléaire aurait été trouvée dans cette région7; aucune analyse phylogénétique ou de structure de population supplémentaire n’a permis de récupérer les deux pools de gènes à partir des données nucléaires. De plus, nous n’avons trouvé aucune preuve que le tri ou la recombinaison incomplets des lignées aient affecté la topologie nucléaire32 (voir l’analyse phylogénétique des régions nucléaires dans les méthodes STAR ci-après). En résumé, les topologies contradictoires obtenues pour les données nucléaires et chloroplastiques sont fortement soutenues et cohérentes pour toutes les méthodes d’inférence phylogénétique.
Compte tenu de ces résultats, les preuves suggèrent fortement que les deux pools génétiques distincts du chloroplaste d’I. batatas sont le résultat de la capture du chloroplaste d’I. trifida après divergence des espèces d’I. batatas et d’I. trifida. La capture de chloroplastes est l’introgression du génome d’un chloroplaste d’une espèce végétale dans une autre, parfois sans preuve de flux de gènes nucléaires,33 et est communément proposé pour expliquer les incohérences entre les arbres phylogénétiques basés sur les séquences nucléaires et chloroplastiques.32, 33
Dans le contexte de ces résultats, nous considérons que plusieurs mécanismes possibles de capture des chloroplastes peuvent être étayés par les données (figures 4B et 4C). Premièrement, le résultat de l’hybridation entre un I. trifida femelle (diploïde) et un I. batatas mâle (hexaploïde) serait une entité portant un chloroplaste de type trifida. Cette entité, éventuellement allotétraploïde, donnerait plus tard naissance à une nouvelle forme hexaploïde par une nouvelle hybridation avec I. trifida, c’est-à-dire en générant une entité triploïde qui se doublerait ensuite pour donner un hexaploïde ; moins probable, le nouvel hexaploïde pourrait également naître par une autopolyploïdisation supplémentaire à partir de l’intermédiaire tétraploïde et une réduction ultérieure du génome. L’hexaploïde nouvellement formé, coexistant avec l’hexaploïde I. batatas d’origine, se croise à plusieurs reprises avec la lignée hexaploïde d’origine, perdant progressivement la composante trifide de son génome nucléaire tout en conservant un chloroplaste de type trifida (figure 4B).
Comme le résultat de ce contact secondaire et de l’hybridation est une entité hexaploïde ayant la même signature nucléaire que la patate douce originale, mais un chloroplaste capturé de I. trifida, une autre possibilité est que le schéma phylogénétique récupéré pourrait être le résultat d’un événement d’hybridation asymétrique, pour lequel de multiples exemples ont été décrits dans des plantes.34 Dans cette situation (figure 4C), l’ensemble du génome nucléaire aurait été fourni par un gamète mâle non réduit (hexaploïde) de patate douce, alors que le chloroplaste aurait été hérité d’un géniteur maternel de I. trifida. Le génome nucléaire de l’entité hexaploïde nouvellement formée serait alors identique à celui de la I. batatas originale, montrant ainsi une patate douce monophylétique dans la phylogénie nucléaire, alors que la phylogénie du chloroplaste reflèterait la capture du chloroplaste de I. trifida. Si ce mécanisme est correct, il expliquerait la capture du chloroplaste par la patate douce sans qu’un deuxième événement de polyploïdisation soit nécessaire.
Quel que soit le mécanisme exact de capture du chloroplaste, nos résultats montrent que I. batatas a évolué uniquement à partir d’I. trifida par autopolyploïdisation et a ensuite étendu son aire de distribution au-delà de la distribution naturelle d’I. trifida. Les deux espèces sont devenues réciproquement monophyles au fil du temps, puis se sont hybridées, probablement sur l’aire sympatrique de leur distribution, ce qui a donné ces populations de patate douce avec un chloroplaste différent. Pendant ce temps, d’autres populations d’I. batatas ont conservé le chloroplaste d’origine. Par conséquent, bien que I. batatas ait évolué à partir de I. trifida par autopolyploïdie, la capture du chloroplaste prouve qu’il y a eu une hybridation ultérieure entre les deux espèces, et la patate douce contient donc deux éléments : l’un qui est autopolyploïde (CL1) et l’autre qui est techniquement auto-allopolyploïde (CL2).
Enfin, un séquençage supplémentaire a révélé que deux variétés importantes de patates douces utilisées dans la recherche en sélection végétale, Beauregard (chair orange, faible teneur en matière sèche) et Tanzania (chair blanche, forte teneur en matière sèche) (Dorcus Gemenet, communication personnelle), appartiennent à CL1. Ce résultat reflète peut-être le fait que la patate douce CL1 contient une grande diversité phénotypique et génétique, ce qui expliquerait son utilisation dans la sélection contemporaine des cultures.
Afin de déduire les temps de divergence pour la patate douce, et en raison de l’absence d’estimations complètes des temps de divergence antérieurs pour les Convolvulaceae, nous avons d’abord déduit une phylogénie étalonnée dans le temps pour ces mêmes Convolvulaceae et également pour les Solanaceae. Nous avons ensuite utilisé une matrice contenant des échantillons dans l’ensemble d’Ipomoea, basée sur 21 régions nucléaires dont la couverture était élevée (99%), pour déduire les temps de divergence au sein du genre, y compris celui du nœud couronne de la série des Batatas. Sur la base des âges déduits pour ce nœud spécifique, nous avons déduit deux autres phylogénies de Batatas étalonnées dans le temps : une utilisant les données du plastome et une autre utilisant une matrice des mêmes 21 gènes nucléaires utilisés pour déduire les temps de divergence à travers Ipomoea (couverture de 100%).
Selon nos données nucléaires, la clade comprenant la patate douce et l’I. trifida a divergé de sa clade sœur il y a au moins 1,5 million d’années, et la patate douce a divergé de l’I. trifida il y a au moins 800 000 ans (barre rouge dans la figure 5A). L’hybridation entre I. trifida et I. batatas qui a conduit à la capture du chloroplaste s’est alors produite dans les 56 000 ans suivant la divergence des deux espèces.
Une seule autre étude a explicitement estimé un temps de divergence pour la séparation entre I. batatas et I. trifida.11 Cette étude a utilisé un taux de mutation moyen, qui avait été calculé pour Arabidopsis thaliana sur une période de 30 générations.11, 37 La manière dont ce taux a été déduit peut sembler peu pertinente pour estimer les temps de divergence de Ipomoea sur des échelles de temps de centaines de milliers d’années. Toutefois, il convient de noter que l’échelle de temps des événements suggérée par cet article est largement conforme à l’échelle de temps que nous avons déduite pour la divergence entre I. batatas et I. trifida et la capture ultérieure de chloroplastes (de 380 000 à 800 000 ans). Néanmoins, le degré de concordance entre les résultats de l’étude cité en référence11 et les nôtres est difficile à déterminer car cette étude n’a analysé que les données nucléaires, ce qui signifie qu’elle a présenté une image moins complète de l’origine de la patate douce que notre analyse des données nucléaires et des chloroplastes.
La profondeur de l’échantillonnage des taxons dans notre étude nous a permis d’effectuer une analyse de coalescence multi-espèces des données sur les chloroplastes pour tous les spécimens échantillonnés de I. batatas et I. trifida. Cette analyse a été réalisée dans un cadre bayésien qui a permis d’estimer simultanément les temps de coalescence entre différentes lignées de plastomes et les tailles de populations ancestrales. L’objectif de cette analyse était d’estimer les tailles de population effectives pour les espèces et les lignées ancestrales de ce clade38 et de déduire si un goulot d’étranglement de la population était associé à l’origine de la patate douce ou bien au sein de la population dans laquelle la capture du chloroplaste a eu lieu.
Cette analyse a démontré sans équivoque qu’un goulot d’étranglement de la population affectant toute la clade de I. batatas et I. trifida s’est produit il y a plus de 640 000 ans. Par la suite, un goulot d’étranglement a également affecté le clade de I. trifida et I. batatas CL2, et ce goulot d’étranglement a pris fin il y a plus de 370 000 ans. On peut donc en déduire que l’origine de la patate douce, et notamment l’événement de capture du chloroplaste, est susceptible d’avoir eu lieu dans des populations ancestrales qui étaient nettement plus petites que les populations restantes. La population dans laquelle la capture du chloroplaste a eu lieu représentait au moins un cinquième de la taille des populations existantes, ce qui pourrait expliquer la propagation rapide du chloroplaste capturé dans toute la population.
La phylogénie déduite de la patate douce et de ses PSC qui est présentée dans cet article a confirmé que toutes les espèces de ce clade, à une exception près, sont limitées aux Amériques. L’exception, Ipomoea littoralis Blume, est distribuée de la Polynésie à Madagascar mais est absente du continent américain.39, 40 I. littoralis a divergé de son espèce sœur I. lactifera J.R.I.Wood & Scotland il y a plus de 1,1 million d’années (barre bleue sur la figure 5A), ce qui suggère fortement que la répartition de I. littoralis s’explique mieux par la dispersion naturelle d’un ancêtre à travers le Pacifique, suivie de son évolution ultérieure en une espèce différente. Les graines d’I. littoralis sont morphologiquement très similaires aux graines de patate douce (figure S6A), et bien que leur flottabilité n’ait pas été testée, il a été démontré que les graines de plusieurs autres espèces d’Ipomoea qui vivent dans des environnements similaires peuvent survivre après avoir flotté sur de longues distances.41, 42 Il serait très difficile d’expliquer la répartition d’I. littoralis et d’autres espèces de bord de mer largement répandues (par exemple, Ipomoea pes-caprae (L.) R.Br., I. violacea L., I. sagittata Poir.) sauf en termes de dispersion sur de longues distances par les courants marins.
Un autre exemple d’un schéma de distribution très disjoint au sein d’Ipomoea est celui d’I. tuboides O.Deg. & Ooststr. Cette espèce est endémique des îles hawaïennes mais appartient à un clade dominé par des espèces mexicaines (figure 6A). La phylogénie étalonnée dans le temps de ce groupe montre que I. tuboides a divergé de son espèce sœur il y a au moins 1,1 million d’années (barre orange dans la figure 6B), et l’explication la plus probable de sa présence à Hawaï, à plus de 5 000 km de la côte mexicaine, est la dispersion naturelle à longue distance.
Ces deux exemples montrent que des espèces étroitement apparentées à la patate douce et ayant des semences, des fruits et une biologie de dispersion similaires43 sont facilement dispersés sur de très longues distances. La dispersion sur de longues distances peut donc être considérée comme l’explication la plus plausible de la façon dont la patate douce s’est répandue en Polynésie précolombienne.
En plus d’autres sources de données, les spécimens recueillis en Polynésie lors des premiers voyages européens dans la région présentent un intérêt extraordinaire, car leur étude peut contribuer à expliquer la présence précoce de la patate douce en Polynésie.16, 44 Le plus emblématique de ces anciens spécimens a été recueilli par Joseph Banks et Daniel Solander dans les îles de la Société, en 1769, lors de l’expédition du capitaine Cook sur l’Endeavour. Ce spécimen est probablement la plus ancienne collecte de patates douces de Polynésie. Nous avons réussi à séquencer le spécimen de Banks et Solander en utilisant l’écrémage du génome et la bonne qualité des séquences récupérées nous a permis d’assembler son génome chloroplastique entier, ainsi que d’identifier des fragments de multiples régions nucléaires ciblées dans cette étude (voir méthodes STAR, Situation Travail-Action-Résultat). Nos analyses confirment que ce spécimen appartient à la patate douce CL1, c’est-à-dire la lignée chloroplastique de la patate douce qui n’a pas capturé le chloroplaste de I. trifida.16 De plus, la plus longue branche de l’arbre nucléaire indique que ce spécimen est distinct des autres spécimens de cette lignée. Nous avons ensuite utilisé des données sur le chloroplaste entier pour estimer le temps de divergence du spécimen de Banks et Solander par rapport à son plus proche parent ; nous avons construit une phylogénie conventionnelle étalonnée dans le temps et effectué une analyse de coalescence avec tous les spécimens séquencés de I. batatas et I. trifida (voir les méthodes STAR). Tous deux ont indiqué que la lignée à laquelle ce spécimen appartient divergeait de son plus proche parent il y a au moins 111 500 ans (au moins 139 000 ans dans l’analyse de coalescence ; figure 7B). Ce résultat, ainsi que le schéma de mélange distinct (figure 7C), est conforme à l’isolement à long terme de cette variété distincte par rapport aux variétés d’Amérique centrale et du Sud. En résumé, nos données suggèrent fortement que la présence de la patate douce en Polynésie est antérieure de plusieurs milliers d’années à la colonisation de la région par l’homme et qu’elle est donc très probablement due à une dispersion sur de longues distances, dont nous avons montré qu’elle était relativement courante au sein du genre Ipomoea.
Nos données séquentielles et notre échantillonnage au niveau des espèces représentent l’ensemble de données le plus complet jamais publié pour traiter de l’origine et de l’évolution de la patate douce. Nos résultats démontrent de manière convaincante que les génomes nucléaires et chloroplastiques fournissent des phylogénies contradictoires pour la relation entre I. batatas et I. trifida. Nous considérons que le récit le plus cohérent avec nos résultats est que I. batatas a évolué par autopolyploïdie à partir de I. trifida, dans l’aire de répartition actuelle de I. trifida dans le centre et le nord de l’Amérique du Sud. Suite à la divergence entre I. batatas et I. trifida, les deux espèces se sont hybridées et l’empreinte de cet événement est reflétée par la présence de deux lignées de chloroplastes fortement soutenues au sein d’I. batatas en raison de la capture de chloroplastes.
Nos phylogénies calibrées dans le temps offrent des estimations approximatives de la chronologie de l’évolution de la patate douce. Nous admettons que l’estimation des âges des lignées à partir des phylogénie pourrait comporter des erreurs,35, 45, 46 mais il est important de rassembler suffisamment de preuves pour démontrer que la patate douce et son tubercule ont évolué à l’ère préhumaine.
Nos résultats sont également surprenants quant à l’origine de la patate douce en Polynésie et ils soutiennent sa présence dans cette région en raison de sa dispersion naturelle sur de longues distances. Au cours des 20 dernières années, la dispersion sur de longues distances est devenue une explication courante des schémas de distribution disjoints des plantes.47 La présence d’une plante américaine en Polynésie n’est donc pas aussi surprenante qu’on le pensait. Plusieurs exemples de dispersion similaire, sans doute naturelle, sur de longues distances chez des parents proches de la patate douce la rendent encore moins surprenante. Le plus ancien spécimen de patate douce récolté en Polynésie constitue un soutien supplémentaire. Celui-ci possède une signature génétique unique qui suggère qu’il divergeait d’autres échantillons du continent américain il y a plus de 100 000 ans. Les preuves contre le transport de la patate douce vers la Polynésie par l’homme sont donc extrêmement solides.
Notre ensemble de données comprend 199 individus représentant les seize espèces de la série des Batatas d’Ipomoea et vingt-quatre autres espèces d’Ipomoea (données de passeport dans la donnée S1). Nous avons inclus 72 spécimens de I. batatas provenant d’accessions de germoplasme et de différents endroits en Amérique et dans l’Ancien Monde. La plupart des échantillons d’I. batatas et d’I. trifida ont été obtenus à partir de matériel frais cultivé au Centre international de la pomme de terre à Lima, au Pérou (CIP). L’ADN du reste des spécimens, y compris celui de la collection de Banks et Solander en Polynésie, a été obtenu à partir de spécimens d’herbiers collectés entre 1769 et 2014. Toutes les espèces du groupe des Batatas sauf trois (Ipomoea lactifera, I. tabascana et I. tenuissima) sont représentées par de multiples spécimens provenant de différents lieux géographiques. Ipomoea tenuissima est une espèce des Caraïbes peu connue et peu représentée dans les herbiers, alors que I. tabascana et I. lactifera sont tous deux connus respectivement à partir d’une et de quelques populations.27 , 77
Échantillonnage de caractères et sondes de capture de cibles.
Nous avons développé des sondes ciblant 605 régions nucléaires présumées d’Ipomoea (voir données S1) en comparant les données génomiques de I. lacunosa et la séquence codante (CDS) de Solanum tuberosum. Les régions entre Ipomoea et Solanum avec une correspondance univoque à 70% d’identité sur au moins la moitié de la longueur d’une CDS de Solanum ont été filtrées pour retenir les locus d’Ipomoea qui étaient au moins de 1000 pb. Le long de ces locus, des sondes d’ARN de 100 pb ont été développées par MycroArray (Ann Arbor, MI), à l’exclusion des sondes ayant une teneur en GC < 25 %. Nous avons également obtenu le génome complet du chloroplaste de tous les spécimens.
Extraction d’ADN et préparation de la bibliothèque.
Nous avons extrait l’ADN de matériel frais en utilisant la méthode du CTAB,78 et à partir d’échantillons d’herbiers en utilisant le mini protocole de tissus végétaux pour le mini kit de plantes d’intérieur QIAGEN (QIAGEN DNEasy Plant Mini Kit). Nous avons créé des bibliothèques génomiques en utilisant le kit de préparation de bibliothèque d’ADN NEBNext Ultra pour Illumina v.3.0. (New England BioLabs).
Hybridation et séquençage de l’ADN.
Nous avons mis en œuvre un enrichissement des cibles à l’aide de MYBaits79 pour capturer les régions d’intérêt nucléaire, en suivant le protocole décrit80 et en utilisant Beckman Coulter Agentcourt AMPure XP pour la purification des produits. Nous avons séquencé un mélange 1:1 de bibliothèques enrichies et non enrichies, afin d’obtenir la région chloroplastique et la région nucléaire ribosomique de l’Espaceur interne transcrit (rADN ITS) avec écrémage du génome.81 Le séquençage a été réalisé à l’aide de l’Illumina HiSeq 3000 au Centre de recherche sur le génome et la bioinformatique de l’Université d’État de l’Oregon (Corvallis, États-Unis). Les séquences ont été coupées pour les adaptateurs d’Illumina et pour la qualité, Q15 à gauche et Q10 à droite des lectures. Des lectures appariées de 100 bp ont été obtenues.
Le spécimen de Banks & Solander a été séquencé en utilisant le MiSeq et des lectures appariées de 25 bp, au lieu d’un enrichissement de la cible. Nous avons évalué le degré de dommage de l’ADN dans ce spécimen en utilisant mapDamage 2.059 et n’avons trouvé aucun signe de dommage différent des niveaux trouvés dans d’autres spécimens d’herbiers (voir données S2).
Les variétés de patates douces de Beauregard et de Tanzanie ont été séquencées pour la région rpl32-trnL du chloroplaste hautement variable82, en utilisant le séquençage de Sanger à Source BioScience.
Assemblage des régions nucléaires.
Nous avons mené un processus d’assemblage en trois étapes : nous avons d’abord généré des projets d’assemblages de gènes avec la YASRA76 qui ont servi de régions cibles lors d’une deuxième série de réunions utilisant PRICE.64 Nous avons finalement mis en place le SSPACE70 pour étendre les assemblages de gènes. Les contigs finalement assemblés ont été alignés sur les séquences de référence à l’aide de BLASTN49 pour cibler les missions contigües assemblées.
Identification des haplotypes dans les données nucléaires.
Nous avons recueilli des informations sur les niveaux de ploïdie de l’espèce dans la littérature et dans la CIP. Nous avons aligné les lectures nucléaires brutes sur les contigs assemblés en utilisant des Bowtie.50 À partir de cet alignement, nous avons créé un fichier d’appel de variantes qui décrit les SNP trouvés dans l’alignement. Nous avons ensuite lancé Hapcompass54 pour diviser le contig assemblé en haplotypes basés sur le phasage SNP. Nous avons finalement séparé les contigs assemblés qui montrent les SNPs définissant les haplotypes en contigs distincts pour l’analyse en aval. Nous avons effectué une analyse de coalescence en utilisant Astral-II48 en considérant des allèles indépendants pour tous les gènes et échantillons, sans trouver de variation significative au sein des échantillons (figure 2B). Nous avons donc effectué toutes les analyses phylogénétiques ultérieures en utilisant des séquences de consensus.
Assemblage de génomes de chloroplastes et d’ADN ITS.
Nous avons assemblé les génomes des chloroplastes et la région ITS en utilisant l’algorithme d’assemblage des génomes SPAdes,69 en utilisant comme référence le génome du chloroplaste du cultivar Xushu18 d’Ipomoea batatas83 et le fragment ITS complet (y compris la région 5.8S) d’un spécimen d’herbier d’I. batatas (C. Whitefoord71) préalablement séquencé à l’aide de Sanger. Les chloroplastes montrent la structure générale des angiospermes, avec une copie unique longue, une copie unique courte et deux répétitions inversées. La taille des chloroplastes varie de 160 382 à 174 715 paires de bases, sauf pour Ipomoea lactifera qui présente plusieurs grandes délétions (150 628 paires de bases).
Assemblage d’un spécimen de Banks et Solander.
Les lectures obtenues à l’aide de MySeq nous ont permis de cibler plusieurs fragments à travers les régions nucléaires (1 016 lectures cartographiées). Nous avons assemblé en contigs uniquement les paires de séquences inférées correspondantes à la séquence de référence à peu près à la distance prévue ou aux positions couvertes par au moins trois séquences inférées. Nous avons ensuite aligné ces fragments sur tous les autres spécimens de cette étude et avons éliminé tous les sites dont les nucléotides étaient ambigus, ainsi que tous les sites où seuls les spécimens de Banks et de Solander comportaient des indélébiles. Nous avons finalement retenu 12 905 sites, dont 5 735 à positions variables. Nous avons approfondi la dégradation de l’ADN dans ce spécimen en calculant les pourcentages de bases dans ces positions variables et n’avons trouvé aucune différence par rapport à du matériel plus récent (voir données S1).
Analyse phylogénétique des régions nucléaires.
Nous avons aligné chaque région nucléaire individuellement en utilisant la stratégie L-INS-I dans MAFFT v7.27157, 58 (pénalité d’écart = 1,53), et a utilisé les paramètres par défaut dans les Gblocks52, 53 pour éliminer les positions mal alignées de l’alignement. Nous avons estimé des modèles évolutifs pour chaque région en utilisant jModelTest 256 et a obtenu des arbres génétiques indépendants en utilisant les paramètres par défaut de FastTree 2.1.951, 84. Dans un ensemble de données aussi vaste, on ne peut pas exclure la recombinaison intralocale, le tri de lignage incomplet (ILS) ou la réticulation32. Nous avons donc procédé à de multiples analyses pour évaluer l’effet de ces processus. Tout d’abord, pour réduire l’effet possible de la recombinaison, nous avons effectué le test statistique PHI62 pour identifier les régions de notre jeu de données susceptibles de contenir une recombinaison (voir Données S1). Nous avons effectué toutes les analyses ultérieures en utilisant deux ensembles de données en parallèle : l’un comprenant les 605 régions, et l’autre ne comprenant que les 307 régions qui ne présentaient pas de signes de recombinaison selon le test PHI. En outre, pour explorer l’effet du PHI, nous avons effectué des analyses phylogénétiques en utilisant des méthodes basées sur la coalescence et la concaténation. Tout d’abord, nous avons utilisé des arbres génétiques comme intrants pour déduire l’arbre des espèces à l’aide d’Astral II48. Deuxièmement, en utilisant les alignements concaténés, nous avons effectué une probabilité maximale approximative telle que mise en œuvre dans FastTree 2.1.951, 84 et SVDQuartets73, 74, une méthode basée sur la coalescence disponible dans le PAUP 4.061 (800.000.000 de quatuors aléatoires). Nous avons effectué une analyse FastTree en utilisant la passerelle scientifique du CIPRES85, et SVDQuartets utilisant le supercalculateur de l’Université d’Oxford Advanced Research Computing.
Analyse phylogénétique des génomes de chloroplastes.
Nous avons aligné les génomes des chloroplastes en utilisant la stratégie FFT-NS-2 dans le MAFFT57, 58 (pénalité d’écart = 1,53). L’alignement a été vérifié visuellement et des corrections minimales ont été apportées dans les régions poly-A et poly-T, uniquement pour minimiser l’alignement aléatoire de ces régions. Nous avons ensuite utilisé des Gblocks52, 53 pour supprimer les positions mal alignées et jModelTest 2.1.7 56pour estimer le meilleur modèle de substitution pour cet alignement (GTR+I+G). Nous avons effectué une analyse de probabilité maximale en utilisant RAxML 8.065 tel que mis en œuvre dans le cadre de la CIPRES85 (1 000 répétitions bootstrap) et analyse de parcimonie à l’aide de PAUP 4.061 (1.000.000 d’arbres basés sur 1.294 caractères parcimonieux, meilleur arbre = 2.631 étapes). Nous avons également effectué une analyse parcimonieuse de 282 indels informatifs parcimonieux dans PAUP (100 000 arbres, meilleur arbre = 975 étapes), en les codant comme présence/absence86 en utilisant SeqState 1.4.168.
Pour évaluer la robustesse de la topologie montrant deux pools génétiques de patate douce, nous avons également produit une topologie alternative imposant la patate douce de manière monophyle en utilisant RAxML65. Nous avons évalué les deux topologies en utilisant le test approximativement non biaisé87 tel que mis en œuvre dans IQ-Tree 1.5.0a55 (voir données S3).
Nous avons généré trois réseaux phylogénétiques : l’un comprenant tous les spécimens d’Ipomoea batatas et d’I. trifida, un autre comprenant toutes les espèces du groupe, et le troisième comprenant tous les spécimens d’I. batatas plus Banks et Solander (675, 1 051 et 522 sites de ségrégation respectivement). Nous avons utilisé la méthode de jonction de voisins entiers mise en œuvre dans PopART (ε = 1)63 sites de ségrégation. Pour confirmer nos résultats, nous avons effectué des analyses phylogénétiques indépendantes des régions les plus variables du chloroplaste82, 88 (figure S5B). Nous avons également estimé les distances par paire (distance p) entre toutes les accessions de patates douces en utilisant Mega 6.060.
Enfin, nous avons généré un réseau phylogénétique supplémentaire en utilisant la région chloroplastique rpl32-trnL pour identifier à quelle lignée chloroplastique appartiennent les deux variétés utilisées dans les programmes de sélection.
Analyse de la structure de la population.
Nous avons extrait au hasard 3 000 positions variables des alignements des régions nucléaires et les avons utilisées comme données d’entrée pour la structure71, 72 avec 150 000 réplications du MCMC et 100 000 répétitions du burn-in, en utilisant un modèle de mélange et en supposant des fréquences d’allèles indépendantes parmi les populations (λ = 0,4469 ; K = 1-5 ; 3 passages). Nous avons également effectué des analyses indépendantes avec les mêmes paramètres en utilisant 16 positions variables provenant de l’alignement des séquences ITS (λ = 0,4605 ; K = 1-4 ; 3 passages), 522 positions variables provenant de l’alignement des chloroplastes (λ = 0,3081 ; K = 1-5 ; 3 passages), et 5 735 positions variables provenant des alignements nucléaires incluant le spécimen de Banks et Solander (λ = 0,3483 ; K = 1-5 ; 3 passages).
Estimation du temps de divergence et taille de la population.
Nous avons mis en œuvre l’estimation du temps de divergence dans RevBayes66, 67, un cadre de modélisation graphique permettant une spécification très souple des modèles. En raison de l’absence d’estimations antérieures des temps de divergence dans les Convolvulaceae, nous avons construit une supermatrice de trois gènes de chloroplastes (matK, rbcL, atpB), l’espaceur intergénique chloroplaste trnL-trnF et la région nucléaire ribosomique ITS qui incorpore un échantillon équilibré de taxons provenant à la fois des Convolvulaceae et de sa famille sœur Solanaceae (données de passeport dans les données S1). Cette matrice couvre une échelle phylogénétique suffisamment large pour permettre la mise en œuvre de calibrations temporelles. Dans nos analyses, nous avons utilisé un seul calibrage normalement distribué (moyenne = 67,34 millions d’années, écart-type = 9,980 millions d’années) pour la divergence entre les Convolvulaceae et les Solanaceae. Cet âge de calibrage est dérivé d’une étude précédente qui met en œuvre simultanément 132 calibrages de fossiles à travers les angiospermes89. Ce calibrage est susceptible de représenter une sous-estimation de l’âge réel de la divergence entre les deux familles, car un grand nombre des 132 fossiles utilisés sont susceptibles d’être significativement plus jeunes que l’âge réel du nœud qu’ils ont servi à calibrer. Par conséquent, les estimations d’âge déduites dans cette étude sont probablement biaisées en faveur d’âges plus jeunes. Malgré cette apparente limitation, nous pensons que cette approche est appropriée pour les besoins de notre étude, à savoir déduire si l’origine de la patate douce remonte à l’époque préhumaine.
L’utilité de notre approche pragmatique de calibrage est encore soulignée par des travaux récents qui démontrent un conflit apparent au sein de la collection de fossiles de Solanaceae (les plus proches parents fossiles d’Ipomoea)90, 91. Bien que notre approche ait été utile pour les besoins de cette étude, il convient de faire preuve d’une extrême prudence si l’on utilise les dates déduites dans cette étude comme calibrages secondaires dans des études futures qui visent à répondre à des questions différentes.
Nous avons utilisé cette matrice et ce calibrage de l’âge pour déduire une phylogénie calibrée dans le temps pour les Convolvulaceae et les Solanaceae. Un modèle GTR+I+G de substitution de l’ADN a été mis en œuvre, et les taux de substitution spécifiques aux branches ont été déduits en utilisant une horloge log-normale non corrélée et détendue avec un écart-type de 0,2972 (correspondant à 0,5 ordre de grandeur). Nous avons partitionné la supermatrice de telle sorte que des paramètres distincts pour la substitution des nucléotides et les taux de substitution spécifiques aux branches ont été déduits pour les données sur le chloroplaste et les STI. Un processus de ramification à taux constant entre la naissance et la mort a été mis en œuvre comme la période précédente dans cette analyse.
Une matrice contenant des échantillons de tout Ipomoea basés sur 21 gènes nucléaires pour lesquels il y avait une couverture élevée (99%) a ensuite été utilisée pour déduire les temps de divergence au sein du genre, comme les nœuds de la couronne pour les Batatas de la série Ipomoea et la clade Tuboides. Un modèle GTR+G+I a été mis en œuvre, et les taux de substitution spécifiques aux branches ont été déduits en utilisant une horloge log-normale détendue non corrélée avec un écart-type de 0,2972. Un seul ensemble de paramètres pour la substitution des nucléotides et les taux de substitution spécifiques aux branches a été estimé pour l’ensemble de la matrice de 21 gènes. Nous avons mis en œuvre un processus de ramification naissance-mort à taux constant comme le temps précédent. L’âge du nœud racine de cet arbre est déterminé par les âges échantillonnés pour le nœud équivalent dans la phylogénie des Convolvulaceae et Solanaceae étalonnée dans le temps.
Sur la base des âges inférés pour le nœud couronne des Ipomoea de la série Batatas et du groupe Tuboides, nous avons déduit trois autres phylogénies étalonnées dans le temps : deux pour la série Batatas – une basée sur les données du plastome et une basée sur une matrice des 21 gènes nucléaires pour laquelle il y avait une couverture de 100%, et une pour le groupe Tuboides basée sur les mêmes 21 gènes nucléaires. Dans chacun des trois arbres séparés, nous avons mis en œuvre un modèle GTR+G+I et déduit des taux de substitution d’ADN spécifiques aux branches avec une horloge lognormale détendue non corrélée avec un écart-type de 0,2972. Ni l’ensemble de données sur le plastome chloroplastique ni l’ensemble de données nucléaires n’ont été partitionnés. Par conséquent, nous avons estimé un seul ensemble de paramètres pour la substitution des nucléotides et les taux de substitution spécifiques aux branches pour chacune des trois phylogénies étalonnées dans le temps.
Nous avons également effectué une analyse de coalescence multi-espèces sur tous les plastomes séquencés pour Ipomoea batatas et I. trifida. Nous avons mené cette analyse pour estimer les tailles de population effectives pour les espèces et les lignées ancestrales au sein de ce clade38 (I. batatas lineage 1, I. batatas lineage 2, I. trifida) et de déduire quand des goulots d’étranglement potentiels de la population associés à l’origine de cette culture sont susceptibles de s’être produits. Il est particulièrement intéressant de savoir si un goulot d’étranglement est associé à la population dans laquelle la capture de chloroplastes a pu avoir lieu (dans la phylogénie du chloroplaste déduite dans cette étude, cela correspond à la lignée ancestrale de I. trifida et à la lignée I. batatas 2). Dans cette analyse, nous avons utilisé des espèces fixes et des topologies d’arbres à gènes conformes à celles déduites dans les analyses phylogénétiques de cette étude. Plus précisément, la lignée 2 de I. batatas est désignée comme le taxon frère de I. trifida. Un modèle GTR+G+I d’évolution des séquences a été mis en œuvre, et les taux globaux d’évolution des séquences ont été supposés constants entre les différentes branches de l’arbre à gènes. La taille effective de la population sur l’arbre des espèces s’est vu attribuer une distribution exponentielle préalable avec un paramètre de taux de 0,1, et l’arbre des espèces (trois taxons) a été supposé évoluer à un taux constant de spéciation et d’extinction. L’âge du nœud racine de l’arbre d’espèce a été déterminé par les âges échantillonnés pour le nœud équivalent dans la phylogénie étalonnée dans le temps pour les Batatas de la série Ipomoea, déduits de l’ensemble de données sur le plastome.
Nous avons effectué toutes les analyses décrites ci-dessus simultanément dans un modèle graphique unique qui a été construit dans RevBayes. Cela permet d’intégrer efficacement l’incertitude de l’estimation des paramètres dans les différentes analyses. Des modèles arborescents distincts (processus de ramification naissance-mort à taux constant) ont été mis en œuvre dans chaque analyse pour tenir compte de la grande variation de l’intensité de l’échantillonnage des taxons. Le modèle a été exécuté deux fois de manière indépendante pendant 500 000 générations, avec un échantillonnage toutes les 100 générations. Le mélange et la convergence suffisants entre les passages ont été évalués dans Tracer v1.675.
Temps de divergence pour le spécimen de Banks et Solander.
Nous avons effectué deux analyses ultérieures en utilisant tous les spécimens d’Ipomoea trifida et d’I. batatas pour estimer le moment où le spécimen collecté par Banks et Solander a divergé de son plus proche parent. Ces analyses ont été effectuées exclusivement à l’aide de données sur le chloroplaste, car les données nucléaires que nous avons récupérées du spécimen de Banks et Solander étaient fragmentaires.
Dans une analyse, nous avons construit une phylogénie étalonnée dans le temps d’une manière similaire à celle décrite ci-dessus. Nous avons mis en œuvre un modèle GTR+G+I et avons déduit des taux de substitution spécifiques à chaque lignée de chloroplastes en utilisant une horloge lognormale non corrélée avec un écart-type de 0,2972. Nous avons mis en œuvre un processus de ramification naissance-mort comme antécédent pour les temps de divergence et calibré le nœud racine avec une distribution normale, avec une moyenne de 0,7 million d’années et un écart-type de 0,18 million d’années (correspondant à l’âge inféré pour ce nœud dans notre phylogénie chloroplastique calibrée dans le temps pour les Batatas de la série Ipomoea). Nous avons mis en œuvre ce calibrage d’âge plus jeune (comparé à l’âge équivalent déduit pour ce nœud à partir des données nucléaires) pour fournir le défi le plus solide à l’hypothèse que le spécimen de Banks et Solander s’est dispersé en Polynésie à l’époque pré-humaine. Sur la base de cette phylogénie étalonnée dans le temps, nous avons pu déduire un temps de divergence pour la division entre le spécimen de Banks et Solander et son plus proche parent.
Nous avons également effectué une analyse de coalescence pour le même ensemble de données. Dans ce cas, nous avons supposé que l’arbre était de la même espèce que celui de notre analyse pour déduire les tailles des populations ancestrales : plus précisément, un arbre à trois taxons d’Ipomoea batatas CL1, I. batatas CL2 et I. trifida dans lequel I. batatas CL2 est la sœur de I. trifida. Nous avons également supposé un arbre à gènes fixes (représentant les relations entre les plastomes de tous les spécimens échantillonnés des deux espèces) qui était basé sur celui déduit dans nos précédentes analyses des données sur les chloroplastes mais qui comprenait également le spécimen collecté par Banks et Solander. Nous avons mis en œuvre un modèle GTR+G+I d’évolution des séquences et avons supposé que les taux globaux d’évolution des séquences étaient constants entre les différentes branches de l’arbre génétique. Les tailles de population effectives sur l’arbre des espèces se sont vues attribuer une distribution préalable exponentielle avec un paramètre de taux de 0,1, et l’arbre des espèces a été supposé évoluer à un taux constant de spéciation et d’extinction. Nous avons calibré le nœud racine en utilisant les mêmes paramètres que dans l’analyse précédente. Cette deuxième analyse déduit les temps de coalescence entre les différentes lignées de chloroplastes dans l’arbre génétique, et nous permet donc de déduire quand le spécimen de Banks et de Solander est susceptible d’avoir divergé de son plus proche parent. Cette analyse fait plusieurs hypothèses différentes par rapport à celle de notre phylogénie plus conventionnelle étalonnée dans le temps – plus particulièrement, le taux de coalescence entre les différents échantillons de chloroplastes dans l’arbre génétique est influencé par la taille effective relative de la population de la branche concernée dans l’arbre des espèces. Il nous permet donc de tester la sensibilité de nos conclusions aux hypothèses inhérentes aux différentes méthodes d’analyse. Nous avons effectué chaque analyse pendant 500 000 générations, en prélevant des échantillons toutes les 50 générations.
Le test approximativement impartial 87 pour évaluer la robustesse de la topologie du chloroplaste a été réalisée dans IQ-Tree 1.5.0aLe test approximativement impartial87 pour évaluer la robustesse de la topologie du chloroplaste a été réalisée dans IQ-Tree 1.5.0a55 en utilisant la méthode RELL avec 100.000 rééchantillonnages55. en utilisant la méthode RELL avec 100.000 rééchantillonnages.
Toutes les données générées dans cette étude ont été déposées dans l’Oxford Research Archive et sont disponibles sur https://doi.org/10.5287/bodleian:yrYKneXED.
Nous remercions le soutien financier du Leverhulme Trust pour notre projet de monographie de la Fondation Ipomoea ainsi que l’université d’Oxford par le biais du John Fell Fund pour les frais de déplacement et de séquençage. P.M.R. a été financé par une bourse du BBSRC octroyée par le biais du programme DTP interdisciplinaire en biosciences et a reçu un financement supplémentaire d’une bourse de voyage de Santander pour son séjour à l’université d’État de l’Oregon. R.W.S. et P.M.R. reconnaissent le financement du fonds GCRF-IAA du BBSRC ( BB/GCRF-IAA/16 et BB/GCRF-IAA/17/16 ). T.C. a été financé par une bourse du NERC accordée dans le cadre du programme de recherche environnementale DTP. Nous remercions les conservateurs des herbiers des BM, BOLV, CIP, E, HSB, HUEFS, K, LPB, MA, OXF, RB, SAN, US et USZ pour avoir permis l’accès à leurs collections, ainsi que Mark Carine de BM pour son aide dans l’échantillonnage du spécimen de Banks et Solander et ses commentaires sur le manuscrit. Nous remercions également David Swofford pour son aide avec SVDQuartets et Richard Cronn pour l’utilisation de son laboratoire dans la préparation de l’ADN du spécimen de Banks & Solander pour le séquençage et l’analyse ultérieure. Enfin, nous remercions Barbara Kennedy du Bishop Museum, Hawaii, pour son aide avec le matériel hawaiien, ainsi que deux évaluateurs anonymes pour leurs commentaires utiles.
2. Food and Agriculture Organization of the United Nations (2017). FAOSTAT Statistics Database. http://www.fao.org/faostat/.
3. Kurabachew, H. (2015). The role of orange fleshed sweet potato (Ipomea batatas) for combating vitamin A deficiency in Ethiopia: a review. Int. J. Food Sci. Nutr. Eng. 5, 141–146.
4. Zhang, D., Cervantes, J., Huama ́ n, Z., Carey, E., and Ghislain, M. (2000). Assessing genetic diversity of sweet potato (Ipomoea batatas (L.) Lam.) cultivars from tropical America using AFLP. Genet. Resour. Crop Evol. 47, 659–665.
5. Kyndt, T., Quispe, D., Zhai, H., Jarret, R., Ghislain, M., Liu, Q., Gheysen, G., and Kreuze, J.F. (2015). The genome of cultivated sweet potato con- tains Agrobacterium T-DNAs with expressed genes: an example of a natu- rally transgenic food crop. Proc. Natl. Acad. Sci. USA 112, 5844–5849.
6. Roullier, C., Rossel, G., Tay, D., McKey, D., and Lebot, V. (2011). Combining chloroplast and nuclear microsatellites to investigate origin and dispersal of New World sweet potato landraces. Mol. Ecol. 20, 3963–3977.
7. Roullier, C., Duputie, A., Wennekes, P., Benoit, L., Ferna ́ndez Bringas, V.M., Rossel, G., Tay, D., McKey, D., and Lebot, V. (2013). Disentangling the origins of cultivated sweet potato (Ipomoea batatas (L.) Lam.). PLoS ONE 8, e62707.
8. Kobayashi, M. (1984). The Ipomoea trifida complex closely related to sweet potato. In Proceedings of the 6th Symposium of the International Society of Tropical Root Crop (Centro Internacional de la Papa), pp. 561–568.
9. Austin, D.F. (1988). The taxonomy, evolution and genetic diversity of the sweet potato and its wild relatives. In Exploration, Maintenance and Utilization of Sweet Potato Genetic Resources (International Potato Center (CIP)), pp. 27–60.
10. Srisuwan, S., Sihachakr, D., and Siljak-Yakovlev, S. (2006). The origin and evolution of sweet potato (Ipomoea batatas Lam.) and its wild relatives through the cytogenetic approaches. Plant Sci. 171, 424–433.
11. Yang, J., Moeinzadeh, M.H., Kuhl, H., Helmuth, J., Xiao, P., Haas, S., Liu, G., Zheng, J., Sun, Z., Fan, W., et al. (2017). Haplotype-resolved sweet potato genome traces back its hexaploidization history. Nat Plants 3, 696–703.
12. Miquel, F.A.W. (1856). Flora van Nederlandsch Indie ̈ (C.G. van der Post).
13. de Candolle, A. (1883). Origine des Plantes Cultivees, First Edition (GermerBaillière).
14. Barrau, J. (1957). L’enigme de la patate douce en Oceanie. Études d’Outre-Mer 40, 83–87.
15. Yen, D.E. (1974). The Sweet Potato and Oceania: An Essay in Ethnobotany (Bishop Museum Press).
16. Roullier, C., Benoit, L., McKey, D.B., and Lebot, V. (2013). Historical col- lections reveal patterns of diffusion of sweet potato in Oceania obscured by modern plant movements and recombination. Proc. Natl. Acad. Sci. USA 110, 2205–2210.
17. Denham, T. (2013). Ancient and historic dispersals of sweet potato in Oceania. Proc. Natl. Acad. Sci. USA 110, 1982–1983.
18. Yen, D.E. (1971). Construction of the hypothesis for distribution of the sweet potato. In Man across the Sea: Problems of Pre-Columbian Contacts, C.L. Riley, J.C. Kelley, C.W. Pennington, and R.L. Rands, eds. (The University of Texas Printing Division).
19. Ballard, C., Brown, P., Bourke, R.M., and Harwood, T. (2005). The Sweet Potato in Oceania: A Reappraisal (University of Sydney).
20. Bulmer, R. (1965). Birds as possible agents in the propagation of the sweet-potato. Emu 65, 165–182.
21. Rossel, G., Kriegner, A., and Zhang, D.P. (1999). From Latin America to Oceania: the historic dispersal of sweetpotato re-examined using AFLP. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.504.5148.
22. Montenegro, A., Avis, C., and Weaver, A. (2008). Modelling the prehistoric arrival of the sweet potato in Polynesia. J. Arch. Sci. 35, 355–367.
23. O’Brien, P.J. (1972). The sweet potato: its origin and dispersal. Am. Anthropol. 74, 342–365.
24. Thomson, V.A., Lebrasseur, O., Austin, J.J., Hunt, T.L., Burney, D.A.,Denham, T., Rawlence, N.J., Wood, J.R., Gongora, J., Girdland Flink, L.,et al. (2014). Using ancient DNA to study the origins and dispersal ofancestral Polynesian chickens across the Pacific. Proc. Natl. Acad. Sci.USA111, 4826–4831.
25. Fehren-Schmitz, L., Jarman, C.L., Harkins, K.M., Kayser, M., Popp, B.N.,and Skoglund, P. (2017). Genetic ancestry of Rapanui before and afterEuropean contact. Curr. Biol.27, 3209–3215.
26. Austin, D.F. (1978). TheIpomoea batatascomplex–I. Taxonomy. Bull.Torrey Bot. Club105, 114–129.
27. McDonald, J.A., and Austin, D.F. (1990). Changes and additions inIpomoeasect.Batatas. Brittonia42, 116–120.
28. Ozias-Akins, P., and Jarret, R.L. (1994). Nuclear DNA content and ploidylevels in the genusIpomoea. J. Am. Soc. Hortic. Sci.119, 110–115.
29. Nishiyama, I., Fujise, K., Teramura, T., and Miyazaki, T. (1961). Studies ofsweet potato and its related species: I. Comparative investigations on thechromosome numbers and the main plant characters ofIpomoeaspeciesin sectionBatatas. Jap. J. Breed.11, 37–43.
30. Bohac, J.R., Austin, D.F., and Jones, A. (1993). Discovery of wild tetraploidsweetpotatoes. Econ. Bot.47, 193–201.
31. Yu, L.-X., Liu, M.-Y., Cao, Q.-H., Yu, Y.-C., Xie, Y.-P., Luo, Y.-H., Han,Y.-H., and Li, Z.-Y. (2014). Analysis of nrDNA ITS sequences inIpomoeabatatasand its relative wild species. Plant Sci. J. 32, 40–49.
32. Folk, R.A., Mandel, J.R., and Freudenstein, J.V. (2017). Ancestral geneflow and parallel organellar genome capture result in extreme phyloge-nomic discord in a lineage of angiosperms. Syst. Biol.66, 320–337.
33. Reiseberg, L.H., and Soltis, D.E. (1991). Phylogenetic consequences ofcytoplasmic gene flow in plants. Evol. Trends Plants5, 65–84.
34. Hedtke, S.M., and Hillis, D.M. (2011). The potential role of androgenesis incytoplasmic-nuclear phylogenetic discordance. Syst. Biol.60, 87–96.
35. Britton, T. (2005). Estimating divergence times in phylogenetic treeswithout a molecular clock. Syst. Biol.54, 500–507.
36. Zhu, T., Dos Reis, M., and Yang, Z. (2015). Characterization of the uncer-tainty of divergence time estimation under relaxed molecular clock modelsusing multiple loci. Syst. Biol.64, 267–280.
37. Ossowski, S., Schneeberger, K., Lucas-Lledo ́, J.I., Warthmann, N., Clark,R.M., Shaw, R.G., Weigel, D., and Lynch, M. (2010). The rate and molec-ular spectrum of spontaneous mutations inArabidopsis thaliana. Science327, 92–94.
38. Rannala, B., and Yang, Z. (2003). Bayes estimation of species divergencetimes and ancestral population sizes using DNA sequences from multipleloci. Genetics164, 1645–1656.
39. Austin, D.F. (1991).Ipomoea littoralis(Convolvulaceae) – taxonomy, distri-bution, and ethnobotany. Econ. Bot.45, 251–256.
40. Khoury, C. (2015). The conservation and use of crop genetic resources forfood security.http://edepot.wur.nl/352830.
41. Guppy, H.B. (1906). Observations of a Naturalist in the Pacific between1896 and 1899 (MacMillan).
42. Miryeganeh, M., Takayama, K., Tateishi, Y., and Kajita, T. (2014). Long-distance dispersal by sea-drifted seeds has maintained the global distri-bution ofIpomoea pes-capraesubsp.brasiliensis(Convolvulaceae).PLoS ONE9, e91836.
43. Ridley, H.N. (1930). The Dispersal of Plants throughout the World (L.Reeve).
44. Hather, J., and Kirch, P.V. (1991). Prehistoric sweet potato (Ipomoea bata-tas) from Mangaia Island, Central Polynesia. Antiquity65, 887–893.
45. Dos Reis, M., and Yang, Z. (2013). The unbearable uncertainty of Bayesiandivergence time estimation: uncertainty in divergence time estimation.J. Syst. Evol.51, 30–43.
46. Wilf, P., and Escapa, I.H. (2015). Green Web or megabiased clock? Plantfossils from Gondwanan Patagonia speak on evolutionary radiations. NewPhytol.207, 283–290.
47. Lavin, M., Schrire, B.P., Lewis, G., Pennington, R.T., Delgado-Salinas, A.,Thulin, M., Hughes, C.E., Matos, A.B., and Wojciechowski, M.F. (2004).Metacommunity process rather than continental tectonic history better ex-plains geographically structured phylogenies in legumes. Philos. Trans. R.Soc. Lond. B Biol. Sci.359, 1509–1522.
48. Mirarab, S., and Warnow, T. (2015). ASTRAL-II: coalescent-based speciestree estimation with many hundreds of taxa and thousands of genes.Bioinformatics31, i44–i52.
49. Altschul, S.F., Gish, W., Miller, W., Myers, E.W., and Lipman, D.J. (1990).Basic local alignment search tool. J. Mol. Biol.215, 403–410.
50. Langmead, B., Trapnell, C., Pop, M., and Salzberg, S.L. (2009). Ultrafastand memory-efficient alignment of short DNA sequences to the humangenome. Genome Biol.10, R25.
51. Price, M.N., Dehal, P.S., and Arkin, A.P. (2010). FastTree 2–approximatelymaximum-likelihood trees for large alignments. PLoS ONE5, e9490.
52. Castresana, J. (2000). Selection of conserved blocks from multiple align-ments for their use in phylogenetic analysis. Mol. Biol. Evol.17, 540–552.
53. Talavera, G., and Castresana, J. (2007). Improvement of phylogenies afterremoving divergent and ambiguously aligned blocks from proteinsequence alignments. Syst. Biol.56, 564–577.
54. Aguiar, D., and Istrail, S. (2012). HapCompass: a fast cycle basis algorithmfor accurate haplotype assembly of sequence data. J. Comput. Biol.19,577–590.
55. Nguyen, L.-T., Schmidt, H.A., von Haeseler, A., and Minh, B.Q. (2015).IQ-TREE: a fast and effective stochastic algorithm for estimatingmaximum-likelihood phylogenies. Mol. Biol. Evol.32, 268–274.
56. Darriba, D., Taboada, G.L., Doallo, R., and Posada, D. (2012). jModelTest2: more models, new heuristics and parallel computing. Nat. Methods9,772.
57. Katoh, K., Misawa, K., Kuma, K., and Miyata, T. (2002). MAFFT: a novelmethod for rapid multiple sequence alignment based on fast Fourier trans-form. Nucleic Acids Res.30, 3059–3066.
58. Katoh, K., and Standley, D.M. (2013). MAFFT multiple sequence alignmentsoftware version 7: improvements in performance and usability. Mol. Biol.Evol.30, 772–780.
59. Jo ́nsson, H., Ginolhac, A., Schubert, M., Johnson, P.L.F., and Orlando, L.(2013). mapDamage2.0: fast approximate Bayesian estimates of ancientDNA damage parameters. Bioinformatics29, 1682–1684.
60. Tamura, K., Stecher, G., Peterson, D., Filipski, A., and Kumar, S. (2013).MEGA6: Molecular Evolutionary Genetics Analysis version 6.0. Mol. Biol.Evol.30, 2725–2729.
61. Swofford, D.L. (2002). Phylogenetic Analysis Using Parsimony (*and OtherMethods) (Sinauer Associates).
62. Bruen, T.C., Philippe, H., and Bryant, D. (2006). A simple and robust sta-tistical test for detecting the presence of recombination. Genetics172,2665–2681.
63. Clement, M., Snell, Q., Walke, P., Posada, D., and Crandall, K. (2002).TCS: estimating gene genealogies. In Proceedings of the 16thInternational Parallel and Distributed Processing Symposium, p. 184.
64. Ruby, J.G., Bellare, P., and DeRisi, J.L. (2013). PRICE: software for the tar-geted assembly of components of (meta) genomic sequence data. G3(Bethesda)3, 865–880.
65. Stamatakis, A. (2014). RAxML version 8: a tool for phylogenetic analysisand post-analysis of large phylogenies. Bioinformatics30, 1312–1313.
66. Höhna, S., Heath, T.A., Boussau, B., Landis, M.J., Ronquist, F., andHuelsenbeck, J.P. (2014). Probabilistic graphical model representationin phylogenetics. Syst. Biol.63, 753–771.
67. Höhna, S., Landis, M.J., Heath, T.A., Boussau, B., Lartillot, N., Moore,B.R., Huelsenbeck, J.P., and Ronquist, F. (2016). RevBayes: bayesianphylogenetic inference using graphical models and an interactivemodel-specification language. Syst. Biol.65, 726–736.
68. Müller, K. (2005). SeqState: primer design and sequence statistics forphylogenetic DNA datasets. Appl. Bioinformatics4, 65–69.
69. Bankevich, A., Nurk, S., Antipov, D., Gurevich, A.A., Dvorkin, M., Kulikov,A.S., Lesin, V.M., Nikolenko, S.I., Pham, S., Prjibelski, A.D., et al. (2012).SPAdes: a new genome assembly algorithm and its applications to sin-gle-cell sequencing. J. Comput. Biol.19, 455–477.
70. Boetzer, M., Henkel, C.V., Jansen, H.J., Butler, D., and Pirovano, W. (2011). Scaffolding pre-assembled contigs using SSPACE. Bioinformatics27,578–579.
71. Pritchard, J.K., Stephens, M., and Donnelly, P. (2000). Inference of popu-lation structure using multilocus genotype data. Genetics155, 945–959.
72. Falush, D., Stephens, M., and Pritchard, J.K. (2003). Inference of popula-tion structure using multilocus genotype data: linked loci and correlatedallele frequencies. Genetics164, 1567–1587.
73. Chifman, J., and Kubatko, L. (2014). Quartet inference from SNP data un-der the coalescent model. Bioinformatics30, 3317–3324.
74. Chifman, J., and Kubatko, L. (2015). Identifiability of the unrooted speciestree topology under the coalescent model with time-reversible substitutionprocesses, site-specific rate variation, and invariable sites. J. Theor. Biol.374, 35–47.
75. Rambaut, A., Suchard, M.A., Xie, D., and Drummond, A.J. (2014). Tracerv1.6.http://beast.community/tracer.
76. Ratan, A. (2009). Assembly algorithms for next generation sequence data.https://etda.libraries.psu.edu/files/final_submissions/587.
77. Wood, J.R.I., Carine, M.A., Harris, D., Wilkin, P., Williams, B., andScotland, R.W. (2015). Ipomoea(Convolvulaceae) in Bolivia. Kew Bull.70,71.
78. Doyle, J.J., and Doyle, J.L. (1990). Isolation of plant DNA from fresh tissue.Focus12, 13–15.
79. MYcroarray (2015). MYbaits: in-solution sequence capture fortargeted high-throughput sequencing.http://www.mycroarray.com/pdf/MYbaits-manual-v3.pdf.
80. Weitemier, K., Straub, S.C.K., Cronn, R.C., Fishbein, M., Schmickl, R.,McDonnell, A., and Liston, A. (2014). Hyb-Seq: combining target enrich-ment and genome skimming for plant phylogenomics. Appl. Plant Sci.2,1400042.
81. Straub, S.C.K., Parks, M., Weitemier, K., Fishbein, M., Cronn, R.C., andListon, A. (2012). Navigating the tip of the genomic iceberg: next-genera-tion sequencing for plant systematics. Am. J. Bot.99, 349–364.
82. Shaw, J., Lickey, E.B., Schilling, E.E., and Small, R.L. (2007). Comparisonof whole chloroplast genome sequences to choose noncoding regions forphylogenetic studies in angiosperms: the tortoise and the hare III. Am. J.Bot.94, 275–288.
83. Yan, L., Lai, X., Li, X., Wei, C., Tan, X., and Zhang, Y. (2015). Analyses of thecomplete genome and gene expression of chloroplast of sweet potato[Ipomoea batata]. PLoS ONE10, e0124083.
84. Price, M.N., Dehal, P.S., and Arkin, A.P. (2009). FastTree: computing largeminimum evolution trees with profiles instead of a distance matrix. Mol.Biol. Evol.26, 1641–1650.
85. Miller, M.A., Pfeiffer, W., and Schwartz, T. (2010). Creating the CIPRESScience Gateway for inference of large phylogenetic trees. InProceedings of the Gateway Computing Environments Workshop (GCE),pp. 1–8.
86. Simmons, M.P., and Ochoterena, H. (2000). Gaps as characters insequence-based phylogenetic analyses. Syst. Biol.49, 369–381.
87. Shimodaira, H. (2002). An approximately unbiased test of phylogenetictree selection. Syst. Biol.51, 492–508.
88. Shaw, J., Shafer, H.L., Leonard, O.R., Kovach, M.J., Schorr, M., andMorris, A.B. (2014). Chloroplast DNA sequence utility for the lowest phylo-genetic and phylogeographic inferences in angiosperms: the tortoise andthe hare IV. Am. J. Bot.101, 1987–2004.
89. Magallon, S., Gomez-Acevedo, S., Sanchez-Reyes, L.L., and Hernandez-Hernandez, T. (2015). A metacalibrated time-tree documents the early riseof flowering plant phylogenetic diversity. New Phytol.207, 437–453.
90. S€arkinen, T., Bohs, L., Olmstead, R.G., and Knapp, S. (2013). A phyloge-netic framework for evolutionary study of the nightshades (Solanaceae): adated 1000-tip tree. BMC Evol. Biol.13, 214.
91. Wilf, P., Carvalho, M.R., Gandolfo, M.A., and Cu ́neo, N.R. (2017). Eocenelantern fruits from Gondwanan Patagonia and the early origins ofSolanaceae. Science355, 71–75.