Phylogeographie und genomische Epidemiologie von SARS-CoV-2 in Italien und Europa mit neu charakterisierten italienischen Genomen zwischen Februar und Juni 2020.

Für diese Studie wurden insgesamt 192 italienische SARS-CoV-2-Genome neu generiert. Für 137 (71,3 %) Patienten war eine Reiseanamnese verfügbar. Alle gaben an, in den zwei Wochen vor dem Auftreten der Symptome nicht ins Ausland gereist zu sein. Ein Fall von Kontakt mit einem Reisenden aus Bangladesch wurde gemeldet. Die wichtigsten Patientendaten sind in Tabelle 1 aufgeführt.

Tabelle 1. Merkmale der untersuchten Populationen.

Analyse des italienischen Datensatzes

Genomische Diversität basierend auf Reben-/Klassenklassifizierung

Die am stärksten vertretenen Reben waren B.1 (n = 222, 47,7 %, darunter 32 von B.1 abgeleitete Reben, wie B.1.76, B.1.91, B.1.104, B.1.142, B.1.153, B.1.177 , B.1.179, B.1.222, B.1.225, B.1.356, B.1.610) und B.1.1 (n = 141, 30,3 %, davon 19 von B.1.1 abgeleitete Linien wie B.1.1.28, B. 1.1.61, B.1.1.161, B.1.1.202, B.1.1.232, B.1.1.331 und B.1.1.372), gefolgt von Reben B (n = 73, 15,7 %) und B. 1.1.1 (n = 29, 6,2 %). Die Nextclade-Klassifikation zeigte eine hohe Prävalenz von 20A (n = 207, 44,5 %) und 20B (n = 141, 30,3 %), gefolgt von 19A (n = 84, 18,1 %) und 20D (n = 29, 6,2). %). Nur 4 Stämme waren Clade 20C (0,9 %).

Die geografische Verteilung der SARS-CoV-2-Linien/Klassen in Italien (Abbildung 1) zeigte mehrere unterschiedliche epidemiologische Muster. Einige Regionen hauptsächlich in Nord- und Mittelitalien (Friaul Julisch Venetien, Marken, Emilia Romagna, Lombardei, Latium) zeigten eine hohe Prävalenz von B.1 / 20A (zwischen 70 und 100%). Andere Regionen, hauptsächlich in Mittelsüditalien (Sardinien, Sizilien, Abruzzen, Apulien) hatten die höchste Prävalenz von B.1.1/20B (von 57 % auf über 90 %). Andere Regionen weisen gleiche Anteile beider Reben auf (Basilikata, Ligurien, Toskana, Umbrien). Zwei Regionen hatten ein einzigartiges Muster: Venetien, in dem die am stärksten vertretene Linie B / 19A (66/97, 68%) ist, und Piemont, das 73% (27/37) der Linie B.1.1.1 / 20D aufweist.

Abbildung 1

Räumliche Verteilung von Reben und Baumstämmen. (ein, B) Karte von Italien mit Angaben zur Verbreitung der Rebenein) und die Verleihung des ProtokollsB) in jeder Region.

Zwischen Februar und Mai wurde eine Veränderung der Prävalenz von SARS-CoV-2-Reben beobachtet. Die am häufigsten nachgewiesenen Reben waren B/19A und B.1/20A im Februar und in der ersten Märzhälfte, die 88 % aller in diesem Zeitraum gewonnenen Genome repräsentieren. Danach, ab der zweiten Märzhälfte, wurden B.1.1 / 20B und andere Reben (B.1.1.1 / 20D) stärker vertreten (60,7 % zwischen dem 15. und 31. März, 46,2 % im April, 51,6 % in). Dürfen).

Genetische Distanzen und Mutationsanalyse

Der gesamte mittlere p-Abstand zwischen allen italienischen Isolaten betrug 3,9 (SE: 0,4) s/10.000 nts, was einem Mittelwert von 10,1 (SE: 1,01) Genomsubstitutionen entspricht. Die genetische Distanz blieb gering mit Durchschnittswerten von 10,23 (SE: 1,09) Substitutionen, davon waren 3,13 (SE: 0,59) synonym und 6,85 (SE: 0,79) nicht-synonym. Größere Heterogenität wurde in den Sequenzen Piemont (20,4, SE: 1,6) und Sizilien (18,4, SE: 1,2) im Vergleich zu anderen Regionen beobachtet. Interessanterweise wurden im Laufe der Zeit immer mehr Differenzen verzeichnet, von 5,7 (SE: 0,81) im Februar bis 20,1 (SE: 1,1) im Mai.

Siebzehn Aminosäuresubstitutionen waren in mehr als 10 % der italienischen Isolate vorhanden, aber nur eine davon befand sich im Spike-Protein (D614G). Im gesamten Datensatz der italienischen Sequenz wurden keine Mutationen in der Rezeptorbindungsdomäne (RBD) beobachtet. Nur elf B-Sequenzsequenzen im gesamten Datensatz, alle aus Venetien (log 19A), trugen T1543I in orf1a. Insgesamt zeigten die B-Sequenzen ein anderes Mutationsmuster als die anderen Linien, einschließlich der Mutationen L3606F, G251V in orf1a bzw. orf3a. Die Linie B.1.1.1 repräsentierte zusätzliche Substitutionen im Vergleich zu den Linien B.1 und B.1.1, wie z. B. T1246I in orf1a in allen Isolaten. Tabelle 2 zeigt die häufigsten Aminosäuresubstitutionen, stratifiziert nach Linie und Log.

Tabelle 2 Aminosäuresubstitutionen, die in mehr als 10 % der Sequenzen gefunden wurden, stratifiziert nach Linie und Log.

Phylogenetische Analyse durch ML und Bayes’sche Methoden

Die phylogenetische Analyse nach der Bayes’schen Methode, bei der jeder Peak seiner Linie zugeordnet wurde, zeigte 4 große, hoch signifikante Protokolle, die den wichtigsten zirkulierenden Linien in Italien entsprechen (B, B.1, B.1.1 und B.1.1.1) (Abbildung 2). B1, B.1.1 und B.1.1.1 sind ineinander verschachtelt, während B unabhängig getrennt ist. Chinesische Sequenzen neigten dazu, sich am Ausgang italienischer Protokolle innerhalb der B- und B.1-Linien zu trennen. Eine Schätzung des tMRCA der Hauptprotokolle legt nahe, dass sich die B-Linie in der letzten Januarwoche 2020 nach Italien ausbreitete, die Linie B.1.1 später, Mitte Februar, auftauchte und B.1.1.1 die jüngste war, die sich ausbreitete früher März. Die ML-Analyse zeigte ähnliche tMRCAs, jedoch mit breiteren vertraulichen Intervallen (Tabelle 3).

Figur 2
Figur 2

SARS-CoV-2 Bayesianischer phylogeographischer Baum mit 479 Stämmen. Große rote und violette Kreise zeigen die höchste Posterior-Wahrscheinlichkeit im Bereich von 1 bis 0,9 an. Die Zweige sind basierend auf der wahrscheinlichsten Linie von Nachkommen der Knoten gefärbt.

Tabelle 3 Recent Common Ancestor Estimates (tMRCA) und Confidence Intervals (CI) Major Lines.

Phylogeographie in Italien

Die SARS-CoV-2-Phylogeographie identifizierte China als Standort der Baumwurzel (Abbildung 3 und zusätzliche Abbildung 1). Vier große große Cluster wurden identifiziert. Die frühesten Cluster befanden sich in der Lombardei und in Venetien, die direkt mit China verbunden waren, während später (etwa in der zweiten Märzhälfte) andere Cluster in den Abruzzen und im Piemont auftauchten. Durch die Kombination der Phylogeographie mit den SARS-CoV-2-Linien zeigte die Rekonstruktion des angestammten Staates, dass sich die Linien B und B.1 von China nach Venetien bzw. in die Lombardei ausbreiteten. Während die Linie B anscheinend auf Venetien beschränkt blieb (und erfolgreich ausgelöscht wurde), breitete sich die Linie B.1 von der Lombardei aus weiter in andere italienische Regionen aus (Venetien, Emilia Romangna, Abruzzen, Marken, Apulien, Friaul-Julisch Venetien und Latium). Die Linie B.1.1 wurde von Mittelitalien (Abruzzen) in andere italienische Regionen (Venetien, Lombardei, Apulien, Sardinien) erweitert. Schließlich tauchte die Linie B.1.1.1 später auf und blieb offensichtlich im Piemont lokalisiert, ohne sich weiter auf andere Regionen auszubreiten.

Figur 3
Figur 3

Rekonstruktion der Vorfahren der SARS-CoV-2-Linie B.1 unter Verwendung des italienischen Datensatzes. Die Abbildung zeigt die komprimierte Visualisierung, die von PastML unter Verwendung der Marginal Posterior Probability Approximation (MPPA) mit einem Modell ähnlich F81 erstellt wurde. Verschiedene Farben entsprechen verschiedenen italienischen geografischen Regionen und Reben. Zahlen innerhalb (oder neben) Kreisen geben die Anzahl der Stämme an, die einem bestimmten Knoten zugeordnet sind.

Analyse eines internationalen Datensatzes

Italienische Cluster

Die phylogenetische Analyse des gesamten Datensatzes einschließlich italienischer, europäischer und chinesischer Genome durch ML zeigte, dass die meisten italienischen Isolate über den gesamten Baum verstreut waren. Insgesamt 80 (von 465, 17,2 %) italienische Isolate wurden in 22 stark unterstützte Cluster aufgenommen (Tabelle 4). Davon waren 12 (54,5 %) innerhalb der Linie B.1, fünf (22,7 %) waren B.1.1/20B, drei (13,6 %) waren B.1.1.1/20D und zwei (9,1 %) waren B/19A . Alle bis auf einen B.1-Cluster werden als 20A-Protokolle klassifiziert. Cluster Nr. 19 war die einzige Ausnahme und umfasste vier italienische Stämme, die als log 20C (alle aus Rom) klassifiziert wurden und einen mittleren tMRCA zeigten, der im März 2020 fiel. Drei Cluster (13,6 %) waren einzeln (darunter nur einzelne italienische Isolate), die es nicht sind verwandt mit anderen italienischen Sequenzen), was wahrscheinlich einer sporadischen Einführung gefolgt von einer begrenzten Zirkulation entspricht, während die verbleibenden 19 Cluster mindestens zwei italienische Isolate enthielten, was auf eine lokale Übertragung hindeutet. Dreizehn von ihnen (68,4 %) enthielten nur italienische Stämme (was auf eine hauptsächlich lokale Verbreitung dieser Rebe hindeutet), während 6 (31,6 %) Isolate aus anderen europäischen Ländern enthielten, und einer von ihnen (B.1) enthielt ein chinesisches Genom.

Tabelle 4 Hauptmerkmale der identifizierten Cluster.

Die Schätzung des tMRCA-Clusters durch die ML-Methode bestätigte, dass die ersten Übertragungsereignisse in Italien etwa in der zweiten Januarhälfte und Anfang Februar stattfanden. Achtzehn Cluster hatten einen gemeinsamen Vorfahren, der auf die Einführung von Aufbewahrungsmaßnahmen in unserem Land zurückgeht. Insbesondere die Cluster B.1 / 20A dominierten (10/14) zu früheren Zeitpunkten (vor März), während andere Protokolle (20B, 20C und 20D) (6/8) im März dominierten. Darüber hinaus dominierten zu Beginn gemischte und einzelne Cluster, während nach der Schließung ausschließlich italienische Cluster beobachtet wurden. Der früheste Cluster (#1) war die Linie B.1/20A, datiert im Mittel auf den 20.01.2020. (CI95% 08.01. – 24.01.2020) und umfasste nur vier norditalienische Stämme: einen aus Lodi, zwei aus Mailand (Orte, an denen in Italien erstmals einheimische COVID-19-Fälle identifiziert wurden) und einen aus Piacenza. Der erste Cluster B.1.1 datiert vom 10.02.2020. (CI95% 28.01.2020 – 12.03.2020) und beinhaltet 3 italienische Isolate aus den Abruzzen. Die drei Cluster B.1.1.1 / 20D datieren vom 2. März (CI95% 22.02.2020–02.03.2020). Nur zwei kleine italienische Cluster, unterstützt durch signifikante Bootstraps, wurden innerhalb des ML-Baums beobachtet, einschließlich B/19A-Isolaten. Insbesondere ein rein italienischer Cluster umfasste 11 Genome aus dem Veneto (Provinz Padua), die durch eine T1543I-Substitution in orf1a gekennzeichnet waren, die in keinem anderen B/19A-Genom in unserem internationalen Datensatz nachgewiesen wurde.

Phylogeographische Analyse in Europa

Durch die Kombination der Ahnenrekonstruktion für den Standort mit der Rebe (Abbildung 4 und zusätzliche Abbildung 2) zeigten Analysen, dass B.1 wahrscheinlich aus China stammte und sich in mehrere europäische Länder ausbreitete, mehrere Male in Italien ankam und einen großen Cluster bildete, der anfänglich 59 ( ungefähr in der ersten Märzwoche) und schließlich 198 Genome und 6 weitere unabhängige Einführungen, die größtenteils der Genomgruppe entsprechen, die nur durch D614G-Substitution gekennzeichnet ist, aber keine anderen Substitutionen aufweist, insbesondere P314L in RdRp, die Klausel 20A identifiziert (Zeile B.1, Klausel 19A) .

Figur 4
Figur 4

Rekonstruktion der Vorfahren der SARS-CoV-2-Linie B.1 unter Verwendung des europäischen Datensatzes. Die Abbildung zeigt die komprimierte Visualisierung, die von PastML unter Verwendung der Marginal Posterior Probability Approximation (MPPA) mit einem Modell ähnlich F81 erstellt wurde. Verschiedene Farben entsprechen verschiedenen europäischen Ländern und Reben. Zahlen innerhalb (oder neben) Kreisen geben die Anzahl der Stämme an, die einem bestimmten Knoten zugeordnet sind. Gemeinsame und maximale a posteriori (MAP)-Vorhersagen werden für unsichere Knoten angezeigt (dargestellt als achteckige Symbole). CN, China; IT, Italien, EU, Europa.

Beginnend mit Italien verbreitete sich B1 / 20A in andere europäische Länder und wurde später in China wieder eingeführt. Ein weiterer großer italienischer Cluster, einschließlich 138 Genome der B.1.1-Linie, wurde vom italienischen B.1-Cluster abgeleitet. Es wurde eine mehrfache Einführung von B.1.1 aus Italien in andere europäische Länder festgestellt. Ein großer Cluster (n = 203 Genome), der der Linie B.1.1.1 entspricht, erschien Anfang März in Europa und traf erst später (zweite Märzhälfte) in Italien ein (Abbildung 4). Insgesamt 7 Knoten blieben undefiniert. Eine separate Analyse, die von differenzierten europäischen Ländern durchgeführt wurde (anstatt eine verallgemeinerte Gruppe zu berücksichtigen), bestätigte dieses Szenario im Allgemeinen und ermöglichte eine detailliertere Rekonstruktion der Ausbreitung der Epidemie in europäischen Ländern (ergänzende Abbildung 3).

Die Analyse der Linie B zeigte, dass nur 2 Knoten zwischen Europa und China unbestimmt blieben (ergänzende Abbildung 4). Die Visualisierung (Abbildung 5) deutete auf mehrere Einschleppungen von China nach Italien ab Ende Februar hin. Ein Cluster, der dem zuvor beschriebenen Cluster Nr. 5 entspricht, wurde beobachtet, während die anderen Stämme offensichtlich mehrere unabhängige Einführungen darstellen, die kleine Gruppen von bis zu 2 Sequenzen bilden. Zwei sporadische Einträge aus Europa wurden ebenfalls beobachtet. Im Gegensatz zur Ahnenrekonstruktion für die Linie B.1 war dieses Szenario anders, da die Migrationsströme in Italien ohne weitere Expansion gestoppt zu sein scheinen.

Abbildung 5
Abbildung 5

Rekonstruktion der angestammten SARS-CoV-2-Linie B unter Verwendung des europäischen Datensatzes. Die Abbildung zeigt die komprimierte Visualisierung, die von PastML unter Verwendung der Marginal Posterior Probability Approximation (MPPA) mit einem Modell ähnlich F81 erstellt wurde. Verschiedene Farben entsprechen verschiedenen europäischen Ländern und Reben. Zahlen innerhalb (oder neben) Kreisen geben die Anzahl der Stämme an, die einem bestimmten Knoten zugeordnet sind. Gemeinsame und maximale a posteriori (MAP)-Vorhersagen werden für unsichere Knoten angezeigt (dargestellt als achteckige Symbole). CN, China; IT, Italien, EU, Europa.

Die unter den europäischen Ländern durchgeführte Analyse (ergänzende Abbildung 5) hob dasselbe Szenario der Vorfahren hervor, zeigte jedoch keine Einführung aus Europa.

Leave a Comment