Per Li Meng-Yan il SARS-CoV-2 è stato creato in laboratorio ma altri dimostrano il contrario

Secondo uno studio della dott.ssa Li Meng-Yan il coronavirus SARS-COV-2 è stato creato in laboratorio. Ma si tratta di un lavoro in prepint, cioè  non sottoposto ad alcuna revisione da parte della comunità scientifica. Inoltre, non esistono in proposito evidenze così eclatanti perchè il grande pubblico possa sposare – senza ombra di dubbio – una tesi rispetto ad un’altra.

In particolare, Open (rivista online fondata da Enrico Mentana) riporta che sebbene  la presenza di una particolare classe di enzimi “restriction site” proverebbe che il virus è stato creato artificialmente in laboratorio, Arinjay Banerjee, virologo della McMaster University, ha spiegato che tutte le sequenze in natura hanno questo tipo di enzimi. Nella spiegazione che segue viene dimostrato che la teoria di Li Meng Yan sia da considerare errata.  Pubblico per informazione: personalmente non ho elementi per sposare una ipotesi rispetto ad un’altra.

@vietatoparlare

******************************************************************************************

The Yan Report – pseudoscience running wild part I: la presunta falsificazione del genoma RaTG13

di Marco Gerdol – (Pop Medicine -medicina e salute)

Ha fatto molto scalpore la pubblicazione online di un “lavoro scientifico” da parte di Li Meng-Yan e colleghi (che potrete trovare qui: https://doi.org/10.5281/zenodo.4028830) in cui l’origine naturale di SARS-CoV-2 viene messa in dubbio. Questo scritto, che sostanzialmente può essere definito un opinion paper, è un preprint ed in quanto tale va sottolineato che non è stato sottoposto ad alcuna forma di peer-review. Pur ricalcando le tematiche del filone complottista lanciato mesi fa da Luc Montagnier (per il quale vi invito, qualora non l’aveste ancora fatto, a leggere l’ottimo post di Alberto Beretta qui: https://www.facebook.com/alberto…/posts/101572619054668), poi ripreso da alcuni politici nostrani e media nazionali, la particolarità di questo lavoro è che il primo autore è una giovane ricercatrice cinese che negli scorsi mesi aveva attratto su di un grosso interesse da parte di pubblico e media come whistleblower, sostenendo che governo cinese ed OMS fossero a conoscenza della trasmissibilità del virus da persona a persona ben prima che la crisi a Wuhan fosse conclamata. Va anche detto che la stessa Yan è co-autrice di un paio di studi che hanno avuto un grosso risalto in questi mesi, pubblicati su Nature e Lancet – Infectious Diseases e che pertanto questa figura si distanzia un po’ dalla classica immagine che abbiamo dei ciarlatani nostrani, che hanno costruito spesso e volentieri la propria carriera partendo sin dagli inizi con la pseudoscienza.

Il preprint, subito ribattezzato “The Yan report” è chiaramente intriso di politica, molto più di quanto non ci si possa immaginare, ma preferisco lasciare ad altri una disamina sulle motivazioni che possono aver portato alla pubblicazione di questo documento e sulle origini della fantomatica Rule of Law Society & Rule of Law Foundation a cui Yan ed i 3 co-autori risultano afferenti. Vorrei invece discutere nel merito i dati riportati, perché al di là dalle premesse complottiste messe in chiaro sin dall’abstract, si tratta di un lavoro estremamente debole che, come un enorme castello di carte, si basa su alcune assunzioni che, una volta debunkate, fanno crollare miseramente tutto l’impianto narrativo.

Voglio partire oggi proprio da uno di questi punti, che viene introdotto immediatamente nel documento: il genoma di RaTG13 sarebbe stato falsificato. Avevo già parlato di questo virus per chi volesse approfondire (https://www.facebook.com/102949478094414/posts/158970169159011/), ma RaTG13 rappresenta la chiave per tracciare la storia evolutiva di SARS-CoV-2, in quanto rappresenta il virus, tra quelli a noi noti, ad essere più “vicino” a quello responsabile di Covid-19. Questo non significa che l’uno sia derivato dall’altro, ma piuttosto che i due condividono un antenato comune la cui esistenza è stimata essere datata tra il 1930 ed il 2000 (con massima probabilità indicante il 1969). In realtà va detto che più recentemente è stato identificato un altro virus, RmYN02, che pur in presenza di notevoli eventi di ricombinazione, indica un grado di parentela ancora più stretto con SARS-CoV-2, con datazione più probabile del progenitore comune fissata al 1976. Ma il report di Yan si guarda bene dal citarne l’esistenza, preferendo martellare su RaTG13.

A supporto dell’origine fraudolenta di questo genoma, Yan e colleghi citano sette documenti (ovvero le references 6,7,8,9,19,20 e 21), tutti rigorosamente preprint che, lo anticipo, non hanno alcuna speranza di poter essere accettati per la pubblicazione in alcun giornale serio. Non vale la pena di scendere nel dettaglio dei difetti e madornali errori che costellano la maggior parte di questi documenti, ma è interessante osservare che tutti siano stati scritti nella migliore delle ipotesi da ricercatori di livello piuttosto modesto e senza alcuna esperienza specifica in genomica ed evoluzione molecolare, e nella peggiore delle ipotesi da naturopati complottisti che mai hanno pubblicato alcun articolo scientifico in vita loro (vedasi la RERF #7 ad esempio).

E’ utile però riassumere quali sono i principali argomenti portati da questi autori, e di conseguenza dallo Yan report, riguardo alla falsificazione della sequenza di RaTG13, e discuterne la veridicità (o meno):

1) La sequenza completa di RaTG13 è stata “sospettosamente” rilasciata al pubblico solo il 24 marzo 2020 (in questo paper: Zhou et al. 2020, https://doi.org/10.1038/s41586-020-2012-7),
nonostante derivi da un isolato del 2013, originariamente denominato in altro modo (BtCoV/4991) e collegato ad una sequenza genomica parziale depositata in GenBank nel 2016.

2) I dati grezzi di sequenziamento presenterebbero delle anomalie che suggeriscono una manipolazione dei dati

3) È impossibile assemblare la sequenza genomica di RaTG13 partendo dai dati grezzi a causa della presenza di “buchi” non coperti dai dati di sequenziamento stessi

Per debunkare questi tre punti bisogna partire dall’inizio: quale è l’origine RaTG-13? Per evitare di seguire i ragionamenti contorti del filone complottistico, spiego in termini semplici quello che mi sembra il più ragionevole ordine degli eventi. 2012: 6 minatori a Mojiang, nel sud della Cina, vicino al confine con il Laos, si ammalano di una polmonite atipica e tre di loro muoiono, senza tuttavia portare ad ulteriori trasmissioni.

La possibilità di eventi zoonotici riguardanti betacoronavirus da pipistrelli in questi contesti è ben nota sulla base della precedente esperienza con la SARS e così nel 2013 inizia la raccolta di campioni biologici (principalmente guano) da caverne e miniere abbandonate della regione. Questi permettono di identificare la presenza di diversi coronavirus mai precedentemente descritti, il che non dovrebbe destare grande stupore dal momento che i pipistrelli sono un noto serbatoio naturale di questi agenti patogeni e che la nostra conoscenza della loro diversità è molto limitata (lo studio può essere letto qui: https://doi.org/10.1007/s12250-016-3713-9). In questo caso lo studio si focalizzava sull’amplificazione delle regioni genomiche codificanti la proteina Spike e la RdRp, e non porta dunque all’ottenimento di genomi completi. Tra questi vi è anche una sequenza contrassegnata di RdRp come “BtCoV/4991”, con origine “Feces/Swabs” derivante da un campionamento del luglio 2013.

Passano alcuni anni e all’inizio del 2020 viene resa disponibile la sequenza genomica completa di SARS-CoV-2. I ricercatori cinesi, che sanno bene di avere a disposizione i campioni del 2013 conservati a -80°C, notano la similarità di sequenza tra SARS-CoV-2 e le sequenze parziali disponibili del lavoro del 2016 e pensano bene di riprenderli in mano, sottoporli ad un’estrazione di RNA totale e tentare un approccio di RNA-sequencing per tentare di ottenere la sequenza genomica completa. L’origine temporale del genoma RaTG13 (così come quella di altri genomi virali pubblicati con le stesse modalità) è dunque, secondo me, piuttosto logica e non credo servano grossi complotti a spiegarla (EDIT: vi rimando ai commenti sotto, perché sulla tempistica del sequenziamento mi sbagliavo, e RaTG13 con ogni probabilità era già stato sequenziato nella seconda metà del 2018 assieme a molti altri campioni di tamponi fecali/anali di altri pipistrelli).

La discrepanza nella nomenclatura dei due campioni (BtCoV/4991 vs RaTG13) è questione piuttosto sciocca: laddove non sia possibile risalire con precisione alla specie di origine (cosa molto comune in approcci metagenomici), a queste vengono assegnati provvisoriamente dei codici provvisori, che il più delle volte seguono la logica seguita dagli autori. Codici che spesso, per semplicità interpretativa, vengono rivisitati in seguito, come accaduto in questo caso (in cui “Ra” indica l’ospite, Rhinolophus affinis). Per darvi un’idea di quanto sia diffusa questa pratica basta dare un’occhiata alle entri tassonomiche utilizzabili in GenBank per i Sarebcovirus (https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi…), ma anche per organismi che conosciamo molto meglio (guardate i canidi sotto la voce “unclassified Canis” qui: https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi…). L’unico appunto che mi sento di fare è che nel paper 2020 questa corrispondenza non sia esplicitamente menzionata. Il punto numero 1 è dunque molto debole e lo farei tranquillamente ricadere sotto la voce “conspiracy theory”.

Ritorniamo alla ipotetica strategia utilizzata dagli autori del paper in cui RatG13 è stato riportato: il campione, come atteso per una matrice biologica complessa come il guano, non sono certo eccezionali: l’RNA estratto è probabilmente di scarsa qualità, molto degradato, ed è un miscuglio eterogeneo di RNA derivanti dall’ospite, dal virus (che potrebbe essere presente in quantità infinitesimale) e da ovvie contaminazioni esogene. Ma il campione è unico e prezioso e, come spesso si fa in questi casi, si prova a costruire una libreria di sequenziamento, sperando di ottenere qualcosa, ben consci che la qualità del materiale di partenza è quella che è.

I dati grezzi di sequenziamento arrivano: si tratta di 11,6 milioni di coppie di “reads” (letture del sequenziatore Illumina) da 150 paia di basi ciascuna. Chiunque abbia una certa esperienza con l’analisi di dati grezzi trascrittomici è pienamente consapevole che, in un campione di questo tipo, la maggior parte delle reads ottenute sono “spazzatura”: quando il segnale manca, si finisce spesso per includere nella libreria prime e sequenziare poi RNA contaminanti e molte delle reads ottenute sono caratterizzate da una qualità molto bassa. Il materiale “recuperabile” può quindi essere poco: non è strano, né inatteso.

Mi è capitato personalmente più volte e, a seconda delle applicazioni a valle, può essere necessario scartare alcuni campioni con queste caratteristiche (specialmente se si intende studiare l’espressione genica). Sorprendersi di ciò e riportare in modo acritico presunte anomalie, come fatto da molti dei preprints citati nel report, equivale semplicemente a dimostrare di non sapere di che cosa si stia parlando, cosa che –credetemi- si evince piuttosto chiaramente da svariati passaggi. L’interesse di Zhou e colleghi era quello di andare a recuperare in questo marasma di dati quelle poche reads che corrispondono al genoma virale di modo da poterlo assemblare. Risolto dunque il punto 2, veniamo proprio ai presunti problemi di assemblaggio.

Le reads sono brevi spezzoni di genoma, collocate in posizioni casuali, e la strategia di “assemblaggio” equivale alla ricostruzione di un libro basandosi sulla sovrapposizione parziale tra le frasi che lo compongono, avendo a disposizione una certa ridondanza delle informazioni. Quante sono le reads corrispondenti al virus che è stato possibile recuperare? Lo ho voluto verificare di persona, valutando la veridicità dell’affermazione “RaTG13 genome could not be assembled via de novo assembly of the dataset”, tratta da uno dei preprint citati.

Qui non bisogna confondere l’incapacità tecnica di chi ha provato ad eseguire l’assemblaggio con l’impossibilità di assemblare il genoma per mancanza di dati, perché qui ricadiamo clamorosamente nel primo caso: non sono in grado di riprodurre i risultati ottenuti, ergo è impossibile riprodurli (ma la verità è che, più semplicemente, non sono in grado di farlo). Mi risulta che siano circa 1700 le reads corrispondenti al genoma RaTG13 recuperabili dai dati grezzi, per una copertura teorica dell’8,5% circa. Sono poche? Certamente sono poche sul totale, ma si tratta di un dato inatteso? Non direi… non sappiamo quale fosse la carica virale del pipistrello in questione (magari molto bassa), non sappiamo quanto “fresco” fosse il guano (l’RNA è altamente deperibile) e come già detto è assolutamente atteso che un campione di questo tipo comprenda RNA di natura piuttosto eterogenea. Di certo la copertura non ideale per ottenere un assemblaggio di ottima qualità ed è possibile, data la distribuzione randomica delle reads lungo la sequenza genomica, che questa copertura scenda a livelli vicini a zero in alcune regioni. Cosa che effettivamente avviene, e che dopotutto avviene anche in molti dei genomi di SARS-CoV-2 depositati in GISAID ed ottenuti da campioni umani (oltre 5500 degli oltre 102mila presenti in database contengono regioni con coverage = 0). Zhou e colleghi hanno però pensato bene di colmare i pochi piccoli gap rimasti nella sequenza del genoma con sequenziamento Sanger, disegnando dei primers per l’amplificazione delle regioni mancanti ed utilizzando un po’ di semplice genomica comparata (la struttura genomica è molto simile nei betacoranavirus ed è possibile stimare con ragionevole margine di sicurezza la dimensione dei gap rimasti).

Ho personalmente provato ad assemblare il genoma RaTG13 combinando i dati illumina e Sanger disponibili (https://www.ncbi.nlm.nih.gov/sra/?term=RaTG13) ottenendo con successo una sequenza completa identica al 99,74% a quella di riferimento. Tutto ciò senza badare minimamente a tecniche avanzate per risolvere eventuali conflitti e ripulire il dataset da dati “sporchi”, il che spiega molto probabilmente questa discrepanza dello 0,26%, tra piccoli gap e SNP. Insomma, è possibile assemblare il genoma di RaTG13 partendo dai dati grezzi: basta avere le competenze per farlo.

In sostanza, ci si può fidare del genoma di RaTG13 oppure, come suggerito da un paio dei preprint citati nello yan Report, “and any publications that cites or use RaTG13 as critical pieces of evidence or proof, must be immediately invalidated and retracted.”? Per carità, questo suggerimento è una corbelleria e, restando in tema di guano, sarebbe fin troppo facile trovare degli aggettivi da affibbiare a molte delle fonti citate nello Yan report.

Se è chiaro che l’assemblaggio genomico non sia stato ottenuto in condizioni ottimali, e che pertanto possa contenere alcuni errori puntiformi dovuti ad una scarsa copertura di sequenziamento, è altrettanto chiaro che non si tratti di un genoma “fraudolento” o “falsificato” come lo Yan Report suggerisce ripetutamente.

119778991 2013036175497252 1516577378627969475 n1

Lascia un commento