Slider news

Bioinformatica e open data: l’era del digitale per una scienza condivisa, accessibile e riproducibile

di Maria Luisa Chiusano

Dipartimento di Agraria, UNINA

La scienza non si basa su opinioni, ma su dati raccolti in modo rigoroso e analizzati con metodi condivisibili per garantire la riproducibilità dei risultati ottenuti. Grazie alla disponibilità di dati e metodi è possibile, quindi, confermare o smentire una ipotesi, ma anche identificare tendenze e relazioni, costruire modelli e fare previsioni, e soprattutto confermare la veridicità delle conclusioni di un’indagine scientifica, consentendo la rianalisi dei dati prodotti e la riproducibilità dei risultati, ripetendo il medesimo esperimento anche in contesti differenti, garantendone, quindi, l’attendibilità.

L’era della digitalizzazione e il boom dei BIG DATA

È indubbio che viviamo in un'epoca in cui si è in grado di produrre una enorme quantità di dati, grazie all’evolversi di tecnologie sempre più performanti e a metodologie digitali innovative, rilevando informazioni su aspetti dapprima impensabili, dall’osservazione di stelle e galassie lontane, come ad esempio in astrofisica, così come sull’organizzazione molecolare di sistemi biologici, cellule incluse, di diversa complessità e natura. È possibile quindi parlare di big data anche in ambito scientifico, ossia enormi quantità di dati messi a disposizione della ricerca, e punto di partenza per formulare nuove ipotesi, da dimostrare, naturalmente, con il medesimo rigore richiesto in approcci scientifici tradizionali. Anche nel caso dei big data scientifici, non si può prescindere dall’utilizzo di metodologie e strumenti computazionali adeguati e potenti che consentano innanzitutto l’organizzazione dei dati raccolti, mediante banche dati dedicate, e la loro analisi, altrimenti non espletabile con approcci classici e puntuali.

La bioinformatica e i dati molecolari

Tra le discipline scientifiche che si sono evolute grazie alla rivoluzione dell’era digitale c’è la bioinformatica: un settore multidisciplinare della ricerca che si avvale di approcci e metodologie tipiche della biologia e delle scienze matematico-computazionali, per gestire, analizzare ed interpretare i dati biologici. Tra le varie tipologie di dato biologico prodotto, e oggetto di notevole interesse nel settore, prevalgono, tra tutti, i dati biomolecolari, come quelli relativi alla organizzazione degli acidi nucleici (DNA ed RNA), delle proteine, dei metaboliti presenti in un sistema biologico. Si tratta di molecole identificabili per struttura e composizione grazie a tecnologie in grado di produrre grandi quantità di dati grezzi. Questi ultimi necessitano quindi di adeguate procedure per ottenere informazioni utili ad una corretta interpretazione scientifica. Si parla di tecnologie -omiche, ad esempio la genomica, la trascrittomica, la proteomica, la metabolomica, ad indicare, grazie al suffisso -oma, l’insieme di elementi appartenenti ad una specifica classe biologica, utili a sostenere sforzi scientifici mirati a caratterizzare l’organizzazione molecolare in un preciso momento della vita cellulare, e a consentire l’interpretazione di funzionalità anche molto complesse grazie all’insieme dei dati raccolti e ad una rigorosa progettazione sperimentale. Ne è derivata la disponibilità del genoma di numerose specie, anche non più viventi, ad esempio da reperti fossili (DNA antico); la capacità di comparazioni per identificare funzionalità simili, o caratterizzare processi evolutivi sulla base di dati conservati o varianti nel tempo, anche tra specie molto differenti, dai virus, ad organismi unicellulari e/o multicellulari, come animali e piante, tutte costituite dallo stesso tipo di biomolecole. Si tratta di attività ormai diffuse, ma con sfide decisamente ancora aperte. Siamo infatti ben lontani dalla possibilità di una rappresentazione digitale dinamica ed in tempo reale di un sistema biologico, anche semplice, basato su dati reali e modelli predittivi (digital twin), e simulare, ad esempio, lo sviluppo di un essere vivente a partire dalla sola conoscenza del genoma presente nello zigote prodotto dal processo di fecondazione.

Il ruolo degli Open Data nella Bioinformatica: impensabile tenere i dati in un cassetto!

Il volano che ha reso la bioinformatica efficace e di alto impatto scientifico è stato il dare e l’avere accesso libero ai dati resi disponibili dalle tecnologie -omiche. Una strategia di Open Data, con dati resi accessibili, riutilizzabili liberamente e condivisibili senza restrizioni, favorita dalla necessità di gestire un dato di per sé già digitalizzato, e dal beneficio collettivo determinato da una organizzazione condivisa. Impensabile un progetto di sequenziamento di un genoma, soprattutto se finanziato con fondi pubblici, con risultati non accessibili: un modo per ottimizzare i costi, implementare il contributo scientifico, consentire indagini in altri contesti, ad esempio, comparazione con specie anche molto diverse, per identificare caratteristiche comuni e distintive. Questo basilare concetto di condivisione, oltre ad essere un modus operandi tipico nel settore sin dalla pubblicazione delle prime sequenze biologiche da parte di Margaret Dayhoff, nel 1965, è stato peraltro sancito dal principio delle Bermuda (1996): un insieme di regole etiche e operative stabilite durante una serie di incontri internazionali tra scienziati coinvolti nel Progetto Genoma Umano, con l’obiettivo di garantire che i dati genomici prodotti da grandi progetti pubblici fossero rilasciati rapidamente, liberamente accessibili e disponibili a tutti, in modo da sostenere la ricerca scientifica per gli innumerevoli aspetti che questi dati potessero supportare. Ciò utile anche ad evitare che queste informazioni biologiche cruciali finissero chiuse in database privati o brevettate prematuramente.

Su questa base, si è supportata la creazione di database pubblici di riferimento mondiale per la raccolta dei dati molecolari.Queste risorse sono usate quotidianamente da ricercatori di tutto il mondo per fare scoperte, convalidare esperimenti o costruire nuovi modelli di studio, e per raccogliere nuove collezioni di dati da essi prodotte.

Una sfida multidisciplinare: oltre il dato biologico

La strategia open data che ha caratterizzato la bioinformatica ha sicuramente determinato un’accelerazione inimmaginabile del progresso scientifico biologico. Il messaggio etico trasmesso dal principio delle Bermuda ha sancito che la conoscenza genetica umana è un bene comune, anticipando il dibattito su Open Science, Diritti sui dati biologici, Equità nell’accesso alle informazioni scientifiche, anche per Paesi a basso reddito, e ribadito che la trasparenza e la condivisione dei dati scientifici, non solo biologici, sono essenziali per il progresso, non solo scientifico, ma anche sociale ed economico di un paese. Sancire che le scienze -omiche dovessero essere aperte e condivise ha gettato le basi per i moderni principi FAIR (Findable, Accessible, Interoperable, Reusable) (2016) per la gestione e divulgazione dei dati scientifici, divenendo la base di un modello da espandere a tutti gli altri settori della ricerca, non esclusivamente quella biologica. Si tratta di un modello culturale e politico di respiro internazionale su cui si stanno sviluppando azioni e strategie condivise a livello globale, europeo e nazionale per spingersi anche oltre il mondo scientifico. Si pensi all’immediatezza di un’analisi diretta su dati digitalizzati rispetto alla lettura di complessi documenti specialistici con dati descritti su supporto cartaceo. Si tratta di una modalità innovativa per l’accessibilità e divulgazione dei prodotti della ricerca scientifica, a beneficio di tutti: il mondo della ricerca, le imprese, i politici ed i cittadini. La vera innovazione passa quindi non solo dalla raccolta e analisi del dato, ma dalla capacità di connettere esperti, discipline, e fonti di datiin modo armonico e semanticamente coerente. La capacità tecnologica tipica dell’era digitale di condividere informazioni provenienti da contesti differenti, ma connessi, come dati biomedici, sociali, ambientali, comportamentali e organizzativi, preludendo alla possibilità di interpretare informazioni integrate, pone in maniera ancora più rimarchevole la sfida della multidisciplinarietà per favorire il dialogo in ambiti totalmente diversi. Una trasformazione scientifica, tecnologica e sociale che non può prescindere da una formazione adeguata e innovativa: dalla scuola all’università, abbattendo silos culturali che potrebbero limitare una visione di insieme, favorendo la formazione continua anche dei professionisti.

Gli open data: quali opportunità dalla trasparenza?

In ambito sanitario, durante la pandemia di COVID-19, la condivisione dei dati genetici del SARS-coronavirus 2 ha permesso di identificare rapidamente varianti e la loro origine, consentendo analisi epidemiologiche ed il rapido sviluppo di approcci diagnostici e di intervento, con impatto anche sulla gestione politica della crisi. Tutto grazie ad una rete globale dei dati che si sono resi accessibili, favorendo la condivisione e collaborazione scientifica. Si pensi alle ulteriori opportunità, come la possibilità di disporre pubblicamente dei risultati di una terapia oncologica condotta in un ospedale senza attendere la pubblicazione di una rivista scientifica, che può prevedere mesi o anni, o degli esiti positivi o meno di altro tipo di approccio terapeutico, o di condividere modalità di trattamento di un suolo agricolo per consentire studi di associazione mirati a ridurre l’impatto ambientale, o di offrire dati da livelli di inquinamento e patologie in un territorio, consentendo di misurare il nesso causa-effetto. Approcci concreti, effettivamente realizzabili, ma non ancora così diffusi, o per lo meno non ancora così trasparenti, per ragione di privacy, di interesse economico o per la necessità di adeguate politiche di gestione.

Di fatto, sebbene l’ampio respiro di approcci Open, e le inestimabili ulteriori opportunità che l’accessibilità ai dati prodotti con fondi pubblici potrebbero offrire per il benessere e la sostenibilità della comunità globale, si comprende che siamo ancora lontani dal mettere tutti d’accordo! Si era partiti dicendo che la scienza si basa su osservazioni, dati e metodi, che devono essere condivisi per garantire attendibilità e affidabilità. Bene! Cosa ancora limita l’implementazione diffusa di principi FAIR e politiche Open data su dati prodotti da fondi pubblici?