Korábban akartam írni egy posztot az EMBL adatbázis eltűnéséről. Most azonban sajnos egy NCBI-os bejelentés kapcsán egy másik adatbázis haláláról, vagy legalábbis hibernálásáról kell írnom.
Az SRA (Sequence Read Archive) adatbázis tulajdonképpen a Trace Archive lerakat újgenerációs folytatása. A Trace Archive adatbázis a hagyományos Sanger-féle szekvenálások adatait tartalmazza. Nemcsak a szekvenciákat, hanem az egyes bázisok leolvasásának a minőségi értékeit is. Az elsődleges adatbázisokban a már összerakott szekvenciákat tárolják, ellenben ha az adott szekvenciát mondjuk 6X lefedettséggel szekvenálták, akkor a Trace Archive-ban 12x annyi adat lesz (6x a szekvencia és 6x a minőségi értékek). A Trace Archive-ba a legtöbb adatot 2000 és 2005 között rakták, amikor sorban szekvenálták a gerinces genomokat a shotgun módszerrel.
Amikor elindultak az újgenerációs szekvenálások, nyilvánvaló volt, hogy ezeknek a nyers adatait is egy adatbázisban kell összegyűjteni. Ez lett az SRA. Eleinte lelkesen a beszkennelt képfájlokat is tárolták, majd hamar nyilvánvalóvá vált, hogy ez tarthatatlan, és amúgy sincs rá szükség. Aztán egészen a mai napig úgy tűnt, hogy ez egy fenntartható állapot, bár már voltak jelek hogy gondok vannak, a fájlok letöltésére például egy ASPERA CONNECT nevű programot ajánlanak (ez nekünk ingyenes, de az NCBI nyílván fizet a szerverért).
Mire lehetett használni az adatbázisban tárolt adatokat?
Én például most írtam egy szkriptet, ami automatikusan letölti az SRA-ban tárolt ChIP-seq nyers szekvenálási adatokat és feldolgozza (referencia genomhoz illeszti, megkeresi a ChIP régiókat, peak-eket, majd elemzi) azokat. Bár a peak régiók adatai a beküldők cikkeiben leírtak szerint általában szintén elérhetőek, sokszor érdemes újra analizálni a nyers adatokat.
Mi lehet az oka az adatbázis megszűnésének?
A közleményben anyagi okokra hivatkoznak, ami ismerve az NCBI és általában az amerikai kutatások finanszírozását, kissé viccesnek tűnik. Inkább azt gondolom, hogy a jelenlegi szinten lehetetlen fenntartani a szolgáltatás színvonalát, azaz
1. Nem tudnak annyi új diszket venni/installálni amennyi kell
2. De méginkább az, hogy technikailag nem tudják biztosítani a sávszélességet a le és feltöltéseknek.
Ha ez igaz, az azért is nagyon érdekes, mert amióta (1993) aktívan figyelemmel kisérem a bioinformatika és a számítástechnika fejlődését, azt láttam, hogy a kettő valamennyire együtt fejlődik, és ez a harmónia tört/törik most meg.
Mi a helyzet Európában? Az EBI egyből kiadott egy közleményt, hogy folytatják a nyers szekvenálási adatok befogadását az ENA adatbázisban (ami a poszt elején említett EMBL utódja).
Összefoglalva azt lehet mondani, hogy az eset ismételten rávilágít arra a problémára, hogy az újgenerációs szekvenálások kezelése információtechnológiailag is egyre nagyobb kihívást jelentenek. Erre jó lenne felkészültnek lenni. Az egyik lehetséges és nagyon hatékony módszer az erőforrások szétosztása, disztribúciója lenne. Az EU-ban van egy kezdeményezés az EBI vezetésével amit ELIXIR-nek hívnak. Ez pontosan ezt csinálná, de sajnos eddig csak néhány európai ország csatlakozott (persze Magyarország se). Remélem ez az eset rávilágít arra, hogy milyen fontos lenne egy ilyen együttműködés.
Utolsó kommentek