In memoriam SRA

2011.02.16. 23:01 :: ebarta

Korábban akartam írni egy posztot az EMBL adatbázis eltűnéséről. Most azonban sajnos egy NCBI-os bejelentés kapcsán egy másik adatbázis haláláról, vagy legalábbis hibernálásáról kell írnom.

Az SRA (Sequence Read Archive) adatbázis tulajdonképpen a Trace Archive lerakat újgenerációs folytatása. A Trace Archive adatbázis a hagyományos Sanger-féle szekvenálások adatait tartalmazza. Nemcsak a szekvenciákat, hanem az egyes bázisok leolvasásának a minőségi értékeit is. Az elsődleges adatbázisokban a már összerakott szekvenciákat tárolják, ellenben ha az adott szekvenciát mondjuk 6X lefedettséggel szekvenálták, akkor a Trace Archive-ban 12x annyi adat lesz (6x a szekvencia és 6x a minőségi értékek). A Trace Archive-ba a legtöbb adatot 2000 és 2005 között rakták, amikor sorban szekvenálták a gerinces genomokat a shotgun módszerrel.

Amikor elindultak az újgenerációs szekvenálások, nyilvánvaló volt, hogy ezeknek a nyers adatait is egy adatbázisban kell összegyűjteni. Ez lett az SRA. Eleinte lelkesen a beszkennelt képfájlokat is tárolták, majd hamar nyilvánvalóvá vált, hogy ez tarthatatlan, és amúgy sincs rá szükség. Aztán egészen a mai napig úgy tűnt, hogy ez egy fenntartható állapot, bár már voltak jelek hogy gondok vannak, a fájlok letöltésére például egy ASPERA CONNECT nevű programot ajánlanak (ez nekünk ingyenes, de az NCBI nyílván fizet a szerverért).

Mire lehetett használni az adatbázisban tárolt adatokat?

Én például most írtam egy szkriptet, ami automatikusan letölti az SRA-ban tárolt ChIP-seq nyers szekvenálási adatokat és feldolgozza (referencia genomhoz illeszti, megkeresi a ChIP régiókat, peak-eket, majd elemzi) azokat. Bár a peak régiók adatai a beküldők cikkeiben leírtak szerint általában szintén elérhetőek, sokszor érdemes újra analizálni a nyers adatokat.

Mi lehet az oka az adatbázis megszűnésének?

A közleményben anyagi okokra hivatkoznak, ami ismerve az NCBI és általában az amerikai kutatások finanszírozását, kissé viccesnek tűnik. Inkább azt gondolom, hogy a jelenlegi szinten lehetetlen fenntartani a szolgáltatás színvonalát, azaz
1. Nem tudnak annyi új diszket venni/installálni amennyi kell
2. De méginkább az, hogy technikailag nem tudják biztosítani a sávszélességet a le és feltöltéseknek.
Ha ez igaz, az azért is nagyon érdekes, mert amióta (1993) aktívan figyelemmel kisérem a bioinformatika és a számítástechnika fejlődését, azt láttam, hogy a kettő valamennyire együtt fejlődik, és ez a harmónia tört/törik most meg.
Mi a helyzet Európában? Az EBI egyből kiadott egy közleményt, hogy folytatják a nyers szekvenálási adatok befogadását az ENA adatbázisban (ami a poszt elején említett EMBL utódja).
Összefoglalva azt lehet mondani, hogy az eset ismételten rávilágít arra a problémára, hogy az újgenerációs szekvenálások kezelése információtechnológiailag is egyre nagyobb kihívást jelentenek. Erre jó lenne felkészültnek lenni. Az egyik lehetséges és nagyon hatékony módszer az erőforrások szétosztása, disztribúciója lenne. Az EU-ban van egy kezdeményezés az EBI vezetésével amit ELIXIR-nek hívnak. Ez pontosan ezt csinálná, de sajnos eddig csak néhány európai ország csatlakozott (persze Magyarország se). Remélem ez az eset rávilágít arra, hogy milyen fontos lenne egy ilyen együttműködés.

Facebook Tumblr Tweet Pinterest Tetszik

Szólj hozzá!

Címkék: elixir ebi ngs napihír ncbi

A bejegyzés trackback címe:

https://genomika.blog.hu/api/trackback/id/tr662666705

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.

Utolsó kommentek

madbal: Kedves Endre! En azt az informaciot talaltam, hogy a szekvenalas 454 technologiaval tortent, www.m... (2011.09.23. 15:19) Kender genomszekvenálás
attila.szanto: Szia Endre! Gratulalunk a bloghoz, nagyon szinvonalas es erdekes. Sok sikert hozza! (2010.05.01. 20:36) Mi az a referencia genom?
Utolsó 20

Genomikai blog

Iratkozz fel a blogra!

Magamról

Keresés

Friss topikok

Utolsó kommentek

Címkék

Linkblog

Blogajánló

Archívum

Egyéb

Licenc

In memoriam SRA

2011.02.16. 23:01 :: ebarta

Szólj hozzá!

Címkék: elixir ebi ngs napihír ncbi

A bejegyzés trackback címe:

Kommentek:

Genomikai blog

Iratkozz fel a blogra!

Magamról

Keresés

Friss topikok

Utolsó kommentek

Címkék

Linkblog

Blogajánló

Archívum

Egyéb

Licenc

In memoriam SRA

2011.02.16. 23:01 :: ebarta

Szólj hozzá!

Címkék: elixir ebi ngs napihír ncbi

Ajánlott bejegyzések:

A bejegyzés trackback címe:

Kommentek: