Iratkozz fel a blogra!

Magamról

Barta Endre vagyok, molekuláris biológus, bioinformatikus.

A célom ezzel a bloggal, hogy a saját szemszögemből bemutassam a genomikát.

Különböző rovatokat tervezek, így a napi és a heti hírek, a napi és a heti genomok, a miaza rovatot, amiben a genomika fogalmait próbálom bemutatni, és mivel elég későn csatlakoztam, lesznek retrospektív posztok is. Szeretnék néha egy kicsit provokatív is lenni és így érdemi vitákat generálni a szakmában és más érdeklődők között is.

E-mail: endre.barta [at] gmail.com

Friss topikok

  • madbal: Kedves Endre! En azt az informaciot talaltam, hogy a szekvenalas 454 technologiaval tortent, www.m... (2011.09.23. 15:19) Kender genomszekvenálás
  • attila.szanto: Szia Endre! Gratulalunk a bloghoz, nagyon szinvonalas es erdekes. Sok sikert hozza! (2010.05.01. 20:36) Mi az a referencia genom?

Utolsó kommentek

  • madbal: Kedves Endre! En azt az informaciot talaltam, hogy a szekvenalas 454 technologiaval tortent, www.m... (2011.09.23. 15:19) Kender genomszekvenálás
  • attila.szanto: Szia Endre! Gratulalunk a bloghoz, nagyon szinvonalas es erdekes. Sok sikert hozza! (2010.05.01. 20:36) Mi az a referencia genom?
  • Utolsó 20

Címkék

Linkblog

A „nagy adat” és az „omikák”

2014.09.30. 15:33 :: NagyG86

Az informatika rohamos fejlődése is kevésnek bizonyul olykor a technikai fejlődés kihívásainak leküzdésére (1. ábra). A mindennapi élet és tudomány olyan nagy mennyiségű adatot termelnek, amelynek kezeléséhez, tárolásához, szűréséhez, mozgatásához, feldolgozásához, megjelenítéséhez és például az abban való kereséshez egyre nagyobb kapacitásra van szükség mind az eszközöket mind a munkaerőt tekintve. 2012 óta a világ naponta nagyjából 2.5 exabájt (2.5×260 bájt) adatot generál. A „nagy adat” mérete manapság petabájtos (250 bájt) is lehet, amelynek gyors és kényelmes kezeléséhez a hagyományos módszerek már nem elegendőek (http://en.wikipedia.org/wiki/Big_data). Ilyen „nagy adat”-nak tekinthető a különböző állami és/vagy szolgáltató, például pénzügyi adatbázisok sokasága, illetve a talán még nagyobb ütemben növekvő tudományos adatbázisok. A fizika, biológia és orvostudomány mérései és megfigyelései hasonló adatbázisokba kerülnek, bár az adatok jellege és összetettsége különböző. A meteorológiai és ökológiai megfigyelések és a fizikai modellezések nagyszámú változóval és viszonylag nagy felbontással történnek, míg az idegrendszer kapcsolatait vizsgáló konnektomika hasonló kihívásokat rejt magában, mint a közösségi hálózatok tanulmányozása. A „nagy adat”-ra jellemző, hogy mindig több szinten értelmezhető, és a méretétől függően újabb összefüggéseket, törvényszerűségeket tár elénk, így alkalmas lehet bizonyos dolgok előrejelzésére is.

NGSv4_fig1.png

1. ábra: A “nagy adat” mennyisége várhatóan továbbra is exponenciális növekedést mutat majd, és az adatok hozzávetőleg 80%-ának kezelése láthatóan különleges módszereket igényel (http://www.sec.gov/Archives/edgar/data/51143/000110465913015636/a13-6155_18k.htm).

A csillagászat, például a Hubble űrtávcső által létrehozott nagyfelbontású képek hasonló informatikai kihívást jelentenek, mint a jelenleg a genomika alapját jelentő új generációs szekvenálás (DNS bázissorrend meghatározás) során készített képek. Ez utóbbi képek többszáz millió rövid (50-100 bázisos) DNS szekvencia leolvasását teszik lehetővé párhuzamosan egyszerre, a korábbi kisszámú hosszú (körülbelül 1000 bázisos) szekvencia leolvasásával szemben (http://en.wikipedia.org/wiki/DNA_sequencing). Míg az ember teljes genetikai információjának, a humán genomnak a meghatározásához először egy évtized sem volt elegendő (1990-2003) (http://en.wikipedia.org/wiki/Human_Genome_Project), jelenleg néhány szakember közreműködésével (bár még nem túl olcsón) hetek alatt összerakható bárki teljes genetikai kódja. Az új generációs szekvenálás megjelenése robbanásszerű fejlődést hozott az összes nukleinsav (DNS/RNS) alapú módszer számára: 2008 óta sorra jelennek meg az újabbnál újabb nukleinsav omikai módszerek, amelyek elhozták a biológia- és orvostudományok egyik legújabb forradalmát. A humán genom meghatározása óta több tízezer személy genomja (többtíz petabájtnyi adat) lett meghatározva (2. ábra; http://ark-invest.com/genomic-revolution/declining-costs-of-genome-sequencing, http://en.wikipedia.org/wiki/1000_Genomes _Project, http://www.genomicsengland.co.uk/the-100000-genomes-project), de ez önmagában sajnos nem volt elegendő a várt robbanásszerű fejlődéshez az összetett betegségek okainak felismerésében és e betegségek orvoslásában. Kiderült, hogy a génállomány sokkal nagyobb részének van feladata, tehát sokkal nehezebb megtalálni a „hibás tényező”-ket, mint azt korábban gondolták. A fehérjekódoló gének mellett jelentős szerepe van az újabban felfedezett nagyszámú, nagyrészt ismeretlen működésű „RNS gén”-eknek és a génekhez tartozó szabályozó régióknak. Ezek a régiók bármilyen távol elképzelhetőek az általuk szabályozott génektől a genomban; megtalálásuk és gén(ek)hez rendelésük a biológia jelenlegi nagy kihívásai közé tartozik.

A genom szabályozási egységeinek együttműködését a funkcionális genomika vizsgálja, amely magában foglalja a szabályozó régiókat kötő fehérjék vizsgálatát (cisztromika, epigenomika), az újonnan képződött és érett RNS-ek (transzkriptomika) és fehérjék vizsgálatát (proteomika), és ezek kölcsönhatásainak kutatását (interaktomika). A betegségek gyógyításában nagy szerepe van az egyéni genetikai különbségeknek. Ezek vizsgálatára szakosodott a perszonális genomika, és a családok génállományának vizsgálatát is hívhatjuk összehasonlító genomikának. Az emberek bizonyos reakciói a különböző táplálék összetevőkre, gyógyszerekre és mérgekre genomjuk ismeretében megjósolhatóak (lesznek). Az ezzel foglalkozó tudományágak rendre a táplálkozási, farmako- és toxikogenomika. Magukra a táplálékokra az „étel-omika” szakosodott (http://en.wikipedia.org/wiki/Omics). A genomika persze nemcsak az emberrel és modellállatokkal (egér, ecetmuslica, fonálféreg) foglalkozhat; az orvostudományok mellett egyre nagyobb szerepe van a biológia- és agrártudományokban is. A genomika a különböző fajok genetikai kódjának meghatározásával és összehasonlításával folyamatosan felülírja a fejlődéstan és rendszertan tudományait és a gének kialakulásáról alkotott képünket, mivel az újonnan „megszekvenált” fajok egyre pontosabban kirajzolják az evolúciós törzsfát és egyre több információval szolgálnak a rokon gének eredetéről és változatairól (ami még az orvostudományokban is jól jöhet!). Az Ensembl adatbázis (és genomböngésző) kezdetben az elérhető gerincesek (ember és főemlősök, egér és rágcsálók, ragadozók és patások, madarak, halak, stb.) genetikai információit gyűjtötte össze egy helyen (innen a neve is: ensembl = együtt; http://www.ensembl.org/info/about/species.html); folyamatosan bővül, és mára kiegészült az elérhető alacsonyabbrendű állatokkal, például rovarokkal, növényekkel, gombákkal és baktériumokkal is (http://ensemblgenomes.org/info/genomes).

A DNS molekulák nagy számban történő párhuzamos szekvenálása egy egészen újszerű tudomány létrejöttét is lehetővé tette. A metagenomika különböző környezeti minták kevert génállományainak darabkáit vizsgálja. Ilyen környezeti minta lehet például a talaj, a vizek vagy a bőr- és bélflóra. Craig Venter kutatócsoportja földkörüli „óceánminta” szekvenálásából csak a Sargasso-tengerből 1.2 millió, korábban ismeretlen gént írt le, melyek legalább 1800 baktériumfajból származnak (http://www.jcvi.org/cms/research/projects/gos/overview, http://www.ncbi.nlm.nih.gov/pubmed/15001713). Az újonnan felfedezett gének a biológiai jelentőségük mellett ipari jelentőséggel is bírhatnak: A gének által kódolt enzimek különleges vegyületek létrejöttét segíthetik elő, amelyek hasznosak lehetnek például a gyógyszeripar számára. Az újonnan felfedezett enzimek hatékonyan bonthatják a szintetikus, ökológiai veszélyt jelentő, nehezen bomló vegyületeket; a hőtűrő bontóenzimek pedig például mosóporok összetevőivé válhatnak. Az emberi flóraelemek arányának megváltozása sok (például autoimmun) betegség kialakulásában szerepet játszik, ezek vizsgálata és akár transzplantációja egyre elfogadottabb, egyre több helyen általános orvosi gyakorlat (http://en.wikipedia.org/wiki/Fecal_bacteriotherapy, http://www.ncbi.nlm.nih.gov/pubmed/19963349).

A nukleinsavak tömeges meghatározása mellett kifejlesztették az adott sejt- vagy szövettípusra jellemző kis szerves molekulák (metabolomika), a zsíroldékony szerves molekulák (lipidomika) és a fehérjék összességének (proteomika) meghatározását is (http://en.wikipedia.org/wiki/Omics). Létezik olyan módszer is, amely megkülönbözteti a fehérjemódosításokat, még több alapot nyújtva a sejtek anyagcsere és jelátviteli útvonalainak és azok elváltozásainak tanulmányozásához (http://en.wikipedia.org/wiki/Signal_transduction). Az útvonalak hálózata (mellyel a rendszerbiológia vagy sziszteomika foglalkozik) bizonyos szereplők vagy kapcsolatok ismeretének hiányában és a kölcsönhatások sokfélesége miatt még nagyrészt feltáratlan (http://en.wikipedia.org/wiki/Systems_biology). A fő útvonalak bizonyos sejttípusokból ismertek, de mivel nincs két egyforma sejtünk, a hálózat nagyon eltérően működhet. A közvetlen kölcsönhatások „felszínei" ezért is nagyon fontosak, kutatásuk megköveteli a fehérjék felépítésének és dinamikájának részletekbe menő ismeretét. A szerkezeti bioinformatika nemcsak lineáris nukleinsav és aminosav szekvenciákkal, hanem a molekulák és komplexeik háromdimenziós szerkezetével is foglalkozik, például kis-RNS molekulák, enzimek vagy gyógyszermolekulák célpontjait kutatva.

NGSv4_fig2.png

 

2. ábra: A jelenleg meghatározott, a 2014-ben meghatározható és a következő 5 illetve 10 évben várható humán genomok száma (http://ark-invest.com/genomic-revolution/declining-costs-of-genome-sequencing).

Az omikák adatainak és az egyéb „nagy adat”-oknak a kezelése és összehasonlítása általában több tudományterületet is érint. A molekuláris biológiában és genomikában használt műszerek nagy részének fejlesztését a biológusok mellett fizikusok, vegyészek, mérnökök és informatikusok végzik, de más területen is jellemző, hogy az adatok begyűjtésének és feldolgozásának a különböző stádiumai különböző szaktudást igényelnek. A „nagy adat”-ok kezeléséhez minden esetben szükség van az informatikában jártas szakemberre. A Gartner (amerikai információtechnológiai vállalat) előrejelzése szerint a „nagy adat” 2015-ben világszerte 4.4 millió új munkahelyet fog teremteni, melynek valószínűleg a kétharmada betöltetlen marad (1. ábra; http://hvg.hu/tudomany/20140513_3_millio_szabad_allas_lesz_bigdata). Az új adatok jelentős részét az emberi genom által kódolt információ adhatja, ugyanis az előrejelzések azt mutatják, hogy tíz éven belül az emberek nagyobb fele (több mint 4 milliárd ember!) rendelkezhet a saját genetikai kódjával (2. ábra). Emellett persze ott lesznek a kísérleti, diagnosztikai és más fajokból származó szekvencia- és egyéb információk is. Kérdéses viszont, hogy a „nagy adat”-nak köszönhető állásokból mennyit tudnak végül betölteni. A bioinformatikusok többsége biológusból képezte át magát, így nem váltak programozóvá, de együtt tudnak dolgozni az informatikusokkal és akár önálló informatikai fejlesztésre is képesek lehetnek. Egyre inkább jellemzővé válik ez a fajta átképzés és együttműködés a különböző területről érkezett szakemberek között, de ennek oktatása Európában a legtöbb helyen sajnos nem eléggé hatékony. A fogyasztói igények azonban előbb-utóbb ezen a téren is el kell, hogy érjék az elvárt fejlődést, így remélhetőleg hamarosan, az adatmennyiség rohamos növekedésének ellenére is csökkenni fog a szakemberhiány mértéke.

NKP.png

 

 

A kutatás a TÁMOP 4.2.4.A/2-11-1-2012-0001 azonosító számú Nemzeti Kiválóság Program – Hazai hallgatói, illetve kutatói személyi támogatást biztosító rendszer kidolgozása és működtetése országos program című kiemelt projekt keretében zajlott. A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával valósul meg.

Szólj hozzá!

Címkék: vendégposzt big data

Újraéled a blog

2014.09.30. 15:33 :: ebarta

Három évi feltöltődés után megpróbálom újraéleszteni a blogot. Ehhez külső segítséget is kértem. Rögtön az első posztot Nagy Gergely PhD hallgatóm jegyzi.

 

Szólj hozzá!

Címkék: admin

BGI központ Budapesten!

2011.09.14. 09:21 :: ebarta

Bréking! A BGI Budapesten létesíti a közép-európai központját!


Tegnap még csak egy-egy internetes hírportálon, ma már a reggeli újságokban és gyakorlatilag az összes hírportálon és most már a Nemzeti Fejlesztési Minisztérium honlapján is olvasható, hogy Semjén Zsolt bejelentette, hogy a BGI Magyarországon hozza létre a közép-európai központját.


A BGI-ről már többször írtam ebben a blogban (pl. itt). A név eredetileg a „Beijing Genomics Center” rövidítése volt, de az intézetet 2007-ben átköltöztették Shenzhen-be, ahol egy non-profit kutatási intézetként működik, és szerényen csak a „legnagyobb genomikai és bioinformatikai elemző központ”-nak hirdeti magát. Amit csinálnak, az valóban kínai léptékű, kezdve a rizs genomszekvenálásával és folytatva a legtöbb Nature-ben megjelent genomszekvenálásban való részvétellel, és a mostanában indult 1000 növény- és állatgenom projekttel. A BGI ma már egy nagy szolgáltató központ is, ahol állítólag 1000-nél több bioinformatikus is dolgozik. A BGI már annyira nagy, hogy terjeszkedik is, az amerikai, az ázsiai és a hongkongi regionális központok mellett tavaly nyáron Koppenhágában megnyitotta az európai központját is.


És tegnap Semjén Zsolt miniszterelnök-helyettes bejelentette, Mészáros György a NIH elnöke pedig alá is írta a megállapodást, aminek értelmében Budapesten hozzák létre a BGI Európa közép-európai központját (a minisztériumi közlemény itt, a BGI Europe közlemény itt).


Természetesen, mint genomikus-bioinformatikus nagyon örülök ennek a bejelentésnek! Mindenképpen részletesebben szeretnék a későbbiekben írni a fejleményekről, most gyorsan csak négy megjegyzés:

 

  1. Nem tudok, nem hallottam róla hogy a szakma, a kutatók részt vettek volna az előkészítésben, és arról se, hogy jelen lett volna valaki az eseményen közülük (például létezik egy Genomikai Nemzeti Technológiai Platform).
  2. Arról szól a közlemény, hogy a magyar mezőgazdaság érdekeit is szolgálja ez az együttműködés, de nem láttam, hogy a Vidékfejlesztési Minisztérium részéről bárki ott lett volna, beszédet mondott volna (bár a vadászat azért magas szinten képviselve volt).
  3. Kiemelik, hogy az új intézet fontos azért is, mert munkahelyeket fog létrehozni. A nagy probléma csak az, hogy Magyarországon a szakma folyamatos kérése, szervezése ellenére nincs bioinformatikus képzés, és véleményem szerint csak egy-két olyan bioinformatikus dolgozik itthon, aki már most tudna genomszekvenálási adatokat elemezni.
  4. Nagyon várok/várnánk konkrétumokat. Hol lesz, mekkora lesz, mikor lesz, milyen együttműködési formában fog működni a magyar kutatóintézetekkel, egyetemekkel stb.

Szólj hozzá!

Címkék: bréking genomika napihír bgi

Kender genomszekvenálás

2011.08.20. 10:33 :: ebarta

Megakadt a szemem egy index cikken, aminek a címe: „Megfejtették a vadkender genomját”. Aztán arra kaptam fel a fejem a cikkben, hogy „A kutatócsoport egyelőre a nyers genetikai információt tette közzé, ami 131 milliárd bázispárt jelent.”. Utánajártam egy kicsit a dolgoknak és a következők derültek ki:

Valóban egy holland, amszterdami biotech cég végezte a kender (Cannabis sativa) genomszekvenálását (itt a kender illetve a vadkender nem tévesztendő össze se a parlagfűvel, se az indiai kenderrel). Most nem is arról szeretnék írni, hogy ennek milyen orvosi jelentősége van, hanem a jelenségre szeretném felhívni a figyelmet. Név szerint arra, hogy ma már gondol egyet az ember, és becslésem szerint 10-15 millió forintból megszekvenál egy genomot.

Mit jelent ez a jelen esetben? Azt hogy egy Illumina HiSEQ szekvenátorral csináltak gyakorlatilag egy futtatást (5-6 nap), összesen 131 milliárd bázispárnyi szekvencia adatot kapva . Ez azt jelenti, hogy durván 655 millió átlagban 250 bázispár hosszú DNS darab mindkét végéről leolvastak 100-100 bázispárt.

Az úgynevezett durva szekvenálási adatokat egyből közzé is tették, fastq formában letölthető 14 tömörített fájl, egyenként 6-7 GByte méretben (kicsomagolva 20-24 GByte).

Az érdekes dolog itt kezdődik. Mivel a kenderfélék a Rosales rendbe tartoznak, sejtésem szerint a legközelebbi megszekvenált rokona a kendernek az alma. A növényeknél eleve nagyon közeli fajoknál is nagy genomkülönbségek lehetnek (erre jó példa az Arabidopsis thaliana és a lyrata), tehát teljesen esélytelen, hogy például az alma genomszekvenciát referencia genomként használjuk a kender genomhoz. Marad tehát a de novo genomösszerakás, ami azt jelenti, hogy veszik a megszekvenált 100 bázispáros darabokat, amelyekről ráadásul páronként tudják, hogy összetartoznak, és megpróbálják átfedő régiókból összerakni a kromoszómaszekvenciákat. Elvileg erre jó esély van, hiszen ez a 131 milliárd bázispár a cég szerint a kb. 400 millió bázispáros genomot feltételezve 372 szeres lefedettséget jelent (összehasonlításképpen, a Humán Genom Project 8-9 szeres lefedettségnél állapította meg a humán genom szekvenciáját), azaz elméletileg a genom bármely pontjára 372 darab megszekvenált bázis illeszkedik egy száz bázispáros darab részeként. Ha ezek a 100 bázispáros darabok nem ugyanonnan indulnak, akkor így elméletileg nagy esély van rá, hogy össze lehessen rakni a genomot. Persze a gyakorlatban minden más! A sajtóközleményben az szerepel, hogy a számítógépes kapacitások hiánya miatt a 7 használt csatornából („channel” vagy „lane”) egyszerre csak kettőt tudtak analizálni (így a lefedettség durván százszorosra csökkent), és ennek az eredménye finoman szólva se kielégítő.

A cég most a nyers adatokat közzétéve azt kéri a tudományos közösségtől, hogy próbálják meg kitalálni, hogyan lehetne a teljes adatmennyiséget felhasználva összerakni a kender genomot. Szóval akinek van otthon egy számítógépe mondjuk 1-2 TByte RAM-mal, az próbálkozzon!
 

1 komment

Címkék: növény genom illumina de novo

5000 dolláros genomszekvenálás

2011.05.10. 10:38 :: ebarta

A GenomeWeb szerint az Illumina csökkentette a humán genomszekvenálási szolgáltatása árait. Ez azt jelenti, hogy ha valaki tíz humán genom szekvenálását megrendeli, akkor csak 50 ezer dollárt kell fizetni (5000$ / genom). Ha ezt forintosítjuk (200 forintos dollárral és 25%-os Áfával számolva), akkor az jön ki, hogy 12.5 millió forintért meg lehetne határozni genomot. A szolgáltatásban vállalják a 30x autoszómális lefedettséget, és kézhez adják a durva szekvenálási adatokat, a genomra illesztett szekvenciákat és a minimum 3 millió SNP listáját (ennyivel még az „átlagember” is különbözik a referencia genomtól). Hozzáteszem, hogy a Complete Genomics, csak az első negyedévben 600 genomot szekvenált megrendelésre.


Érdemes ezen elgondolkodni egy kicsit. Bár egy kutatási (K) OTKA pályázatban nem lehet egy évre ennyit nyerni, és nem is hiszik el, hogy ennyiért lehet szekvenálni (az én OTKA pályázatomat azzal utasították el, hogy alulterveztem a TSS-seq szekvenálási költséget, ezért kivitelezhetetlen a pályázat), egy-két éve még a megboldogult NKTH pályázatokon három-négyszázmillió forintokat osztottak ki. Ehhez képest érthetetlen, hogy;

  • Miért nincs még magyar genom megszekvenálva?
  • Miért nem írtak még ki magyar genomikai pályázatokat?
  • Miért nincs erre a magyar államnak 10-20 millió forintja?
  • Miért nincsenek olyan magyar genomikai kutatóhelyek, amelyek már korábban pályáztak volna ilyen projektekre?
  • Miért nem érdekli a magyar gyógyszergyárakat a genomika?

Nem akarom a témát tovább ragozni, itt a blogomban már számtalan példát mutattam be, hogy hogyan lehet a genomikát, a genomszekvenálást használni az orvosi és a mezőgazdasági kutatásokban. És aki figyeli a fontosabb újságokat, az láthatja, hogy egyre több genomszekvenáláson alapuló publikáció jelenik meg a rák és a genetikailag öröklődő betegségek kutatásában, valamint természetesen a mezőgazdasági biotechnológiában is.

Az is világosan látszódik, hogy ezekben a publikációkban folyamatosan csökken a kísérleti kutatás aránya a bioinformatika ellenében mind a ráfordított pénzek, mind a felhasznált humán erőforrás tekintetében (a szerzők közt egyre több a bioinformatikus).
Megjegyzem, ez a trend előrevetíti ugyanazt a folyamatot, ami a microarray technológiánál játszódott le 4-5 éve. Nevesül hogy nagyon hamar megtörtént, hogy egy teljes genom csip olcsóbb lett, mint egy megrendelésre készített és csak a vizsgálandó géneket tartalmazó csip. Hasonlóan, az újgenerációs szekvenálásoknál is azt látom, hogy lassan olcsóbb lesz egy teljes genom szekvenálás (és amellett sokkal több információt is ad), mint például egy exom szekvenálás (exon-capture technikával). Ez azért is érdekes, mert az országban már van két nagy és vagy három kicsi (junior) Roche 454-es szekvenátor, amelyek leginkább csak a capture szekvenálásra alkalmasak (no meg mikrobiális projektekre, amelyekből szintén nem sok van itthon), és azt is nagyon nagy fajlagos költségekkel. Kíváncsi vagyok, mire fogjuk ezeket a nagyon drága gépeket használni.
 

És persze, ha valaki ezután akar beadni teljes genom szekvenálásra pályázatot, akkor akár már 3000 dolláros árral is számolhat, egészen biztos, hogy mire megnyeri a pénzt, már annál is olcsóbb lesz (csak a bírálók is elhiggyék ezt neki).

Szólj hozzá!