Iratkozz fel a blogra!

Magamról

Barta Endre vagyok, molekuláris biológus, bioinformatikus.

A célom ezzel a bloggal, hogy a saját szemszögemből bemutassam a genomikát.

Különböző rovatokat tervezek, így a napi és a heti hírek, a napi és a heti genomok, a miaza rovatot, amiben a genomika fogalmait próbálom bemutatni, és mivel elég későn csatlakoztam, lesznek retrospektív posztok is. Szeretnék néha egy kicsit provokatív is lenni és így érdemi vitákat generálni a szakmában és más érdeklődők között is.

E-mail: endre.barta [at] gmail.com

Friss topikok

  • madbal: Kedves Endre! En azt az informaciot talaltam, hogy a szekvenalas 454 technologiaval tortent, www.m... (2011.09.23. 15:19) Kender genomszekvenálás
  • attila.szanto: Szia Endre! Gratulalunk a bloghoz, nagyon szinvonalas es erdekes. Sok sikert hozza! (2010.05.01. 20:36) Mi az a referencia genom?

Utolsó kommentek

  • madbal: Kedves Endre! En azt az informaciot talaltam, hogy a szekvenalas 454 technologiaval tortent, www.m... (2011.09.23. 15:19) Kender genomszekvenálás
  • attila.szanto: Szia Endre! Gratulalunk a bloghoz, nagyon szinvonalas es erdekes. Sok sikert hozza! (2010.05.01. 20:36) Mi az a referencia genom?
  • Utolsó 20

Címkék

Linkblog

Mi az a referencia genom?

2010.04.23. 00:39 :: ebarta

A funkcionális genomika irodalmát, a legújabb cikkeket olvasva egyre többször találkozunk a referencia genom fogalmával. Ilyen eset például, amikor ChIP-SEQ eredményeket vagy egyszerűen transzkripciós faktorok kötőhelyeit közlik valami ilyen formában:
hg18:chr3:1263536:1263545:r.
Ez azt jelenti, hogy a humán referencia genom hg18-as összeépítése, összerakása (build) a hármas kromószómán a kezdő és a végpozíció és hogy a reverz (Crick) szálon van. Ez tehát egy koordináta rendszer, amivel ki lehet jelölni egy pontot, vagy egy szakaszt, azaz e koordináták alapján le lehet tölteni (ki lehet vágni) az adott DNS darabot.
A fentiekből az is kiderül, hogy a következő fontos paraméterek vannak:
1. Hányas számú genomösszerakás
2. Melyik kromoszómán
3. Melyik pozíció
4. Melyik szál

Mi az a genomösszerakás (build)?
Ismert, hogy a 2001-ben amikor közölték a két vázlatos (draft) humán genomot, mindkét esetben a szekvenciát több (férfi) mintából határozták meg (bár már akkor is suttogták, hogy a Celera-s mintában Craig Venter DNS-e is benne volt). Tehát nem egy egyén DNS-ét határozták meg, hanem többét, amit ráadásul a testi kromoszómák esetében szorozni is kell kettővel, mivel nyilvánvaló, hogy édesapánktól és édesanyánktól minden egyes testi kromoszómából két különbözőt kapunk (sőt, egyre inkább úgy tűnik, hogy nagyon is különbözőket). Gondolom az is nyilvánvaló, hogy hiába a humán genom az egyik legjobban tanulmányozott, azért még nem tartunk ott, hogy lenne a 24-féle kromoszómának megfelelő 24 darab egybefüggő DNS szekvenciánk. Ehelyett, mint az a Genom Referencia Konzorcium honlapján látható;


valójában az összes kromoszómán vannak még rések, problémás részek. Mi okozza ezeket? Leginkább a centromérák környéke, vagyis olyan DNS szakaszok, amelyeket nehéz megszekvenálni (pl hosszú homopolimerek, ismétlődő szekvenciák). Emiatt folyamatosan javítják az összerakott szekvenciát (a hg18-ból ki lehet találni, hogy megélt már 18 összerakást), ami így nem egy valódi kromoszómaszekvencia, hanem egy úgynevezett pszeudokromoszóma, ahol a réseket (és a kromoszómavégeket) N-ekkel töltik ki.

Miért fontos tudni, hogy a hg18-ról van szó?

Azért, mert tegyük fel, hogy 2009 elején csinálnak egy egér ChIP-SEQ kísérletet, ahol transzkripciós faktorok által fedett DNS darabokat szekvenálnak, majd az eredményeket ráillesztik az akkor elérhető mm8-as egér genomszekvenciára. A közölt koordináták alapján ellenőrizni akarjuk ma valamelyik fedett régió szekvenciáját, ezért a koordináták alapján letöltjük a szekvenciát a mostani mm9-es genomszekvenciából. Könnyen előfordulhat, hogy egy teljesen más szekvenciát fogunk letölteni, mint amivel a szerzők dolgoztak!

Miért?
Azért mert ha pl. az adott kromoszóma elején találtak egy nem odaillő szakaszt, és azt kivették az mm9-esben, akkor a koordináták annyival elcsúsznak! Tehát nagyon fontos, hogy mindig nézzük meg, hogy melyik genomösszerakásból származnak a koordináták, és abból szedjük ki a szekvenciát! Ez a gyakorlati bioinformatikai munkában nagyon sok gondot okoz, ezért én például azt preferálom, hogy nem a pozíciót, hanem a szekvenciát tárolom (SNP-nél vagy transzkripciós starthelynél pedig az adott pont körüli 50-50 bp szekvenciát), és ha pozíció kell (mert például a pozíciók alapján keresek átfedést egy másik eredménnyel), akkor visszaillesztem az éppen aktuális genomra 100% azonossági küszöbbel).
Ez szerintem egyre nagyobb problémát jelent, hiszen most már nagyon sok funkcionális genomikai eredmény érhető el a régebbi genomösszerakásokra, ráadásul a „többi” faj genomszekvenciáit is elkezdik újraszekvenálni, tehát sok genomot fognak újra összerakni.

Összefoglalva:
A referencia genom a haploid genom (embernél a 24-féle kromoszóma + a mitokondrium DNS) pszeudoszekvenciáit tartalmazó konszenzus szekvenciák összessége, ami önmagában ilyen formában nem létezik és nem is létezett. A célja az, hogy a többi szekvenciát ehhez viszonyítsuk. A referencia genomszekvenciákat folyamatosan újraépítik, ami azt jelentheti, hogy a szekvencia koordináták elcsúszhatnak, ezért vigyázni kell, hogy ha nem szekvencia, hanem koordináta alapon keresünk például két szekvencia között átfedést, akkor ugyanazt az összerakott genomot használjuk (pl. hg18 vs hg18 vagy mm8 vs mm8).
A referencia genomszekvenciákat a nagy genomikai portálokról lehet (érdemes) letölteni. Javaslom az ensembl, az NCBI vagy a személyes favoritom, az UCSC webhelyét.

1 komment

Címkék: genom miaza

DNS nap

2010.04.22. 22:46 :: ebarta

A múltkor a feleségem iskolájában a Deák-napon tartottam egy genomika előadást, amit próbáltam úgy pozícionálni, hogy azért a biológia tanárok lehetőleg értsenek mindent. Az előadáshoz készülődvén odajött hozzám egy hetedikes diáklány és megkérdezte, hogy megnézheti-e az előadást ő is. Már csak ezért is megérte felkészülni, és az eset nagyon jól rávilágított arra is, hogy a diákokban milyen nagy igény van a modern biológia eredményeinek a megismerésére.
Ezért is örültem meg, amikor értesültem egy kezdeményezésről, jelesül a hétvége miatt pénteken (2010. április 23.) tartandó DNS napról. A honlapjukon minden le van írva, csak annyit tennék hozzá, hogy én is nagyon fontosnak tartom már a középiskolában annak megismertetését, hogy a DNS szerkezetének leírása hogyan változtatta meg gyökeresen a biológia tudományát, és hogy ez hogyan vezetett a genomikához. A genomika meg véleményem szerint rövidesen drasztikusan meg fogja változtatni a gyógyítást és így benne lesz a hírekben, mindenki hallani fog róla. Ezért is fontos, hogy a diákok már a középiskolában megtanulják, megértsék mi az a genomika és miről is szól. Ebben segít ez a nagyon szimpatikus kezdeményezés is.
A DNS naphoz természetesen csatlakozott a csoportunk is, a blogon megtalálható több előadás, videoanyag, és reméljük, hogy interaktívan, a hozzászólásokban is kialakulhat egy beszélgetés a témáról.
 

Szólj hozzá!

Címkék: dns genomika

A metasztázis genomikája

2010.04.16. 01:17 :: ebarta

Az előző posztomban, ahol a microarray adatok metaelemzéséről írtam, nem említettem meg, hogy a legtöbb microarray minta emlőrákból volt. Ma megjelent a Nature-ben egy cikk, ahol Ding és munkatársai emlőrákból származó áttéteket vizsgáltak.
Egy 44 éves afro-amerikai nőben fejlődött ki egy basalis típusú emlőtumor. Még az elsődleges műtét előtt vettek biopsziával mintát, amit beoltottak immunodeficiens egerekbe. Ezután a kemoterápiás kezelés után kifejlődő agyi áttétből is vettek mintát. Így végül is négy mintájuk volt, a műtét idején vett vér, mint kontroll, az elsődleges tumor a kezelés előtt, az egérből (101 nap után) kivett áttét, valamint az agyi áttét. Ezt a négy mintát aztán Illumina-val megszekvenálták átlag 30x lefedettséggel. Csakhogy elképzeljük ennek a mennyiségét, a vérmintából például 130 milliárd bázispárt olvastak le, amit ha csak magában egy sorban kiírnánk egy fájlba (egy karakter = 1 byte), akkor az 117.19 GByte helyet foglalna el a merevlemezen. Persze ez sokkal több lesz, hiszen a fájl tartalmazni fogja a bázisokhoz rendelt minőségi értékeket, 50 bp-onként egy fejlécet, na meg a sor vége jeleket is. Végül is ki fog jönni több, mint fél terabyte.

Mi a cikk eredménye?

  • Bár ez már a sokadik megszekvenált tumor minta, még mindig van egy csomó nyitott kérdés, a daganat kialakulásának a genomikai vonatkozásairól.
  • Az látszik, hogy mindhárom rákos mintában, bár nem 100%-osan, de ugyanazok a mutációk vannak, azaz az egyik korábbi posztomban említett, a rákos sejtek genomszekvenálásán alapuló rákdiagnosztikai módszer működőképes lehet. Fontos még, hogy az egérbe oltott, és ott metasztázist adó daganat alkalmas a funkcionális genomikai, molekuláris biológiai vizsgálatokra, mert nem különbözik számottevően az elsődleges tumortól.
  • Az egyes mutáns allélok, az egyes áttétekben eltérő mértékben szaporodnak fel.
  • Az allélek arányának az elemzéséből megállapítható, hogy a metasztázisok egy viszonylag kis sejtpopulációból indulnak ki.
  • Természetesen részletesen feltérképezték a tumorspecifikus pontmutációkat, kisebb és nagyobb deléciókat, inszerciókat, kromoszóma átrendeződéseket.
  • Az ínyencek számára még elemeztek még egy csomó mindent, például a pontmutációk típusait, vagy ellenőrzésképp az egeret is megszekvenálták, bár „csak” 4.4x lefedettséggel.

Összességében a cikk nagyon érdekes, lehet mazsolázni, hogy milyen génekben milyen mutációk vannak, milyen arányban, ugyanakkor számomra még mindig nem világos például, hogy mikor, miért és hogyan keletkeznek ezek a mutációk. Ugyancsak egy fontos kérdés, amit nem értek, hogy hogyan viszonyulnak ezek a mutációk a hordozó sejtek diploid mivoltához. Magyarul, ha képződik egy pontmutáció az egyik kromoszómán, akkor ugye a párján nem valószínű (vagy talán lehetséges, hogy vannak preferált mutációs pontok?) ugyanaz a mutáció (nem lehet homozigóta tumorspecifikus mutáció). Ezek szerint a maximum frekvenciája egy adott mutáns allélnek 50% lehet (ez is csak akkor, ha egy mutáns sejtből indul ki a tumor, vagy később szelektálódik rá). Ezzel szemben a szerzők által közölt táblázat szerint több esetben is jóval 50% feletti értékek vannak.
 

Szólj hozzá!

Címkék: tumor snp ngs napihír illumina

Humán microarray metaanalízis

2010.04.10. 23:24 :: ebarta

ArrayExpress Gene Expression Atlas

Sokszor felvetődik kérdésként egy génnel kapcsolatban, hogy hol, mikor, milyen körülmények közt, milyen fejlődési stádiumban, minek a hatására, na és milyen mértékben fejeződik ki, expresszálódik. A „klasszikus” molekuláris biológiában ilyenkor például mRNS mintákat izoláltak különböző szövetekből, majd Northern vizsgálattal megállapították, hogy melyik szövetben milyen mértékű az adott gén kifejeződése. A Northern analízis funkcionális genomikai kiterjesztése a micrarray vizsgálat, amely alkalmas arra, hogy a gének (lehetőség szerint az összes gén) közül kiválasszuk azokat, amelyeket keresünk (például egy adott transzkripciós faktor által szabályozottak). Sok-sok ezer ilyen microarray vizsgálatot végeztek el és végeznek szerte a világban. A legtöbbnél kiválasztják az éppen érdekes géneket a saját munkájukhoz, és ezzel párhuzamosan a nyers adatokat beküldik a két nagy microarray adatbázis egyikébe (GEO vagy Arrayexpress). Ezeknek a kísérleteknek van azonban egy érdekes „melléktermékük”, mivel minden kísérletnél elvégzik a „Northern-t” tulajdonképpen az összes génre az adott szövetből, az adott körülmények közt, az adott fejlődési stádiumban az adott indukciós körülmények között. És persze komoly esély van rá, hogy több ezerszer nem pont ugyanolyan körülmények közt végzik a kísérleteket, ezért ha kiveszünk egy gént, akkor megnézhetjük, hogy a különböző sejtekben, szövetekben fejlődési stádiumban stb. mekkora az expressziója.
Ezt persze már korábban is felismerték, mi is használtuk már ezeket az Atlaszokat, amelyek elérhetőek például mindkét microarray adatbázisból. Azonban van egy kis probléma az ilyen összehasonlításoknál, ugyanis ezeket a kísérleteket különböző platformokon, különböző laboratóriumokban, különböző évszakokban és különböző emberek végezték, magyarul nehéz értelmezni az összehasonlításukat. Ezt a problémát kiküszöbölendő az Európai Bioinformatikai Intézet (EBI) Microarray csoportjának kutatói létrehoztak egy Humán Génexpressziós Térképet (Human Gene Expression Map).
A cikk, amelyben leírják az adatbázist, a Nature Biotechnology-ban jelent meg, ami sajnos fizetős (köszönet Szántó Attilának a cikk elküldéséért), de az ábrák többsége a Supplementary Text and Figures fájlban van, ami azonban szabadon letölthető.

Mit csináltak?

  • Hogy megszabaduljanak a különböző microarray platformok használata miatti problémáktól az Affimetrix humán U133A csipen végzett 9000 kísérletből kiválasztották az 5372 legmegbízhatóbbat, amelyek 163 különböző laboratóriumból származnak és 206 különböző vizsgálat során keletkeztek.
  • A nyers adatokat normalizálták (összehasonlíthatóvá tették), majd a kísérletekhez kapcsolódó leírások és cikkek alapján különböző szempontok alapján csoportosították, például 396 csoportba az szerint, hogy milyen sejt, szövet, betegség stádium, vagy sejtvonalba tartoznak.
  • Végső soron kaptak egy 14000 (gének) x 5372 (kísérlet)-es mátrixot amelynek minden pontjához hozzá lehet rendelni néhány más attribútumot vagy dimenziót (például, hogy milyen szövetből származik).
  • Ezeket az adatokat aztán különböző algoritmusokkal vizsgálták, legfőképpen PCA (Principal Component Analysis), variancia és klaszter analízissel.

 

Néhány megjegyzés:

  • Az összes matematikai analízist az R csomagot használva végezték (tehát ingyenes programokkal és nagy valószínűség szerint nem windows alatt :-))
  • Különböző feltételeket alkalmazva generáltak több mint 40 ábrát.
  • A kapott ábrák (matematikai analízisek) eredményeként érdekes biológiai összefüggésekre lehet következtetni, például:
  • A PCA alapján három fő tengelyt lehet elkülöníteni, ezek a:

        1. Vérképző rendszer, szilárd szövetek és részlegesen differenciált sejt típusok
        2. Sejtvonalak, daganatos sejtek és egyéb beteg szövetek
        3. Idegszövet

  • Az egyik érdekesség, hogy a sejtvonalak együtt csoportosulnak (klasztereződnek) és nem aszerint, hogy milyen szövetből származnak.
  • A klaszterezés során egyértelműen a következő típusok különülnek el:

        1. Szilárd szövetekből származó sejtvonalak
        2. Kötőszövetek és nem teljesen differenciálódott sejtek
        3. Normális szilárd és daganatos szövetek
        4. Vérképző rendszer
        5. Agy
        6. Izom és a szív

  • Meg lehet vizsgálni, hogy egyes szövettípusoknál / feltételek közt melyek azok a gének, amelyek leginkább változékonyak / eltérő expressziót mutatnak (pl. rákos sejtekre jellemző gének).
  • A kapott adatok elég koherensek, de mindazonáltal nem szabad figyelmen kívül hagyni az úgynevezett laborfaktort.


Az adatok használatára / megjelenítésére létrehoztak természetesen egy webfelületet. Sajnos azonban ennek a használhatósága kritikán aluli (igaz még csak béta állapotú, de akkor meg minek kellett már megjelenteni a cikket?). Ez azt jelenti, hogy csak egyszerű keresések vannak, amelyek nehezen használhatók, az eredményekről nincsenek linkek, és nincs semmi segítség, ezér nagyon nehéz értelmezni mind a keresési feltételeket, mind az eredményt. Természetesen egyből kipróbáltam például laborunk egyik legtöbbet vizsgált génjére (PPARg hormonreceptor), és a következő eredményt kaptam (96 olyan csoport a 369-ből, amelyiknél legalább tíz replika áll rendelkezésre).

Szólj hozzá!

Címkék: napihír transzkriptomika microarray

Kirándulós genomikus 2010. április

2010.04.06. 00:59 :: ebarta

A tavaszi szünet kapcsán (a feleségemnek és a legkisebb lányomnak is szünet volt) április elsején Nagykanizsára menet elindultunk a szokásos tavaszi kirándulásunkra (képek itt). Bár szabadságon voltam, természetesen a genomikától így sem tudtam teljesen elvonatkoztatni.

 

 

 

 

 

Első nap Bakonybélbe mentünk, többek közt a Gerence patak szurdokvölgyébe. Pont itt ért egy telefon, amiben megbeszéltük, hogy Magyarország jelenleg legnagyobb bioinformatikai szerverére (GENAGRID) genomikai programokat fogok telepíteni, amelyek remélhetőleg elérhetőek lesznek a magyar kutatók számára is.

 

 

 

 

Estefelé a révfülöpi szállás fele tartva megálltunk Nagyvázsonyban, hogy megnézzük a Pálos kolostort. Odafele menet vettem észre ezt a szép daganatot ezen a tölgyfán, és eszembe jutott, hogy megírtam félig egy posztot egy hónapja (időközben több helyen is, például az indexen tegnap írtak  róla), arról, hogy kifejlesztettek egy genomszekvenáláson alapuló módszert, amely segítségével, meg lehet állapítani a vérből egy PCR alapú teszttel, hogy például műtét vagy kemoterápia után kiújul-e a rák. Mindez azon alapul, hogy megszekvenálják a rákos sejtek és az egészséges sejtek DNS-ét is (illetve az egészséges sejtek helyett lehet használni a referencia genom szekvenciát), és meghatározzák a kromoszóma átrendeződések pontos helyeit. Szóval a tölgyfa genom még nem ismert, ahogy az se, hogy mi okozza pontosan ezeket a daganatokat. De biztos érdekes lehet.

 

 

 

Másnap a Káli medencében túráztunk és megcsodáltuk a Fekete-hegy oldalában nyíló rengeteg mandulafát (Prunus dulcis). Következő reggel mikor a szüleimnél ismét internet közelbe kerültem és elolvastam az elektronikus leveleimet, láttam meg hogy a JGI-ben megszekvenálták a barack (Prunus persica) genomját, így végre a rózsafélék (rosaceae) családjából is van ismert genom. Sajnálatos módon nálunk nem támogatják a mezőgazdasági genomikát, pedig lehetne mit kutatni. Itt van például még egy Prunus, az édesapám kertjében található kajszibarackfa (Prunus armeniaca), amely szinte minden évben elfagy (igaz tavaly például a jég verte el), szóval biztos tudna a genomika segíteni egy fagyállóbb fajta kinemesítésében például.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A múltkor egy barátomnál kezembe akadt Pósfai György (SzBK, Szeged, hogy a biológus vonatkozásokat kiemeljük) kiváló könyve, a címe „Magyarország legnagyobb fái - dendrománia”. Ezt lapozva tán nem is lepődtem meg, hogy talán Zalában van a legtöbb szép, öreg, nagy fa. Kanizsán a szüleimnél aztán az internetről letöltöttem a surdi négy fa GPS koordinátáit és elindultunk megkeresni őket. A legnagyobb közülük egy öreg szelídgesztenye fa a surdi hegyen (gyermekkoromban nyaranta mindig a zalakarosi szőlőhegyen nyaraltam, és emlékszem ott is volt egy gyönyörű öreg gesztenyefa, bár a közelébe se ért ennek). Sikerült is megtalálni, és ráadásul olyan szerencsénk volt, hogy terület egyik tulajdonosa éppen ott volt, így megtudhattuk tőle többek közt, hogy legalább ötszáz éves a fa, és jóval ellenállóbb a betegségekkel szemben, mint a mellette álló fiatal testvére. Ezen egyből el is gondolkodtam, hogy érdemes lenne itt is összehasonlítani egy mai fiatal, és ennek a matuzsálemnek a genomját, és átgondolni, hogy mi a jelentősége evolúciós szempontból, hogy egy fa ötszáz évig hullajtja magjait.
 

Szólj hozzá!

Címkék: fun növény hetihírek

süti beállítások módosítása