Megakadt a szemem egy index cikken, aminek a címe: „Megfejtették a vadkender genomját”. Aztán arra kaptam fel a fejem a cikkben, hogy „A kutatócsoport egyelőre a nyers genetikai információt tette közzé, ami 131 milliárd bázispárt jelent.”. Utánajártam egy kicsit a dolgoknak és a következők derültek ki:
Valóban egy holland, amszterdami biotech cég végezte a kender (Cannabis sativa) genomszekvenálását (itt a kender illetve a vadkender nem tévesztendő össze se a parlagfűvel, se az indiai kenderrel). Most nem is arról szeretnék írni, hogy ennek milyen orvosi jelentősége van, hanem a jelenségre szeretném felhívni a figyelmet. Név szerint arra, hogy ma már gondol egyet az ember, és becslésem szerint 10-15 millió forintból megszekvenál egy genomot.
Mit jelent ez a jelen esetben? Azt hogy egy Illumina HiSEQ szekvenátorral csináltak gyakorlatilag egy futtatást (5-6 nap), összesen 131 milliárd bázispárnyi szekvencia adatot kapva . Ez azt jelenti, hogy durván 655 millió átlagban 250 bázispár hosszú DNS darab mindkét végéről leolvastak 100-100 bázispárt.
Az úgynevezett durva szekvenálási adatokat egyből közzé is tették, fastq formában letölthető 14 tömörített fájl, egyenként 6-7 GByte méretben (kicsomagolva 20-24 GByte).
Az érdekes dolog itt kezdődik. Mivel a kenderfélék a Rosales rendbe tartoznak, sejtésem szerint a legközelebbi megszekvenált rokona a kendernek az alma. A növényeknél eleve nagyon közeli fajoknál is nagy genomkülönbségek lehetnek (erre jó példa az Arabidopsis thaliana és a lyrata), tehát teljesen esélytelen, hogy például az alma genomszekvenciát referencia genomként használjuk a kender genomhoz. Marad tehát a de novo genomösszerakás, ami azt jelenti, hogy veszik a megszekvenált 100 bázispáros darabokat, amelyekről ráadásul páronként tudják, hogy összetartoznak, és megpróbálják átfedő régiókból összerakni a kromoszómaszekvenciákat. Elvileg erre jó esély van, hiszen ez a 131 milliárd bázispár a cég szerint a kb. 400 millió bázispáros genomot feltételezve 372 szeres lefedettséget jelent (összehasonlításképpen, a Humán Genom Project 8-9 szeres lefedettségnél állapította meg a humán genom szekvenciáját), azaz elméletileg a genom bármely pontjára 372 darab megszekvenált bázis illeszkedik egy száz bázispáros darab részeként. Ha ezek a 100 bázispáros darabok nem ugyanonnan indulnak, akkor így elméletileg nagy esély van rá, hogy össze lehessen rakni a genomot. Persze a gyakorlatban minden más! A sajtóközleményben az szerepel, hogy a számítógépes kapacitások hiánya miatt a 7 használt csatornából („channel” vagy „lane”) egyszerre csak kettőt tudtak analizálni (így a lefedettség durván százszorosra csökkent), és ennek az eredménye finoman szólva se kielégítő.
A cég most a nyers adatokat közzétéve azt kéri a tudományos közösségtől, hogy próbálják meg kitalálni, hogyan lehetne a teljes adatmennyiséget felhasználva összerakni a kender genomot. Szóval akinek van otthon egy számítógépe mondjuk 1-2 TByte RAM-mal, az próbálkozzon!
Utolsó kommentek