Jakub Kováč (ml). Kompresia genómu za pomoci skrytých Markovovských modelov. Bachelor thesis, Comenius University in Bratislava, 2012. Supervised by Tomáš Vinař.

Download preprint: 12jmkth.pdf, 499Kb

Download from publisher: not available

Related web page: not available

Bibliography entry: BibTeX

Abstract:

Kompresia vznikla ako odpoveď na efektívne uchovávanie dát a tiež na 
urýchlenie prenosu informácie na sieťach s pomalým tokom dát. Vzniklo 
viacero algoritmov bezstratovej kompresie dát, či už všeobecných alebo 
určených pre konkrétny typ dát. S rozvojom genetiky sa objavil úplne nový 
typ dát hovoriaci o poradí báz v kyseline deoxyribonukleovej (sekvencie 
DNA). Tieto dáta nie je možné komprimovať bežne používanými všeobecnými 
algoritmami. Naše riešenie problému kompresie DNA je založené na použití 
aritmetického kódovania so skrytým Markovovským modelom (HMM) ako 
adaptívnym modelom zdroja. Po implementovaní programu sme na sekvencii DNA 
natrénovali niekoľko HMM, ktorými sme modelovali rôzne vlastnosti 
sekvencie DNA. Následne sme týmito modelmi komprimovali inú sekvenciu DNA. 
Na rozdiel od všeobecných komprimačných algoritmov, pri ktorých mala 
komprimovaná sekvencia väčšiu veľkosť ako nekomprimovaná sa nám podarilo 
dosiahnuť nepatrné zlepšenie aj oproti priamočiaremu zakódovaniu každej 
bázy dvomi bitmi. Otvorenou otázkou ostáva hľadanie vhodnejších HMM 
sekvencie DNA a aký je najlepší kopresný pomer dosiahnuteľný touto 
metódou. Tu treba mať na zreteli, že zväčšenie a spresnenie použitého HMM 
spomaľuje kompresiu a následnú dekompresiu DNA.