Michal Hozza. Zarovnávanie sekvencií s použitím metód klasifikácie. Master thesis, Comenius University in Bratislava, 2014. Supervised by Tomáš Vinař.

Download preprint: 14hozamth.pdf, 890Kb

Download from publisher: not available

Related web page: not available

Bibliography entry: BibTeX

Abstract:

Zarovnávanie dvoch DNA sekvencií je jedným zo základných
bioinformatických problémov. V tejto práci sa zaoberáme
možnosťami použitia prídavnej informácie o funkcii vstupných
sekvencií na zlepšenie kvality takýchto zarovnaní. Informácie sme
zakomponovali pomocou dvoch klasifikátorov, jeden pre zarovnané
časti sekvencií a druhý pre nezarovnané časti
sekvencií. Klasifikátor rozdeľuje pozície do dvoch tried: tie,
ktoré majú byť zarovnané k sebe (trieda 1) a tie, ktoré
nie (trieda 0). V prípade klasifikátora pre nezarovnané časti,
tie, ktoré majú byť zarovnané k medzere (trieda 1) a tie ktoré
nie (trieda 0). Výstupom klasifikátora je potom pravdepodobnosť,
že dáta patria do triedy 1. Na klasifikáciu sme použili náhodné
lesy (Random Forests). Venovali sme sa výberu atribútov a
vhodnými atribútmi sa nám podarilo zlepšiť úspešnosť
klasifikátorov. Ukázali sme, že klasifikátor sa dokáže naučiť,
ktoré pozície majú byť zarovnané k sebe a ktoré nie. Vyvinuli sme
dva modely pre zarovnanie sekvencií s anotáciami za pomoci
klasifikátora, ktoré sú založené na párových skrytých
Markovovských modeloch. V modeli A sme nahradili emisné tabuľky
stavov výstupom z klasifikátora. V modeli B modelujeme okrem báz
aj pásku s výstupom z klasifikátora. Naše modely dokázali
prekonať referenčné modely na biologických dátach aj na
simulovaných dátach s vyššou dôležitosťou anotácie. Na
simulovaných dátach dosiahol model B podobné výsledky a model A
mierne horšie.