CI07
Z MBI
Obsah
Substitučné modely - odvodenie
- Nech je pravdepodobnosť, že ak začneme s bázou a, tak po čase t budeme mať bázu b.
- Pre dané t môžeme také pravdepodobnosti usporiadať do matice 4x4 (ak študujeme DNA):
- Riadky zodpovedaju povodnej baze a, stlpce novej baze b
- Sucet kazdeho riadku je 1
Požiadavky na S(t)
- Intuitivne cim vacsie t, tym vacsia pravdepodobnost zmeny, pre nulovy cas este ziadna zmena nemala kedy nastat, mame teda (jednotkova matica)
- Naopak ked t ide do nekonecna, kazda baza velakrat zmutovala a teda uz prilis nezalezi, co to bolo na zaciatku. S(t) ma teda v limite pre velke t vsetky riadky rovnake.
- Rozdelenie pravdepodobnosti nazyvame limitne (equilibrium)
- Predpokladame tiez, ze pravdepodobnost mutacie zavisi len od aktualnej bazy, nie od minulych stavov a ze charakter procesu mutacii sa v case nemeni. Teda ak mame matice pre casy a , vieme spocitat maticu pre cas : a teda v maticovej notacii . Preto takyto model nazyvame multiplikativny.
- Ak by sme uvazovali iba diskretne (celociselne) casy, stacilo by nam urcit iba a vsetky ostatne casy dostaneme umocnenim tejto matice. Je vsak elegantnejsie mat definovane aj pre realne t.
- Tento typ modelu sa nazyva Markovov retazec so spojitym casom (continuous-time Markov chain)
Jukes-Cantorov substitučný model
- Tento model predpoklada, ze vsetky substitucie su rovnako pravdepodobne, matica teda musí vyzerať nejako takto:
Matica rýchlostí pre J-C model
- Pre velmi maly cas t je s(t) velmi male cislo (blizke 0) a pre velmi male s(t) su kvadraticke cleny ovela mensie ako linearne cleny s(t) a teda
- Aj pre ine rozumne male nasobky
- Tento vztah dava zmysel: pre velmi male t mozeme zanedbat moznost, ze baza zmutovala viackrat a pravdepodobnost jednej mutacie linearne rastie s dlzkou casu.
- Ak oznacime a dostaneme pre velmi male t
- Vytvorme si teraz maticu rychlosti (intenzit) (transition rate matrix, substitution rate matrix)
- Dostavame, ze pre velmi male casy plati
- a teda
- V limite dostaneme
- Dostali sme diferencialnu rovnicu S(t)R = S'(t), pociatocny stav ).
- Nasobenim matic S(t) a R dostavame, ze diagonalny prvok je a nediagonalny . Takze dostavame diferencialnu rovnicu z rovnosti nediagonalnych prvkov (z rovnosti diagonalnych prvkov dostavame tu istu rovnicu len prenasobenu konstantou -3).
Poriadnejšie odvodenie diferenciálnej rovnice
- z definicie limity
- podla multiplikativnosti S(t)
- po úprave
- oznacme (alfa je konstanta, nezavisi od epsilon ani t)
- (finalna diferencialna rovnica, rovnaka ako predtym pre matice)
- Riesenie diferencialnej rovnice pre kazdu konstantu c
- Mozeme overit dosadenim do rovnice, pricom
- c=-1/4 dopocitame z pociatocnej podmienky s(0)=0
- overime tiez, ze
Vlastnosti riešenia
- Takže máme maticu:
- Ked , dostávame všetky prvky matice rovné 1/4, t.j. .
- je teda pravdepodobnosť konkrétnej zmeny za jednotku času, ak uvažujeme veľmi krátke časy alebo presnejšie derivácia prvku s(t) vzhľadom na t v bode 0
- Aby sme nemali naraz aj aj , zvykneme maticu R normalizovat tak, aby priemerný počet substitúcii za jednotku času bol 1. V prípade Jukes-Cantorovho modelu je to keď .
Substitučné matice, zhrnutie
- S(t): matica 4x4, kde políčko je pravdepodobnosť, že ak začneme s bázou a, tak po čase t budeme mať bázu b.
- Jukes-Cantorov model predpokladá, že táto pravdepodobnosť je rovnaká pre každé dve bázy
- Pre daný čas t máme teda všade mimo diagonály s(t) a na diagonále 1-3s(t)
- Matica rýchlostí R: pre Jukes-Cantorov model všade mimo diagonály , na diagonále
- Pre veľmi malý čas t je S(t) zhruba I-Rt
- Rýchlost alpha je teda pravdepodobnosť zmeny za jednotku casu, ak uvažujeme veľmi krátke časy, resp. derivácia s(t) vzhľadom na t v bode 0
- Riešením diferenciálnych rovníc pre Jukes-Cantorov model dostávame
- Matica rýchlostí sa zvykne normalizovať tak, aby na jednotku času pripadla v priemere jedna substitúcia, čo dosiahneme ak
Použitie na odhad evolučnej vzdialenosti
- V case je pravdepodobnost, ze uvidime zmenenu bazu
- V realnom pouziti (vypocet matice vzdialenosti pre metodu spajania susedov) mame dve zarovnane sekvencie, medzi ktorymi vidime zmenenych baz, chceme odhadnut t
- Spatne teda zratame t, ktore by hodnote prinalezalo.
- Dostavame teda vzorec pre vzdialenost, ktory sme videli na prednaske
- Ak , dostavame
- Preco sme ten vzorec odvodili takto? V skutocnosti chceme najst najvierohodnejsiu hodnotu t, t.j. taku, pre ktore hodnota P(data|t) bude najvacsia. Zhodou okolnosti vyjde takto.
Zložitejšie modely
V praxi sa používajú komplikovanejsie substitučné modely, ktoré majú všeobecnejšiu maticu rýchlostí R
Hodnoty na diagonále matice sa dopočítavajú aby súčet každého riadku bol 0.
- Hodnota v tejto matici vyjadruje rýchlosť, akou sa určitá báza x mení na inú bázu y.
- Presnejšie .
Kimurov model napr. zachytáva, ze puríny sa častejšie menia na iné puríny (A a G) a pyrimidíny na ine pyrimidíny (C a T).
- Má dva parametre: rýchlosť tranzícií alfa, transverzií beta
- HKY model (Hasegawa, Kishino & Yano) tiež umožnuje rôzne pravdepodobnosti A, C, G a T v ekvilibriu.
- Ak nastavíme čas v evolučnom modeli na nekonečno, nezáleží na tom, z ktorej bázy sme začali, frekvencia výskytu jednotlivých báz sa ustáli v tzv. ekvilibriu.
- V Jukes-Cantorovom modeli je pravdepodobnosť ľubovoľnej bázy v ekvilibriu 1/4.
- V HKY si zvolime aj frekvencie jednotlivých nukleotidov v ekvilibriu so súčtom 1
- Parameter kapa: pomer tranzícií a transverzií (alfa/beta)
- Matica rýchlostí:
- ak mutácia x->y je tranzícia,
- ak mutácia x->y je transverzia
- Pre zložité modely nevieme odvodiť explicitný vzorec na výpočet S(t), ako sme mali pri Jukes-Cantorovom modeli
- Ale vo všeobecnosti pre maticu rýchlostí dostávame .
- Exponenciálna funkcia matice A sa definuje ako
- Ak maticu rychlosti R diagonalizujeme (určite sa dá pre symetrické R) , kde D je diagonálna matica (na jej diagonále budu vlastné hodnoty R), tak , t.j. exponenciálnu funkciu uplatníme iba na prvky na uhlopriečke matice D.