bioinformatika
bioinformatika (bio… + informatika), tarpdisciplininė mokslo šaka, kuri kompiuteriniais metodais analizuoja, tvarko ir interpretuoja biologinius duomenis ir kuria naujas žinias. Paprastai tiria biologinius procesus ir reiškinius molekuliniame lygmenyje. Bioinformatika artima kompiuterinei biologijai (šie terminai dažnai vartojami kaip sinonimai). Bioinformatika daugiau siejama su kompiuterinių įrankių ir metodų kūrimu, o kompiuterinė biologija labiau suprantama kaip kompiuterinių metodų taikymas biologinėms sistemoms modeliuoti bei analizuoti siekiant sukurti naujų žinių.
Bioinformatikos duomenų bazės
Kertinius bioinformatikų naudojamus duomenis sudaro genų ir genomų nukleotidų sekos, baltymų sekos, baltymų, nukleorūgščių ir jų kompleksų erdvinės struktūros.
Pirminės duomenų bazės. Daugelį pirminių duomenų bazių administruoja tarptautiniai konsorciumai, kurie užtikrina šių bazių veiklą, tolesnį jų vystymą ir laisvą prieigą prie duomenų. Pvz., Jungtinių Amerikos Valstijų (JAV) Genų banko (angl. GenBank) duomenų bazė, Europos nukleotidų archyvas (angl. European Nucleotide Archive, ENA) ir Japonijos DNR duomenų bankas (angl. DNA Data Bank of Japan, DDBJ) sudaro Tarptautinį nukleotidų sekų duomenų bazių konsorciumą (angl. International Nucleotide Sequence Database Collaboration, INSDC). INSDC konsorciume dalyvaujančios duomenų bazės skelbia visas viešai paskelbtas DNR sekas ir kiekvieną dieną apsikeičia duomenimis. Universalusis baltymų išteklių (angl. The Universal Protein Resource, UniProt) konsorciumas prižiūri ir tvarko vieną svarbiausių atviros prieigos baltymų sekų duomenų bazių – Universaliąją baltymų išteklių duomenų bazę (angl. The UniProt Knowledgebase, UniProtKB), kurioje pateikiamos baltymų sekos bei jų funkcinė anotacija. UniProt konsorciumą sudaro Europos bioinformatikos institutas (angl. European Bioinformatics Institute, EMBL-EBI), Šveicarijos bioinformatikos institutas (angl. Swiss Institute of Bioinformatics, SIB) ir JAV Baltymų informacijos duomenų bazė (angl. Protein Information Resource, PIR). Pagrindine pasauline baltymų ir kitų biologinių makromolekulių erdvinių struktūrų duomenų baze (angl. Protein Data Bank, PDB) rūpinasi Pasaulinio baltymų duomenų banko (angl. Worldwide Protein Data Bank, wwPDB) konsorciumas. Jį sudaro PDB filialiai Europoje (PDBe), JAV (RCSB PDB) ir Japonijoje (PDBj), t. p. Elektroninės mikroskopijos duomenų bankas (angl. The Electron Microscopy Data Bank, EMBD) ir Biologijos magnetinio rezonanso duomenų bankas (BMRB). Kaip ir sekų duomenų bazės, wwPDB konsorciumas visiems PDB naudotojams užtikrina laisvą prieigą prie struktūrinių duomenų.
Išvestinės bei kompiuteriniais metodais gautų duomenų bazės. Sekų ir struktūrų duomenų bazės kaupia ir pateikia pirminius duomenis, išvestinių duomenų bazės pateikia anotuotus, klasifikuotus arba kitaip apdorotus biologinius duomenis. Dažniausiai tai specializuotos duomenų bazės, kurios taikosi tik į konkrečius duomenų poaibius ar į tam tikras jų savybes. Interpro duomenų bazė pateikia baltymų sekų klasifikaciją į šeimas, išskiria funkciškai svarbius baltymų domenus ir motyvus, SCOP ir ECOD duomenų bazės – baltymų domenų erdvinių struktūrų klasifikaciją, STRING – eksperimentais nustatytas bei kompiuteriniais metodais prognozuotas baltymų tarpusavio sąveikas. Vis daugėja tokių duomenų bazių, kuriose kaupiami vien tik kompiuteriniais metodais, o ne eksperimentais gauti duomenys. Viena žymiausių tokių bazių yra AlphaFold baltymų struktūrų duomenų bazė (AFDB), kurioje saugomi daugumos žinomų baltymų erdvinių struktūrų modeliai, gauti naudojant dirbtinio intelekto metodą AlphaFold.
Bioinformatikos metodų kūrimas
Viena pagrindinių bioinformatikos veiklos sričių yra algoritmų ir kompiuterinių metodų kūrimas. Homologija, arba evoliucinis giminingumas, yra vienas iš svarbiausių biologijos principų, kuriuo remiasi dauguma gyvybės mokslų tyrimų. Todėl giminingų biologinių sekų (baltymų ar nukleorūgščių) paieška ir tarpusavio lyginimas buvo ir tebėra vienas svarbiausių bioinformatikos uždavinių. Atliekant artimai gimingų sekų paiešką dažniausiai seka tiesiogiai lyginama su kita seka. Tokią strategiją naudoja, pvz., BLAST algoritmas. Jautresnei paieškai, kuri leidžia surasti tolimesnius giminystės ryšius, sukurta algoritmų, kurie lygina seką su sekų profiliu arba atvirkščiai. Sekų profilis sudaromas iš daugybinio baltymų sekų palyginio, kuris paverčiamas matematiniu sekų šeimos modeliu ir apibendrina šeimos savybes. Tokių algoritmų pavyzdžiai yra PSI-BLAST ir HMMer. Jautriausi giminingų sekų paieškos metodai (HHsearch arba COMER) lygina sekų profilius vieną su kitu. Profilis matematinėmis priemonėmis aprašo baltymų šeimą, todėl tokie metodai leidžia aptikti net labai tolimus giminystės ryšius.
Daugumai baltymų būdinga savita erdvinė struktūra, kurią lemia baltymo aminorūgščių seka ir nuo kurios priklauso baltymo funkcija. Tik labai nedidelei daliai baltymų sekų erdvinės struktūros yra nustatytos eksperimentais, todėl vienas pagrindinių bioinformatikos tikslų – sugebėti nusakyti erdvinę baltymo struktūrą iš jo aminorūgščių sekos. Pažangą šioje srityje nuo 1994 vertina Johno Moulto (JAV) iniciatyva organizuojami aklo testavimo principu kas 2 m. rengiami pasauliniai CASP (angl. Critical Assessment of protein Structure Prediction – kritinis baltymų struktūros prognozavimo įvertinimas) konkursai. Aklo testavimo principą vėliau perėmė ir kitos bioinformatikos prognozavimo sritys – baltymų kompleksų struktūrų (CAPRI – angl. Critical Assessment of Predicted Interactions), baltymų funkcijos (CAFA – angl. Critical Assessment of Functional Annotation), genomo variantų poveikio (CAGI – angl. Critical Assessment of Genome Interpretation) ir kitos. Baltymų struktūros prognozavimo srityje 2020 įvyko didžiulis proveržis. DeepMind bendrovės sukurtas dirbtinio intelekto metodas AlphaFold2 daugeliu atvejų pasiekė eksperimentais nustatytų struktūrų tikslumą. CASP14 konkurso metu daugelis baltymų struktūrų modelių, sukonstruotų AlphaFold2 metodu, pasižymėjo tikslumu, prilygstančiu eksperimentui.
T1037 (RNR polimerazės domenas): eksperimentais nustatyta struktūra (žalia spalva) ir AlphaFold2 metodu sumodeliuota struktūra (mėlyna spalva)
T1064 (koronaviruso SARS-CoV-2 baltymas ORF8): eksperimentais nustatyta struktūra (žalia spalva) ir AlphaFold2 metodu sumodeliuota struktūra (mėlyna spalva)
DeepMind bendrovės tyrėjai, panaudoję AlphaFold2 metodą, sumodeliavo daugumos žinomų baltymų struktūras (2024 – daugiau kaip 200 milijonų) ir, bendradarbiaudami su Elektroninės mikroskopijos duomenų banku EMBL-EBI, pateikė jas atviros prieigos AFDB duomenų bazėje. Vienas iš AlphaFold2 metodo trūkumų yra tas, kad jis geba modeliuoti tik baltymų struktūras. 2024 DeepMind paskelbė patobulintą AlphaFold2 versiją – AlphaFold3, kuri gali modeliuoti ne tik baltymų, bet ir nukleorūgščių struktūras, t. p. jų kovalentines modifikacijas bei sąveikas su ligandais. Baltymų erdvinė struktūra yra konservatyviausia baltymų savybė, todėl baltymų struktūros per milijonus ar net milijardus metų gali išlikti mažai pakitusios. Giminingų baltymų struktūrų paieškos ir lyginimo metodai visada buvo aktualūs, o sukūrus AlphaFold metodą jie tapo dar svarbesni, nes atsirado poreikis palyginti tarpusavyje milijonus baltymų struktūrų. Anksčiau sukurti struktūrų lyginimo metodai, tokie kaip Dali ar TM-align, yra vieni tiksliausių, tačiau jie pernelyg lėti bandant apdoroti labai išaugusį baltymų struktūrų kiekį. 21 a. 3 dešimtmetyje sukurti metodai, pvz., Foldseek arba GTalign, pagreitino giminingų struktūrų paieškas nuo šimtų iki tūkstančių kartų.
Bioinformatikos metodų kūrimas 21 a. 2–3 dešimtmečiuose ypač suintensyvėjo dėl spartaus įvairių tipų biologinių duomenų gausėjimo ir aktyvaus dirbtinio intelekto metodologijų vystymosi. Nauji bioinformatikos metodai skelbiami specializuotuose žurnaluose: Bioinformatics, PLoS Computational Biology ir kituose. Didelė dalis bioinformatikos metodų yra pateikiami jų naudotojams kaip internetiniai serveriai. Kai kurie žurnalai (pvz., Nucleic Acids Research) kasmet išleidžia specialiai bioinformatikos srities internetiniams serveriams pristatyti skirtą numerį.
Bioinformatikos taikymas gyvybės moksle
Bioinformatikos metodai dažnai naudojami siekiant surasti naujas biologines sistemas, sukurti modelius, kurie galėtų paaiškinti tokių sistemų veikimo mechanizmus ar padėtų interpretuoti eksperimentų rezultatus. Vienas tokių pavyzdžių yra prokariotų gynybinių CRISPR‑Cas sistemų, kurios vėliau pritaikytos genomo redagavimui, atradimas ir tyrimai, 2018 įvertinti Kavli premija ir 2020 Nobelio premija. Anksčiau bioinformatikos tyrimai dažniausiai apsiribodavo konkrečiais duomenų tipais (pvz., sekomis arba struktūromis) ir vienu ar kitu konkrečiu metodu. Paskutiniu laikotarpiu šiuose tyrimuose vis dažniau jungiami įvairūs duomenys ir metodai siekiant visapusiškai suprasti biologinius reiškinius molekuliniame, ląsteliniame ar net viso organizmo lygmenyje.
Bioinformatikos istorija
Bioinformatikos raida prasidėjo 20 a. 7 dešimtmetyje JAV, kai kompiuteriai tapo prieinami universitetams ir mokslo tyrimų institutams. 1966 viena iš bioinformatikos pradininkių Margaret Oakley Dayhoff pirmoji pasiūlė matematinius metodus aminorūgščių dažniams ir taškinių mutacijų tikimybėms baltymų sekose analizuoti. 1970 Saulas B. Needlemanas ir Christianas D. Wunschas sukūrė dinaminio programavimo algoritmą (Needlemano-Wunscho algoritmas) baltymų sekoms tarpusavyje lyginti. Algoritmas iki šiol dažnai naudojamas baltymų bei nukleorūgščių sekų lyginimo metoduose. Didėjant biologinių duomenų kiekiui bei tobulėjant kompiuterinei įrangai bioinformatikos reikšmė nuosekliai augo. 20 a. paskutiniame dešimtmetyje buvo aktyviai kuriami tokie algoritmai kaip BLAST ir PSI‑BLAST (sekų paieškai ir tarpusavio lyginimui), Dali (baltymų struktūroms lyginti) ir daugelis kitų, leidžiančių išnaudoti vis didėjančius biologinių sekų ir struktūrų duomenų kiekius. Didžiausią impulsą šiuolaikinės bioinformatikos vystymuisi suteikė naujos kartos didelio našumo DNR sekoskaitos metodai, leidžiantys greitai ir pigiai iššifruoti genomų sekas, asmeninių kompiuterių paplitimas ir interneto įsigalėjimas. Atsirado daug naujų biologinių duomenų tipų, kurie bioinformatiką išplėtė į įvairiausias sritis – į proteomiką (tiria įvairių baltymų pasiskirstymą ląstelėje), transkriptomiką (RNR molekulių rinkinius), interaktomą (baltymų‑baltymų ir baltymų‑nukleorūgščių sąveiką), metabolomiką (dėl biocheminių procesų vykstančius metabolitų pokyčius) ir kitas.
Bioinformatikos tyrimai Lietuvoje
Lietuvoje bioinformatikos tyrimai pradėti apie 1990 Biotechnologijos institute Vilniuje ir buvo nukreipti į restrikcijos ir modifikacijos fermentų sekų ir struktūrų analizę. 2004 institute įkurta Bioinformatikos laboratorija, kurios veikla apėmė bioinformatikos metodų kūrimą, jų taikymą baltymų struktūrinės bioinformatikos srityje. 2016 Biotechnologijos institutui tapus Vilniaus universiteto Gyvybės mokslų centro dalimi (VU GMC) tyrimus struktūrinės bioinformatikos srityje toliau tęsia Bioinformatikos skyrius. Viena pagrindinių tyrimo krypčių – baltymų kompleksų struktūrų modeliavimas, vertinimas ir analizė. Skyriaus mokslininkai t. p. atlieka daug bendrų tyrimų su užsienio partneriais ir kitais VU GMC bendradarbiais, ypač glaudūs ryšiai palaikomi su V. Šikšnio vadovaujama grupe, kuri tyrinėja CRISPR‑Cas sistemas bei kitus baltymų ir nukleorūgščių kompleksus. Bioinformatikos tyrimai atliekami ir kitose VU GMC grupėse: Gytis Dudas kompiuteriniais metodais tiria RNR virusų evoliuciją ir ekologiją, S. Klimašausko ir Artūro Petronio grupės bioinformatikos metodais apdoroja ir analizuoja epigenetikos duomenis. 2017 Lietuvos sveikatos mokslų universiteto Virškinimo sistemos tyrimo institute įkurta Bioinformatikos laboratorija (vadovas L. Kupčinskas). Laboratorijoje atliekamų tyrimų pagrindinės kryptys yra didelės apimties proteomikos ir kitų bioinformatikos sričių duomenų integravimas, biologinių žymenų paieška ir algoritmų kūrimas žmogaus medicinos problemoms spręsti. Lietuvoje yra ir bioinformatikos paslaugas siūlančių startuolių. Bendrovės Vugene paslaugos pritaikytos laboratorijoms, tiriančioms kompleksinių patologijų (vėžio, neurodegeneracinių sutrikimų) kilmę, priežastis, diagnostiką ir gydymą. Bendrovė Biomatter naudoja dirbtinio intelekto priemones norimų savybių baltymams kurti. Startuolis Genomika vysto informacijos kodavimo DNR molekulėse technologiją, siūlo bioinformatikos paslaugas dideliam biologinių duomenų kiekiui analizuoti.
Lietuvoje bioinformatikus (bakalaurus) rengia VU Matematikos ir informatikos fakultetas, bioinformatika įtraukta į molekulinės biologijos, biochemijos ir biotechnologijos studijų programas.
3291