Bioinformatika (grč. bios - život; engl. Informatics) je interdisciplinarna oblast koja razvija metode i alate za razumevanje bioloških podataka. Kao interdisciplinarno polje nauke, bioinformatika kombinuje informacione tehnologije, statistiku, matematiku i inžinjerstvo kako bi analizirala i interpretirala biološke podatke. Bioinformatika se koristi u analizama simulacija bioloških pojava koristeći matematičke i statističke tehnike.

DNK sekvencijalna analiza

Bioinformatika je zajednički termin za oblast bioloških studija koje koriste kompjutersko programiranje kao deo svoje metodologije, i kao referenca za specifične analize "toka podataka" koje se često koriste, posebno u području genomike. Tipična primena bioinformatike podrazumeva identifikaciju kandidata gena i nukleotida. Često je cilj njihove identifikacije bolje razumevanje genetske osnove raznih bolesti, specifičnih prilagođavanja organizama, željenih osobina (npr. u poljoprivrednim kulturama), ili razlika između populacija. U manje formalnom tipu, bioinformatika takođe pokušava da otkrije organizacione principe unutar nukleinskih kiselina i proteinskih sekvenci.

Osnove

uredi

Bioinformatika je postala značajna oblast mnogih bioloških oblasti. U eksperimentalnoj molekularnoj biologiji tehnike poput vizuelizacije bioloških podataka i procesiranja signala omogućavaju izolovanje korisnih rezultata iz velike količine neobrađenih podataka. U genetici i genomici to pomaže da se sekvencionišu i obeleže genomi i njihove primećene mutacije. Takođe pomaže da se u biološkoj literaturi razviju biološke i genetske ontologije zbog organizovanja i klasifikacije bioloških podataka. Značajna je prilikom analize gena i odnosa između proteina. Bioinformatički alati pomažu pri poređenju genetičkih i genomskih podataka, što olakšava razumevanje evolutivnih aspekata molekularne biologije. Na kompaktnijem nivou, pomaže da se analiziraju i klasifikuju biološke putanje i mreže koje imaju značajnu ulogu u biologiji sistema. U strukturalnoj biologiji, pomaže pri simulaciji i modelovanju DNA, RNA i strukture proteina, kao i molekularnih interakcija.

Istorijat

uredi

Istorijski, termin bioinformatika nije imao isto značenje kao danas. Paulin Hogveg i Ben Hesper su njim 1970. godine označili istraživanje informacionih procesa u biotskim sistemima.[1][2][3] Ta definicija klasifikuje bioinformatiku u oblasti srodne biofizici (istraživanje fizičkih procesa u biološkim sistemima) ili biohemiji (istraživanje hemijskih procesa u biološkim sistemima).[1]

Sekvence

uredi
 
Sekvence genetskog materijala se često koriste u bioinformatici, obzirom da je njima lakše manipulisati korišćenjem kompjutera nego ručno.

Kompjuteri su postali neophodni u molekularnoj biologiji kada su sekvence proteina postale poznate nakon što je Frederik Sanger odredio sekvencu insulina ranih pedesetih godina. Ručno poređenje višestrukih sekvenci pokazalo se nepraktičnim. Pionir u ovoj oblasti bila je Margaret Oklej Dejhof, koju je David Lipman, direktor Nacionalnog centra za biotehnološke informacije, proglasio "majkom i ocem bioinformatike".[4] Margaret je napravila jednu od prvih baza podataka proteinskih sekvenci, koje su najpre objavljene kao knjige[5] i začela je metode poravnanja sekvenci i molekularne evolucije.[6] Drugi rani doprinos bioinformatici dao je Elvin A. Kabat, koji je započeo sa analizom bioloških sekvenci 1970 sa obimnim izdanjima sekvenci antitela koje je objavio sa Tai Te Vuom između 1980 i 1991. godine.[7]

Ciljevi

uredi

Da bi se istražilo kako se normalne ćelijske aktivnosti menjaju u različitim fazama oboljenja, biološki podaci moraju da budu kombinovani kako bi pružili jasniju sliku o ovim aktivnostima. Stoga se oblast bioinformatike razvila tako da najznačajniji deo podrazumeva analizu i interpretaciju različitih tipova podataka. To uključuje nukleotide i sekvence amino kiselina, oblast proteina i proteinskih struktura.[8] Konkretan proces analiziranja i interpretacije ovih podataka smatra se informacionom biologijom. Značajne oblasti bioinformatike i informacione biologije podrazumevaju:

  • Razvoj i implementaciju kompjuterskih programa koji omogućavaju efikasan pristup i upravljanje različitim tipovima informacija
  • Razvoj novih algoritama (matematičkih formula) i statističkih mera kojima se procenjuju odnosi između članova velikog skupa podataka. Na primer, postoje metode za lociranje gena unutar sekvence, da se predvidi struktura proteina i/ili njena funkcija, i da se klaster analizom klasifikuju sekvence proteina u okviru familija srodnih sekvenci.

Osnovni cilj bioinformatike je povećanje razumevanja bioloških procesa. Ono što je izdvaja od drugih procesa je fokus na razvoj i primenu informatički intenzivnih tehnika za postizanje tog cilja. Primeri uključuju prepoznavanje obrazaca, analizu podataka, mašinsko učenje, i vizuelizaciju bioloških podataka. Fokus istraživanja u ovim oblastima uključuje poravnanje sekvenci, predviđanje gena, genomski projekat, dizajn leka, otkrivanje leka, strukturno poravnanje proteina, predviđanje strukture proteina, predviđanje ekspresije gena, protein-protein interakcije, izučavanje genomskih asocijacija, modelovanje evolucije i deobe ćelija - mitoze.

Bioinformatika danas podrazumeva stvaranje i razvoj baza podataka, algoritama, informatičkih i statističkih tehnika, kao i teorijske osnove za rešavanje formalnih i praktičnih problema koji se javljaju u upravljanju i analizi bioloških podataka.

Tokom nekoliko prethodnih decenija brz razvoj genomike i drugih tehnologija molekularnog istraživanja kao i razvoj informacionih tehnologija proizveo je značajnu količinu informacija koje se odnose na molekularnu biologiju. Bioinformatika je naziv kojim se opisuju matematički i informatički pristupi korišćeni za potpunije razumevanje bioloških procesa.

U uobičajene aktivnosti u bioinformatici spadaju mapiranje i analiziranje DNA i sekvenci proteina, poravnanje DNA i proteinskih sekvenci radi njihovog poređenja i izrada trodimenzionalnih modela proteinskih struktura.

Srodne oblasti

uredi

Bioinformatika je naučna oblast koja je slična, ali različita od biološke komputacije i komputacione biologije. Biološka komputacija koristi bioinžinjering i biologiju kako bi izgradila biologičke kompjutere, dok bioinformatika koristi kompjutere za bolje razumevanje biologije. Bioinformatika i komputaciona biologija imaju slične ciljeve i pristupe, međutim razlikuju se u obimu: bioinformatika organizuje i analizira osnovne biološke podatke, dok komputaciona biologija gradi teoretske modele bioloških sistema, isto kao što matematička biologija gradi matematičke modele.

Analiziranje bioloških podataka kako bi se dobile sadržajne informacije podrazumeva pravljenje i upotrebu kompjuterskih programa koji koriste algoritme iz teorije grafova, veštačke inteligencije, algoritme sa slabo definisanim rezultatima, analize podataka, prepoznavanja obrazaca, procesiranja slika i kompjuterske simulacije. Ovi algoritmi oslanjaju se na saznanja iz diskretne matematike, kontrolne teorije, sistemske teorije, informacione teorije i statistike.

Sekvencijalna analiza

uredi
 
Sekvence različitih gena ili proteina mogu da se poravnaju jedna do druge kako bi se izmerila njihova sličnost. Ovo poravnanje poredi proteinsku sekvencu koja sadrži WPP domene.

Otkad je ΦX174 genom virusa sekvenciran 1977 godine,[9] DNA sekvence hiljada organizama su dekodirane i prikupljene u bazama podataka. Ove informacione sekvence se analiziraju kako bi se odredili geni koji kodireju proteine, RNA geni, regulacione sekvence, strukturalne karakteristike i višestruko ponovljene sekvence. Poređenjem gena unutar vrste ili između različitih vrsti može da pokaže sličnosti između funkcija proteina, ili odnose između vrsta (korišćenje molekularne filogenije radi izgradnje filogenetskog stabla). Rastom količine podataka odavno je postalo nepraktično da se DNA sekvence analiziraju ručno. Danas se računarski programi kao što je BLAST koriste kako bi pretražili sekvence više od 260.000 organizama, koje sadrže više od 190 milijardi nukleotida.[10] Takvi programi mogu da kompenzuju mutacije (izmešane, obrisane ili ubačene osnove) u DNA sekvenci, i da identifikuju sekvence koje su srodne, ali nisu identične. Varijanta ovakvog poravnanja sekvenci se koristi u samom procesu sekvenciranja. Takozvanim "šotgan sekvenciranjem" (koje je korišćeno u J. Kreg Venter Institutu za sekvenciranje prvog bakterijskog genoma Haemophilus influenzae)[11] nije moguće očitati kompletne hromozome. Taj metod daje sekvence više hiljada malih DNA fragmenata (od 35 do 900 nukleotida, zavisno od tehnologije sekvenciranja). Krajevi ovih fragmenata se preklapaju i, kada su ispravno spojeni programom za poravnanje genoma, mogu se koristiti za rekonstrukciju kompletnog genoma. Šotgan sekvenciranjem brzo se dobijaju sekvence podataka, međutim potreba za spajanjem fragmenata većih genoma može da bude veoma komplikovana. Za genom veličine genoma čoveka, može da bude potrebno nekoliko dana rada na snažnim multiprocesorskim kompjuterima sa velikom memorijom za spajanje fragmenata, a rezultat spajanja obično sadrži brojne propuste koji moraju da budu popunjeni kasnije. Šotgan sekvenciranje je izborni metod gotovo svih današnjih sekvencioniranih genoma, a algoritmi za spajanje, odnosno predviđanje genoma su kritična oblast bioinformatičkih istraživanja.

Sledeći smernice koje je postavio projekat ljudskog genoma nakon zatvaranja 2003. godine, Institut za nacionalna istraživanja ljudskog genoma je u U.S. razvio novi projekat. Takozvani ENCODE projekat je kolaborativni skup podataka funkcionalnih elemenata ljudskog genoma koji koristi napredne DNA sekvencionirajuće tehnologije i genomske tiling nizove, tehnologije koje su sposobne da automatski generišu velike količine podataka sa nižim troškovima istraživanja, ali uz isti kvalitet i pouzdanost.

Sledeći aspekat bioinformatike u analizi sekvenci je označavanje. Ono podrazumeva komputaciono predviđanje gena kako bi se pronašli geni koji kodiraju proteine, RNA geni i ostale funkcionalne sekvence unutar genoma. Nisu svi nukleotidi u genomu delovi gena. U genomima viših organizama veliki deo DNA nema nikakvu očiglednu funkciju.

Označavanje genoma

uredi
Glavni članak: Predviđanje gena

U kontekstu genomike označavanje je proces obeležavanja gena i njihovih bioloških osobina u DNA sekvenci. Poželjno je da je ovaj proces automatizovan jer je većina genoma prevelika za ručno označavanje, pa proces predstavlja "usko grlo" pri pokušaju da se što više gena što pre označi. Označavanje je moguće usled činjenice da geni imaju prepoznatljive regione početka i kraja, iako tačna sekvenca u ovim regionima može da se razlikuje.

Prvi softver za označavanje genoma napravio je 1995. godine Oven Vajt (Owen White), dok je bio u timu J. Kreg Venter Instituta za genomska istraživanja, gde je sekvencionirao i analizirao prvi genom živog organizma, baktriju Haemophilus influenzae.[11] Vajt je napravio softverski sistem koji pronalazi gene (delove genomske sekvence koji kodiraju proteine), prelazne RNA i određuje njihove osnovne funkcije. Većina trenutnih sistema za obeležavanje gena funkcioniše po sličnom principu, međutim programi koji se koriste za analizu genoma DNA, kao što je GeneMark, program koji je korišćen za pronalaženje gena koji kodiraju proteine u pomenutoj bakteriji konstantno se menjaju i unapređuju.

Komputaciona evoluciona biologija

uredi

Evoluciona biologija je oblast koja izučava poreklo i izumiranje vrsta, kao i njihovu promenu tokom vremena. Informatika pomaže evolucionim biolozima omogućavajući istraživačima da:

  • prate evoluciju velikog broja organizama merenjem promena u njihovom DNA, umesto samo kroz fizičke i fiziološke opservacije,
  • porede kompletne genome, što dozvoljava istraživanje složenih evolucionih događaja, poput dupliranja gena, horizontalnog transfera gena i predviđanje bitnih faktora bakterijskih specijacija,
  • grade složene komputacione modele populacija radi predviđanja ishoda sistema tokom vremena[12]
  • prate i dele informacije o sve većem broju vrsta i organizama.

Budući koraci usmereni su ka rekonstruisanju sve kompleksnijeg filogenetskog stabla.

Oblast istraživanja unutar kompjuterskih nauka koja koristi genetske algoritme se nekada meša sa komputacionom evolucionom biologijom, ali ove dve oblasti ne moraju da budu povezane.

Komparativna genomika

uredi

Osnova komparativne analize genoma je utvrđivanje odnosa između gena i ortološke analize ili drugih genomskih osobina u različitim organizmima. Uz pomoć takvih, intergenomskih mapa moguće je pratiti evolucioni proces odgovoran za razlike između dva genoma. Više takvih evolucionih događaja, na raznim organizacionim nivoima oblikuje evoluciju genoma. Na najnižem nivou, tačkaste mutacije menjaju pojedinačne nukleotide. Na većem nivou, na velikim segmentima hromozoma javlja se dupliranje, transfer, inverzija, transpozicija, brisanje i ubacivanje.[13] Na kraju, čitavi genomi učestvuju u procesu hibridizacije, poliploidizacije i endosimbioze, često vodeći ka ubrzanom razdvajanju vrsta. Složenost evolucije genoma donosi mnoge uzbudljive izazove za razvoj matematičkih modela i algoritama, širokog spektra razvoja algoritma, statističkih i matematičkih tehnika u opsegu od egzaktne heuristike, fiksnih parametara i aproksimacionih algoritama za probleme zasnovane na štedljivim modelima do Monte Karlo metode Markovog lanca za Bajesovsko zaključivanje u analizi problema zasnovanih na modelima verovatnoće.

Mnoga od ovih istraživanja zasnovana su na homološkoj detekciji i komputaciji familije proteina.[14]

Pan genomika

uredi

Pan genomika je koncept koji su Tetelin (Tettelin) i Medini (Medini) predstavili 2005 godine, a koji je kasnije kasnije razvio osnovu za bioinformatiku. Pan genom je kompletan repertoar gena konkretne taksonomske grupe: iako je inicijalno bio primenjen na evolutivno bliskim rodovima vrsti, može da bude primenjen u širem kontekstu poput roda, razdela itd. Podeljen je u dva dela - izvorni genom: set gena zajedničkih za sve genome unutar istraživanja (ovo su obično geni ključni za opstanak organizma) i promenljivi/fleksibilni genom: set gena koji nije prisutan u svim, već u pojedinim ili u više genoma unutar istraživanja.

Genetika bolesti

uredi

Razvojem naprednih sekvencionirajućih tehnologija posedujemo dovoljno sekvencnih podataka, tako da možemo da mapiramo gene složenih bolesti kao što su Šećerna bolest,[15] neplodnost,[16] rak dojke[17] ili Alchajmerovu bolest.[18] Studije asocijacije genoma predstavljaju koristan pristup pronalaženja tačnih mutacija odgovornih za te složene bolesti.[19] Kroz ove studije identifikovano je na hiljade DNA varijacija koje su povezane sa sličnim bolestima i predispozicijama.[20] Štaviše, verovatnoća da se geni koriste pri prognoziranju, dijagnozi ili tretmanu bolesti je jedna od najosnovnijih aplikacija. Mnoge studije istražuju načine za precizan izbor odgovornih gena i probleme i stranputice korišćenja gena za predviđanje ili prognozu bolesti.[21]

Analiza mutacija u raku

uredi

Kod raka, genomi zaraženih ćelija se preraspoređuju na složene ili čak nepredvidljive načine. Veliki napori pri sekvencionisanju ulažu se kako bi se identifikovale ranije nepoznate genske mutacije u raznmim genima u raku. Bioinformatika nastavlja da proizvodi specijalizovane automatske sisteme za obradu obimnih podataka koji su proizvedeni sekvencionisanjem podataka, i da napravi nove algoritme i programe koji bi poredili sekvencionisane rezultate sa rastućom kolekcijom sekvenci genoma čoveka i germinativnih polimorfoza. Razvijaju se nove, fizičke tehnologije detekcije, poput mikronizova oligonukleotida kako bi se identifikovale hromozomske prednosti i nedostaci (tzv. komparativna hibridizacija genoma), i nizova jednonukleotidnih polimorfizama za detekciju poznatih genskih mutacija. Ove metode detekcije istovremeno mere nekoliko stotina hiljada oblasti genoma i kada se koriste sa velikim obuhvatom podataka za merenje hiljada semplova, generišu terabajte podataka po eksperimentu. Ogromna količina i novi tipovi podataka pružaju nove šanse za bioinformatiku. Često se u podacima nalazi značajna varijabilnost, ili šum, pa se stoga razvijaju skriveni Markovljev model i metode analiza sa promenom tačke kako bi vernije predstavile varijabilnost nastalih promena.

Uz napredak koji razvoj naprednih sekvencionirajućih tehnologija obezbeđuje oblasti bioinformatike, genomika kancera mogla bi da se drastično promeni. Nove metode i algoritmi omogućavaju bioinformatičarima brzo i lako sekvencionisanje mnogih genoma kancera. Ovo bi moglo da dovede do fleksibilnijeg procesa za klasifikaciju tipova raka analizom mutacija koje su u genomu nastale pod njegovim dejstvom. Štaviše, u budućnosti bi verovatno bilo moguće individualno praćenje stanja pacijenta na osnovu sekvenci uzoraka raka.[22]

Drugi tip podataka koji zahteva značajan informatički razvoj je analiza lezija koje se javljaju pri mnogim tumorima.

Ekspresija gena i proteina

uredi

Analiza ekspresije gena

uredi

Ekspresija mnogih gena može da se odredi merenjem nivoa informacionih RNK preko više tehnika, uključujući DNK mikročip, EST sekvenciranje, serijsku analizu ekspresije gena (SAGE), masivno paralelno sekvenciranje potpisa (MPSS), RNA sekvenciranje, poznato i kao "šotgan sekvenciranje celog transkriptoma" (WTSS) ili raznim aplikacijama multipleksiranih hibridizacija. Sve ove tehnike su ekstremno osetljive na šumove i podložne pristrasnosti u biološkim merenjima, pa glavni istraživački napor u komputacionoj biologiji podrazumeva razvoj statističkih alata za odvajanje signala od šuma u obimnim studijama ekspresije gena. Takve studije se često sprovode kako bi odredile gene koji imaju određenu fukkciju u oboljenju: može se porediti mikroniz podataka iz kancerogenih epitelskih ćelija sa podacima iz nekancerogenih ćelija kako bi se odredili delovi koji su ključni za odgovarajuću populaciju kancerogenih ćelija.

Analiza ekspresije proteina

uredi

Proteinski mikronizovi ili proteinski čipovi uz masenu spektrometriju širokog propusnog opsega mogu da obezbede snimak proteina prisutnih u biološkom uzorku. Bioinformatika ima svoju ulogu u razumevanju proteinskih mikronizova i podataka dobijenih pomenutim metodama; takav pristup ima slične probleme kao i mikronizevi koji se odnose na iRNK, obzirom da oni podrazumevaju poređenje velikih količina obimnih podataka sa predviđenim podacima iz sekvenci proteinskih baza podataka i komplikovane statističke analize semplova gde su detektovani višestruki, ali nepotpuni peptidi u svakom proteinu.

Analiza regulacija

uredi

Regulacija predstavlja složen sistem upravljanja događajima počev od spoljnog ćelijskog nadražaja kao što je hormon, i vodi ka povećanju ili smanjenju aktivnosti jednog ili više proteina. Bioinformatičke tehnike se koriste kako bi se ispitali razni koraci u ovom procesu. Na primer, promoter analiza uključuje identifikaciju i proučavanje sekvencnih motiva u DNA koji okružuje kodirajući region u genu. Ovi motivi utiču na to do kog nivoa se koji region prepisuje u iRNK. Dobijeni podaci mogu da se iskoriste kako bi se uticalo na genetsku regulaciju: na primer, moguće je poređenje mikronizova pri raznim stanjima organizma kako bi se postavila hipoteza o genima uključenim u svakom stanju.

  1. 1,0 1,1 Hogeweg P (2011). Searls, David B.. ur. „The Roots of Bioinformatics in Theoretical Biology”. PLoS Computational Biology 7 (3): e1002021. Bibcode 2011PLSCB...7E0020H. DOI:10.1371/journal.pcbi.1002021. PMC 3068925. PMID 21483479. 
  2. Hesper B, Hogeweg P (1970). Bioinformatica: een werkconcept. 1. Kameleon. pp. 28–29. 
  3. Hogeweg P (1978). „Simulating the growth of cellular forms”. Simulation 31 (3): 90–96. DOI:10.1177/003754977803100305. 
  4. Moody, Glyn (2004). Digital Code of Life: How Bioinformatics is Revolutionizing Science, Medicine, and Business. ISBN 978-0-471-32788-2. 
  5. Dayhoff, M.O. (1966) Atlas of protein sequence and structure. National Biomedical Research Foundation, 215 pp.
  6. Eck RV, Dayhoff MO (1966). „Evolution of the structure of ferredoxin based on living relics of primitive amino Acid sequences”. Science 152 (3720): 363–6. Bibcode 1966Sci...152..363E. DOI:10.1126/science.152.3720.363. PMID 17775169. 
  7. Johnson G, Wu TT (January 2000). „Kabat Database and its applications: 30 years after the first variability plot”. Nucleic Acids Res 28 (1): 214–218. DOI:10.1093/nar/28.1.214. PMC 102431. PMID 10592229. 
  8. Attwood TK, Gisel A, Eriksson N-E, Bongcam-Rudloff E (2011). „Concepts, Historical Milestones and the Central Place of Bioinformatics in Modern Biology: A European Perspective”. Bioinformatics – Trends and Methodologies. InTech. Arhivirano iz originala na datum 2012-01-25. Pristupljeno 8 Jan 2012. 
  9. Sanger F, Air GM, Barrell BG, Brown NL, Coulson AR, Fiddes CA, Hutchison CA, Slocombe PM, Smith M (February 1977). „Nucleotide sequence of bacteriophage phi X174 DNA”. Nature 265 (5596): 687–95. Bibcode 1977Natur.265..687S. DOI:10.1038/265687a0. PMID 870828. 
  10. Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL (January 2008). „GenBank”. Nucleic Acids Res. 36 (Database issue): D25–30. DOI:10.1093/nar/gkm929. PMC 2238942. PMID 18073190. 
  11. 11,0 11,1 Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM (July 1995). „Whole-genome random sequencing and assembly of Haemophilus influenzae Rd”. Science 269 (5223): 496–512. Bibcode 1995Sci...269..496F. DOI:10.1126/science.7542800. PMID 7542800. 
  12. Carvajal-Rodríguez A (2012). „Simulation of Genes and Genomes Forward in Time”. Current Genomics (Bentham Science Publishers Ltd.) 11 (1): 58–61. DOI:10.2174/138920210790218007. PMC 2851118. PMID 20808525. 
  13. Brown, TA (2002). „Mutation, Repair and Recombination”. Genomes (2nd izd.). Manchester (UK): Oxford. 
  14. Carter, N. P.; Fiegler, H.; Piper, J. (2002). „Comparative analysis of comparative genomic hybridization microarray technologies: Report of a workshop sponsored by the Wellcome trust”. Wiley Subscription Services, Inc 49 (2): 43–8. DOI:10.1002/cyto.10153. 
  15. Ionescu-Tîrgovişte, Constantin; Gagniuc, Paul Aurelian; Guja, Cristian. „Structural Properties of Gene Promoters Highlight More than Two Phenotypes of Diabetes”. PLOS ONE 10 (9): e0137950. DOI:10.1371/journal.pone.0137950. PMC 4574929. PMID 26379145. Arhivirano iz originala na datum 2015-11-17. Pristupljeno 2016-04-03. 
  16. Aston KI (2014). „Genetic susceptibility to male infertility: News from genome-wide association studies”. Andrology 2 (3): 315–21. DOI:10.1111/j.2047-2927.2014.00188.x. PMID 24574159. 
  17. Véron A, Blein S, Cox DG (2014). „Genome-wide association studies and the clinic: A focus on breast cancer”. Biomarkers in Medicine 8 (2): 287–96. DOI:10.2217/bmm.13.121. PMID 24521025. 
  18. Tosto G, Reitz C (2013). „Genome-wide association studies in Alzheimer's disease: A review”. Current Neurology and Neuroscience Reports 13 (10): 381. DOI:10.1007/s11910-013-0381-0. PMC 3809844. PMID 23954969. 
  19. Londin E, Yadav P, Surrey S, Kricka LJ, Fortina P (2013). „Use of Linkage Analysis, Genome-Wide Association Studies, and Next-Generation Sequencing in the Identification of Disease-Causing Mutations”. Pharmacogenomics. Methods in Molecular Biology 1015: 127–46. DOI:10.1007/978-1-62703-435-7_8. ISBN 978-1-62703-434-0. PMID 23824853. 
  20. Hindorff, L.A., (2009). „Potential etiologic and functional implications of genome-wide association loci for human diseases and traits.”. Proc. Natl. Acad. Sci. USA 106: 9362–9367. DOI:10.1073/pnas.0903103106. PMC 2687147. PMID 19474294. 
  21. Hall, L.O. (2010). „Finding the right genes for disease and prognosis prediction.”. System Science and Engineering (ICSSE),2010 International Conference: 1–2. DOI:10.1109/ICSSE.2010.5551766. 
  22. Hye-Jung, E.C.; Jaswinder, K.; Martin, K.; Samuel, A.A; Marco, A.M (2014). „“Second-Generation Sequencing for Cancer Genome Analysis””. u: Dellaire, Graham; Berman, Jason N.; Arceci, Robert J.. Cancer Genomics. Boston (US): Academic Press. str. 13–30. DOI:10.1016/B978-0-12-396967-5.00002-5. ISBN 9780123969675.