Biyoenformatik araştırma alanı bilgisayar bilimleri, matematik ve istatistik gibi hesaplamalı bilimlerin moleküler biyoloji ve genetik problemlerine uygulanması olarak tanımlanabilir. Son yıllarda biyoteknoloji ve nanoteknoloji gibi alanlarda yaşanan çok önemli gelişmeler 21. yüzyılda canlıların yaşamı ile ilgili hayal edilmesi güç detaylarda bilgi sahibi olma yönünde insanlığı umutlandırmıştır. Yaklaşık 60 yıl önce DNA’nın çifte sarmal yapısının keşfedilmesinden bu yana en heyecan verici gelişme, milenyumun başında insanın genom sekansının elde edilmesi olmuştur<sup>1</sup>. 1995’te ilk canlının tamamlanmış genom sekansının elde edilmesinden bu yana geçen sürede binlerce canlı türünün tüm genom sekansları tamamlanmış ve dünyanın çeşitli yerlerinde binlerce araştırmacı tarafından bu sayı arttırılmaya çalışılmaktadır<sup>2</sup>. Organizmaların yaşam mekanizmaları ile ilgili bütün bilgiyi içeren ve nesilden nesile aktarılan bu kodun elde edilmesi, bir bilgisayar tutkununun en sevdiği programın kaynak kodunu bulmasına benzetilebilir. Tabii ki, buradaki önemli bir fark genomların içerdiği bilginin ne anlama geldiğini anlatan, “Kendinize 20 günde Genom++ öğretin” gibi bir kitabın bulunmamasıdır. :) Genomun yapısının bilgisayar bilimleri ile benzeşen ve bilimsel olarak oldukça ilginç bir özelliği, tamamen kesikli (İng. discrete) bir içeriği olmasıdır. Yani insan genomu dediğimiz 3.2 milyar harften oluşan<sup>3</sup> bir karakter dizisinden başka birşey değildir. Yani bir ASCII txt dosyasına yazılabilecek ve 1 DVD’ye rahatlıkla sığabileck bu bilgi insanın bütün karmaşıklığını, büyüme sürecini, zekâsını, yakalanabileceği hastalıkları, kısacası insanın her şeyini içermektedir. Tam anlamıyla insanın kaynak kodudur. Ama ne yazık ki bilmediğimiz dilde yazılmış bir kaynak koddur. İşte biyoenformatik alanının çözmeye çalıştığı problem bu kaynak kodun en iyi şekilde anlaşılması, başka kaynak kodlar ile olan benzerlikleri ve farklılıklarının bulunmasıdır. Bu, insanlar arası karşılaştırma ya da farklı organizmalar arası karşılaştırma problemleri olarak karşımıza çıkmaktadır. Sadece biyoenformatik alanında değil yaşam bilimlerinde son yıllarda yapılan araştırmaların önemli bir bölümü, elde edilen genom sekanslarının içeriği hakkında daha fazla bilgi edinmeyi amaçlamaktadır. Bu alanın ortaya çıkardığı problemler bilgisayar bilimleri açısından da oldukça zor problemlerdir. Mesela bir proteinin yapısının bir protein sekansı ile hizalanması probleminin NP-complete bir problem olduğu gösterilmiştir<sup>4</sup>.

Genom sekanslarına ek olarak, yüksek çıktılı teknolojiler sayesinde birbiri ile örtüşen ya da birbirini tamamlayan birçok verisetleri üretilmektedir. Bu durum son yıllarda yaşam bilimlerinde şimdiye kadar görülmemiş büyüklükte bir veri birikimine yol açmıştır<sup>5</sup>. Biyoenformatik alanı bu verilerin organizasyonu, anlaşılabilmesi, bu verilerden biyolojik süreçlerin modellerinin elde edilmesi ve yeni çıkarımlarda bulunulabilmesi için son derece önemlidir. Bu nedenle veri tabanları, veri madenciliği, algoritmalar, görselleştirme, simülasyon, yapay zeka gibi birçok farklı bilgisayar bilimi alt alanı biyoenformatik problemlerini çözmekte kullanılmaktadır. Fakat bunun yanında istatistik, matematik gibi bilimlere de oldukça ihtiyaç duyulmaktadır. Önümüzdeki yıllarda yaşamın sırlarının hücre seviyesinde ortaya çıkarılması Biyoloji, Bilgisayar Bilimleri, Matematik, İstatistik, Fizik, Kimya gibi farklı bilimlerden araştırmacıların birlikte çalışmaları ile mümkün olacaktır. Birçok hastalığın nedenleri, biyolojik mekanizmaları moleküler seviyede anlaşılabilecek ve yeni ilaç geliştirme süreçleri hızlandırılabilecektir.

Kaynaklar

  1. The Human Genome Project, http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml
  2. NCBI, Entrez Genome, http://www.ncbi.nlm.nih.gov/sites/genome
  3. Human Genome Sequencing Consortium, International (Ekim 2004). “Finishing the euchromatic sequence of the human genome.” Nature 431 (7011): 931–45. doi:10.1038/nature03001
  4. Lathrop RH,“The protein threading problem with sequence amino acid interaction preferences is NP-complete.” Protein Eng 7 (9): 1059–1068, 1994. doi: 10.1093/protein/7.9.1059
  5. Cochrane GR ve Galperin MY, “The 2010 Nucleic Acids Research Database Issue and online Database Collection: a community of data resources.” Nucl. Acids Res. 38: D1-D4, 2010, doi:10.1093/nar/gkp1077.

  • Bu yazının kısa bir önsürümü ODTÜ Mezunlar Derneğinin ODTÜ’lüler Bülteni Nisan 2010 (195) sayısında yayınlanmıştır.