

Peneliti di Mesir telah mengembankan teknik untuk mengkompresi urutan DNA yang digunakan pada riset kedokteran, sehingga database tersebut memerlukan ruang harddisk lebih sedikit, tanpa menghilangkan informasi yang ada. Pendekatan ini telah dijabarkan secara detai pada International Journal of Bioinformatics Research and Application.
Database urutan molekuler, seperti EMBL, GenBank, dan Entrez memiliki jutaan urutan DNA yang mengisi ribuan gigabyte kapasitas penyimpanan komputer. Dengan adanya publikasi ilmiah baru pada bidang genetika dan terkait, urutan baru selalu ditambahkan dan laju akumulasi data sangatlah meningkat. Urutan tersebut memainkan peran penting pada riset kedokteran, diagnosis penyakit, dan desain maupun pengembangan obat baru.
Urutan DNA terdiri hanya atas empat basa yang berbeda, yaitu A, C, G, dan T. Setiap basa dapat diwakilkan oleh kode komputer dengan dua karakter digit biner, dua bits, yaitu A(00), C(01), G(10), dan T(11). Sepintas, seakan hal ini adalah cara yang paling efisien untuk menyimpan urutan DNA.
Bagaimanapun, urutan DNA tidaklah random. Mereka memiliki bagian berulang, palindrom, dan fitur lain yang dapat diwakilkan oleh bit yang lebih sedikit daripada yang diperlukan untuk menyimpan urutan lengkap tersebut dalam representasi biner. Sebagai contoh, pola berulang dapat dipersingkat dalam ekivalen biner ‘enam kali G’, yang jauh lebih pendek beberapa bit dibandingkan menulis ‘GGGGGG’ dalam biner. Palindrome juga dapat dipersingkat pada kode yang relatif terhadap pola komplemen mereka di urutan DNA. Read the rest of this entry »