GenBank; Bank Data Genetik Online Gratis

Siapapun yang berkecimpung dalam dunia genetik pasti mengenal dan pernah berurusan dengan GenBank, bahkan tak berlebihan jika GenBank disebut sebagai referensi utama mereka. Sebenarnya bank macam apakah GenBank itu?

Bank ini adalah database sekuen genetik, semua sekuen DNA teranotasi dan tranlasinya yang dipublikasikan di seluruh dunia ada di sini. Data pada GenBank selalu bertambah setiap saat. GenBank dikelola oleh NIH (National Institute of Health) pemerintah Amerika, dan merupakan bagian dari Kolaborasi Database Sekuen Nukleotida Internasional yang terdiri atas DNA DataBank of Japan (DDBJ), European Molecular Biology Laboratory (EMBL), dan GenBank sendiri di National Center for Biotechnology Information (NCBI). Ketiga organisasi ini selalu bertukar data setiap hari agar semua datanya selalu ter-update.

Seberapa besar bank data genetik ini?

GenBank data growth

GenBank Growth

Data GenBank datang dari siapa saja yang ingin mempublikasikan sekuen DNA temuannya dan mambagikannya ke seluruh dunia, sehingga tak heran jika data GenBank tumbuh secara eksponensial (lihat gambar di samping). Hingga bulan Agustus 2009 terdapat 106,533,156,756 basa dalam 108,431,692 sekuen di divisi GenBank tradisional dan ada 148,165,117,763 basa dalam 48,443,067 sekuen di divisi WGS (World Genome Shotgun). Jumlah yang fatastis dan akan terus bertambah dengan cepat seiring dengan makin majunya teknologi sekuensing DNA.

Data sebanyak itu jika dituliskan pada kertas dan dibuat buku maka jumlahya akan melebihi koleksi perpustakaan manapun. Andaikan satu halaman kertas ukuran A4 memuat 2000 basa, maka tebal buku tersebut sekitar 86 juta halaman atau sekitar 43 km!! Untunglah teknologi penyimpanan data sudah begitu canggih hingga kita tidak perlu pergi ke perpustakaan untuk membuka buku setebal 43 km hanya untuk mencari sekuen DNA gen 16S bakteri E. Coli. Kita hanya perlu memiliki komputer yang terhubung ke internet untuk menjelajah dan menyelami isi GenBank. It’s so simple!

Seperti Apa isi GenBank itu?

Record pada GenBank memiliki format tertentu yang disebut format GenBank, contoh dan keterangan lengkapnya bisa dilihat di sini. Secara umum, bagian-bagian pentingnya terdiri atas:

  • Lokus, merupakan data yang terdiri atas Nama Lokus, Panjang Sekuen, Jenis Molekul, Divisi pada GenBank dan Tanggal Modifikasi.
  • Definisi, uraian singkat mengenai sekuen, seperti organisme sumber, nama dan fungsi gen.
  • Accession, penomoran unik bagi setiap record
  • Versi, pada nomor accession terdapat satu digit yang merupakan versi, ini terutama jika terdapat perubahan/update data pada GenBank.
  • GI atau GenInfo Identifier, adalah nomor identifikasi untuk sekuen nukleotida, jika ada perubahan maka nomor GI pun akan berubah.
  • Keyword, kata atau frase yang mendeskripsikan sekuen.
  • Source, informasi mengenai organisme sumber sekuen.
  • Reference, menguraikan publikasi-publikasi yang memuat dan mendiskusikan sekuen yang terdapat di GenBank.
  • Features, informasi mengenai gen dan produk yang dihasilkan oleh gen tersebut. Anotasi fungsi-fungsi bagian tertentu dari sekuen pun dimuat di sini.
  • Sekuen, ini merupakan bagian utama yang memuat sekuen nukleotida.

Berikut ini contoh record dengan format GenBank:

LOCUS       SCU49845     5028 bp    DNA             PLN       21-JUN-1999
DEFINITION  Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p
            (AXL2) and Rev7p (REV7) genes, complete cds.
ACCESSION   U49845
VERSION     U49845.1  GI:1293613
KEYWORDS    .
SOURCE      Saccharomyces cerevisiae (baker's yeast)
  ORGANISM  Saccharomyces cerevisiae
            Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;
            Saccharomycetales; Saccharomycetaceae; Saccharomyces.
REFERENCE   1  (bases 1 to 5028)
  AUTHORS   Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W.
  TITLE     Cloning and sequence of REV7, a gene whose function is required for
            DNA damage-induced mutagenesis in Saccharomyces cerevisiae
  JOURNAL   Yeast 10 (11), 1503-1509 (1994)
  PUBMED    7871890
REFERENCE   2  (bases 1 to 5028)
  AUTHORS   Roemer,T., Madden,K., Chang,J. and Snyder,M.
  TITLE     Selection of axial growth sites in yeast requires Axl2p, a novel
            plasma membrane glycoprotein
  JOURNAL   Genes Dev. 10 (7), 777-793 (1996)
  PUBMED    8846915
REFERENCE   3  (bases 1 to 5028)
  AUTHORS   Roemer,T.
  TITLE     Direct Submission
  JOURNAL   Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New
            Haven, CT, USA
FEATURES             Location/Qualifiers
     source          1..5028
                     /organism="Saccharomyces cerevisiae"
                     /db_xref="taxon:4932"
                     /chromosome="IX"
                     /map="9"
     CDS             <1..206
                     /codon_start=3
                     /product="TCP1-beta"
                     /protein_id="AAA98665.1"
                     /db_xref="GI:1293614"
                     /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA
                     AEVLLRVDNIIRARPRTANRQHM"
     gene            687..3158
                     /gene="AXL2"
     CDS             687..3158
                     /gene="AXL2"
                     /note="plasma membrane glycoprotein"
                     /codon_start=1
                     /function="required for axial budding pattern of S.
                     cerevisiae"
                     /product="Axl2p"
                     /protein_id="AAA98666.1"
                     /db_xref="GI:1293615"
                     /translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF
                     TFQISNDTYKSSVDKTAQITYNCFDLPSWLSFDSSSRTFSGEPSSDLLSDANTTLYFN
                     VILEGTDSADSTSLNNTYQFVVTNRPSISLSSDFNLLALLKNYGYTNGKNALKLDPNE
                     VFNVTFDRSMFTNEESIVSYYGRSQLYNAPLPNWLFFDSGELKFTGTAPVINSAIAPE
                     TSYSFVIIATDIEGFSAVEVEFELVIGAHQLTTSIQNSLIINVTDTGNVSYDLPLNYV
                     YLDDDPISSDKLGSINLLDAPDWVALDNATISGSVPDELLGKNSNPANFSVSIYDTYG
                     DVIYFNFEVVSTTDLFAISSLPNINATRGEWFSYYFLPSQFTDYVNTNVSLEFTNSSQ
                     DHDWVKFQSSNLTLAGEVPKNFDKLSLGLKANQGSQSQELYFNIIGMDSKITHSNHSA
                     NATSTRSSHHSTSTSSYTSSTYTAKISSTSAAATSSAPAALPAANKTSSHNKKAVAIA
                     CGVAIPLGVILVALICFLIFWRRRRENPDDENLPHAISGPDLNNPANKPNQENATPLN
                     NPFDDDASSYDDTSIARRLAALNTLKLDNHSATESDISSVDEKRDSLSGMNTYNDQFQ
                     SQSKEELLAKPPVQPPESPFFDPQNRSSSVYMDSEPAVNKSWRYTGNLSPVSDIVRDS
                     YGSQKTVDTEKLFDLEAPEKEKRTSRDVTMSSLDPWNSNISPSPVRKSVTPSPYNVTK
                     HRNRHLQNIQDSQSGKNGITPTTMSTSSSDDFVPVKDGENFCWVHSMEPDRRPSKKRL
                     VDFSNKSNVNVGQVKDIHGRIPEML"
     gene            complement(3300..4037)
                     /gene="REV7"
     CDS             complement(3300..4037)
                     /gene="REV7"
                     /codon_start=1
                     /product="Rev7p"
                     /protein_id="AAA98667.1"
                     /db_xref="GI:1293616"
                     /translation="MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ
                     FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD
                     KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR
                     RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK
                     LISGDDKILNGVYSQYEEGESIFGSLF"
ORIGIN
        1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg
       61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct
      121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa
      181 gaaccgccaa tagacaacat atgtaacata tttaggatat acctcgaaaa taataaaccg
      241 ccacactgtc attattataa ttagaaacag aacgcaaaaa ttatccacta tataattcaa
      301 agacgcgaaa aaaaaagaac aacgcgtcat agaacttttg gcaattcgcg tcacaaataa
      361 attttggcaa cttatgtttc ctcttcgagc agtactcgag ccctgtctca agaatgtaat
      421 aatacccatc gtaggtatgg ttaaagatag catctccaca acctcaaagc tccttgccga
      481 gagtcgccct cctttgtcga gtaattttca cttttcatat gagaacttat tttcttattc
      541 tttactctca catcctgtag tgattgacac tgcaacagcc accatcacta gaagaacaga
      601 acaattactt aatagaaaaa ttatatcttc ctcgaaacga tttcctgctt ccaacatcta

<..bagian ini sengaja dipotong untuk menghemat tempat :-) ..>

//

Selain format baku GenBank, tersedia juga format-format lain yang sering digunakan seperti FASTA, ASN, XML, dll. Kita dapat memilihnya sesuai kebutuhan.

Format Data GenBank

Berbagai Format Data Selain GenBank

Mengirim Data ke GenBank

Seperti tadi telah disinggung bahwa siapapun dapat mengirimkan sekuen-nya ke GenBank. Terutama bagi Anda yang ingin mempublikasikan sekuen tersebut pada jurnal ilmiah internasional yang mensyaratkan dicatumkannya Accession Numberpada paper Anda. Lalu bagaimana caranya?

Ada beberapa cara yang dapat kita pilih:

  • BankIt. Digunakan untuk mengirimkan sekuen dengan cepat secara online melalui website.
  • Sequin. Adalah software khusus yang berdiri sendiri yang dapat diinstall di komputer dengan platform Mac, PC atau UNIX. Jika kita menggunakan Sequin, maka file outputnya harus dikirimkan via email ke GenBank.
  • tbl2asn. Merupakan suatu program command-line yang dapat mengotomatisasi pembuatan record sekuen untuk dikirimkan ke GenBank dengan menggunakan fungsi yang sama seperti Sequin. tbl2asn biasanya digunakan untuk mengirimkan sekuen dalam jumlah yang sangat banyak seperti genom lengkap.
  • Barcode Submission Tool. Khusus digunakan untuk mengirimkan sekuen pada proyek Barcode of Life, saat ini hanya bisa digunakan untuk sekuen gen Mitochondrial Cytochrome C Oxidase subunit I (COI).

Selain untuk mengirimkan sekuen baru, perangkat di atas dapat pula digunakan untuk memperbarui data sekuen jika sewaktu-waktu diperlukan.

Mengakses GenBank

Ada beberapa cara untuk mencari dan mengambil data dari GenBank, yaitu dengan perangkat berikut ini:

1. Entrez Nucleotide.

Caranya dengan memasukkan Sequence Identifier atau anotasi sebagai kata kuncinya. Entrez Nucleotide sendiri terbagi menjadi tiga divisi, yaitu CoreNucleotide (koleksi utama), dbEST (Expressed Sequence Tags) dan dbGSS (Genome Survey Sequences).

Latihan: Bukalah situs NCBI, lalu masukkan kata kunci AF136606 (sequence identifier)atau drosophila melanogaster 18S (anotasi).

Contoh Pencarian pada GenBank

Contoh Pencarian pada GenBank

Pada laman yang terbuka akan terlihat berapa banyak record yang sesuai dengan kata kunci pencarian kita. Kita dapat mengeksplorasi lebih jauh dengan mengklik pada masing-masing kategori hasil pencarian yang muncul.

Contoh Hasil Pencarian pada GenBank

Contoh Hasil Pencarian pada GenBank

2. BLAST (Basic Local Alignment Search Tool).

Caranya dengan memasukkan suatu sekuen yang kita punya, lalu program BLAST akan melakukan alignment terhadap seluruh sekuen yang ada pada GenBank dan mengurutkannya berdasarkan tingkat kemiripan dengan sekuen yang kita punya.

Latihan: Bukalah halaman BLAST Nucleotide (blastn), pada kotak yang tersedia masukkan sekuen nukleotida yang kita miliki. Sebagai latihan, gunakan sekuen di bawah ini dengan mengkopi dan meletakkannya pada kotak pencarian BLAST. Parameter yang ada tidak perlu diubah dulu, biarkan apa adanya. Tekan tombol BLAST, tunggu beberapa saat hingga diperoleh hasil pencarian. Anda bisa bereksperimen dengan mengubah beberapa parameter jika ingin.

>Latihan
GATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAG
ACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAA
GTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATA
TTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAA
TTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCG
TCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAAT
AATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCT
Halaman BLAST

Halaman BLAST

Berikut ini contoh hasil BLAST yang muncul. Mengingat data pada GenBank senantiasa berubah setiap hari, ada kemungkinan hasil yang Anda peroleh tidak sama persis dengan hasil yang ditampilkan di sini.

Tampilan Grafis Hasil BLAST

Tampilan Grafis Hasil BLAST

Tampilan Tabel Hasil BLAST

Tampilan Tabel Hasil BLAST

3. NCBI e-utilities.

Jika Anda mahir dalam pemrograman komputer, Anda bisa memasukkan fasilitas pencarian GenBank ke dalam program yang Anda buat.

Tentu tidak akan cukup tempat untuk menguraikan apa isi GenBank dalam tulisan ini. Sebaiknya kita langsung saja masuk ke situs NCBI dan mengeksplorasi seluruh fitur dan memanfaatkannya untuk menunjang penelitian kita. Selamat mencoba!

Other articles you may like:

Tags:

10 Comments

  1. Fitri Vee says:

    haloo mas yepy..

    kita udah coba langkah yg BLASt..dan taarraa dapet hasilnya ky yg digambar.. tapi kita bingung gimana cara bacanya. yg menunjukan tingkat homologinya itu kolom yg mana yah mas?

    • yepyhardi says:

      Halo juga..
      Dalam tabel hasil BLAST, item atau record diurutkan berdasarkan tingkat homologinya, dimulai dari yang paling tinggi. Parameter paling akurat dilihat dari nilai “E value”, semakin kecil nilai “E value” maka semakin tinggi tingkat homologinya. Secara singkat “E value” adalah tingkat probabilitas secara statistik suatu record untuk memiliki kemiripan dengan query yang kita BLAST.
      Parameter lain adalah “Max Score”, kalau ini semakin tinggi nilainya maka semakin tinggi pula homologinya. Ada rumus tertentu berdasarkan jumlah sekuen yang match, dikurangi jumlah sekuen yang mismatch dan jumlah gaps.
      Untuk lebih jelas dan lengkapnya, insyaAllah akan kami bahas dalam artikel khusus. Ditunggu aja ya..

  2. okaii mas yepy..makasih yyaaa..restu dan fitri tunggu yah…makasih bgt jawaban2nya…

  3. hallo mas yepi..
    kami sdh ngerti cara baca homologinya,,trs kami mw coba cocokin primer yg kami punya dg urutan nukleotida yg di peroleh dr genBank. tapi ternyata ga ada yg cocok..
    itu caranya gmn ya?biar tau klo primer kami itu nempelnya di urutan nukleotida yang mana…
    terima kasih…

    • yepyhardi says:

      Halo Ratu..
      Kita bisa BLAST primer menggunakan Nucleotide BLAST (blastn), gunakan database nr (non-redundant) dan organismenya jangan dibatasi. Bila perlu gunakan pilihan Mega-BLAST dan naikkan jumlah query hits (misalnya 500 atau 1000) agar hasil pencarian lebih banyak dan kita bisa tau primer kita kemungkinan bakalan nempel di mana saja.
      Gimana? kalo masih ada kesulitan bisa disubmit urutan sekuen primernya biar kita coba BLAST sama-sama..

  4. Fitri Vee says:

    halo mas yepi…
    alhamdulillah kami sudah ngerti cari urutan primer yg nempel di gen nya….^^

    terima kasih atas petunjuknya… :)
    Fitri&Restu

  5. sigit-leny says:

    maz, ada gak situs gen bank selain yg 3 itu?
    masalahnya aq dapat tugas cari sequence dengue virus 2, tapi dari selain 3 situs diatas….

    • yepyhardi says:

      Setahu saya GenBank adalah database terbesar untuk sekuen DNA, hampir semua publikasi ilmiah mengharuskan sekuen DNA yang akan dicantumkan dalam jurnal untuk dideposit dulu di GenBank. Kalaupun ada database lain, itu sifatnya khusus dan spesifik, misalnya ada situs tertentu yang memuat database DNA genom coklat, gen-gen tertentu pada bakteri, dll.

  6. oliv says:

    kl mau mencari primer fosfatase yang udah digunakan caranya bgmna ya thx..

Leave a Comment





x