Veri madenciliği teknikleri kullanılarak gen regülasyonunun incelenmesi
An investigation of gene regulation via data mining techniques
- Tez No: 593839
- Danışmanlar: DR. ÖĞR. ÜYESİ YAKUP SABRİ ÖZKAZANÇ
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Genetik, Electrical and Electronics Engineering, Genetics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: Türkçe
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 392
Özet
Bu tez kapsamında, birbirinden farklı genlere ait promoter bölgelerinin içerisinde bulunan nükleotit dizilimlerinin incelenmesi üzerine çalışmalar gerçekleştirilmiştir. Yapılan çalışmalarda Homo Sapiens, Drosophila Melanogaster ve Saccharomyces Cerevisiae canlı türlerine ait genetik öğeler kullanılmıştır. Tez kapsamında güdülen temel amaç, gen promoter bölgeleri içerisindeki nükleotit bölgeleri ile genlerin fonksiyonalitesi ve sınıfları arasındaki ilişkileri, çeşitli veri madenciliği tekniklerini kullanarak incelemektir. Bu temel amaç göz önünde bulundurulduğunda yapılan incelemelerin üç temel başlık altında toplanabileceği değerlendirilmektedir. Bu temel inceleme konuları, genlerin promoter bölgesi karmaşıklığının incelenmesi, genlerin promoter bölgesi sekansına bağlı olarak sınıflandırılması ve gen promoter bölgesindeki nükleotit dizilimi ile ilgili genler tarafından üretilen protein içerisindeki amino asit sekansı arasında ilişki kurma çalışmaları olarak sıralanabilir. Tez kapsamında gerçekleştirilen incelemelerin tümünde ortak kullanılan veri, genlere ait promoter bölgelerindeki nükleotit dizilimleridir. Bu sebeple, incelemelerin ilk adımında genlere ait promoter bölgelerindeki nükleotit diziliminin karmaşıklığının incelenmesi üzerine çalışmalar gerçekleştirilmiştir. Bu tez kapsamda temel olarak nükleotit dizilimlerinin frekans uzayındaki dönüşümleri üzerinden inceleme yapan metotlar ve entropi incelemesi gerçekleştirilmiştir. Kullanılan yöntemler ile promoter bölgelerinin karmaşıklık düzeyinin yüksek olduğu görülmüştür. Tez kapsamında kullanılan metodolojiler açısından Homo Sapiens, Drosophila Melanogaster ve Saccharomyces Cerevisiae canlılarının promoter bölgelerinin karmaşıklığı birbiriyle karşılaştırıldığında ise en az karmaşıklık düzeyinin Homo Sapiens canlısında olduğu fakat diğer canlılar için tespit edilen karmaşıklık düzeyinin, Homo Sapiens canlısı için tespit edilen karmaşıklık seviyesine yakın olduğu görülmüştür. Tez kapsamındaki ikinci temel inceleme konusu, Homo Sapiens, Drosophila Melanogaster ve Saccharomyces Cerevisiae canlılarının sahip olduğu genlere ait promoter bölgelerindeki nükleotit dizilimleri incelenerek promoter bölgelerinin ait olduğu genlerin sınıflandırılması üzerinedir. Gerçekleştirilen sınıflandırma çalışmaları sonucunda, Homo Sapiens canlısına ait protein kodlama yeteneği bulunan ve protein kodlama yeteneği bulunmayan genlerin sadece promoter bölgeleri içerisindeki nükleotit dizilimleri incelenerek yüksek bir başarım ile sınıflandırılabildiği gözlenmiştir. Bu incelemede kullanılan gen promoter bölgeleri, gen başlangıç nükleotitinden 50 nükleotit önceki ve gen başlangıç nükleotitinden 50 nükleotit sonraki nükleotitler arasında kalan bölgelerdir. Fakat aynı metotlar kullanılarak Drosophila Melanogaster ve Saccharomyces Cerevisiae canlıları incelendiğinde, bu canlılar için Homo Sapiens kadar yüksek başarıma ulaşılamadığı tespit edilmiştir. Tez kapsamındaki üçüncü ve son temel inceleme konusu ise ilgili canlı türlerinin sahip olduğu genlere ait promoter bölgelerindeki nükleotit dizilimi ile ilgili genler tarafından kodlanan proteinler arasındaki ilişkinin incelenmesi üzerinedir. Bahse konu inceleme çalışmalarında Homo Sapiens, Drosophila Melanogaster ve Saccharomyces Cerevisiae canlı türleri için birbirinden bağımsız sonuçların incelenmesinin yanında, bu canlı türleri için elde edilen sonuçların birbiriyle karşılaştırılması da yapılmıştır. Bu inceleme faaliyetlerinin sonucunda, promoter bölgelerindeki nükleotit dizilimi ile ilgili genler tarafından üretilen proteini oluşturan amino asit sekansı arasında birebir eşleme çalışmasının başarımının her üç canlı türü için de düşük olduğu tespit edilmiştir. Bununla birlikte, birebir eşleştirme çalışması yerine belirli bir promoter bölgesine karşılık gelen protein sekansının içerisinde bulunması öngörülen bir protein seti sunma çalışmasının tatmin edici düzeyde bir başarım seviyesine sahip olduğu görülmüştür. Bu anlamda, promoter bölgesinin nükleotit sekansı ile karşılık gelen genler tarafından üretilen amino asit sekansı arasındaki en güçlü ilişki Homo Sapiens için bulunmaktadır. Bu sıralamada Saccharomyces Cerevisiae ikinci, Drosophila Melanogaster ise üçüncü sırada yer almaktadır.
Özet (Çeviri)
In this thesis, the studies was carried out on the examination of promoter regions belonging to different genes. Genetic components of Homo Sapiens, Drosophila Melanogaster and Saccharomyces Cerevisiae species were used in these studies. The main aim for this thesis is to investigate the relationship between the nucleotide regions in the gene promoter regions and gene functionality and gene classes by using various data mining techniques. If this main aim is considered, the investigations can be divided into three main topics. These topics can be listed as the investigation of complexity of the gene promoter regions, the classification of the genes according to the nucleotide regions which are located in the gene promoters, and the examining the relationship between the nucleotide regions in the gene promoters and the amino acid sequence of the proteins which are produced by the corresponding genes. Within the scope of this thesis, the data commonly used for all of the investigations is the nucleotide regions in the gene promoters. Therefore, as the first step of the investigations, the complexity of the promoter regions of the genes is investigated. In this thesis, entropy analysis and the investigation methods which give the frequency space transformations of the nucleotide sequences are used. According to the used methods it was observed that the complexity level of the promoter regions is high. If the complexity levels of Homo Sapiens, Drosophila Melanogaster and Saccharomyces Cerevisiae according to the used methodologies are compared, it is observed that Homo Sapiens has the least complexity level among the considered species. On the other hand it is also observed that the determined complexity level for the other species is close to the complexity level for Homo Sapiens. The second main subject of the thesis is on determining the gene classes by examining the nucleotide sequences in the promoter regions belonging to the genes of Homo Sapiens, Drosophila Melanogaster and Saccharomyces Cerevisiae. As a result of the classification studies for Homo Sapiens, it was observed that genes having protein coding ability and without protein coding ability could be classified with high performance by examining the nucleotide sequences within the promoter regions only. The gene promoter regions used in this study are those which lie between the nucleotides 50 nucleotides before the gene start nucleotide and 50 nucleotides after the gene start nucleotide. However, when the Drosophila Melanogaster and Saccharomyces Cerevisiae organisms are examined using the same methods, it was found that these organisms are not as successful as Homo Sapiens. The third and final subject of the thesis is to examine the relationship between the nucleotide sequence in the promoter regions of the genes of the corresponding species and the proteins encoded by the genes of interest. In this study, independent results of Homo Sapiens, Drosophila Melanogaster and Saccharomyces Cerevisiae species were examined and the results obtained for these species were compared. As a result of these investigation activities, the performance of the one-to-one mapping study between the nucleotide sequence in the promoter regions and the protein-producing amino acid sequence produced by the genes of interest was found to be low for all three species. However, it has been found that the study of presenting a protein set that is intended to contain the protein sequence corresponding to a particular promoter region rather than a one-to-one mapping study has a satisfactory level of performance. In this sense, the most powerful relationship between the nucleotide sequence of the promoter region and the amino acid sequence generated by the corresponding genes is found for Homo Sapiens. Saccharomyces Cerevisiae takes the second and Drosophila Melanogaster takes the third place in this ranking.
Benzer Tezler
- Application of computational biology approaches for the investigation of the molecular mechanisms of cancer across taxonomic groups
Farklı taksonomik gruplarda kanserin moleküler mekanizmalarının hesaplamalı biyoloji uygulamalarıyla araştırılması
IŞIL TAKAN
Doktora
İngilizce
2022
BiyolojiDokuz Eylül ÜniversitesiMoleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ATHANASİA PAVLOPOULOU
- Employing data mining techniques on biological sequences for transcription factor binding site identification
Biyolojik dizilimler üzerinde veri madenciliği teknikleri kullanarak trankripsiyon faktörü bağlanma sitelerinin tespiti
MUSTAFA KARABULUT
Doktora
İngilizce
2011
Elektrik ve Elektronik MühendisliğiÇukurova ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. TURGAY İBRİKÇİ
- Development of space and time efficiency improvement methods and appling onto frequent subgraph mining algorithms
Sık alt çizge madenciliği algoritmalarına uygulanabilir alan ve zaman verimliliği arttıran metotların geliştirilmesi
MURAT OĞUZ
Doktora
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMaltepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. TURGAY TUGAY BİLGİN
- Büyük veri kümelerinde sınıflandırma problemi için yeni bir algoritma ve bir uygulama
A new algorithm and an application for the classification problem in big data sets
HATİCE ŞENOZAN
Yüksek Lisans
Türkçe
2019
Endüstri ve Endüstri MühendisliğiErciyes ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. BANU SOYLU
- Biyolojik çizge madenciliği: Alt çizge örüntülerinin bulunması ve etkileşim tahmininde kullanılması
Biological graph mining: Discovery of subgraph paterns and their utilization in interaction prediction
MEHMET EMİN TURANALP
Doktora
Türkçe
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. SAADETDİN HERDEM