HIV-1 proteaz enzimine ait kesme konumlarının fizikokimyasal özelliklere dayalı yeni bir kodlama yaklaşımı ile oluşturulmuş veri seti ile tahmin edilmesi
HIV-1 protease cleavage site prediction with generating dataset using a new encoding scheme based on physicochemical properties
- Tez No: 561955
- Danışmanlar: DOÇ. DR. AYÇA ÇAKMAK PEHLİVANLI
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Classification algorithms, HIV-1 protease, Cleavage site prediction, Peptide, Physicochemical properties
- Yıl: 2019
- Dil: Türkçe
- Üniversite: Mimar Sinan Güzel Sanatlar Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: İstatistik Bilim Dalı
- Sayfa Sayısı: 103
Özet
Küresel dünyanın sonucu olarak sınırlar ortadan kalkmakta ve hastalıkların bir bölgeden başka bir bölgeye taşınması hızlı ve kısa sürede gerçekleşebilmektedir. Salgın ve hastalıklarla mücadele de Dünya Sağlık Örgütü önemli bir yer tutmaktadır. Dünya sağlık örgütünün verilerine göre HIV/AIDS'e bağlı hastalıklara maruz kalan kişi sayısının çok yüksek olması nedeniyle, bu hastalıkla mücadele bilim adamları için önemini korumaktadır. HIV'e bağlı hastalıkla mücadele de laboratuvar ortamlarında ilaçların tasarlanması ve geliştirilmesi zaman alıcı olması nedeniyle son zamanlarda makine öğrenmesi yöntemleri ile çalışmalar yapılarak literatüre katkı verilmektedir. Proteaz inhibitörleri kullanılarak üretilen ilaçlar HIV-1 proteazın normal fonksiyonunu yerine getirmesini önlemekle beraber, öncül virüs proteinlerinin olgun virüs proteinlere dönüşümünü yani proteaz enzimi içeren mikroorganizma sürecini de engellenmiş olurlar. HIV-1 proteaz verisi sekizli amino asit dizilimlerinden oluşan ve oktamer adı verilen peptidlerden oluşmaktadır. Peptidler, amino asitlerden meydan geldiğinden, amino asitlerin sahip olduğu 566 fizikokimyasal özelliğe ait veriler derlenmiştir. Kayıp gözlemlere değer atanması Maksimum Beklenti ve Jack Knife yöntemleri ile irdelenmiştir. Rögnvaldsson ve arkadaşları tarafından oluşturulan HIV-1 proteaz verilerinin birleştirilirken ayıklanarak yeni bir kodlama yaklaşımı ile veri seti oluşturulmuştur. Bu veri setine ilişkin kesme konumlarının (kesilmiş, kesilmemiş) tahmin edilmesi için makine öğrenmesi yöntemlerinden yararlanılmaktadır. Tezin amacı doğrultusunda, bağımlı değişken olarak kesme konumları, bağımsız değişkenler olarak fizikokimyasal özellikler ele alınmıştır. Bu kapsamda, karar ağaçları, naive bayes, lojistik regresyon analizi, rastgele orman ve k en yakın komşuluk sınıflandırma algoritmaları tanıtılarak 10 kat çapraz doğrulama uygulanarak sınıflandırma performans ölçütleri bakımından karşılaştırma yapılmıştır. Veri setinin özgünlüğü ve literatür de daha önce böyle bir veri ile çalışılmadığı göz önüne alınarak yapılan bu uygulama da“WEKA”açık kaynak yazılımının yanı sıra“MATLAB”ve“Microsoft Excel”programları kullanılmıştır. Kullanılan sınıflandırma algoritmalarında elde edilen sonuçlar; hassaiyet, özgüllük, duyarlılık, doğru sınıflandırma oranı, AUC ve olasılık fazlalığı değerleri bakımından incelenmiştir. Hassasiyet 0.92 değeri ile naive bayesde en iyi sonucu verirken; özgüllük 0.79, duyarlılık 0.99, doğru sınıflandırma oranı %86.5, AUC 0.86 ve olasılık fazlalığı 0.77 değerleri ile en iyi sonucu rastgele orman yönteminde elde edilmiştir. Anahtar kelime: Sınıflandırma algoritmaları, HIV-1 proteaz, Kesme konumu tahmini, Peptid, Fizikokimyasal özellik.
Özet (Çeviri)
As a result of the global world, borders are eliminated and the transfer of diseases from one region to another can be occured quickly. World Health Organization has an important role in the fight against epidemics and diseases. According to the data of the World Health Organization, the number of people exposed to HIV/AIDS-related diseases is very high, so the fight against this disease remains essential for scientists. According to the World Health Organization, it is estimated that more than 70 million people have been exposed to HIV since the beginning of the disease, and about 35 million of them have died from HIV. AIDS occurs as a result of HIV, weakening the defense mechanism of the human immune system against infection. HIV/AIDS remains one of the world's most important public health problems, especially in countries with low incomes. HIV infection is an infection that causes immunity to the host cell, resulting in a wide clinical picture ranging from retrovirus-mediated carrier to severe fad and fatal diseases. Peptides called octamer or octapeptide are formed by binding of eight amino acids with peptide bonds. In the treatment of HIV infections; protease inhibitors, such as sakuinavir, ritonavir, indinavir, nelfinavir, amprenavir, lopinavir, atazanavir, fosamprenavir, tipranavir and darunavir, are used. Although protease inhibitors prevent fulfill produced using drugs with the normal function of HIV-1 protease, the precursor viral proteins into mature viral proteins in other words, prevents the process comprising the protease enzyme of the microorganism. Replication of the virus is only possible if the HIV-1 protease cleaves multiple proteins from their appropriate position. The HIV-1 protease enzyme has the task of determining the scissile bond of these octamers. The scissile bond of the HIV-1 protease are in the process of a particular process. If the functioning of this process can be solved, the molecules of the appropriate drug to be developed can be prevented from infiltrating the active site of the protease and blocking the active site by the protease enzyme. The correct prediction of HIV-1 protease enzyme cleavage sites is of vital importance for the development of a repressive drug and hence the elimination of AIDS. Due to the fact that the design and development of medicines in laboratory environments is time consuming, recently machine learning methods are made. Although there are many amino acids in nature, the most known 20 amino acids are used in the synthesis of proteins and other molecules by coding by DNA. Coupling of more than one amino acid is possible by peptide bonds. The data preparation phase is one of the most important stages of the data mining process; because any mistakes made at this stage lead to the problem of re-preparing the data during the establishment of the model. Accurate results can be achieved by performing every step of this process correctly and then analyzing the data. The data set was created in two steps. First, HIV-1 protease data consists of eight amino acid sequences and peptides called octamers. Amino acids have many different physicochemical properties such as hydrophobicity, polarity, molecular weight. Physicochemical properties of amino acids are frequently used in the classification of proteins. As the peptides are composed of amino acids, data on the 566 physicochemical properties of amino acids have been compiled. Assignment of value to missing values was evaluated with Maximum Expectation and Jack Knife methods. Then, the data set was created by combining HIV-1 protease data generated by Rögnvaldsson et al. with a new encoding approach. These data consist of the eight amino acid sequence called octamer and the state of cleavage site. The data set is completed by subtracting the repetitive and different class variables from the octamers in the data set. One of the most important characteristics that distinguishes this study from previous studies is that there are 544 features in previous studies and 566 features have been used in this study. Machine learning methods are utilised to cleavage site (cleavage, noncleavage) prediction for this data set. For the purpose of the thesis, cleavage site as dependent variables and physicochemical properties as independent variables are discussed. In this context, decision trees, naive bayes, logistic regression analysis, random forest and k nearest neighborhood classification algorithms were introduced. 10 fold cross validation was applied to the classification algortims. As a result, classification performance measures were predicted to be compared in terms of classification algorithms. In contrast to previous studies, in this study which was made considering the originality of the data set and that the literature has not been studied with such data before, was used“WEKA”open source software as well as“MATLAB”and“Microsoft Excel”programs. this data set is used for the first time. The results obtained in the classification algorithms are examined in terms of precision, specificity, sensitivity, accuracy, AUC and probability excess values. The best result was found in the naive bayes classification algorithm with 0.92 in terms of precision, however, in terms of specificity, sensitivity, accuracy, AUC and probability excess; the best result was obtained with random forest method with 0.79, 0.99, %86.5,0.86 and 0.77 values respectively.
Benzer Tezler
- HIV-1 proteaz enziminin inhibitörleriyle etkileşimi esnasındaki konformasyonel değişikliklerin teorik incelemesi ve yeni analogların tasarımı
Theoretical investigation on conformational changes of HIV-1 protease enzyme during interaction with its inhibitors and design of new analogues
MERVE SENEM AVAZ
Yüksek Lisans
Türkçe
2011
Eczacılık ve FarmakolojiHacettepe ÜniversitesiKimya Ana Bilim Dalı
PROF. DR. VİLDAN ADAR
- HIV-1 proteaz enziminin kesme konumlarının tespitinde yeni öznitelik vektörleri
New feature vectors on prediction of HIV-1 protease enzyme cleavage sites
MURAT GÖK
Doktora
Türkçe
2011
BiyoistatistikSakarya ÜniversitesiElektronik-Bilgisayar Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. AHMET TURAN ÖZCERİT
- Molecular dynamics of substrate recognition and CO-evolution in HIV-1 protease
HIV-1 proteazda sübstrat tanıma ve eşevrimin moleküler dinamiği
AYŞEGÜL ÖZEN
Yüksek Lisans
İngilizce
2008
Kimya MühendisliğiBoğaziçi ÜniversitesiKimya Mühendisliği Ana Bilim Dalı
PROF. TÜRKAN HALİLOĞLU
- Moleküler kenetlenme yöntemi ile HIV-1 proteaz için yeni aday inhibitörlerin tasarlanması
Designing new candidate inhibitors for HIV-1 protease by molecular docking
AYİSHA İSBANDİYAROVA
Yüksek Lisans
Türkçe
2023
BiyolojiÜsküdar ÜniversitesiMoleküler Biyoloji ve Genetik Ana Bilim Dalı
DOÇ. DR. VİLDAN ENİSOĞLU ATALAY
- Recognition and binding processes in HIV-1 protease
HIV-1 proteazda peptit tanıma ve bağlanma mekanizmaları
ASUMAN NEVRA ÖZER
Doktora
İngilizce
2008
BiyomühendislikBoğaziçi ÜniversitesiKimya Mühendisliği Ana Bilim Dalı
PROF. TÜRKAN HALİLOĞLU