Veri madenciliği kullanarak ache enzimiyle etkileşen moleküllerin bağlanma eğiliminin tahmini
Prediction of binding affinity of molecules interacting with ache enzyme using data mining
- Tez No: 892377
- Danışmanlar: DR. ÖĞR. ÜYESİ ÖZLEM ERDAŞ ÇİÇEK
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Necmettin Erbakan Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimi ve Mühendisliği Bilim Dalı
- Sayfa Sayısı: 96
Özet
İlaç keşfi için kullanılan veri setlerinin analizi, verilerin kalitesini ve uygunluğunu değerlendirmek için gereklidir. Veri setlerindeki eğilimlerin, dağılımların ve ilişkilerin analizi, doğru sonuçlar elde etmek için önemlidir. Ayrıca, potansiyel ilaç adaylarını belirlemek için kullanılan moleküler özelliklerin ve etkileşimlerin anlaşılmasına yardımcı olmaktadır. Bu çalışmada, AChE enzimini inhibe eden bileşiklerin IC50 değerlerini tahmin etmek amacıyla veri madenciliği ve makine öğrenme algoritmaları kullanılmıştır. Biyolojik aktivite verileri, kanonik SMILES dizileri ve Lipinski'nin 5 kuralına dayalı özelliklerle genişletilmiştir. Çalışmada, moleküllerin biyolojik aktivitelerini ve ilaç benzerliklerini tahmin etmek için moleküler parmak izi hesaplamaları yapılmıştır. Farklı uzunluklardaki bit vektörleriyle oluşturulan veri setleri üzerinde Rassal Orman, XGBOOST, Ridge, SVR ve PLS regresyon algoritmaları ile tahminlemeler gerçekleştirilmiştir. Performans değerlendirmesi için k-katlı çapraz geçerleme kullanılmıştır. Elde edilen sonuçlara göre söz konusu algoritmalardan bazıları seçilerek toplu öğrenim yönteminde tahminleyici olarak kullanılmıştır. Sonuç olarak XGBOOST, PLS ve Ridge tahminleyicilerinin kullanıldığı toplu öğrenim yöntemiyle 0.75 korelasyon ve 0.63 ortalama kare hata değeri ile literatürdeki örneklerine kıyasla daha iyi bir sonuç elde edilmiştir. Ayrıca, standart sapması 0.3'ten küçük olan bit sütunlarının elenmesi ile veri seti küçültülmüş ve modellerin çalışma hızları arttırılmıştır. Bu çalışmada, AChE enzimiyle etkileşen bileşiklerin etkinliğinin belirlenmesinde makine öğrenimi algoritmalarının performansını karşılaştırmalı analiz ederek en iyi IC50 değeri tahmin sonucuna ulaşmak hedeflenmiştir. En iyi IC50 değerini bulmak, bir ilacın hedef enzimi ne kadar etkili durdurduğunu gösterir ve bu sayede, hastalıkların tedavisinde kullanılabilecek en güçlü ilaç adaylarını seçmeye yardımcı olabilir.
Özet (Çeviri)
Analysis of datasets used for drug discovery is essential to assess the quality and relevance of the data. Analysis of trends, distributions, and relationships in data sets is important to obtain accurate results. It also helps understand molecular properties and interactions used to identify potential drug candidates. In this study, data mining and machine learning algorithms were used to estimate the IC50 values of compounds that inhibit the AChE enzyme. Biological activity data are augmented with features based on canonical SMILES sequences and Lipinski's rule of 5. In the study, molecular fingerprint calculations were performed to estimate the biological activities and drug similarities of molecules. Predictions were performed using Random Forest, XGBOOST, Ridge, SVR and PLS regression algorithms on datasets created with bit vectors of different lengths. K-fold cross-validation was used for performance evaluation. According to the results obtained, some of the algorithms were selected and used as predictors in the ensemble learning method. As a result, a better result was obtained compared to the examples in the literature with 0.75 correlation and 0.63 mean square error value with the ensemble learning method using XGBOOST, PLS and Ridge estimators. In addition, the data set was reduced and the working speed of the models was increased by eliminating the bit columns with standard deviation less than 0.3. This study aims to reach the best IC50 value prediction result by comparatively analyzing the performance of machine learning algorithms in determining the effectiveness of compounds that interact with the AChE enzyme. Finding the best IC50 value indicates how effectively a drug inhibits a target enzyme and can help select the most potent drug candidates to treat diseases.
Benzer Tezler
- Erythromcın ilacının yan etkilerinin araştırılması üzerine veri madenciliği çalışması
Data mining on the research of the side effects of erythromycin
ERHAN TAHMİNCİLER
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOkan ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. PINAR YILDIRIM
- Veri madenciliği kullanarak akıllı reklam/anket uygulaması
Smart advertisement/survey application using data mining
DAVUT ÇELİK
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET SERTBAŞ
YRD. DOÇ. DR. TOLGA ENSARİ
- Veri madenciliği kullanarak biyokimya verilerinden hastalık teşhisi
An analyse of a deseases with biochemical data by using data mining
ŞENGÜL DOĞAN
Yüksek Lisans
Türkçe
2007
BiyomühendislikFırat ÜniversitesiBiyomühendislik Ana Bilim Dalı
Y.DOÇ.DR. İBRAHİM TÜRKOĞLU
- Air pollution forecasting by using data mining
Veri madenciliği kullanarak hava kirliliği tahmini
AYŞE BETÜL GÜLBAĞCI
Yüksek Lisans
İngilizce
2006
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFatih ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. ATAKAN KURT
- Evaluating learner satisfaction by using data mining in learning environments
Veri madenciliği kullanarak öğrenme ortamlarında öğrenci memnuniyetini değerlendirme
BURAK TİMUROĞLU
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir ÜniversitesiBüyük Veri Analitiği ve Yönetimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ DİLEK KARAHOCA