Identifying passages describing protein-protein interaction detection methods in biomedical full text articles using information retrieval methods
Biyomedikal tam metin makalelerde protein-protein etkileşimi tespit yöntemlerinin betimlendiği pasajları bilgi erişim yöntemleri ile belirleme
- Tez No: 459419
- Danışmanlar: YRD. DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 79
Özet
Proteinler arası etkileşimlerin birçok biyolojik süreçte aktif rol oynaması, aralarındaki fiziksel etkileşimlere dair bilgileri de fazlasıyla önemli kılıyor. Proteinler arası etkileşimleri doğrulamak için kullanılan deneysel teknikler, etkileşimlerin güvenilirliğini değerlendirebilmek için oldukça önemli. Proteinler arası etkileşimlere ve bu etkileşimleri tespit etmek için kullanılan deneysel yöntemlere dair verilerin önemli bir kısmı sadece bilimsel yayınlarda gömülü durumda bulunuyor. Bu çalışmada, tam metin makalelerde, proteinler arası fiziksel etkileşimleri tespit etmek için kullanılan deneysel yöntemlerin anlatıldığı pasajları belirleme problemine bilgiye erişim alanının arama problemi olarak yaklaşılıyor. Temel sistem, Proteomics Standard Initiative - Molecular Interactions (PSI-MI) ontolojisinde yer alan deneysel yöntem isimleri derlenerek yaratılan sorguların metin içerisinde eşleştirilmesine dayanıyor. Bu temel sistem sorgularının, alakalı terimler ile genişletilmesine dayalı iki yeni yöntem daha geliştirildi. İlk yöntem gözetimli bir yaklaşım olup, terim sıklığı-ilgililik sıklığı (tf.rf) metriğinin, el ile etiketleyip bu çalışmanın ilave çıktısı olarak yayınladığımız 30 makalelik veri kümesinin 13 makalelik eğitim alt kümesi üzerinde uygulanması ile en belirgin terimlerin sorgulara eklenmesine dayanıyor. Bu yöntemin 17 makalelik test kümesi üzerinde değerlendirilmesi sonucu temel sisteme kıyasla bulma skorunda daha başarılı oldugu gözlenmiştir. İkinci yöntem ise gözetimsiz bir yaklaşım olup deneysel yöntem isimleri için öğrenilmiş kelime temsilleri kullanılarak sorgular genişletilmiştir. Bu yöntemin 17 makalelik test kümesi üzerinde değerlendirilmesi sonucu temel sisteme kıyasla bulma ve F-ölçütü skorlarında daha başarılı olduğu gözlenmiştir.
Özet (Çeviri)
Information regarding the physical interactions among proteins is crucial, since protein-protein interactions (PPIs) are central for many biological processes. The experimental techniques used to verify PPIs are also vital for characterizing and assessing the reliability of the identified PPIs. A lot of information about PPIs and the experimental methods are only available in the text of the scientific publications that report them. In this thesis, we approach the problem of identifying passages with experimental methods for physical interactions between proteins as an information retrieval search task. The baseline system is based on query matching, where the queries are generated by utilizing the names (including synonyms) of the experimental methods in the Proteomics Standard Initiative - Molecular Interactions (PSI-MI) ontology. We propose two methods, where the baseline queries are expanded by including additional relevant terms. The first method is a supervised approach, where the most salient terms for each experimental method are obtained by using the term frequency-relevance frequency (tf.rf) metric over $13$ articles from our manually annotated data set of $30$ full text articles, which is made publicly available as an additional contribution of this study. The first method is evaluated on the test set consisting of the remaining $17$ articles and achieves better recall score compared to the baseline. On the other hand, the second method is an unsupervised approach, where the queries for each experimental method are expanded by using the word embeddings of the names of the experimental methods in the PSI-MI ontology. The second method achieves better recall and F-measure scores over the test set compared to the baseline.
Benzer Tezler
- Tokat Erbaa'da geçiş dönemleri inanış ve uygulamaları
Belief and practices of rites of passages in Tokat Erbaa
YUNUS EMRE BOLAT
Yüksek Lisans
Türkçe
2020
Halk Bilimi (Folklor)Amasya ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ORHAN FATİH KUŞDEMİR
- The Value of word identification as a pre-reading schema activator in a nursing setting
Okuma öncesi sözcük tanımanın yabancı dilde okuduğunu anlamaya katkısı: Öğrenci hemşirelerle bir uygulama
AYŞE DİLEK KESER
Yüksek Lisans
İngilizce
1997
Eğitim ve ÖğretimAnadolu ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
PROF. DR. GÜL DURMUŞOĞLU KÖSE
- Statistical analysis of maritime activities and accidents in the Strait of Istanbul
İstanbul Boğazı deniz olayları ve kazalarının istatistiksel incelemesi
IŞIL BAŞ
Yüksek Lisans
İngilizce
2010
Endüstri ve Endüstri MühendisliğiBoğaziçi ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. İLHAN OR
- İnsan göbek kordonundan mezenkimal kök hücre izolasyonu ve karakterizasyonu
Isolation and characterization of human umbilical cord mesenchymal stem cells
SERBAY ÖZKAN
Yüksek Lisans
Türkçe
2016
Histoloji ve Embriyolojiİstanbul ÜniversitesiHistoloji ve Embriyoloji Ana Bilim Dalı
PROF. DR. MERAL KOYUTÜRK
- Elazığ ili yer adları üzerine bir inceleme (2 cilt)
A Study on the toponomy in Elazığ city
MUSTAFA ŞENEL
Doktora
Türkçe
2003
Türk Dili ve EdebiyatıFırat ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. AHMET BURAN