A semantic sentence similarity estimation approach for the biomedical domain
Biyomedikal alanda anlamsal cümle benzerliği hesaplama yöntemi
- Tez No: 459436
- Danışmanlar: YRD. DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 94
Özet
Son yıllarda, anlamsal benzerlik yöntemlerinden, metin getirimi, otomatik özetleme, belge sınıflandırma gibi doğal dil işlemesi problemlerinin bir çok alanının önemli bir parçası olarak yararlanılmaktadır. Anlamsal bilginin katılması, metnin anlaşılması ve yapılandırılması için güçlü bir araçtır. Metin madenciliğinden yararlanan çalışma alanları arasında, biyomedikal literatürü kendine özgü dilinden dolayı en zorlu alanlardan birisidir. Biyomedikal literatürün karmaşık doğasının sonucu olarak, alana özgü uyarlamalara olan gereksinim kaçınılmazdır. Biyomedikal alan kapsamında, bu alana özgü bir çok kelimeler arası anlamsal metin benzerliği yöntemi bulunmaktadır. Ancak, bilgimiz çerçevesinde, literatürde biyomedikal alana özgü geliştirilmiş cümleler arası anlamsal benzerlik hesaplama yöntemi bulunmamaktadır. Bunun yanı sıra, yapmış oldugumuz deneyler, alandan bağımsız olarak geliştirilmiş en son çalışmaların başarısız sonuçlar ürettiğini göstermektedir. Çalışmamızda, biyomedikal alana özgü cümleler arası anlamsal benzerlik ölçümü için dağılımsal cümle vektörlerine dayanan bir yaklaşım, genel ve alana özgü ontolojileri kullanan bir yöntem ve üst düzey öznitelikler ile eğitilmis güdümlü makine öğrenmesi tabanlı bir yaklaşım önerilmektedir. Önerilen yöntemler biyomedikal alandan 100 tane cümle ikilisinden olusan elle etiketlenmiş veri kümesi üzerinde değerlendirilmiştir. Deney sonuçları, önermiş olduğumuz güdümlü anlamsal benzerlik hesaplayıcı yöntemimizin, alandan bağımsız sistemlere kıyasla en yüksek başarıyı elde ettiğini ve Pearson Korelasyon metriğine göre %42.6 başarıyı arttırdığını göstermektedir.
Özet (Çeviri)
During the last decades, the use of semantic text similarity has been adopted as a major component in many Natural Language Processing tasks, including text retrieval, summarization, and document categorization. Integration of semantic information acts as a powerful tool for a better understanding and structuring of text. Among the many domains that benefit from text mining studies, biomedical literature is one of the most challenging areas because of its domain-specific language. As an inevitable result of the complex nature of the biomedical literature, domain-specific adaptations are crucial requirements. There are several semantic text similarity approaches that have been applied on the word-level. However, and to the best of our knowledge, there has not been any research on sentence-level semantic similarity in the biomedical domain. Furthermore, our experimental results revealed that domain-independent state-of-theart approaches in sentence-level semantic similarity do not effectively cover biomedical knowledge and produce poor results. In this study, we propose several different approaches for domain-specific semantic sentence-level similarity computation, including measures utilizing distributional vector representations of sentences, methods combining general and domain specific ontologies, as well as a supervised approach exploiting high-level features. Our proposed methods are evaluated using a manually annotated data set which consists of 100 sentence pairs from biomedical literature. The experiments showed that the supervised semantic similarity computation approach obtained the best performance and improved over the previous domain-independent systems up to 42.6% in terms of the Pearson correlation metric.
Benzer Tezler
- Paraphrase identification using knowledge-lean techniques
Başlık çevirisi yok
ASLI EYECİOĞLU ÖZMUTLU
Doktora
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolUniversity of SussexDr. BILL KELLER
- Semantik ilişki fonksiyonunu kullanarak metin benzerliklerinin hesaplanmasi
Calculation of textual similarity using semantic relatedness function
AMMAR RİADH KAİRALDEEN
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
Assist. Prof. Dr. GÖNENÇ ERCAN
- Ayfer Tunç'un 'Dünya Ağrısı' romanında karşılaştırma işlevli yapılar
Structures with comparison function in Ayfer Tunç's novel 'Dünya Ağrisi''
BUKET YURDAGÖÇER
Yüksek Lisans
Türkçe
2023
Türk Dili ve EdebiyatıBursa Uludağ ÜniversitesiTürk Dili ve Edebiyatı Eğitimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HASENE AYDIN
- Abstract meaning representation of Turkish
Türkçenin soyut anlam temsilleri
KADRİYE ELİF ORAL
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜLŞEN ERYİĞİT
- Multi-document summarization using dependency grammars
Bağımsal dilbilgisi kullanarak çoklu doküman özetleme
ŞAZİYE BETÜL BİLGİN
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN