Geri Dön

A semantic sentence similarity estimation approach for the biomedical domain

Biyomedikal alanda anlamsal cümle benzerliği hesaplama yöntemi

  1. Tez No: 459436
  2. Yazar: GİZEM SOĞANCIOĞLU
  3. Danışmanlar: YRD. DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2016
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 94

Özet

Son yıllarda, anlamsal benzerlik yöntemlerinden, metin getirimi, otomatik özetleme, belge sınıflandırma gibi doğal dil işlemesi problemlerinin bir çok alanının önemli bir parçası olarak yararlanılmaktadır. Anlamsal bilginin katılması, metnin anlaşılması ve yapılandırılması için güçlü bir araçtır. Metin madenciliğinden yararlanan çalışma alanları arasında, biyomedikal literatürü kendine özgü dilinden dolayı en zorlu alanlardan birisidir. Biyomedikal literatürün karmaşık doğasının sonucu olarak, alana özgü uyarlamalara olan gereksinim kaçınılmazdır. Biyomedikal alan kapsamında, bu alana özgü bir çok kelimeler arası anlamsal metin benzerliği yöntemi bulunmaktadır. Ancak, bilgimiz çerçevesinde, literatürde biyomedikal alana özgü geliştirilmiş cümleler arası anlamsal benzerlik hesaplama yöntemi bulunmamaktadır. Bunun yanı sıra, yapmış oldugumuz deneyler, alandan bağımsız olarak geliştirilmiş en son çalışmaların başarısız sonuçlar ürettiğini göstermektedir. Çalışmamızda, biyomedikal alana özgü cümleler arası anlamsal benzerlik ölçümü için dağılımsal cümle vektörlerine dayanan bir yaklaşım, genel ve alana özgü ontolojileri kullanan bir yöntem ve üst düzey öznitelikler ile eğitilmis güdümlü makine öğrenmesi tabanlı bir yaklaşım önerilmektedir. Önerilen yöntemler biyomedikal alandan 100 tane cümle ikilisinden olusan elle etiketlenmiş veri kümesi üzerinde değerlendirilmiştir. Deney sonuçları, önermiş olduğumuz güdümlü anlamsal benzerlik hesaplayıcı yöntemimizin, alandan bağımsız sistemlere kıyasla en yüksek başarıyı elde ettiğini ve Pearson Korelasyon metriğine göre %42.6 başarıyı arttırdığını göstermektedir.

Özet (Çeviri)

During the last decades, the use of semantic text similarity has been adopted as a major component in many Natural Language Processing tasks, including text retrieval, summarization, and document categorization. Integration of semantic information acts as a powerful tool for a better understanding and structuring of text. Among the many domains that benefit from text mining studies, biomedical literature is one of the most challenging areas because of its domain-specific language. As an inevitable result of the complex nature of the biomedical literature, domain-specific adaptations are crucial requirements. There are several semantic text similarity approaches that have been applied on the word-level. However, and to the best of our knowledge, there has not been any research on sentence-level semantic similarity in the biomedical domain. Furthermore, our experimental results revealed that domain-independent state-of-theart approaches in sentence-level semantic similarity do not effectively cover biomedical knowledge and produce poor results. In this study, we propose several different approaches for domain-specific semantic sentence-level similarity computation, including measures utilizing distributional vector representations of sentences, methods combining general and domain specific ontologies, as well as a supervised approach exploiting high-level features. Our proposed methods are evaluated using a manually annotated data set which consists of 100 sentence pairs from biomedical literature. The experiments showed that the supervised semantic similarity computation approach obtained the best performance and improved over the previous domain-independent systems up to 42.6% in terms of the Pearson correlation metric.

Benzer Tezler

  1. Semantik ilişki fonksiyonunu kullanarak metin benzerliklerinin hesaplanmasi

    Calculation of textual similarity using semantic relatedness function

    AMMAR RİADH KAİRALDEEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    Assist. Prof. Dr. GÖNENÇ ERCAN

  2. Ayfer Tunç'un 'Dünya Ağrısı' romanında karşılaştırma işlevli yapılar

    Structures with comparison function in Ayfer Tunç's novel 'Dünya Ağrisi''

    BUKET YURDAGÖÇER

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Türk Dili ve EdebiyatıBursa Uludağ Üniversitesi

    Türk Dili ve Edebiyatı Eğitimi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HASENE AYDIN

  3. Abstract meaning representation of Turkish

    Türkçenin soyut anlam temsilleri

    KADRİYE ELİF ORAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÜLŞEN ERYİĞİT

  4. Multi-document summarization using dependency grammars

    Bağımsal dilbilgisi kullanarak çoklu doküman özetleme

    ŞAZİYE BETÜL BİLGİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN