Geri Dön

Lexical cohesion analysis for topic segmentation, summarization and keyphrase extraction

Konu bölümleme, özetleme ve anahtar kelime çıkarma için kelime bütünlüğü analizi

  1. Tez No: 336899
  2. Yazar: GÖNENÇ ERCAN
  3. Danışmanlar: PROF. DR. FAZLI CAN, PROF. DR. İLYAS ÇİÇEKLİ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Lexical Cohesion, Semantic Relatedness, Topic Segmentation, Summarization, Keyphrase Extraction
  7. Yıl: 2012
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 169

Özet

İnsanlar bir fikri veya hikayeyi anlatırken birbiriyle anlam olarak ilişkili kelimeleri kullanmaktan kaçamazlar. Bu fenomenden iki farklı bakış açısıyla faydalanmak mümkündür. Kelimeler açısından bakıldığında, anlam olarak ilişkili kelimelerin istatistiksel dağılımı ve anlatımda kullanımlarına bakarak anlam olarak ilişkili kelimeleri tanımlamak mümkün olabilir. Anlam bütünlüğüne anlatım açısından baktığımızda da kelimelerin anlam ilişkilerindeki değişime bakarak bir metnin yapısını modellemek ve bu modeli farklı doğal dil işleme problemlerinde kullanmak mümkündür. Bu araştırmada anlam bütünlüğü, bu iki açıdan da incelenmektedir. Önce kelimeler arası anlam ilişikliğinin ölçülmesi için anlam bütünlüğü kullanılmış daha sonra bu kelime ilişkileri konu bölümleme, özet çıkarma ve anahtar kelime çıkarma problemlerinde kullanılmıştır.Kelimelerin anlam ilişikliğinin ölçülmesi için bir bilgi dağarcığı gerekmektedir. Araştırma kapsamında iki farklı bilgi dağarcığından faydalanılmaya çalışılmıştır. Birinci kelime dağarcığı kelime ilişkilerinin elle girildiği bir anlam ağıdır. Ikinci yöntem ise kelimelerin düz metin derlemindeki kullanım dağılımlarını kullanmaktadır. Araştırma kapsamında bu yöntemlerin birbirine göre başarımı ölçülmekte ve kapsamlı bir analiz yapılmaktadır.Konu bölümleme probleminde kelime bütünlüğü kullanan farklı yöntemler literatürde kullanılmaktadır. Bunların bazıları sadece kelime tekrarlarından faydalanırken, bazıları da eş anlam gibi güçlü anlamsal ilişkilerden faydalanmaktadır. Fakat şu ana kadar ?çok daha kapsamlı olan kelime ilişikliği yöntemleri bu problemde kullanılmamıştır. Yapılan deneyler göstermektedir ki konu bölümleme probleminin başarımı kelime ilişikliği kullanılarak arttırılabilmektedir. Ayrıca deneyler farklı kelime ilişikliği ölçüm yöntemlerini karşılaştırmak için kullanılabilmektedir. Konulara göre bölümlenmiş metinler otomatik özet çıkarma probleminde kullanılmış ve kelime zinciri tabanlı yöntemlere göre daha başarılı sonuçlar elde etmiştir.Son olarak kelime bütünlüğü analizi anahtar kelime bulma probleminde araştırılmaktadır. Geçmiş araştırmalar anahtar kelimelerin belge getirme ve navigasyon için başarılı araçlar olduğunu göstermektedir. Her ne kadar bu araştırmalar anahtar kelime ve belge getirme arasında bir ilişki olduğunu gösterse de, başka bir çalışmada anahtar kelimeleri bulmak için onların belge getirme başarım tahmini kullanılmamıştır. Bu araştırmada sorgu başarım tahmini yöntemlerinin anahtar kelime bulmada kullanımı incelenmiştir. Bunun için sorgu başarı tahmininde kullanılan öznitelikler anahtar kelime bulma probleminde Naive Bayes sınıflandırıcı ile birlikte kullanılmıştır. Yapılan deneyler bu özniteliklerin farklı boyuttaki belgelerde başarımı arttırdığını göstermektedir. Daha da önemlisi bu özniteliklerin yaygın olarak kullanılan deyim geçme frekansı ve belgede ilk kullanım yeri özniteliklerinin tersine kısa belgelerde daha başarılı olduğunu göstermektedir.Anahtar sozcukler: Kelime butunlu~gu, Anlamsal ilisiklilik, Konu Bolumleme,Ozetleme, Anahtar Kelime C karma.

Özet (Çeviri)

When we express some idea or story, it is inevitable to use words that are semantically related to each other. When this phenomena is exploited from the aspect of words in the language, it is possible to infer the level of semantic relationship between words by observing their distribution and use in discourse. From the aspect of discourse it is possible to model the structure of the document by observing the changes in the lexical cohesion in order to attack high level natural language processing tasks. In this research lexical cohesion is investigated from both of these aspects by first building methods for measuring semantic relatedness of word pairs and then using these methods in the tasks of topic segmentation, summarization and keyphrase extraction.Measuring semantic relatedness of words requires prior knowledge about the words. Two different knowledge-bases are investigated in this research. The first knowledge base is a manually built network of semantic relationships, while the second relies on the distributional patterns in raw text corpora. In order to discover which method is effective in lexical cohesion analysis, a comprehensive comparison of state-of-the art methods in semantic relatedness is made. For topic segmentation different methods using some form of lexical cohesion are present in the literature. While some of these confine the relationships onlyto word repetition or strong semantic relationships like synonymy, no other work uses the semantic relatedness measures that can be calculated for any two word pairs in the vocabulary. Our experiments suggest that topic segmentation performance improves methods using both classical relationships and word repetition. Furthermore, the experiments compare the performance of different semantic relatedness methods in a high level task. The detected topic segments are used in summarization, and achieves better results compared to a lexical chains based method that uses WordNet.Finally, the use of lexical cohesion analysis in keyphrase extraction is investigated. Previous research shows that keyphrases are useful tools in document retrieval and navigation. While these point to a relation between keyphrases and document retrieval performance, no other work uses this relationship to identify keyphrases of a given document. We aim to establish a link between the problemsof query performance prediction (QPP) and keyphrase extraction. To this end, features used in QPP are evaluated in keyphrase extraction using a Naive Bayes classifier. Our experiments indicate that these features improve the effectiveness of keyphrase extraction in documents of different length. More importantly, commonly used features of frequency and first position in text perform poorly on shorter documents, whereas QPP features are more robust and achieve better results.

Benzer Tezler

  1. Büyük Britanya lideri olarak Theresa May'in siyasi söyleminin analizi

    Linguistic identity of Theresa May as a political leader of Great Britain

    ASEL BAKTIBEKOVA

    Yüksek Lisans

    Çince

    Çince

    2020

    Siyasal BilimlerKırgızistan-Türkiye Manas Üniversitesi

    İngiliz Dili ve Edebiyatı Ana Bilim Dalı

    PROF. DR. ÇOLPON NAYMANOVA

  2. İlköğretim 7. sınıf öğrencilerinin oluşturdukları öyküleyici metinlerin bağdaşıklık ve tutarlılık ölçütlerine göre değerlendirilmesi

    The narrative texts created by primary school 7thclass studen?s value according to criteria of cohesion and coherence

    ABDULLAH ÇOBAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    Eğitim ve ÖğretimErciyes Üniversitesi

    Türkçe Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. ADNAN KARADÜZ

  3. The role of lexical cohesion in L2 reading comprehension

    Kelimeler arası semantik bağlantıların(sözcüksel bağdaşıklık) yabancı dilde okuma üzerindeki etkisi

    HASAN BAYRAKTAR

    Doktora

    İngilizce

    İngilizce

    2011

    Eğitim ve ÖğretimOrta Doğu Teknik Üniversitesi

    Yabancı Diller Eğitimi Ana Bilim Dalı

    PROF. DR. HÜSNÜ ENGİNARLAR

  4. Cohesion analysis of reading texts in english coursebooks in secondary schools

    Ortaöğretim ingilizce ders kitaplarındaki okuma metinlerinin bağdaşıklık analizi

    HATİCE BERNA ÖZDEMİR KELEŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Eğitim ve ÖğretimAkdeniz Üniversitesi

    Yabancı Diller Eğitimi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUSTAFA CANER

  5. Ortaokul 8. sınıf Türkçe ders kitaplarındaki metinlerin bağdaşıklık ve tutarlılık yönünden incelenmesi

    Analysis of the text in the 8th grade Turkish textbooks for cohesion and coherence

    LÜTFÜ BOZOK

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    DilbilimHatay Mustafa Kemal Üniversitesi

    Türkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı

    PROF. DR. JALE ÖZTÜRK