Geri Dön

Analyzing stemming and sentence simplification methodologies for turkish multi-document text summarization

Kök bulma ve cümle sadeleştirme yöntemlerinin türkçe çoklu belge özetleme üzerine etkileri

  1. Tez No: 387384
  2. Yazar: MUHAMMED YAVUZ NUZUMLALI
  3. Danışmanlar: YRD. DOÇ. ARZUCAN ÖZGÜR TÜRKMEN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 75

Özet

Otomatik belge özetleme, verilen bir ya da birden çok belgenin içeriğinin kısa ve kapsayıcı bir şekilde özetlenmesi işlemidir. Otomatik belge özetleme alanında İngilizce dili üzerine yapılmış çok sayıda çalışma olmasına rağmen, diğer diller için, özellikle Türkçe için, yapılmış çok az çalışma bulunmaktadır. Metin sadeleştirme, cümlelerin dil bilgisi ve sözlük dağarcığı açısından içerdikleri karmaşıklıkların azaltılmasını hedefler. Bu yüzden otomatik metin sadeleştirme sistemleri Doğal Dil İşleme alanındaki problemlerde sistem başarımını iyileştirecek önemli bir aşama olarak değerlendirilmektedir. Bu tezde, farklı seviyelerde uygulanan kelime kökü bulma yöntemlerinin ve cümle sadeleştirme tekniklerinin Türkçe dili için otomatik çoklu belge özetleme başarımı üzerine etkileri incelenmiştir. Otomatik özetleme sisteminin değerlendirilmesi için insanlar tarafından özetlenmiş bir veri kümesi derlenmiş, bildiğimiz kadarıyla Türkçe için ilk çoklu belge özetleme sistemi çalışması gerçekleştirilmiştir. Ayrıca cümlelerin sözdizimsel özelliklerini kullanan kural tabanlı bir cümle sadeleştirme yöntemi geliştirilmiştir. Elde edilen sonuçlarda, kelime sonundan harf atma tekniği en iyi başarımı elde ederken, detaylı morfolojik analiz yöntemleri başarımı ROUGE ölçütüne göre artırmamıştır. Ayrıca, verilen bir cümleyi birden fazla daha sade cümleye ayıran cümle sadeleştirme tekniklerinin özetleme sistemi öncesinde uygulanması başarımı az miktarda yükseltirken, cümle kısaltmaya dayalı cümle sadeleştirme teknikleri ROUGE ölçütü değerlerini düşürmüştür.

Özet (Çeviri)

Automatic text summarization is the task of generating a compact and coherent version of a given text document or a set of text documents. Although there is a vast number of studies for automatic document summarization on English, there is only a limited number of studies for other languages, especially for Turkish. Text simplification aims to reduce the grammatical or lexical complexities of the sentences. Automatic text simplification systems can be an important part of any NLP task to improve system performance. In this thesis, we analyzed the effects of applying different levels of stemming approaches such as fixed-length word truncation and morphological analysis and the effects of applying text simplification techniques for multi-document summarization (MDS) on Turkish, which is an agglutinative and morphologically rich language. We constructed a manually annotated MDS data set, and to the best of our knowledge, reported the first results on Turkish MDS. Additionally, we developed a rule-based text simplification system for Turkish that utilizes the syntactic features of the sentences to identify simplification patterns. Our results show that a simple fixed- length word truncation approach performs slightly better than no stemming, whereas applying complex morphological analysis does not improve Turkish MDS in terms of ROUGE scores. Applying simplification rules that split complex sentences to individual simpler sentences as a preprocessing step slightly improves summarization performance, whereas applying a compression-based simplification approach relying solely on rule matching decreases the obtained ROUGE scores.

Benzer Tezler

  1. Türkçe kelimelerin biçim birimlerine ayrılması için kullanılacak standart biçim birimi kümesinin oluşturulması

    A unified suffix set for morphological analysis of Turkish words

    ÖZKAN ASLAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2008

    DilbilimMuğla Üniversitesi

    İstatistik Ana Bilim Dalı

    YRD. DOÇ. DR. B. TANER DİNÇER

  2. E-öğrenme ortamlarında tasarım özelliklerinin öğrencilerin başarısı ve bilişsel yüklenme düzeylerine etkisi

    The effect of different design features in e-learning environments on students' achievement and cognitive load levels

    BUKET TAŞKIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    Eğitim ve ÖğretimGazi Üniversitesi

    Bilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. EBRU KILIÇ ÇAKMAK

  3. Almanca ve Türkçenin ses düzeni ve yabancı dil öğretiminde bundan kaynaklanan sorunlar

    The Phonetic of German and Turkish and its problems in foreign language teaching

    KENAN AKARSLAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2002

    DilbilimGazi Üniversitesi

    Alman Dili Eğitimi Ana Bilim Dalı

    Y.DOÇ.DR. ŞERİF ORUÇ

  4. Global goals, local voices: A multinational comparative sentiment and topic analysis of public transportation in the context of SDGs

    Küresel hedefler, yerel sesler: Sürdürülebilir kalkınma amaçları bağlamında toplu taşımaya yönelik ülkelerin karşılaştırmalı duygu ve konu analizi

    ASLIGÜL AKSAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    PROF. DR. HATİCE CAMGÖZ AKDAĞ

  5. Türkçeyi yabancı dil olarak öğrenenlerin sözlü anlatımları: Bir yanlış çözümleme çalışması

    Verbal lecture of learners of Turkish as a foreign language: A study of error analysis

    NURCAN KÖSEOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Eğitim ve ÖğretimGaziantep Üniversitesi

    Türkçe ve Sosyal Bilimler Ana Bilim Dalı

    DOÇ. DR. ARİF ÇERÇİ