Geri Dön

Automatic quote detection from literary work

Edebi eserlerden otomatik söz tespiti

  1. Tez No: 780227
  2. Yazar: AYBÜKE GÜZEL ALTINTAŞ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ SELMA TEKİR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: İzmir Yüksek Teknoloji Enstitüsü
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 69

Özet

Edebiyat, okuyuculara ilham verir ve okuyucular bir edebi eserdeki özlü sözleri paylaşma eğilimindedirler. Okuyucular bu bölümlerin altını çizer, sosyal medyada ya da kitap okuyucularının kullandığı çevrimiçi bir platformda paylaşır. Bu çalışmadaki alıntı kelimesinin tanımı, yazılı bir metinde birçok okuyucu için ilginç olan bir aralıktır ve okuyucular alıntıyı farklı bağlamlarda kullanabilir. Bu çalışmada, doğal dil işleme alanında alıntı tespit etme görevi önerilmektedir. Bu çalışmada ayrıca, web kazıma yolu ile Goodreads ve Gutenberg web sitelerinden özgün bir veri kümesi derlenmiştir. Alıntılar Kaggle web sitesinden elde edilmiş Goodreads verisidir ve minimum kullanıcı tarafından oylanmış olan veriler seçilmiştir. Bu quote'lar Project Gutenberg web sitesindeki kitaplar ile valide edilmiştir. Final veriseti 4554 satırdan oluşmaktadır. Oluşturulan veri kümesi, alıntı ve alıntıların geçtikleri bağlamları içermektedir. Bir alıntı, alıntıdan önceki 10 cümle, alıntının kendisi ve alıntıdan sonraki 10 cümleden oluşur. Koşullu Rasgele Alanlar (KRA) ve Metin Eşleştirme olarak Çıkarımsal Özet (MatchSum), alıntı çıkarımı için iki farklı dayanak (baseline) olarak çalıştırıldı. Alıntı çıkarma görevi, literatürdeki doğal dil işleme görevlerinden dizi etiketleme görevi altında değerlendirilebilir. Bu dizi etiketleme problemi için, istatistik tabanlı KRA ilk dayanak (baseline) olarak çalıştırılmıştır. Metin Eşleştirme olarak Çıkarımsal Özet dayanağı, bu çalışmanın deneysel kısmı için seçilen ikinci dayanaktır. Bu dayanaklardan sırasıyla %27,24 ve %40,54 Rouge-1 skorları elde edilmiştir.

Özet (Çeviri)

Literature inspires readers, and readers tend to share quotes from a literary work. The reader underlines the quotes in the book and shares them on social media, or on an online platform used by book readers. The definition of a quote is a span in a written text that is interesting for many readers and readers can use the quote in different contexts. In this study, a novel task in the field of Natural Language Processing is proposed: the Quote Detection Task. Also, an original dataset was formed from the Goodreads and Gutenberg websites with web scraping. Quotes are Goodreads data sourced from Kaggle and data that has been voted by 10 or more users are selected. These quotes have been validated with the books on the Project Gutenberg website. The final dataset consists of 4554 rows. The dataset contains quotes with their book spans. The span of a quote consists of the previous 10 sentences of the quote, the quote itself, and the following 10 sentences of the quote. Conditional Random Field (CRF) and Extractive Summarization as Text Matching (MatchSum) were run as two different baselines for quote detection. The Quote Detection Task is span detection that can be modeled with sequence labeling solutions and Neural extractive summarization systems in the literature. For this sequence tagging problem, the statistics-based CRF was run as first baseline. Extractive Summarization as Text Matching baseline is the second baseline chosen for the experimental part. Rouge-1 scores of 27.24% and 40.54%, respectively, were obtained from these baselines.

Benzer Tezler

  1. Change detection of buildings from high resolution satellite imagery and existing map data using object based classification

    Nesne tabanlı sınıflandırma ile yüksek çözünürlüklü uydu görüntüleri ve mevcut harita verilerinden bina değişimlerinin tespiti

    FATEMEH SAFARLOU

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Jeodezi ve FotogrametriHacettepe Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA TÜRKER

  2. Kısıtlanmamış görüntüler üzerinden otomatik plaka tespiti ve tanıma

    Automatic number plate detection and recognition over unrestricted images

    COŞKU ÖKSÜZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Elektrik ve Elektronik MühendisliğiKocaeli Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET KEMAL GÜLLÜ

  3. An approach for the automatic detection of agricultural field sub-boundaries from high resolution satellite images

    Yüksek çözünürlüklü uydu görüntülerinden tarımsal arazi alt-sınırların otomatik tespiti için bir yaklaşım

    SAMAN GHAFFARİAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Jeodezi ve FotogrametriHacettepe Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA TÜRKER

  4. Automatic spirulina detection using image processing techniques

    Görüntü işleme yöntemleri kullanarak otomatik spırulina tespiti

    OTHMAN SIDDIK

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtılım Üniversitesi

    Mühendislik Sistemlerinin Modellenmesi ve Tasarımı Ana Bilim Dalı

    YRD. DOÇ. DR. ATİLA BOSTAN

  5. Direkt radyografilerde derin öğrenme tabanlı nesne tanıma algoritması ile otomatik fraktür tespiti

    Automatic fracture detection with deep learning based object detection algorithm in direct radiography

    GÜL GİZEM PAMUK

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2023

    Radyoloji ve Nükleer TıpSağlık Bilimleri Üniversitesi

    Radyoloji Ana Bilim Dalı

    PROF. DR. AHMET TAN CİMİLLİ