Geri Dön

Evaluation of features for predicting document difficulty

Doküman zorluğunu tahmin etmede özniteliklerin değerlendirilmesi

  1. Tez No: 760226
  2. Yazar: BÜŞRA ERDAL
  3. Danışmanlar: PROF. DR. YÜCEL SAYGIN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Mühendislik ve Doğa Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Veri Bilimi Bilim Dalı
  13. Sayfa Sayısı: 77

Özet

Bir metin belgesinin, özellikle eğitim materyallerinin zorluğunu bilmenin birçok faydası vardır. Bunlardan biri, okuduğunu anlamayı en üst düzeye çıkarmak amacıyla belirli bir hedef gruba yönelik uyarlanmış belgeler önermektir. Doküman zorluğunu etkileyen farklı faktörler mevcut olmakla birlikte, bu faktörler doküman zorluğunun farklı yönlerini yakalarlar. Bunlardan biri, sözdizimsel ve sözcüksel metin özelliklerini yakalayan ve dilbilimsel zorlukla ilgili olan okunabilirliktir. Bir diğeri, okuyucuların belirli bir dokümanı anlaması için gereken bilgi birikimidir, çünkü dokümandaki kavramlar okuyucu için karmaşık olabilir. Her iki faktör de ayrı ayrı analiz edilmiş olsa da, bu faktörlerin karşılıklı etkileşimleri bilinmemektedir. Benzer şekilde, bu faktörlerin doküman zorluğunu tahmin etmekteki önemi birlikte incelenmemiştir. Bu sorunlardan herhangi birinin ele alınması, doküman zorluğunun anlaşılmasını iyileştirebilir ve böylece doküman zorluğunu tahmin etmek için daha güvenilir modellerin yolunu açabilir. Bu nedenle, bu çalışma, bir dokümanın zorluğunu tahmin etmek için gereken bilgi birikimi ve okunabilirliği ile ilgili 20 özniteliği çıkaran gözetimli bir model önererek her iki sorunu da araştırmaktadır. Bu model, doküman zorluğunu tahmin etmek için bu öznitelikleri önemini ve gereken birikim bilgisi ile okunabilirlik arasındaki karşılıklı etkileşimi analiz etmenin temelini oluşturur. Kullandığımız tüm veri kümelerinde okunabilirliğin gereken bilgi birikiminden daha önemli olduğunu gözlemledik. Bildiğimiz kadarıyla, eğitim alanında belge zorluğunu tahmin etmek için mevcut bir veri seti yok, bu nedenle biyolojik kavramlar hakkında bir veri seti oluşturduk. Bu karşılaştırmalı veri setini, daha fazla araştırmayı teşvik etmek ve farklı alanlarda belge zorluklarını tahmin etmeye yönelik yöntemlerin güvenilirliğini değerlendirmek için daha fazla veri sağlamak umuduyla araştırma topluluğuna sunuyoruz.

Özet (Çeviri)

Knowing the difficulty of a text document, in particular learning materials, has many benefits, such as recommending documents that are tailored towards a specific target group with the goal of maximizing understanding when reading these recommended documents. While different factors exist that affect document difficulty, they capture different aspects of it. One of which is readability, which captures syntactical and lexical text properties and relates to linguistic difficulty. Another one is the background knowledge needed for readers to understand a given document because concepts therein might be more or less complex. Although both factors have been analyzed in isolation, their interplay is unknown. Similarly, the importance of both factors has not been examined, although addressing any of those problems could improve the understanding of document difficulty and thus pave the way towards more reliable models for predicting document difficulty. Hence, this work investigates both problems by proposing a supervised model that extracts 20 features related to background knowledge and readability of a document to predict its difficulty. This model serves as the basis for analyzing the importance of these features and the interplay between background knowledge and readability for estimating document difficulty. We find that linguistic difficulty is more important than background knowledge across all datasets. To the best of our knowledge, there are no datasets in the educational domain available for predicting document difficulty, thus we created one about biological concepts. We release this dataset to the research community in the hope to stimulate more research and provide more data to assess the reliability of methods for predicting document difficulty across different domains.

Benzer Tezler

  1. An adaptive modal pushover analysis procedure to evaluate the earthquake performance of high-rise buildings

    Yüksek binaların deprem performansının değerlendirilmesi için bir uyarlamalı itme analizi yöntemi

    MELİH SÜRMELİ

    Doktora

    İngilizce

    İngilizce

    2016

    Deprem Mühendisliğiİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ERCAN YÜKSEL

  2. Hakem atama otomasyonu için bir karar destek sistemi: Doğal dil işleme ve veri-güdümlü optimizasyon ile bütünleşik bir yaklaşım

    A decision support system for reviewer assignment automation: An integrated approach with natural language processing and data-driven optimization

    MELTEM AKSOY

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SEDA YANIK ÖZBAY

    PROF. DR. MEHMET FATİH AMASYALI

  3. Türkiye'de hazır giyim sektörünün rekabet gücü: Markalaşma yönüyle bir değerlendirme

    Competitiveness of ready made clothing industry in Turkey: An evaluation on branding

    BAHAR GÜMÜŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    EkonomiBursa Teknik Üniversitesi

    Uluslararası Ekonomi Politikası Ana Bilim Dalı

    DR. BURAK ÇAKIRCA

  4. Finans sektöründe çevik proje yönetimini iyileştirmede kullanılan araç seçim kararına yönelik bir uygulama

    An application to decision of tool selection to improve agile project management in the finance industry

    KENAN CAN HARPUTLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET ATIL AŞICI

  5. A stress testıng framework for the Turkısh bankıng sector: an augmented approach

    Türk bankacılık sektörü için bir stres testi çerçevesi: Bir genişletilmiş yaklaşım

    BAHADIR ÇAKMAK

    Doktora

    İngilizce

    İngilizce

    2014

    BankacılıkOrta Doğu Teknik Üniversitesi

    İktisat Ana Bilim Dalı

    PROF. DR. NADİR ÖCAL