Evaluation of features for predicting document difficulty
Doküman zorluğunu tahmin etmede özniteliklerin değerlendirilmesi
- Tez No: 760226
- Danışmanlar: PROF. DR. YÜCEL SAYGIN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Sabancı Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Mühendislik ve Doğa Bilimleri Ana Bilim Dalı
- Bilim Dalı: Veri Bilimi Bilim Dalı
- Sayfa Sayısı: 77
Özet
Bir metin belgesinin, özellikle eğitim materyallerinin zorluğunu bilmenin birçok faydası vardır. Bunlardan biri, okuduğunu anlamayı en üst düzeye çıkarmak amacıyla belirli bir hedef gruba yönelik uyarlanmış belgeler önermektir. Doküman zorluğunu etkileyen farklı faktörler mevcut olmakla birlikte, bu faktörler doküman zorluğunun farklı yönlerini yakalarlar. Bunlardan biri, sözdizimsel ve sözcüksel metin özelliklerini yakalayan ve dilbilimsel zorlukla ilgili olan okunabilirliktir. Bir diğeri, okuyucuların belirli bir dokümanı anlaması için gereken bilgi birikimidir, çünkü dokümandaki kavramlar okuyucu için karmaşık olabilir. Her iki faktör de ayrı ayrı analiz edilmiş olsa da, bu faktörlerin karşılıklı etkileşimleri bilinmemektedir. Benzer şekilde, bu faktörlerin doküman zorluğunu tahmin etmekteki önemi birlikte incelenmemiştir. Bu sorunlardan herhangi birinin ele alınması, doküman zorluğunun anlaşılmasını iyileştirebilir ve böylece doküman zorluğunu tahmin etmek için daha güvenilir modellerin yolunu açabilir. Bu nedenle, bu çalışma, bir dokümanın zorluğunu tahmin etmek için gereken bilgi birikimi ve okunabilirliği ile ilgili 20 özniteliği çıkaran gözetimli bir model önererek her iki sorunu da araştırmaktadır. Bu model, doküman zorluğunu tahmin etmek için bu öznitelikleri önemini ve gereken birikim bilgisi ile okunabilirlik arasındaki karşılıklı etkileşimi analiz etmenin temelini oluşturur. Kullandığımız tüm veri kümelerinde okunabilirliğin gereken bilgi birikiminden daha önemli olduğunu gözlemledik. Bildiğimiz kadarıyla, eğitim alanında belge zorluğunu tahmin etmek için mevcut bir veri seti yok, bu nedenle biyolojik kavramlar hakkında bir veri seti oluşturduk. Bu karşılaştırmalı veri setini, daha fazla araştırmayı teşvik etmek ve farklı alanlarda belge zorluklarını tahmin etmeye yönelik yöntemlerin güvenilirliğini değerlendirmek için daha fazla veri sağlamak umuduyla araştırma topluluğuna sunuyoruz.
Özet (Çeviri)
Knowing the difficulty of a text document, in particular learning materials, has many benefits, such as recommending documents that are tailored towards a specific target group with the goal of maximizing understanding when reading these recommended documents. While different factors exist that affect document difficulty, they capture different aspects of it. One of which is readability, which captures syntactical and lexical text properties and relates to linguistic difficulty. Another one is the background knowledge needed for readers to understand a given document because concepts therein might be more or less complex. Although both factors have been analyzed in isolation, their interplay is unknown. Similarly, the importance of both factors has not been examined, although addressing any of those problems could improve the understanding of document difficulty and thus pave the way towards more reliable models for predicting document difficulty. Hence, this work investigates both problems by proposing a supervised model that extracts 20 features related to background knowledge and readability of a document to predict its difficulty. This model serves as the basis for analyzing the importance of these features and the interplay between background knowledge and readability for estimating document difficulty. We find that linguistic difficulty is more important than background knowledge across all datasets. To the best of our knowledge, there are no datasets in the educational domain available for predicting document difficulty, thus we created one about biological concepts. We release this dataset to the research community in the hope to stimulate more research and provide more data to assess the reliability of methods for predicting document difficulty across different domains.
Benzer Tezler
- An adaptive modal pushover analysis procedure to evaluate the earthquake performance of high-rise buildings
Yüksek binaların deprem performansının değerlendirilmesi için bir uyarlamalı itme analizi yöntemi
MELİH SÜRMELİ
Doktora
İngilizce
2016
Deprem Mühendisliğiİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. ERCAN YÜKSEL
- Hakem atama otomasyonu için bir karar destek sistemi: Doğal dil işleme ve veri-güdümlü optimizasyon ile bütünleşik bir yaklaşım
A decision support system for reviewer assignment automation: An integrated approach with natural language processing and data-driven optimization
MELTEM AKSOY
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. SEDA YANIK ÖZBAY
PROF. DR. MEHMET FATİH AMASYALI
- Türkiye'de hazır giyim sektörünün rekabet gücü: Markalaşma yönüyle bir değerlendirme
Competitiveness of ready made clothing industry in Turkey: An evaluation on branding
BAHAR GÜMÜŞ
Yüksek Lisans
Türkçe
2024
EkonomiBursa Teknik ÜniversitesiUluslararası Ekonomi Politikası Ana Bilim Dalı
DR. BURAK ÇAKIRCA
- Finans sektöründe çevik proje yönetimini iyileştirmede kullanılan araç seçim kararına yönelik bir uygulama
An application to decision of tool selection to improve agile project management in the finance industry
KENAN CAN HARPUTLU
Yüksek Lisans
Türkçe
2023
Mühendislik Bilimleriİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET ATIL AŞICI
- A stress testıng framework for the Turkısh bankıng sector: an augmented approach
Türk bankacılık sektörü için bir stres testi çerçevesi: Bir genişletilmiş yaklaşım
BAHADIR ÇAKMAK
Doktora
İngilizce
2014
BankacılıkOrta Doğu Teknik Üniversitesiİktisat Ana Bilim Dalı
PROF. DR. NADİR ÖCAL