Web tabanlı metinlerde yazarın anadilini tanımlama
Authors native language identification in web mediums
- Tez No: 315548
- Danışmanlar: DOÇ. DR. CEMAL KÖSE
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2012
- Dil: Türkçe
- Üniversite: Karadeniz Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Yazılım Mühendisliği Bilim Dalı
- Sayfa Sayısı: 74
Özet
İnternet teknolojileri ve uygulamalarının hızlı gelişimine rağmen metinsel sayfalar hala en yaygın internet ortamlarıdır. Bunun en önemli örnekleri olarak, çoğunlukla metin tabanlı olan Twitter, Facebook, vb. sosyal ağ uygulamaları ile haber grupları, e-posta, blog, vb. gibi web uygulamaları verilebilir. Dolayısıyla, bu çalışmada, Metinsel veri Madenciliği ve Belge Sınıflandırma çerçevesinde, yazarların ana dillerini belirlemeye bir giriş çalışması yapılmıştır. Özellikle, birçok internet uygulamasında olduğu gibi İngilizcede yazılmış bir metinin yazarının ana dilini belirlemek için bir sistem geliştirilmiştir. Bu çalışmada, stylometry ve geleneksel makine öğrenmesi gibi alanlardan teknikler kullanarak bir yazarın ana dilinin belirlenmesi için bir araç geliştirilmiştir. Burada, bir yazarın tarzı, metinden çeşitli stylometric özelliklerin ölçümleri yapılarak bir örüntü (pattern) tanıma işlemine dönüştürülmektedir. Bir stilistik metnin özelliklerini dört türde (Sözcüksel, Sözdizimsel, Yapısal ve İçeriğe özgü özellikleri) ve makine öğrenme algoritmasını da üç türde (destek vektör makinesi, karar ağacı ve Naïve Bayes) ele alınmış ve daha sonra amaçlanan özelliklere dayanarak yazarın Anadilinin Tanımlaması işlemi gerçeklenmiştir. Yapılan çalışmada, dört farklı anadilden yazarlar (Türkçe, Almanca, Farsçanın ve İngilizce) tarafından yazılan çevrimiçi haber sayfalarından oluşan bir veritabanı kullanılmıştır.
Özet (Çeviri)
In the domain of Text Mining and Document Classification, an introduction into the field of Authorship Attribution is presented. On the other hand, with the rapid growth of Internet technologies and applications, text is still the most common Internet medium. Examples of this include social networking applications such as Twitter, Facebook, etc. and web applications such as newsgroups, email, blog, etc. are also mostly text based. We developed a framework to determine an anonymous author?s native language for short length and multi-genre writing in English such as the ones found in many Internet applications.This thesis describes the development of such a tool using techniques from the fields of stylometry and traditional machine learning techniques. An author?s style can be reduced to a pattern by making measurements of various stylometric features from the text. In this framework, four types of stylistic text features (Lexical, Syntactic, Structural, and Content-Specific Features) are extracted and two machine learning algorithms (Decision Tree, Support Vector Machine and Naïve Bayesian) are designed for author?s native language identification based on the proposed features. For this research, we used four different collections of writings online news messages by speakers of four different nationalities: native English as well as speakers of Turkish, German, and Persian.
Benzer Tezler
- Metin madenciliği yöntemleri ile yazar tanıma: Divan Edebiyatı örneği
Authorship recognition with text mining methods: The example of Divan literature
ALİ OSMAN BİLGİN
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik Üniversitesiİstatistik ve Bilgisayar Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TOLGA BERBER
- İngiliz basınında İslamofobi söylemi: BBC News örneği
Islamophobia discourse in the British press: The case of BBC News
TUĞBA TAŞDEMİR
Doktora
Türkçe
2024
DinOndokuz Mayıs ÜniversitesiFelsefe ve Din Bilimleri Ana Bilim Dalı
PROF. DR. ALİ RIZA AYDIN
- Comprehensive written corrective feedback: Effects on l2 syntactic accuracy and complexity in writing
İkinci dilde yazmada kapsamlı yazılı düzeltici geri bildirimin sözdizimsel doğruluk ve karmaşıklık üzerine etkileri
MOHAMMADREZA VALİZADEH
Doktora
İngilizce
2019
Eğitim ve ÖğretimGazi Üniversitesiİngiliz Dili Eğitimi Ana Bilim Dalı
DOÇ. DR. HACER HANDE UYSAL GÜRDAL
- İnşaat sözleşmelerinde hak talebi yönetimi: Kamu projeleri için öneri model
Claim management in construction contracts: Proposed model for public construction projects
İSMAİL CENGİZ YILMAZ
Doktora
Türkçe
2013
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. HÜSEYİN ATİLLA DİKBAŞ
- Türkçe metinlerde denetimli ve sözlük tabanlı duygu analizi yaklaşımlarının karşılaştırılması
Comparison of supervised and dictionary based sentiment analysis approaches on Turkish text
BURAK İBRAHİM SEVİNDİ
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. HACER KARACAN