Turkish language characteristics and author identification
Türk dilinin karakteristikleri ve yazar tanıma
- Tez No: 243799
- Danışmanlar: YRD. DOÇ. DR. GÖKHAN DALKILIÇ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2009
- Dil: İngilizce
- Üniversite: Dokuz Eylül Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
- Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Sayfa Sayısı: 81
Özet
Doğal dil modelleri ve dil karakteristikleri, bilgisayar bilimleri alanında veri güvenliği, dil teşhisi, imla denetimi, veri sıkıştırma, yazar tanıma ve ses tanıma gibi bir çok alanda sıklıkla kullanılmaktadır. Bu çalışma kapsamında, büyük ölçekli bir Türkçe külliyat oluşturularak, Türk diline ait karakteristiklerin keşfedilmesi amacı ile bir uygulama geliştirilmiştir. Çeşitli NLP çalışmalarına zemin hazırlamak amacıyla, külliyat üzerinde kelime ve harf bazlı bir çok analiz gerçekleştirilmiştir.Çalışmanın bir sonraki adımında, yazarı bilinmeyen bir makalenin yazarını tahminlemek amacı ile, kelime n-gramları tabanlı iki farklı yöntem kullanılmıştır. 16 yazar için, çalışma ve test grubu makaleleri derlenmiş ve bahsi geçen iki yöntem bu makaleler üzerinde denenmiştir. Son olarak iki yöntemden elde edilen sonuçlar karşılaştırılarak, en verimli yöntem saptanmıştır.
Özet (Çeviri)
Models of natural languages and language characteristics are widely used in many computer science applications such as data security, language identification, spell checking, data compression, authorship attribution and speech recognition. In the scope of this study, a large scale corpus is created and used to discover language characteristics of Turkish. Word and letter based analyses are made on this corpus to build a base for several NLP studies.In the next step of the study, we used two different methods based on word n-grams to identify author of an anonymous text. For 16 authors, training and test set articles are collected, and mentioned two methods are applied on these article sets. Finally, obtained results are compared and most successful method is determined.
Benzer Tezler
- 1924-1960 yılları arasında eser veren öğretmen yazarların eserlerinin öğretmen ve eğitim idealizmi yönünden değerlendirilmesi
An evaluation of the literary works of teacher- author, who produced their work between 1924-1960 in terms of teacher and education idealism
İPEK ERCANASLAN
Yüksek Lisans
Türkçe
2019
Eğitim ve ÖğretimBursa Uludağ ÜniversitesiTürkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. EROL OGUR
- Emin Nihat Bey'in Müsameret-name adlı eserinin günümüz alfabesine aktarılması (1-4 hikayeler)
Başlık çevirisi yok
SALİH OKUMUŞ
- Ethem Baran'ın roman ve hikâyelerinde insan
Human being in novels and stories of Ethem Baran
BÜŞRA EMİNE KURTEŞ
Yüksek Lisans
Türkçe
2022
Türk Dili ve EdebiyatıKırıkkale ÜniversitesiTürk Edebiyatı Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖZNUR ÖZDARICI
- Sinân'ın Hoca-nâme Mesnevîsi: Metin - inceleme - dizin
Sinân Hoca-nâme text with transcription - analysis - index
NİHAL YAVUZ
Doktora
Türkçe
2015
Türk Dili ve EdebiyatıGazi ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. AHMET MERMER
- Nazlı Eray'ın romanlarında toplumsal cinsiyet açısından kadın ve erkek
Women and men in terms of gender in Nazlı Eray's novels
MERVE DİNÇARSLAN
Yüksek Lisans
Türkçe
2022
Türk Dili ve EdebiyatıBartın ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
DOÇ. DR. MACİT BALIK