Metin madenciliği yöntemlerini kullanarak Türkçe dökümanlarda tür ve yazar tanıma

Type and author identification in Turkish documents by text mining methods

PDF İndir

Tez No: 295089
Yazar: MERVE VAROL
Danışmanlar: PROF. DR. AKİF KUTLU
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2011
Dil: Türkçe
Üniversite: Süleyman Demirel Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 116

Özet

Bu tez çalışmasında yedi şairin her birinin otuz şiirinin bulunduğu iki yüz on adet şiirden oluşan bir eğitim seti kullanılmıştır. Şair tanıma problemi için iki yöntem izlenmiştir. İlk olarak, eğitim ve test şairlerine ait her bir şiirin istatistiksel özellikleri, kelime zenginliğine bağlı özellikleri, dilbilgisi özellikleri, karakter n-gramları gibi bazı özellik vektörleri çıkartılmıştır. Bu vektörler WEKA programında yer alançeşitli sınıflandırma algoritmalarıyla işlenerek şair belirleme çalışması yapılmıştır. İkinci olarak kullanılan yöntemde de Ng-İnd sınıflandırma yöntemi uygulanmıştır ve bu iki yöntemden elde edilen sonuçlar sınıflandırma performansları açısından karşılaştırmalı olarak verilmiştir. İstatistiksel, kelime zenginliğine bağlı, dilbilgisi özellik vektörleri ve bu üç vektörün birleşiminden oluşan vektör üzerinde WEKA programının CfsSubsetEval fonksiyonunu kullanarak boyut indirgeme çalışması yapılmıştır. Ayrıca çeşitli özellik vektörlerinin birleşimiyle yeni vektörler oluşturulmuş ve sınıflandırma başarısına etkileri gözlemlenmiştir. CfsSubsetEval fonksiyonu yalnızca istatistiksel özellik vektörünün başarı oranında bir artış sağlamıştır. Başarı oranını arttırabilmek için daha sonra karakter n-gramları özellik vektörleriyle istatistiksel, kelime zenginliğine bağlı, dilbilgisi özellik vektörleri çeşitli kombinasyonlarla birleştirilerek yeni vektörler elde edilmiş ve hedeflendiği gibi başarı oranında artış yakalanmıştır.

Özet (Çeviri)

In this study, seven poets who?s each of have thirty poetry, consisting of two hundred and ten poems, a training set was used.Twomethods were employedforthe poetrecognitionproblem. First, for each of the the training and testing poem, the statistical properties of poets, depending on the richness of vocabulary features, grammatical features, character n-grams, such as some feature vectors were enacted. These feature vectors are processed with the classification algorithms in the program of Weka to determine the poet. Then, as a second classification method the Ng-İnd method has been tested, and the results of these two methods were compared. Using the CfsSubsetEval function of WEKA program, size reduction of feature vectors was conducted. Size reduction process were applied on statistical features, depending on richness of the vocabulary features, grammatical feature vectors and the new feature vector which consisted of a combination of all these three vectors. In addition, new feature vectors created with a combination of various vectors and observed the effects of classification success. CfsSubsetEval function, provide increased in the rate of success for only the statistical feature vector. Later to increase the success rate, character n-grams feature vectors combined in various combinations with other feature vectors and were captured as planned increase in the rate of success.

Benzer Tezler

Tez No
479534
Büyük veri analizi yöntemleri ve yazılım teknolojileriyle metin madenciliği
Text mining using big data analysis methods and tools
EVREN PALA
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hava Harp Okulu Komutanlığı
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜRAY YILMAZ
Tez No
201320
Metin madenciliği ile metin sınıflandırma
Text categorization with text mining
İSMAİL FERHAT PİLAVCILAR
Yüksek Lisans
Türkçe
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Matematik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT
Tez No
929939
Fen bilimleri ders kitapları canlılar ve yaşam konu alanı üniteleri ile lise biyoloji ders kitaplarının metin madenciliği yöntemi ile karşılaştırılmalı analizi
Comparative analysis of living things and life subject area units in science textbooks and high school biology textbooks with text mining method
ÖMER FARUK GÜLBENT
Yüksek Lisans
Türkçe
2025
Biyoloji Niğde Ömer Halisdemir Üniversitesi
Matematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı
DOÇ. DR. AHMET YAVUZ
Tez No
859541
İlkokul ve ortaokul fen bilimleri dersi 'Madde ve doğası' konu alanı üniteleri ile lise kimya ders kitaplarının Terim Frekansı-Ters Doküman Frekansı (TF-IDF) analizleri
Term Frequeney-Inverse Document Frequency (TF-IDF) analysis of primary and secondary school science course 'Matter and its nature' subject area units and high school chemistry textbooks
MAKBULE BEGÜM DÜZGÜN
Yüksek Lisans
Türkçe
2024
Eğitim ve Öğretim Niğde Ömer Halisdemir Üniversitesi
Matematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı
DOÇ. DR. AHMET YAVUZ
Tez No
895655
Ortaokul fen bilimleri ders kitapları ve yardımcı kaynak kitapların metin madenciliği ile analizi: Fiziksel olaylar konu alanı örneği
Analysis of secondary school science textbooks and auxiliary resource books with text mining: The case of physical events subject area
MEHMET YALÇIN GÜNGÖR
Yüksek Lisans
Türkçe
2024
Eğitim ve Öğretim Niğde Ömer Halisdemir Üniversitesi
Matematik ve Fen Bilimleri Ana Bilim Dalı
DOÇ. DR. AHMET YAVUZ

Geri Dön