Metin madenciliği yöntemlerini kullanarak Türkçe dökümanlarda tür ve yazar tanıma
Type and author identification in Turkish documents by text mining methods
- Tez No: 295089
- Danışmanlar: PROF. DR. AKİF KUTLU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2011
- Dil: Türkçe
- Üniversite: Süleyman Demirel Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 116
Özet
Bu tez çalışmasında yedi şairin her birinin otuz şiirinin bulunduğu iki yüz on adet şiirden oluşan bir eğitim seti kullanılmıştır. Şair tanıma problemi için iki yöntem izlenmiştir. İlk olarak, eğitim ve test şairlerine ait her bir şiirin istatistiksel özellikleri, kelime zenginliğine bağlı özellikleri, dilbilgisi özellikleri, karakter n-gramları gibi bazı özellik vektörleri çıkartılmıştır. Bu vektörler WEKA programında yer alançeşitli sınıflandırma algoritmalarıyla işlenerek şair belirleme çalışması yapılmıştır. İkinci olarak kullanılan yöntemde de Ng-İnd sınıflandırma yöntemi uygulanmıştır ve bu iki yöntemden elde edilen sonuçlar sınıflandırma performansları açısından karşılaştırmalı olarak verilmiştir. İstatistiksel, kelime zenginliğine bağlı, dilbilgisi özellik vektörleri ve bu üç vektörün birleşiminden oluşan vektör üzerinde WEKA programının CfsSubsetEval fonksiyonunu kullanarak boyut indirgeme çalışması yapılmıştır. Ayrıca çeşitli özellik vektörlerinin birleşimiyle yeni vektörler oluşturulmuş ve sınıflandırma başarısına etkileri gözlemlenmiştir. CfsSubsetEval fonksiyonu yalnızca istatistiksel özellik vektörünün başarı oranında bir artış sağlamıştır. Başarı oranını arttırabilmek için daha sonra karakter n-gramları özellik vektörleriyle istatistiksel, kelime zenginliğine bağlı, dilbilgisi özellik vektörleri çeşitli kombinasyonlarla birleştirilerek yeni vektörler elde edilmiş ve hedeflendiği gibi başarı oranında artış yakalanmıştır.
Özet (Çeviri)
In this study, seven poets who?s each of have thirty poetry, consisting of two hundred and ten poems, a training set was used.Twomethods were employedforthe poetrecognitionproblem. First, for each of the the training and testing poem, the statistical properties of poets, depending on the richness of vocabulary features, grammatical features, character n-grams, such as some feature vectors were enacted. These feature vectors are processed with the classification algorithms in the program of Weka to determine the poet. Then, as a second classification method the Ng-İnd method has been tested, and the results of these two methods were compared. Using the CfsSubsetEval function of WEKA program, size reduction of feature vectors was conducted. Size reduction process were applied on statistical features, depending on richness of the vocabulary features, grammatical feature vectors and the new feature vector which consisted of a combination of all these three vectors. In addition, new feature vectors created with a combination of various vectors and observed the effects of classification success. CfsSubsetEval function, provide increased in the rate of success for only the statistical feature vector. Later to increase the success rate, character n-grams feature vectors combined in various combinations with other feature vectors and were captured as planned increase in the rate of success.
Benzer Tezler
- Büyük veri analizi yöntemleri ve yazılım teknolojileriyle metin madenciliği
Text mining using big data analysis methods and tools
EVREN PALA
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHava Harp Okulu KomutanlığıBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜRAY YILMAZ
- Metin madenciliği ile metin sınıflandırma
Text categorization with text mining
İSMAİL FERHAT PİLAVCILAR
Yüksek Lisans
Türkçe
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiMatematik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT
- İlkokul ve ortaokul fen bilimleri dersi 'Madde ve doğası' konu alanı üniteleri ile lise kimya ders kitaplarının Terim Frekansı-Ters Doküman Frekansı (TF-IDF) analizleri
Term Frequeney-Inverse Document Frequency (TF-IDF) analysis of primary and secondary school science course 'Matter and its nature' subject area units and high school chemistry textbooks
MAKBULE BEGÜM DÜZGÜN
Yüksek Lisans
Türkçe
2024
Eğitim ve ÖğretimNiğde Ömer Halisdemir ÜniversitesiMatematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı
DOÇ. DR. AHMET YAVUZ
- Ortaokul fen bilimleri ders kitapları ve yardımcı kaynak kitapların metin madenciliği ile analizi: Fiziksel olaylar konu alanı örneği
Analysis of secondary school science textbooks and auxiliary resource books with text mining: The case of physical events subject area
MEHMET YALÇIN GÜNGÖR
Yüksek Lisans
Türkçe
2024
Eğitim ve ÖğretimNiğde Ömer Halisdemir ÜniversitesiMatematik ve Fen Bilimleri Ana Bilim Dalı
DOÇ. DR. AHMET YAVUZ
- Metin madenciliğinde kullanılan yöntemlerin karşılaştırılması: Siyasi parti liderlerinin grup genel toplantı konuşmaları ile bir uygulama
Comparison of techniques and methodologies used in text mining: An application with group meeting speeches of Turkish political part leaders
KEZİBAN SEÇKİN
Yüksek Lisans
Türkçe
2011
Siyasal BilimlerSakarya Üniversitesiİşletme Ana Bilim Dalı
DOÇ. DR. ERMAN COŞKUN