Geri Dön

Metin madenciliği yöntemlerini kullanarak Türkçe dökümanlarda tür ve yazar tanıma

Type and author identification in Turkish documents by text mining methods

  1. Tez No: 295089
  2. Yazar: MERVE VAROL
  3. Danışmanlar: PROF. DR. AKİF KUTLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: Türkçe
  9. Üniversite: Süleyman Demirel Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektronik-Bilgisayar Eğitimi Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 116

Özet

Bu tez çalışmasında yedi şairin her birinin otuz şiirinin bulunduğu iki yüz on adet şiirden oluşan bir eğitim seti kullanılmıştır. Şair tanıma problemi için iki yöntem izlenmiştir. İlk olarak, eğitim ve test şairlerine ait her bir şiirin istatistiksel özellikleri, kelime zenginliğine bağlı özellikleri, dilbilgisi özellikleri, karakter n-gramları gibi bazı özellik vektörleri çıkartılmıştır. Bu vektörler WEKA programında yer alançeşitli sınıflandırma algoritmalarıyla işlenerek şair belirleme çalışması yapılmıştır. İkinci olarak kullanılan yöntemde de Ng-İnd sınıflandırma yöntemi uygulanmıştır ve bu iki yöntemden elde edilen sonuçlar sınıflandırma performansları açısından karşılaştırmalı olarak verilmiştir. İstatistiksel, kelime zenginliğine bağlı, dilbilgisi özellik vektörleri ve bu üç vektörün birleşiminden oluşan vektör üzerinde WEKA programının CfsSubsetEval fonksiyonunu kullanarak boyut indirgeme çalışması yapılmıştır. Ayrıca çeşitli özellik vektörlerinin birleşimiyle yeni vektörler oluşturulmuş ve sınıflandırma başarısına etkileri gözlemlenmiştir. CfsSubsetEval fonksiyonu yalnızca istatistiksel özellik vektörünün başarı oranında bir artış sağlamıştır. Başarı oranını arttırabilmek için daha sonra karakter n-gramları özellik vektörleriyle istatistiksel, kelime zenginliğine bağlı, dilbilgisi özellik vektörleri çeşitli kombinasyonlarla birleştirilerek yeni vektörler elde edilmiş ve hedeflendiği gibi başarı oranında artış yakalanmıştır.

Özet (Çeviri)

In this study, seven poets who?s each of have thirty poetry, consisting of two hundred and ten poems, a training set was used.Twomethods were employedforthe poetrecognitionproblem. First, for each of the the training and testing poem, the statistical properties of poets, depending on the richness of vocabulary features, grammatical features, character n-grams, such as some feature vectors were enacted. These feature vectors are processed with the classification algorithms in the program of Weka to determine the poet. Then, as a second classification method the Ng-İnd method has been tested, and the results of these two methods were compared. Using the CfsSubsetEval function of WEKA program, size reduction of feature vectors was conducted. Size reduction process were applied on statistical features, depending on richness of the vocabulary features, grammatical feature vectors and the new feature vector which consisted of a combination of all these three vectors. In addition, new feature vectors created with a combination of various vectors and observed the effects of classification success. CfsSubsetEval function, provide increased in the rate of success for only the statistical feature vector. Later to increase the success rate, character n-grams feature vectors combined in various combinations with other feature vectors and were captured as planned increase in the rate of success.

Benzer Tezler

  1. Büyük veri analizi yöntemleri ve yazılım teknolojileriyle metin madenciliği

    Text mining using big data analysis methods and tools

    EVREN PALA

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHava Harp Okulu Komutanlığı

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÜRAY YILMAZ

  2. Metin madenciliği ile metin sınıflandırma

    Text categorization with text mining

    İSMAİL FERHAT PİLAVCILAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2007

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT

  3. İlkokul ve ortaokul fen bilimleri dersi 'Madde ve doğası' konu alanı üniteleri ile lise kimya ders kitaplarının Terim Frekansı-Ters Doküman Frekansı (TF-IDF) analizleri

    Term Frequeney-Inverse Document Frequency (TF-IDF) analysis of primary and secondary school science course 'Matter and its nature' subject area units and high school chemistry textbooks

    MAKBULE BEGÜM DÜZGÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Eğitim ve ÖğretimNiğde Ömer Halisdemir Üniversitesi

    Matematik ve Fen Bilimleri Eğitimi Ana Bilim Dalı

    DOÇ. DR. AHMET YAVUZ

  4. Ortaokul fen bilimleri ders kitapları ve yardımcı kaynak kitapların metin madenciliği ile analizi: Fiziksel olaylar konu alanı örneği

    Analysis of secondary school science textbooks and auxiliary resource books with text mining: The case of physical events subject area

    MEHMET YALÇIN GÜNGÖR

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Eğitim ve ÖğretimNiğde Ömer Halisdemir Üniversitesi

    Matematik ve Fen Bilimleri Ana Bilim Dalı

    DOÇ. DR. AHMET YAVUZ

  5. Metin madenciliğinde kullanılan yöntemlerin karşılaştırılması: Siyasi parti liderlerinin grup genel toplantı konuşmaları ile bir uygulama

    Comparison of techniques and methodologies used in text mining: An application with group meeting speeches of Turkish political part leaders

    KEZİBAN SEÇKİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    Siyasal BilimlerSakarya Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. ERMAN COŞKUN