Geri Dön

Metin madenciliği ile metin sınıflandırma

Text categorization with text mining

  1. Tez No: 201320
  2. Yazar: İSMAİL FERHAT PİLAVCILAR
  3. Danışmanlar: YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Matematik, Computer Engineering and Computer Science and Control, Mathematics
  6. Anahtar Kelimeler: Metin kategorizasyonu, naive bayes ve k-nn algoritmaları, metin madenciliği, sınıflandırma, joker (wild card) yöntemi, Text categorization, naive bayes and k-nn algorithms, text mining, classification, wild card method
  7. Yıl: 2007
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Matematik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 72

Özet

Bilgisayarların çıkısı ve gelismesiyle her geçen gün biraz daha değisen ve gelisen bir dünyada yasamaktayız. Bilgisayarlar yasantımıza birçok kolaylık katmakta, yapılan islerin yükünü hafifletmekte, daha iyi sonuçlara, daha kısa yollardan ulasmamızı sağlamaktadır. Bilgisayarlar aynı isi otomatik olarak ve daha verimli yapacağından insan kaynaklı hatalar en aza indirgenir. Bilgisayarların gelisimine paralel olarak, insanlar daha fazla bilgiye erisim olanakları bulmus ve günden güne, çok sayıda veriyi depolayan sistemler, yani veritabanları olusturulmus ve bu veritabanlarının boyutları da günden güne büyümüstür. Çesitli tipte veritabanları mevcuttur. Metin halindeki verilerin bulunduğu veritabanlarından bilgiyi kolayca elde etmek için metin kategorizasyon yöntemleri uygulanır. ?lk zamanlarda insan aracılığıyla yapılan sınıflandırma, günümüzde doküman sayısının çok hızlı bir sekilde artması dolayısıyla otomatik olarak yapılır hale gelmistir. Bunun için, daha önceden kategorileri tanımlanmıs olan eğitim dokümanları yardımıyla metin halindeki veriler sınıflandırılabilmektedir. Tezde, amaç doğrultusunda, metin halindeki verilerin sınıflandırılmasında kullanılan metin kategorizasyon teknikleri (Naive Bayes, k-NN) ve çesitli ağırlıklandırma yöntemleri incelenmis olup, daha sonra bu teknikleri kullanarak VisualBasic.NET programlama dili ile metin kategorizasyon programı yazılmıs ve aynı zamanda ilgili tekniklerin doğru sınıflandırma olasılıkları açısından kıyaslamaları yapılmıstır. Bu tezde, metin sınıflandırması üzerinde çalısmak için Anadolu Ajansı adlı Türkçe bir veri kümesinin derlemesi sunulmustur.

Özet (Çeviri)

After the invention and development of computers, we have been living in a more different and developing world. Computers make our life easier and improve the quality of our life by providing beter results with easier ways. Since computers make the same work automatically and effectively, human sourced errors become less. In the same way with the development of computers, human had the facility of access to too much data, and up to now, new systems, that is ?databases?, have been formed and these database systems have been getting bigger and bigger as the time passes. There are different kinds of databases. Text categorization methods are used in order to get the information from the databases which includes text type data in. With the increase of the number of documents, classification has been being made automatically, not by humans. For this purpose, with the help of the keywords of which categories are determined firstly, text type data can be classified. In that way, during the researching of this thesis, text categorization techniques which are used in text type data classification (Naive Bayes, K-NN) and various weightening methods are examined, then a text categorization programme has been done by using these techniques and VisualBasic.NET programming language, and at the same time exact classification probabilities of these techniques have been compared with each other. This thesis presents compilation of a Turkish dataset, called Anadolu Agency Newsgroup in order to study in Text Categorization.

Benzer Tezler

  1. Kısa metinlerden sosyal duygu sınıflandırma için makine öğrenmesi tabanlı yöntemlerin geliştirilmesi

    Development of machine learning based methods for social sentiment classification from brief texts

    FATMA BAŞKAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İLHAN AYDIN

  2. Metin madenciliği ile e-ticaret sitelerinin belirlenmesi

    Determination of e-commerce sites by text mining

    TUĞBA KAŞIKÇI

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    PROF. DR. HADİ GÖKÇEN

  3. Text mining analysis of translation, social communication and literary writing for Turkish

    Metin madenciliği ile Türkçede çeviri, sosyal iletişim ve edebi yazı analizi

    SEVİL ÇALIŞKAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FAZLI CAN

  4. Metin madenciliği yöntemi ile haber sitelerindeki köşe yazılarının sınıflandırılması

    Classification of online newspapers articles through text mining method

    MEHMET FATİH KARACA

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. SALİH GÖRGÜNOĞLU

  5. Türkçe metinlerde sözlük tabanlı yaklaşımla duygu analizi ve görselleştirme

    Sentiment analysis and visualization by dictionary based approach in Turkish texts

    ABDOULAYE ISSA BABAN CHAWAI

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖNDER DEMİR

    DR. ÖĞR. ÜYESİ BUKET DOĞAN