Metin madenciliği ile metin sınıflandırma
Text categorization with text mining
- Tez No: 201320
- Danışmanlar: YRD. DOÇ. DR. NİLGÜN GÜLER BAYAZIT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Matematik, Computer Engineering and Computer Science and Control, Mathematics
- Anahtar Kelimeler: Metin kategorizasyonu, naive bayes ve k-nn algoritmaları, metin madenciliği, sınıflandırma, joker (wild card) yöntemi, Text categorization, naive bayes and k-nn algorithms, text mining, classification, wild card method
- Yıl: 2007
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Matematik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 72
Özet
Bilgisayarların çıkısı ve gelismesiyle her geçen gün biraz daha değisen ve gelisen bir dünyada yasamaktayız. Bilgisayarlar yasantımıza birçok kolaylık katmakta, yapılan islerin yükünü hafifletmekte, daha iyi sonuçlara, daha kısa yollardan ulasmamızı sağlamaktadır. Bilgisayarlar aynı isi otomatik olarak ve daha verimli yapacağından insan kaynaklı hatalar en aza indirgenir. Bilgisayarların gelisimine paralel olarak, insanlar daha fazla bilgiye erisim olanakları bulmus ve günden güne, çok sayıda veriyi depolayan sistemler, yani veritabanları olusturulmus ve bu veritabanlarının boyutları da günden güne büyümüstür. Çesitli tipte veritabanları mevcuttur. Metin halindeki verilerin bulunduğu veritabanlarından bilgiyi kolayca elde etmek için metin kategorizasyon yöntemleri uygulanır. ?lk zamanlarda insan aracılığıyla yapılan sınıflandırma, günümüzde doküman sayısının çok hızlı bir sekilde artması dolayısıyla otomatik olarak yapılır hale gelmistir. Bunun için, daha önceden kategorileri tanımlanmıs olan eğitim dokümanları yardımıyla metin halindeki veriler sınıflandırılabilmektedir. Tezde, amaç doğrultusunda, metin halindeki verilerin sınıflandırılmasında kullanılan metin kategorizasyon teknikleri (Naive Bayes, k-NN) ve çesitli ağırlıklandırma yöntemleri incelenmis olup, daha sonra bu teknikleri kullanarak VisualBasic.NET programlama dili ile metin kategorizasyon programı yazılmıs ve aynı zamanda ilgili tekniklerin doğru sınıflandırma olasılıkları açısından kıyaslamaları yapılmıstır. Bu tezde, metin sınıflandırması üzerinde çalısmak için Anadolu Ajansı adlı Türkçe bir veri kümesinin derlemesi sunulmustur.
Özet (Çeviri)
After the invention and development of computers, we have been living in a more different and developing world. Computers make our life easier and improve the quality of our life by providing beter results with easier ways. Since computers make the same work automatically and effectively, human sourced errors become less. In the same way with the development of computers, human had the facility of access to too much data, and up to now, new systems, that is ?databases?, have been formed and these database systems have been getting bigger and bigger as the time passes. There are different kinds of databases. Text categorization methods are used in order to get the information from the databases which includes text type data in. With the increase of the number of documents, classification has been being made automatically, not by humans. For this purpose, with the help of the keywords of which categories are determined firstly, text type data can be classified. In that way, during the researching of this thesis, text categorization techniques which are used in text type data classification (Naive Bayes, K-NN) and various weightening methods are examined, then a text categorization programme has been done by using these techniques and VisualBasic.NET programming language, and at the same time exact classification probabilities of these techniques have been compared with each other. This thesis presents compilation of a Turkish dataset, called Anadolu Agency Newsgroup in order to study in Text Categorization.
Benzer Tezler
- Kısa metinlerden sosyal duygu sınıflandırma için makine öğrenmesi tabanlı yöntemlerin geliştirilmesi
Development of machine learning based methods for social sentiment classification from brief texts
FATMA BAŞKAYA
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. İLHAN AYDIN
- Metin madenciliği ile e-ticaret sitelerinin belirlenmesi
Determination of e-commerce sites by text mining
TUĞBA KAŞIKÇI
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
PROF. DR. HADİ GÖKÇEN
- Text mining analysis of translation, social communication and literary writing for Turkish
Metin madenciliği ile Türkçede çeviri, sosyal iletişim ve edebi yazı analizi
SEVİL ÇALIŞKAN
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FAZLI CAN
- Metin madenciliği yöntemi ile haber sitelerindeki köşe yazılarının sınıflandırılması
Classification of online newspapers articles through text mining method
MEHMET FATİH KARACA
Yüksek Lisans
Türkçe
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SALİH GÖRGÜNOĞLU
- Türkçe metinlerde sözlük tabanlı yaklaşımla duygu analizi ve görselleştirme
Sentiment analysis and visualization by dictionary based approach in Turkish texts
ABDOULAYE ISSA BABAN CHAWAI
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖNDER DEMİR
DR. ÖĞR. ÜYESİ BUKET DOĞAN