Investigation of text mining methods on Turkish text
Türkçe metinler üzerinde metin madenciliği yöntemlerinin incelenmesi
- Tez No: 528739
- Danışmanlar: DOÇ. DR. SEDAT ÇAPAR
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: İngilizce
- Üniversite: Dokuz Eylül Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: İstatistik Bilim Dalı
- Sayfa Sayısı: 76
Özet
Günümüzde internetin yaygın kullanılması ile birlikte verilerin boyutu ve değeri artmıştır. Büyük miktarlardaki verilerden anlamlı bilgi çıkarmak kişi ve firmalar için diğerlerinden bir adım öne geçmektir. Verilerden anlamlı bilgilerin elde edilmesi için çeşitli madencilik teknikleri uygulanmalıdır. Veri madenciliği yapısal veriler üzerinde işlem yapar. Veri madenciliğinin, metinler üzerinde çalışan alt çalışma alanı ise metin madenciliğidir. Metin madenciliği, özel amaçlar için metinlerden değerli bilgiler çıkarmak adına metnin analiz edilmesi işlemidir. Metin madenciliği teknikleri uygulanmadan önce verilerin hazırlanması ve ön işlemden geçirilmesi gerekmektedir. Metinlerden anlamlı bilgi çıkarmak, metni sınıflandırmak, aranan bilgiye kısa sürede ulaşmak metin madenciliğinin önemini arttırmıştır. Metin sınıflandırma, önceden tanımlanmış kategorilere eğitim dokümanlarını kullanarak verilen metnin sınıfına karar vermesi işlemidir. Tezde amaç, metin halindeki Türkçe verilerin sınıflandırılmasıdır. Kategoriler“Cinsiyet Tanımlama”,“Yazar Tanımlama”ve“Tür Belirleme”olmak üzere üç kategoride incelenmiştir. Sınıflandırma yapılırken Naive Bayes metot ve bit skor ağırlıklandırılmış k-NN metot kullanılmıştır. İki metodun doğruluk oranları kıyaslanmıştır. Sınıflandırma için R programlama dili kullanılmıştır. Bu tezde metin sınıflandırılması üzerine çalışmak için Türkçe köşe yazılarından oluşan bir veri kümesi oluşturulmuştur.
Özet (Çeviri)
Today, with the widespread use of the internet the size and value of the data have increased. Making meaningful information from large amounts of data is one step ahead for others and for companies. Various mining techniques must be applied to obtain meaningful information from the data. Data mining processes on structured data. Text mining is the sub-study area of data mining that works on texts. Text mining is the process of analyzing text to extract valuable information from text for special purposes. Before the text mining techniques are applied, the data must be prepared and pre-processed. Extracting meaningful information from texts, classifying text, and reaching the desired information in a short time increase the importance of text mining. Text classification is the process of deciding the class of the given text using the training documents for the predefined categories. The aim in thesis is to classify Turkish data as text. The categories were examined in three categories as“Gender Identification”,“Author Identification”and“Species Determination”. Naive Bayes method and the bit-score weighting k-NN method were used for classification. The accuracy rates of the two methods are compared. The R programming language is used for classification. In this thesis, a dataset consisting of Turkish columns was created to work on text classification.
Benzer Tezler
- Metin madenciliği yöntemleri ile 1991-2021 yılları arasında zootekni alanında yazılan tezlerin incelenmesi
Investigation of thesis written in the field of zootechnics between text mining methods and the years of 1991-2021
FATİH CAMCI
Yüksek Lisans
Türkçe
2022
ZiraatVan Yüzüncü Yıl ÜniversitesiZootekni Ana Bilim Dalı
PROF. DR. ABDULLAH YEŞİLOVA
- Sağlıkla ilgili sosyal medya forum verilerinde içeriğinin bilgilendirici özellikleri: İlaç yan etkilerinin araştırılması üzerine bir çalışma
Informational characteristics of health-related social media content: A study on the investigation of drug side effects
ALKAN KAYA
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Okan ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. PINAR YILDIRIM
- Sağlık bilimleri araştırmalarında kullanılan istatistiksel yöntemlerin metin madenciliği ile incelenmesi
Investigation of statistical methods used in health sciences research using text mining
ÖZEN TAŞTAN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. BÜLENT ÇELİK
- Ekonomi haberlerinin BİST 100 Endeksine etkisinin veri madenciliği ile incelenmesi
Investigation of the effects of economic news on BIST 100 Index by using data mining
ÖZLEM ALPAY
Yüksek Lisans
Türkçe
2017
Bilim ve TeknolojiFırat ÜniversitesiTeknoloji ve Bilgi Yönetimi Ana Bilim Dalı
YRD. DOÇ. DR. CEM AYDEN
- Sosyal medya ve yatırım araçlarının değeri arasındaki ilişkinin incelenmesi: Bitcoin örneği
Investigation of the relationship between social media and investing behavior: Bitcoin
MUSTAFA POLAT
Yüksek Lisans
Türkçe
2018
EkonometriSakarya ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ADEM AKBIYIK