Semantic text mining and an application in turkish documents
Anlamsal metin madenciliği ve türkçe dökümanlar üzerine bir uygulama
- Tez No: 374016
- Danışmanlar: YRD. DOÇ. DR. ENGİN YILDIZTEPE
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2014
- Dil: İngilizce
- Üniversite: Dokuz Eylül Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 68
Özet
Metin madenciliğinin önemi gelişen web teknolojileri ile birlikte artmaktadır. Veri madenciliğinin bir alt türü olarak değerlendirilen metin madenciliğinde, metin halindeki yapılandırılmamış veri setlerinden anlamlı bilgiler çıkartılır. Metin madenciliği, istatistik, bilgi geri kazanımı, doğal dil işleme, dilbilim ve makine öğrenimi gibi birçok alan ile ilişkili bir araştırma alanıdır. Metin madenciliği birçok farklı alanda kullanılabilir. Anlamsal analiz bunlardan biridir. İngilizce için bir çok anlamsal analiz çalışması bulunmaktadır ancak Türkçe için anlamsal analiz çalışmaları oldukça azdır. Bunun sebebi Türkçenin yapısal zorluklarıdır. Anlamsal analiz yöntemlerini etkin bir şekilde kullanabilmek için gövdeleme (ek-kök ayrıştırması) ve anlamsız (cümle içinde tek başına anlam ifade etmeyen, edat bağlaç vb. gibi) kelimelerin ayrıştırılması işlemlerinin doğru yapılması gerekmektedir. Türkçe için başarılı sonuçlar veren gövdeleme algoritmaları bulunmaktadır ancak henüz hiçbiri standart hale gelmemiştir. Gizli Anlam Analizi (LSA), Olasılıksal Gizli Anlam Analizi (PLSA) ve Gizli Dirichlet Bölüştürmesi (LDA) anlamsal analiz yöntemlerinin başında gelmektedir. Bu tez çalışmasında, anlamsal analiz yöntemleri hakkında bilgi verilmiş ve bu yöntemlerin Türkçe metinler arasındaki anlamsal benzerliği hesaplamadaki performansları değerlendirilmiştir. Ayrıca Türkçenin morfolojisi ve metin temsil yöntemleri açıklanmıştır. LSA, PLSA ve LDA algoritmaları yapay ve gerçek veri setlerine uygulanmış ve sonuçlar değerlendirilmiştir. Yapay veri setleri farklı senaryolar ile üretilmiştir. Gerçek veri setleri ise farklı haber ajanslarından farklı konularda haberler derlenerek oluşturulmuştur. Anlamsal analiz yöntemleri konu sayısının bilindiği durumlarda kullanılabilirler. Ancak pratikte her zaman konu sayısı bilinmeyebilir. Bu çalışmada ayrıca konu sayısının bilinmediği durumlarda kullanılmak üzere, LSA ve PLSA'nın birlikte kullanıldığı yinelemeli bir algoritma önerilmiştir. Yapılan uygulamalarda bu algoritmanın başarılı sonuçlar verdiği görülmüştür. Gelecek çalışmalarda özellikle konu sayısının bilinmediği durumlarda da çalışabilecek yeni anlamsal analiz yaklaşımları geliştirilmelidir.
Özet (Çeviri)
Text mining has an increasing significance with the developing Web technologies. Text mining is a variation of data mining. It refers to the process of deriving information form unstructured textual data. Text mining is a multidisciplinary field related with statistics, information retrieval, natural language processing, linguistics and machine learning. Text mining approaches can be used for many different purposes. Semantic analysis is one of the text mining approaches. Numerous studies can be found about the semantic analysis for English. However, using semantic analysis methods for Turkish is not frequent. The reason for this is the structural difficulties of Turkish. In order for these methods to work efficiently the stemming and stop-word removal operations should be performed accurately. There are stemming algorithms for Turkish, yielding successful results but none of them has become a golden standard yet. Latent Semantic Analysis (LSA), Probabilistic Latent Semantic Analysis (PLSA) and Latent Dirichlet Allocation (LDA) are the most common semantic analysis techniques. In this thesis, information on semantic analysis methods was provided and the performances of these methods to compute semantic similarity between Turkish texts were evaluated. Also Turkish morphology and text representation methods were explained. LSA, PLSA and LDA algorithms were applied on artificial and real data sets and results were evaluated. Artificial data sets were generated with different scenarios. Real data sets were collected from different news agencies with different topics. All these algorithms perform while number of topics is known. However, number of topics may not be known in practice. In this study, an iterative algorithm using PLSA and LSA methods together, which yields accurate results when the number of topics is not known, was discussed. For the future, new approaches should be devised for enabling use of semantic analysis in cases where the number of topics is not known.
Benzer Tezler
- Corpus-based semantic kernels for supervised and semi-supervised text classification
Eğiticili ve yarı-eğiticili metin sınıflandırması için derlem tabanlı anlambilimsel çekirdekler
AYŞE BERNA ALTINEL
Doktora
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BANU DİRİ
YRD. DOÇ. DR. MURAT CAN GANİZ
- İngilizce haber metinlerinde GDT ve NOMF yöntemleri ile konu modelleme: Türkiye ve Yunanistan örneği
Topic modeling with LDA and NMF in English news texts: The case of Turkey and Greece
SEFA YAY
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik Üniversitesiİstatistik ve Bilgisayar Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TOLGA BERBER
- Çizge evrişimli sinir ağları kullanılarak metin sınıflandırma
Text classification using graph convolutional networks
RUKİYE ÖZDEMİR TEKİR
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-CerrahpaşaElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ABDURRAHİM AKGÜNDOĞDU
- Bir otomotiv firmasında konu modelleme yaklaşımı kullanılarak çalışan önerilerinin değerlendirilmesi
Evaluation of employee suggestions by using topic modeling approach in an automotive company
MİNE BOZAN
Yüksek Lisans
Türkçe
2022
Endüstri ve Endüstri MühendisliğiBursa Teknik ÜniversitesiAkıllı Sistemler Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ KORAY ALTUN
- Arama sorguları üzerinde görev tabanlı kümeleme
Task-based clustering on search queries
ALMILA SELCEN AKGÜN
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YUSUF YASLAN