Semantic text mining and an application in turkish documents

Anlamsal metin madenciliği ve türkçe dökümanlar üzerine bir uygulama

PDF İndir

Tez No: 374016
Yazar: VOLKAN UZUN
Danışmanlar: YRD. DOÇ. DR. ENGİN YILDIZTEPE
Tez Türü: Yüksek Lisans
Konular: İstatistik, Statistics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2014
Dil: İngilizce
Üniversite: Dokuz Eylül Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: İstatistik Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 68

Özet

Metin madenciliğinin önemi gelişen web teknolojileri ile birlikte artmaktadır. Veri madenciliğinin bir alt türü olarak değerlendirilen metin madenciliğinde, metin halindeki yapılandırılmamış veri setlerinden anlamlı bilgiler çıkartılır. Metin madenciliği, istatistik, bilgi geri kazanımı, doğal dil işleme, dilbilim ve makine öğrenimi gibi birçok alan ile ilişkili bir araştırma alanıdır. Metin madenciliği birçok farklı alanda kullanılabilir. Anlamsal analiz bunlardan biridir. İngilizce için bir çok anlamsal analiz çalışması bulunmaktadır ancak Türkçe için anlamsal analiz çalışmaları oldukça azdır. Bunun sebebi Türkçenin yapısal zorluklarıdır. Anlamsal analiz yöntemlerini etkin bir şekilde kullanabilmek için gövdeleme (ek-kök ayrıştırması) ve anlamsız (cümle içinde tek başına anlam ifade etmeyen, edat bağlaç vb. gibi) kelimelerin ayrıştırılması işlemlerinin doğru yapılması gerekmektedir. Türkçe için başarılı sonuçlar veren gövdeleme algoritmaları bulunmaktadır ancak henüz hiçbiri standart hale gelmemiştir. Gizli Anlam Analizi (LSA), Olasılıksal Gizli Anlam Analizi (PLSA) ve Gizli Dirichlet Bölüştürmesi (LDA) anlamsal analiz yöntemlerinin başında gelmektedir. Bu tez çalışmasında, anlamsal analiz yöntemleri hakkında bilgi verilmiş ve bu yöntemlerin Türkçe metinler arasındaki anlamsal benzerliği hesaplamadaki performansları değerlendirilmiştir. Ayrıca Türkçenin morfolojisi ve metin temsil yöntemleri açıklanmıştır. LSA, PLSA ve LDA algoritmaları yapay ve gerçek veri setlerine uygulanmış ve sonuçlar değerlendirilmiştir. Yapay veri setleri farklı senaryolar ile üretilmiştir. Gerçek veri setleri ise farklı haber ajanslarından farklı konularda haberler derlenerek oluşturulmuştur. Anlamsal analiz yöntemleri konu sayısının bilindiği durumlarda kullanılabilirler. Ancak pratikte her zaman konu sayısı bilinmeyebilir. Bu çalışmada ayrıca konu sayısının bilinmediği durumlarda kullanılmak üzere, LSA ve PLSA'nın birlikte kullanıldığı yinelemeli bir algoritma önerilmiştir. Yapılan uygulamalarda bu algoritmanın başarılı sonuçlar verdiği görülmüştür. Gelecek çalışmalarda özellikle konu sayısının bilinmediği durumlarda da çalışabilecek yeni anlamsal analiz yaklaşımları geliştirilmelidir.

Özet (Çeviri)

Text mining has an increasing significance with the developing Web technologies. Text mining is a variation of data mining. It refers to the process of deriving information form unstructured textual data. Text mining is a multidisciplinary field related with statistics, information retrieval, natural language processing, linguistics and machine learning. Text mining approaches can be used for many different purposes. Semantic analysis is one of the text mining approaches. Numerous studies can be found about the semantic analysis for English. However, using semantic analysis methods for Turkish is not frequent. The reason for this is the structural difficulties of Turkish. In order for these methods to work efficiently the stemming and stop-word removal operations should be performed accurately. There are stemming algorithms for Turkish, yielding successful results but none of them has become a golden standard yet. Latent Semantic Analysis (LSA), Probabilistic Latent Semantic Analysis (PLSA) and Latent Dirichlet Allocation (LDA) are the most common semantic analysis techniques. In this thesis, information on semantic analysis methods was provided and the performances of these methods to compute semantic similarity between Turkish texts were evaluated. Also Turkish morphology and text representation methods were explained. LSA, PLSA and LDA algorithms were applied on artificial and real data sets and results were evaluated. Artificial data sets were generated with different scenarios. Real data sets were collected from different news agencies with different topics. All these algorithms perform while number of topics is known. However, number of topics may not be known in practice. In this study, an iterative algorithm using PLSA and LSA methods together, which yields accurate results when the number of topics is not known, was discussed. For the future, new approaches should be devised for enabling use of semantic analysis in cases where the number of topics is not known.

Benzer Tezler

Tez No
968429
Metin madenciliği ve makine öğrenimi tekniklerinin uygulanmasıyla standart inşaat sözleşmesi belgelerinin metin analizi
Text analysis of standard construction contract documents by the application of text mining and machine learning techniques
ANIL DEMİRCAN
Doktora
Türkçe
2025
İnşaat Mühendisliği Düzce Üniversitesi
İnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. LATİF ONUR UĞUR
Tez No
418367
Corpus-based semantic kernels for supervised and semi-supervised text classification
Eğiticili ve yarı-eğiticili metin sınıflandırması için derlem tabanlı anlambilimsel çekirdekler
AYŞE BERNA ALTINEL
Doktora
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BANU DİRİ
YRD. DOÇ. DR. MURAT CAN GANİZ
Tez No
724944
İngilizce haber metinlerinde GDT ve NOMF yöntemleri ile konu modelleme: Türkiye ve Yunanistan örneği
Topic modeling with LDA and NMF in English news texts: The case of Turkey and Greece
SEFA YAY
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Karadeniz Teknik Üniversitesi
İstatistik ve Bilgisayar Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TOLGA BERBER
Tez No
805511
Çizge evrişimli sinir ağları kullanılarak metin sınıflandırma
Text classification using graph convolutional networks
RUKİYE ÖZDEMİR TEKİR
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Üniversitesi-Cerrahpaşa
Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ABDURRAHİM AKGÜNDOĞDU
Tez No
713471
Bir otomotiv firmasında konu modelleme yaklaşımı kullanılarak çalışan önerilerinin değerlendirilmesi
Evaluation of employee suggestions by using topic modeling approach in an automotive company
MİNE BOZAN
Yüksek Lisans
Türkçe
2022
Endüstri ve Endüstri Mühendisliği Bursa Teknik Üniversitesi
Akıllı Sistemler Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ KORAY ALTUN

Geri Dön