Geri Dön

Semantic text mining and an application in turkish documents

Anlamsal metin madenciliği ve türkçe dökümanlar üzerine bir uygulama

  1. Tez No: 374016
  2. Yazar: VOLKAN UZUN
  3. Danışmanlar: YRD. DOÇ. DR. ENGİN YILDIZTEPE
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2014
  8. Dil: İngilizce
  9. Üniversite: Dokuz Eylül Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 68

Özet

Metin madenciliğinin önemi gelişen web teknolojileri ile birlikte artmaktadır. Veri madenciliğinin bir alt türü olarak değerlendirilen metin madenciliğinde, metin halindeki yapılandırılmamış veri setlerinden anlamlı bilgiler çıkartılır. Metin madenciliği, istatistik, bilgi geri kazanımı, doğal dil işleme, dilbilim ve makine öğrenimi gibi birçok alan ile ilişkili bir araştırma alanıdır. Metin madenciliği birçok farklı alanda kullanılabilir. Anlamsal analiz bunlardan biridir. İngilizce için bir çok anlamsal analiz çalışması bulunmaktadır ancak Türkçe için anlamsal analiz çalışmaları oldukça azdır. Bunun sebebi Türkçenin yapısal zorluklarıdır. Anlamsal analiz yöntemlerini etkin bir şekilde kullanabilmek için gövdeleme (ek-kök ayrıştırması) ve anlamsız (cümle içinde tek başına anlam ifade etmeyen, edat bağlaç vb. gibi) kelimelerin ayrıştırılması işlemlerinin doğru yapılması gerekmektedir. Türkçe için başarılı sonuçlar veren gövdeleme algoritmaları bulunmaktadır ancak henüz hiçbiri standart hale gelmemiştir. Gizli Anlam Analizi (LSA), Olasılıksal Gizli Anlam Analizi (PLSA) ve Gizli Dirichlet Bölüştürmesi (LDA) anlamsal analiz yöntemlerinin başında gelmektedir. Bu tez çalışmasında, anlamsal analiz yöntemleri hakkında bilgi verilmiş ve bu yöntemlerin Türkçe metinler arasındaki anlamsal benzerliği hesaplamadaki performansları değerlendirilmiştir. Ayrıca Türkçenin morfolojisi ve metin temsil yöntemleri açıklanmıştır. LSA, PLSA ve LDA algoritmaları yapay ve gerçek veri setlerine uygulanmış ve sonuçlar değerlendirilmiştir. Yapay veri setleri farklı senaryolar ile üretilmiştir. Gerçek veri setleri ise farklı haber ajanslarından farklı konularda haberler derlenerek oluşturulmuştur. Anlamsal analiz yöntemleri konu sayısının bilindiği durumlarda kullanılabilirler. Ancak pratikte her zaman konu sayısı bilinmeyebilir. Bu çalışmada ayrıca konu sayısının bilinmediği durumlarda kullanılmak üzere, LSA ve PLSA'nın birlikte kullanıldığı yinelemeli bir algoritma önerilmiştir. Yapılan uygulamalarda bu algoritmanın başarılı sonuçlar verdiği görülmüştür. Gelecek çalışmalarda özellikle konu sayısının bilinmediği durumlarda da çalışabilecek yeni anlamsal analiz yaklaşımları geliştirilmelidir.

Özet (Çeviri)

Text mining has an increasing significance with the developing Web technologies. Text mining is a variation of data mining. It refers to the process of deriving information form unstructured textual data. Text mining is a multidisciplinary field related with statistics, information retrieval, natural language processing, linguistics and machine learning. Text mining approaches can be used for many different purposes. Semantic analysis is one of the text mining approaches. Numerous studies can be found about the semantic analysis for English. However, using semantic analysis methods for Turkish is not frequent. The reason for this is the structural difficulties of Turkish. In order for these methods to work efficiently the stemming and stop-word removal operations should be performed accurately. There are stemming algorithms for Turkish, yielding successful results but none of them has become a golden standard yet. Latent Semantic Analysis (LSA), Probabilistic Latent Semantic Analysis (PLSA) and Latent Dirichlet Allocation (LDA) are the most common semantic analysis techniques. In this thesis, information on semantic analysis methods was provided and the performances of these methods to compute semantic similarity between Turkish texts were evaluated. Also Turkish morphology and text representation methods were explained. LSA, PLSA and LDA algorithms were applied on artificial and real data sets and results were evaluated. Artificial data sets were generated with different scenarios. Real data sets were collected from different news agencies with different topics. All these algorithms perform while number of topics is known. However, number of topics may not be known in practice. In this study, an iterative algorithm using PLSA and LSA methods together, which yields accurate results when the number of topics is not known, was discussed. For the future, new approaches should be devised for enabling use of semantic analysis in cases where the number of topics is not known.

Benzer Tezler

  1. Corpus-based semantic kernels for supervised and semi-supervised text classification

    Eğiticili ve yarı-eğiticili metin sınıflandırması için derlem tabanlı anlambilimsel çekirdekler

    AYŞE BERNA ALTINEL

    Doktora

    İngilizce

    İngilizce

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BANU DİRİ

    YRD. DOÇ. DR. MURAT CAN GANİZ

  2. İngilizce haber metinlerinde GDT ve NOMF yöntemleri ile konu modelleme: Türkiye ve Yunanistan örneği

    Topic modeling with LDA and NMF in English news texts: The case of Turkey and Greece

    SEFA YAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik Üniversitesi

    İstatistik ve Bilgisayar Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TOLGA BERBER

  3. Çizge evrişimli sinir ağları kullanılarak metin sınıflandırma

    Text classification using graph convolutional networks

    RUKİYE ÖZDEMİR TEKİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ABDURRAHİM AKGÜNDOĞDU

  4. Bir otomotiv firmasında konu modelleme yaklaşımı kullanılarak çalışan önerilerinin değerlendirilmesi

    Evaluation of employee suggestions by using topic modeling approach in an automotive company

    MİNE BOZAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Endüstri ve Endüstri MühendisliğiBursa Teknik Üniversitesi

    Akıllı Sistemler Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ KORAY ALTUN

  5. Arama sorguları üzerinde görev tabanlı kümeleme

    Task-based clustering on search queries

    ALMILA SELCEN AKGÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YUSUF YASLAN