Geri Dön

Türkçe belgelerin anlam tabanlı yöntemlerle madenciliği

Mining Turkish documents by meaning based techniques

  1. Tez No: 201389
  2. Yazar: AHMET GÜVEN
  3. Danışmanlar: PROF. DR. OYA KALIPSIZ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2007
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 162

Özet

Bilgisayar sistemlerinin ilk uygulama alanları veri toplama ve raporlama üzerinedir. Veri saklama kapasitelerinin ve bu verileri işleyecek bilgisayar işlemci gücünün artması ile daha fazla veriyi saklama ve inceleme imkanı doğmuştur. (Fayyad vd, 1996a). Böylece daha önce verilerden elde edilemeyen ilişkilerin, desenlerin ortaya çıkarılması mümkün hale gelmiştir. Geleneksel sorgulama yöntemlerinden farklı olan bu yöntemler veri madenciliği adı altında toplanmıştır.Veri madenciliği, verilerin içerisindeki desenlerin, ilişkilerin, değişimlerin, düzensizliklerin, kuralların ve istatistiksel olarak önemli olan yapıların yarı otomatik olarak keşfedilmesidir (Hand vd., 2001). Belge bazlı veri yığınları içinden doğru belgelerin bulunması, belgelerin birbirleri arasındaki ilişkilerin sorgulaması işlemleri için veri madenciliği alanındaki teknikler birebir uygulanabilir değildir. Bu nedenle belge madenciliği yapmak için farklı yöntemler geliştirilmiş ve bu alan metin madenciliği, belge madenciliği, yarı yapısal veri madenciliği gibi isimler altında toplanmıştır. Belge madenciliği çalışmalarında amaç belge içeriğinin, bir insan tarafından okunmuşçasına bilgisayar ortamında belirlenmesini içerir. Bu durumda belgelerin hangi dilde yazıldığı önem kazanmaktadır. Bu yönü itibariyle doğal dil işleme alanı ile belge madenciliği arasında sıkı bir ilişki doğmuştur. Hem belge madenciliği hem de doğal dil işleme çalışmaları uzun yıllardan beri İngilizce başta olmak üzere farklı diller üzerinde yapılmıştır. Türkçe doğal dil işleme çalışmalarının somut sonuçları yeni yeni elde edilmekte ve henüz net olarak araştırmacılar arasında paylaşılmış değildir. Bu nedenle doğal dil işleme tekniklerini içinde taşıyan bir Türkçe belge madenciliği çalışması yapmak, özellikle bu tez çalışmasının temellerinin atıldığı 2004 yılı içinde pek anlamlı ve mümkün olmamıştır. Bu tez çalışması Türkçe belgeler üzerinde belge madenciliği yapmak amacıyla, Gizli Anlambilimsel Dizinleme (GAD) yöntemini kullanmakta ve kelimelere uygulanan n-gram yaklaşımını bu yöntemle birleştirmektedir. Belge madenciliği çalışmalarının uluslararası çapta değerlendirilebilmesi için, her belge madenciliği yöntemi ile kullanılabilecek standart belge kümeleri geliştirilmiştir. Bu konuda Türkçe yapılan çalışmalar olmakla birlikte, standart kabul edilmiş bir derlem ya da belge kümesi henüz bulunmamaktadır. Türkçe belge madenciliği için ortaya attığımız yöntemi test edebilmek için 2000 yılından bu yada yayınlanan iş dünyası dergilerinden elde edilen makalelerden bir belge kümesi oluşturulmuş ve bu küme üzerinde sorgulama ve demetleme teknikleri kullanılarak testler yapılmıştır. Sorgulama testlerinde geleneksel GAD yöntemi, önerdiğimiz n-gram destekli GAD yönteminden geri kalmıştır. Benzer şekilde n-gram destekli GAD ile yapılan demetleme işlemi, geleneksel GAD yöntemini geride bırakmıştır. Önerdiğimiz yöntem, Türkçe belgelerin madenciliği için kullanılmıştır. Bu amaçla bir Türkçe belge kümesi oluşturulmuştur. Ancak bu belge kümesi, uluslararası standart belge kümeleri gibi Türkçe için kabul edilmiş bir standart değildir. Bu nedenle elde edilen neticelerin değerlendirilmesinde, belge kümesinin yanlılığı gibi bir sebebe dayalı subjektiflikler olduğu iddia edilebilir. Bunu ortadan kaldırmak için aynı yöntem uluslararası kabul görmüş standart İngilizce Reuters21578 belge kümesine uygulanmıştır. Türkçe belge kümesinde elde edilen sonuçlara paralel olarak Reuters21578 belge kümesi üzerinde yapılan sorgulama ve demetleme işlemleri başarılı neticeler vermiştir. Anahtar Kelimeler : Veri Madenciliği, Belge İşleme, Bilgi Çıkarımı, Bilgi Erişim, Bilgi Arama

Özet (Çeviri)

One of the first application areas of computer systems had been data collection and reporting. As data storage capacity and the computing power increased, it became possible to store and query larger amounts of data (Fayyad, 1996a). Based on the developments, it is now possible to find out relations and patterns in the data that were not easy to discover before. These techniques are known to be data mining techniques and are different than conventional techniques.Data mining is the analysis of (potentially large) data sets aimed at finding unsuspected relationships, patterns, rules, uncertainties and statistically important structures which are of interest or value to the database owners (Hand vd., 2001). Data mining techniques are not directly suitable for analyzing document typed data like querying documents, searching for the relationships between documents. For specific document analyzing needs, techniques different than data mining techniques have been developed and this new discipline is known as text mining, document mining, semi-structured data mining. The objective of document mining is to discover the content of documents by computers as if it is read by human beings. When this is the case, the language of the document becomes important. From this point of view there had been many studies under natural language processing field for decades. For Turkish language, natural language studies are quite new and very few of them has resulted with useful outcomes. Moreover not all them are shared among researchers. Based on this fact, a document mining study for mining Turkish documents using NLP techniques was out of question, especially by 2004 when this study has started. The study we are to present in this theses aims to mine Turkish documents by using Latent Semantics Indexing (LSI) technique and to develop LSI, we are proposing to enhance LSI by combining it with n-gram approach. In order to compare and evaluate different document mining techniques on the international scale, a standart document set had been developed for a specific group of techniques like clustering, questing answering etc. This point is also a missing point for Turkish language. We had to develop our own document set for the study and collected articles from the business magazines that were published in Turkey from year 2000 to 2006. This document set was used to test our technique by doing document querying and clustering. For both document querying and clustering, the test results has shown that, n-gram based LSI technique outperformed conventional LSI. To overcome the assertions that the document set we had collected is not a standard one as a result of which the test results may not show the reality, we tested our technique on the internationally accepted English document set known as Reuters21578. Parallel to Turkish tests, English document test also showed the same results both for document querying and clustering. Keywords : Data Mining, Tezt Categorization, Text Retrieval, Information Retrieval, Querying

Benzer Tezler

  1. Türkçe metinlerde duygu analizi

    Sentiment analysis in Turkish texts

    CUMALİ TÜRKMENOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ

  2. TFEEC : Türkçe finansal olay çıkarım derlemi

    TFEEC : Turkish financial event extraction corpus

    KADİR ŞİNAS KAYNAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  3. Kelime gömme vektörlerinin graf dönüşümü yoluyla metin sınıflandırmada kullanımı

    Use of word embedding vectors in text classification through graph conversion

    ELİF DORUKBAŞI

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKarabük Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. İLKER TÜRKER

  4. Elektronik imza

    Electronic signature

    AYŞE GÜRBÜZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2005

    HukukAnkara Üniversitesi

    Özel Hukuk (Medeni Hukuk) Ana Bilim Dalı

    PROF.DR. ALİ ERTEN

  5. Ontoloji tabanlı bir anlamsal ilintililik yöntemi geliştirilmesi ve yöntemin metin bağdaşıklığının otomatik olarak ölçümünde kullanılması

    Development of an ontology-based semantic relatedness measurement method and its application to automatic measurement of text coherence

    GÖRKEM GİRAY

    Doktora

    Türkçe

    Türkçe

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. MURAT OSMAN ÜNALIR