Geri Dön

Türkçe metinlerden anlamsal bilgi çıkarımı için bir veri madenciliği uygulaması

A data mining application for extracting semantic information from Turkish texts

  1. Tez No: 301598
  2. Yazar: ABDULLAH ALPHAN ARSLAN
  3. Danışmanlar: DOÇ. DR. HASAN OĞUL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2012
  8. Dil: Türkçe
  9. Üniversite: Başkent Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 114

Özet

Günümüzde genel ağın yaygınlaşması ile beraber kaynakların fazlalığı bilgiye erişmede yeni bir sorun olarak ortaya çıkmaktadır. Bilgiye erişimde şu anki durumuyla çeşitli arama motorları anlamsal bağlantılar olmaksızın arama yapmamıza izin vermekte fakat doğru veriye erişmeyi garanti edememektedir. Anlamsal ağ genel ağ üzerinde işlenmiş veriye ulaşmak üzere öngörülen bir yapıdır, fakat beslenmesi için mevcut verilerin işlenmesi gerekmektedir. Bu bağlamda bilgi çıkarımı, doğal dildeki, yapısal olmayan, metinlerin çözümlenmesi ve bu metinlerin içerdiği gerekli bilginin yapısal olarak belirlenmesi işlemidir. Bu noktada veri madenciliği süreçleri bu kez yapısal olmayan veri üzerinde çalışacak şekilde evrilebilir. Bu amaçla belirlenen süreç OİÇ(Otomatik İçerik Çıkarımı) ile tanımlanmıştır. Bu süreç temel olarak 3 adımda oluşur: varlık(ad) çıkarımı, ilişki çıkarımı, olay çıkarımı. Varlık (ad) çıkarımı serbest metinlerde gecen varlık isimlerinin bulunması, ilişki çıkarımı ise metinde belirlenen bu varlıklar arasındaki ilişkinin belirlenmesi ve olay-eylem çıkarımı ise belirlenen bu varlıkların içinde bulunduğu olayların belirlenmesidir.Bu çalışmanın amacı Türkçe metinlerden bilgi çıkarımı sürecinde ilişkilerin tanımlanması için yapılabileceklerin incelenmesidir. Bu bağlamda Türkçe ve İngilizce için yapılan çalışmalar incelenmiş ve bilgi çıkarım sürecindeki“varlık”kavramının Türkçe bir ada eşit olduğu varsayılarak bir sistem tasarlanmıştır. Gazete haber metinlerinden seçilen tümcelerden bir veri kümesi oluşturulmuş ve oluşturulan bu veri kümesinde her bir tümcenin içinde geçen her iki sözcük , ele alınan tümcelerin yüklem olabilecek sözcüğü göz önüne alınarak , karşılaşma sıklığı, aralarında bulunan diğer sözcüklerin sayısı, tümcede ilk sözcük oluşları gibi bazı özellikleri kullanılarak ilişkili olup olmadıkları hakkında inceleme yapılmıştır. İncelemede kullanılan bu özellikler ifadede bulunduğu konuma göre belirlenen özelliklerin yanı sıra ilk sözcüğün kaç farklı sözcükle birlikte oluşu ,sözcük çiftinin kaç farklı yüklem ile birlikte olduğu gibi sıklık verileri de eklenmiştir. Yapılan inceleme ele alınan iki sözcüğün ilişkili olmalarına karar vermede farklı özelliklerine çeşitli eşik değerler uygulanarak karar verilmiş ve sınıflandırılmış veri destek vektör makinesi algoritması kullanılarak belirlenen eşik değerleri ve veri kümesinin doğruluğuna dair sonuçlar elde edilmeye çalışılmıştır. Hazırlanan bu sistem Türkçe hazırlanmış bir genel ağ sayfasının içeriğinin belirlenen standartlara uygun hale getirilmesi ve sunulması için bir ön çalışma niteliğindedir.

Özet (Çeviri)

Today, with spreading of internet, information word has a new problem about to reach the right information from the large amounts of data. Existing search engines can only fetch the data even no relation with the search subject. Semantic web technology is created to reach the related information from the web. For this technology, Information Extraction is extracting related and structured information from natural language raw texts. ACE determines whether this processes as a result of conferences and workshops. With ACE the problem deals with three main tasks; Entity Detection and Tracking , Relation Detection and Characterization, and Event Detection and Characterization.The purpose of this study was to examine Turkish texts can be possible to identify relationships in the process of information extraction. In this study we used Automated Content Extraction(ACE) as a guide to detect relation of entities from Turkish texts. In this context Turkish and English studies examined and assuming that if an entity is equal to a name of a system designed. With this system, news page contents collected and some sentences ,words and verb of sentence abstracted and every couple words in a sentece with the verb of the sentence recorded with some other specifications about the locations in the phrese. After building this frequency data base various views created to determine if the word couple is related. With this views classification made by word couple and verb rate and tested over support vector machine alghoritm. A web page content prepared in Turkish can be brought into line with the standards specified with this system for the submission of a preliminary study.

Benzer Tezler

  1. İngilizce haber metinlerinde GDT ve NOMF yöntemleri ile konu modelleme: Türkiye ve Yunanistan örneği

    Topic modeling with LDA and NMF in English news texts: The case of Turkey and Greece

    SEFA YAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik Üniversitesi

    İstatistik ve Bilgisayar Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TOLGA BERBER

  2. Exploiting information extraction techniques for automatic semantic annotation and retrieval of news videos in Turkish

    Türkçe haber videolarının otomatik anlamsal etiketlenmeleri ve erişimleri için bilgi çıkarım tekniklerinin kullanımı

    DİLEK KÜÇÜK

    Doktora

    İngilizce

    İngilizce

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    PROF. DR. ADNAN YAZICI

  3. Analysis of natural language processing techniques and development of Turkish named entity recognition tool for travel-tourism voice assistant

    Doğal dil işleme tekniklerinin incelenmesi ve seyahat-turizm sesli asistanı için Türkçe varlık ismi tanıma aracı geliştirilmesi

    DENİZ GÜL ÖZCAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAkdeniz Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÜMİT DENİZ ULUŞAR

  4. Automating information extraction task for Turkish texts

    Türkçe metinlerden otomatik bilgi çıkarımı

    SERHAN TATAR

    Doktora

    İngilizce

    İngilizce

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. İLYAS ÇİÇEKLİ

    PROF. DR. ÖZGÜR ULUSOY

  5. Derin öğrenme yöntemleri ile Türkçe metinlerde benzerlik tespiti

    Detection of similarities with deep learning methods in Turkish texts

    İRFAN AYGÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET BEDRİ ÖZER