Türkçe metinlerden anlamsal bilgi çıkarımı için bir veri madenciliği uygulaması

A data mining application for extracting semantic information from Turkish texts

PDF İndir

Tez No: 301598
Yazar: ABDULLAH ALPHAN ARSLAN
Danışmanlar: DOÇ. DR. HASAN OĞUL
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2012
Dil: Türkçe
Üniversite: Başkent Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 114

Özet

Günümüzde genel ağın yaygınlaşması ile beraber kaynakların fazlalığı bilgiye erişmede yeni bir sorun olarak ortaya çıkmaktadır. Bilgiye erişimde şu anki durumuyla çeşitli arama motorları anlamsal bağlantılar olmaksızın arama yapmamıza izin vermekte fakat doğru veriye erişmeyi garanti edememektedir. Anlamsal ağ genel ağ üzerinde işlenmiş veriye ulaşmak üzere öngörülen bir yapıdır, fakat beslenmesi için mevcut verilerin işlenmesi gerekmektedir. Bu bağlamda bilgi çıkarımı, doğal dildeki, yapısal olmayan, metinlerin çözümlenmesi ve bu metinlerin içerdiği gerekli bilginin yapısal olarak belirlenmesi işlemidir. Bu noktada veri madenciliği süreçleri bu kez yapısal olmayan veri üzerinde çalışacak şekilde evrilebilir. Bu amaçla belirlenen süreç OİÇ(Otomatik İçerik Çıkarımı) ile tanımlanmıştır. Bu süreç temel olarak 3 adımda oluşur: varlık(ad) çıkarımı, ilişki çıkarımı, olay çıkarımı. Varlık (ad) çıkarımı serbest metinlerde gecen varlık isimlerinin bulunması, ilişki çıkarımı ise metinde belirlenen bu varlıklar arasındaki ilişkinin belirlenmesi ve olay-eylem çıkarımı ise belirlenen bu varlıkların içinde bulunduğu olayların belirlenmesidir.Bu çalışmanın amacı Türkçe metinlerden bilgi çıkarımı sürecinde ilişkilerin tanımlanması için yapılabileceklerin incelenmesidir. Bu bağlamda Türkçe ve İngilizce için yapılan çalışmalar incelenmiş ve bilgi çıkarım sürecindeki“varlık”kavramının Türkçe bir ada eşit olduğu varsayılarak bir sistem tasarlanmıştır. Gazete haber metinlerinden seçilen tümcelerden bir veri kümesi oluşturulmuş ve oluşturulan bu veri kümesinde her bir tümcenin içinde geçen her iki sözcük , ele alınan tümcelerin yüklem olabilecek sözcüğü göz önüne alınarak , karşılaşma sıklığı, aralarında bulunan diğer sözcüklerin sayısı, tümcede ilk sözcük oluşları gibi bazı özellikleri kullanılarak ilişkili olup olmadıkları hakkında inceleme yapılmıştır. İncelemede kullanılan bu özellikler ifadede bulunduğu konuma göre belirlenen özelliklerin yanı sıra ilk sözcüğün kaç farklı sözcükle birlikte oluşu ,sözcük çiftinin kaç farklı yüklem ile birlikte olduğu gibi sıklık verileri de eklenmiştir. Yapılan inceleme ele alınan iki sözcüğün ilişkili olmalarına karar vermede farklı özelliklerine çeşitli eşik değerler uygulanarak karar verilmiş ve sınıflandırılmış veri destek vektör makinesi algoritması kullanılarak belirlenen eşik değerleri ve veri kümesinin doğruluğuna dair sonuçlar elde edilmeye çalışılmıştır. Hazırlanan bu sistem Türkçe hazırlanmış bir genel ağ sayfasının içeriğinin belirlenen standartlara uygun hale getirilmesi ve sunulması için bir ön çalışma niteliğindedir.

Özet (Çeviri)

Today, with spreading of internet, information word has a new problem about to reach the right information from the large amounts of data. Existing search engines can only fetch the data even no relation with the search subject. Semantic web technology is created to reach the related information from the web. For this technology, Information Extraction is extracting related and structured information from natural language raw texts. ACE determines whether this processes as a result of conferences and workshops. With ACE the problem deals with three main tasks; Entity Detection and Tracking , Relation Detection and Characterization, and Event Detection and Characterization.The purpose of this study was to examine Turkish texts can be possible to identify relationships in the process of information extraction. In this study we used Automated Content Extraction(ACE) as a guide to detect relation of entities from Turkish texts. In this context Turkish and English studies examined and assuming that if an entity is equal to a name of a system designed. With this system, news page contents collected and some sentences ,words and verb of sentence abstracted and every couple words in a sentece with the verb of the sentence recorded with some other specifications about the locations in the phrese. After building this frequency data base various views created to determine if the word couple is related. With this views classification made by word couple and verb rate and tested over support vector machine alghoritm. A web page content prepared in Turkish can be brought into line with the standards specified with this system for the submission of a preliminary study.

Benzer Tezler

Tez No
724944
İngilizce haber metinlerinde GDT ve NOMF yöntemleri ile konu modelleme: Türkiye ve Yunanistan örneği
Topic modeling with LDA and NMF in English news texts: The case of Turkey and Greece
SEFA YAY
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Karadeniz Teknik Üniversitesi
İstatistik ve Bilgisayar Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TOLGA BERBER
Tez No
286228
Exploiting information extraction techniques for automatic semantic annotation and retrieval of news videos in Turkish
Türkçe haber videolarının otomatik anlamsal etiketlenmeleri ve erişimleri için bilgi çıkarım tekniklerinin kullanımı
DİLEK KÜÇÜK
Doktora
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Bölümü
PROF. DR. ADNAN YAZICI
Tez No
964641
Sağlık verileri üzerinde büyük dil modeli ile yeni bir yaklaşım
A new large language model based approach on health data
BEHÇET ŞENTÜRK
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ankara Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET SERDAR GÜZEL
Tez No
658195
Analysis of natural language processing techniques and development of Turkish named entity recognition tool for travel-tourism voice assistant
Doğal dil işleme tekniklerinin incelenmesi ve seyahat-turizm sesli asistanı için Türkçe varlık ismi tanıma aracı geliştirilmesi
DENİZ GÜL ÖZCAN
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Akdeniz Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÜMİT DENİZ ULUŞAR
Tez No
277012
Automating information extraction task for Turkish texts
Türkçe metinlerden otomatik bilgi çıkarımı
SERHAN TATAR
Doktora
İngilizce
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İhsan Doğramacı Bilkent Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. İLYAS ÇİÇEKLİ
PROF. DR. ÖZGÜR ULUSOY

Geri Dön