Developing a concept extraction system for Turkish

Türkçe için kavram çıkarma sistemi geliştirilmesi

PDF İndir

Tez No: 286372
Yazar: MERYEM UZUN PER
Danışmanlar: DOÇ. DR. TUNGA GÜNGÖR
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2011
Dil: İngilizce
Üniversite: Boğaziçi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 70

Özet

Erişilebilir elektronik verinin ve ortamın son zamanlarda hızla artmasıyla, elektronik dokümanları otomatik olarak analiz etme ihtiyacı da artmıştır. Bir dokümanın işe yarar bilgi içerip içermediğini değerlendirmek için dokümanın ana fikri, anahtar kelimeleri ya da kavramları biliniyor olmalıdır. Türkçe için anahtar kelime çıkarma ve ana fikir çıkarma üstüne yapılmış birkaç çalışma bulunmaktadır. Kavram çıkarma çalışmaları, birkaç yabancı dil için yapılmış olmasına rağmen kaynaklarımıza göre Türkçe için henüz böyle bir çalışma yapılmamıştır.Bu tezde, Türkçe için kavram çıkarma sistemi ortaya konulmuştur. Türkçe karakterlerin bilgisayar diline uymaması ve Türkçenin sondan eklemeli karmaşık yapısından dolayı öncelikle bir ön işleme aşaması gereklidir. Ön işlemenin sonucunda, çekim eklerinden de ayrılmış olan kelimelerin sadece isim türünde olanları kullanılmıştır. Çoğu kavramın tanımı isim türünde kelimeleri kullanarak yapılabilir. Bunun için, benzer kelimeleri sınıflandırmanın kavram çıkarma çalışması için yararlı olabileceği düşünülmüştür. Bu istatiksel metotların ardından doğal dil işleme yöntemleri de uygulanıp test derlemindeki dokümanlar kavramlarla tanımlanmıştır. Derlem üzerinde kelime, sınıf ve kavram bazında olmak üzere çeşitli denemeler yapılmıştır. Sonuç olarak, sistem üretmesi gerekenden daha fazla kavram üretmiş olmasına rağmen, yüzde 51 başarı ile dokümanlara ait kavramları bulmuştur. Kavramların yapı itibariyle dokümanlarda aynen geçmeme ihtimali ve Türkçenin karmaşık yapısı düşünülürse bu sonuç oldukça başarılı olarak değerlendirilebilir.

Özet (Çeviri)

In recent years, due to growing vast amount of available electronic media and data, the necessity of analyzing electronic documents automatically is increased. In order to assess if a document contains valuable information or not, concepts, key phrases or main idea of the document have to be known. There are some studies on extracting key phrases or main ideas of documents for Turkish. However, to the best of our knowledge, there is no concept extraction system for Turkish although there are some studies for foreign languages.In this thesis, a concept extraction system is proposed for Turkish. Since Turkish characters do not fit with the computer language and Turkish is an agglutinative and complex language a pre-processing step is needed. After pre-processing step, only nouns of corpus, which are cleared from their inflectional morphemes, are used because most concepts are defined by nouns or noun phrases. In order to define documents with concepts, clustering nouns is considered to be useful. By applying some statistical methods and NLP methods, documents are identified by concepts. Several tests are done on the corpus that is tested in the bases of words, clusters, and concepts. As a result, the system generates concepts with 51 per cent success, but unfortunately it generates more concepts than it should be. Since concepts are abstract entities, in other words they do not have to be written in the texts as they appear, assigning concepts is a very difficult issue. Moreover, if we take into account the complexity of the Turkish language this result can be seen as quite satisfactory.

Benzer Tezler

Tez No
639744
El çizimi diyagramların modifiye destek vektör makineleri ve grid tabanlı su havzası ile tanınması
Recognition of hand drawn diagrams using modified support vector machines and grid based watershed
ORHAN NOORULDEEN
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ OĞUZ ALTUN
Tez No
382781
Implementing an improved intelligent licence plate detection system using image processing and pattern recognition algorithms
Implementing an improved intelligent licence plate detection system using image processing and pattern recognition algorithms
JAWAD MUHAMMAD
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Mevlana Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
Assoc. Prof. Dr. HALİS ALTUN
Tez No
872834
Development of novel aflatoxin B1 biosensors by carbon nanotube integrated microfluidic systems
Karbon nanotüp entegre edilmiş mikroakışkan sistemlerin kullanımıyla yeni aflatoksin B1 biyosensörlerinin geliştirilmesi
NAGİHAN OKUTAN ARSLAN
Doktora
İngilizce
2024
Bilim ve Teknoloji İstanbul Teknik Üniversitesi
Nanobilim ve Nanomühendislik Ana Bilim Dalı
PROF. DR. LEVENT TRABZON
Tez No
75074
Pervaporasyon ile ipa/su ve MTBE/metil alkol azeotropik karışımlarının ayrılması
Başlık çevirisi yok
NİLÜFER DURMAZ (HİLMİOĞLU)
Doktora
Türkçe
1998
Kimya Mühendisliği İstanbul Teknik Üniversitesi
Temel İşlemler Ana Bilim Dalı
PROF. DR. SEMA TÜLBENTÇİ
Tez No
542820
Dalga enerjisi potansiyelinin makro ve mikro ölçekte çıkarılması
Macro and micro scale modeling of wave energy potential
YASIN ABDOLLAHZADEHMORADI
Doktora
Türkçe
2018
Enerji İstanbul Teknik Üniversitesi
İnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET ÖZGER

Geri Dön