Geri Dön

Developing a concept extraction system for Turkish

Türkçe için kavram çıkarma sistemi geliştirilmesi

  1. Tez No: 286372
  2. Yazar: MERYEM UZUN PER
  3. Danışmanlar: DOÇ. DR. TUNGA GÜNGÖR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 70

Özet

Erişilebilir elektronik verinin ve ortamın son zamanlarda hızla artmasıyla, elektronik dokümanları otomatik olarak analiz etme ihtiyacı da artmıştır. Bir dokümanın işe yarar bilgi içerip içermediğini değerlendirmek için dokümanın ana fikri, anahtar kelimeleri ya da kavramları biliniyor olmalıdır. Türkçe için anahtar kelime çıkarma ve ana fikir çıkarma üstüne yapılmış birkaç çalışma bulunmaktadır. Kavram çıkarma çalışmaları, birkaç yabancı dil için yapılmış olmasına rağmen kaynaklarımıza göre Türkçe için henüz böyle bir çalışma yapılmamıştır.Bu tezde, Türkçe için kavram çıkarma sistemi ortaya konulmuştur. Türkçe karakterlerin bilgisayar diline uymaması ve Türkçenin sondan eklemeli karmaşık yapısından dolayı öncelikle bir ön işleme aşaması gereklidir. Ön işlemenin sonucunda, çekim eklerinden de ayrılmış olan kelimelerin sadece isim türünde olanları kullanılmıştır. Çoğu kavramın tanımı isim türünde kelimeleri kullanarak yapılabilir. Bunun için, benzer kelimeleri sınıflandırmanın kavram çıkarma çalışması için yararlı olabileceği düşünülmüştür. Bu istatiksel metotların ardından doğal dil işleme yöntemleri de uygulanıp test derlemindeki dokümanlar kavramlarla tanımlanmıştır. Derlem üzerinde kelime, sınıf ve kavram bazında olmak üzere çeşitli denemeler yapılmıştır. Sonuç olarak, sistem üretmesi gerekenden daha fazla kavram üretmiş olmasına rağmen, yüzde 51 başarı ile dokümanlara ait kavramları bulmuştur. Kavramların yapı itibariyle dokümanlarda aynen geçmeme ihtimali ve Türkçenin karmaşık yapısı düşünülürse bu sonuç oldukça başarılı olarak değerlendirilebilir.

Özet (Çeviri)

In recent years, due to growing vast amount of available electronic media and data, the necessity of analyzing electronic documents automatically is increased. In order to assess if a document contains valuable information or not, concepts, key phrases or main idea of the document have to be known. There are some studies on extracting key phrases or main ideas of documents for Turkish. However, to the best of our knowledge, there is no concept extraction system for Turkish although there are some studies for foreign languages.In this thesis, a concept extraction system is proposed for Turkish. Since Turkish characters do not fit with the computer language and Turkish is an agglutinative and complex language a pre-processing step is needed. After pre-processing step, only nouns of corpus, which are cleared from their inflectional morphemes, are used because most concepts are defined by nouns or noun phrases. In order to define documents with concepts, clustering nouns is considered to be useful. By applying some statistical methods and NLP methods, documents are identified by concepts. Several tests are done on the corpus that is tested in the bases of words, clusters, and concepts. As a result, the system generates concepts with 51 per cent success, but unfortunately it generates more concepts than it should be. Since concepts are abstract entities, in other words they do not have to be written in the texts as they appear, assigning concepts is a very difficult issue. Moreover, if we take into account the complexity of the Turkish language this result can be seen as quite satisfactory.

Benzer Tezler

  1. El çizimi diyagramların modifiye destek vektör makineleri ve grid tabanlı su havzası ile tanınması

    Recognition of hand drawn diagrams using modified support vector machines and grid based watershed

    ORHAN NOORULDEEN

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ OĞUZ ALTUN

  2. Implementing an improved intelligent licence plate detection system using image processing and pattern recognition algorithms

    Implementing an improved intelligent licence plate detection system using image processing and pattern recognition algorithms

    JAWAD MUHAMMAD

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMevlana Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    Assoc. Prof. Dr. HALİS ALTUN

  3. Development of novel aflatoxin B1 biosensors by carbon nanotube integrated microfluidic systems

    Karbon nanotüp entegre edilmiş mikroakışkan sistemlerin kullanımıyla yeni aflatoksin B1 biyosensörlerinin geliştirilmesi

    NAGİHAN OKUTAN ARSLAN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilim ve Teknolojiİstanbul Teknik Üniversitesi

    Nanobilim ve Nanomühendislik Ana Bilim Dalı

    PROF. DR. LEVENT TRABZON

  4. Pervaporasyon ile ipa/su ve MTBE/metil alkol azeotropik karışımlarının ayrılması

    Başlık çevirisi yok

    NİLÜFER DURMAZ (HİLMİOĞLU)

    Doktora

    Türkçe

    Türkçe

    1998

    Kimya Mühendisliğiİstanbul Teknik Üniversitesi

    Temel İşlemler Ana Bilim Dalı

    PROF. DR. SEMA TÜLBENTÇİ

  5. Dalga enerjisi potansiyelinin makro ve mikro ölçekte çıkarılması

    Macro and micro scale modeling of wave energy potential

    YASIN ABDOLLAHZADEHMORADI

    Doktora

    Türkçe

    Türkçe

    2018

    Enerjiİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET ÖZGER