Geri Dön

Türkçe metinlerin etiketlenmesi

Labeling Turkish documents

  1. Tez No: 323838
  2. Yazar: SEDA KAZKILINÇ
  3. Danışmanlar: PROF. DR. EŞREF ADALI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2012
  8. Dil: Türkçe
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 89

Özet

Bu çalışmanın amacı haber metinlerinde, haber metninin öznesi, yüklemi, yer ve zamanını belirtecek söz öbeklerinin metinde bulunup, metnin etiketlenmesidir. Bu amaçla, metinde geçen cümleler içerisinden seçilen en baskın özne, yüklem, yer ve zaman bilgilerinin çıkarılması hedeflenmektedir. Hedefimiz doğrultusunda ilk olarak, metindeki cümleler biçimbilimsel çözümleyicide analiz edilmiştir. Bunun nedeni eklemeli bir dil olan Türkçe'de sözcüklerin gövdelerine erişmektir. Biçimbilimsel çözümleyicinin sonucunda, her sözcük için birden fazla çözüm üretilmektedir.. Bu nedenle bulunan çözümlerden en yüksek olasılıklı olanı bulmak için belirsizlik gidericiye ihtiyaç vardır. Sözdizimsel çözümelere erişmek için de sözdizimsel çözümleme işlemi yapmak gerekmektedir.Çalışmamızda bir metin ilk olarak yukarıda sıralanan üç aşamalı çözümleme işleminden geçirilmiştir. Tez çalışmasının ilk kısmında biçimbilimsel ve sözdizimsel çözümü çıkarılmış olan metinlerden kurallar çıkarılarak etiketleme işlemi yapılmaya çalışılmışsa da yeterli başarımı elde edilememiştir. Bu nedenle, çıkaramadığımız bazı kuralları çıkarabileceğini düşünerek makine öğrenmesi yöntemleri üzerinde çalışılmıştır. Makine öğrenmesi yöntemi olarak bir dizilim sınıflandırıcısı olan Koşullu Rastgele Alanlar (CRF) üzerinde çalışılmıştır. Kural tabanlı yaklaşımda elde ettiğimiz bazı kuralları kullanarak ve çözümleyici çıktılarını kullanarak metindeki her bir sözcüğe ait nitelikler belirlenmiştir. Önceden elle işaretlediğimiz metinleri ve belirlenen nitelikleri kullanarak, CRF modelimizi oluşturulmuştur. Daha sonra önceden etiketlenmemiş metinleri, bu model sayesinde etiketleme işlemini geliştirilmiştir.

Özet (Çeviri)

In this thesis, a new approach that is labeling the main subject, main predicate, main location and main date of a electronic document is introduced. The main subject label tells whom or what the document about. The main predicate label tells what the subject is or does. The main location label tells where the document passed and the main date label tells when the document passed. With the help of this new methodology, extraction of not only high level description of the content, but also the attribute of a phrase in a document are provided. As an experiment set Turkish news are selected. To use as a training and test set, manual labeling is made by human annotators. Then, different models for each label are implemented to extract the labels automatically and they are compared to manually labeled results.

Benzer Tezler

  1. Ontoloji tabanlı bir anlamsal ilintililik yöntemi geliştirilmesi ve yöntemin metin bağdaşıklığının otomatik olarak ölçümünde kullanılması

    Development of an ontology-based semantic relatedness measurement method and its application to automatic measurement of text coherence

    GÖRKEM GİRAY

    Doktora

    Türkçe

    Türkçe

    2011

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. MURAT OSMAN ÜNALIR

  2. Evaluating the performance of different continous vector representation methods for turkish words

    Türkçe sözcükler için farklı sürekli vektör temsilyöntemlerinin başarım değerlendirmesi

    GÖKHAN GÜLER

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  3. Çocuk yazını ürünü olarak Özlem Aytek'in 'Zamanda Yolculuk Dizisi' üzerine bir derlem uygulaması

    A corpus of Özlem Aytek's 'Zamanda Yolculuk' seriesas a children literature work

    AHMET CİHAN BULUNDU

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Eğitim ve ÖğretimMersin Üniversitesi

    Türkçe Eğitimi Ana Bilim Dalı

    DOÇ. DR. BÜLENT ÖZKAN

  4. 2017 - 2020 yılları arasında suç işlediği öne sürülen çocuklara yönelik haberlerin yazılı basın üzerinden analizi

    Analysis of the news on the children alleged to commit a crime between 2017 - 2020 through the written press

    BÜŞRA NUR ÖZGÜL

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    SosyolojiJandarma ve Sahil Güvenlik Akademisi

    Suç Araştırmaları Ana Bilim Dalı

    PROF. DR. ELİF ÇOLAKOĞLU

  5. Otomatik duygu sözlüğü geliştirilmesi ve haberlerin duygu analizi

    Automated sentiment lexicon generation and sentiment analysis of news

    FATİH SAĞLAM

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ FUAT AKAL

    PROF. DR. HAYRİ SEVER