Türkçe metinlerin etiketlenmesi
Labeling Turkish documents
- Tez No: 323838
- Danışmanlar: PROF. DR. EŞREF ADALI
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2012
- Dil: Türkçe
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 89
Özet
Bu çalışmanın amacı haber metinlerinde, haber metninin öznesi, yüklemi, yer ve zamanını belirtecek söz öbeklerinin metinde bulunup, metnin etiketlenmesidir. Bu amaçla, metinde geçen cümleler içerisinden seçilen en baskın özne, yüklem, yer ve zaman bilgilerinin çıkarılması hedeflenmektedir. Hedefimiz doğrultusunda ilk olarak, metindeki cümleler biçimbilimsel çözümleyicide analiz edilmiştir. Bunun nedeni eklemeli bir dil olan Türkçe'de sözcüklerin gövdelerine erişmektir. Biçimbilimsel çözümleyicinin sonucunda, her sözcük için birden fazla çözüm üretilmektedir.. Bu nedenle bulunan çözümlerden en yüksek olasılıklı olanı bulmak için belirsizlik gidericiye ihtiyaç vardır. Sözdizimsel çözümelere erişmek için de sözdizimsel çözümleme işlemi yapmak gerekmektedir.Çalışmamızda bir metin ilk olarak yukarıda sıralanan üç aşamalı çözümleme işleminden geçirilmiştir. Tez çalışmasının ilk kısmında biçimbilimsel ve sözdizimsel çözümü çıkarılmış olan metinlerden kurallar çıkarılarak etiketleme işlemi yapılmaya çalışılmışsa da yeterli başarımı elde edilememiştir. Bu nedenle, çıkaramadığımız bazı kuralları çıkarabileceğini düşünerek makine öğrenmesi yöntemleri üzerinde çalışılmıştır. Makine öğrenmesi yöntemi olarak bir dizilim sınıflandırıcısı olan Koşullu Rastgele Alanlar (CRF) üzerinde çalışılmıştır. Kural tabanlı yaklaşımda elde ettiğimiz bazı kuralları kullanarak ve çözümleyici çıktılarını kullanarak metindeki her bir sözcüğe ait nitelikler belirlenmiştir. Önceden elle işaretlediğimiz metinleri ve belirlenen nitelikleri kullanarak, CRF modelimizi oluşturulmuştur. Daha sonra önceden etiketlenmemiş metinleri, bu model sayesinde etiketleme işlemini geliştirilmiştir.
Özet (Çeviri)
In this thesis, a new approach that is labeling the main subject, main predicate, main location and main date of a electronic document is introduced. The main subject label tells whom or what the document about. The main predicate label tells what the subject is or does. The main location label tells where the document passed and the main date label tells when the document passed. With the help of this new methodology, extraction of not only high level description of the content, but also the attribute of a phrase in a document are provided. As an experiment set Turkish news are selected. To use as a training and test set, manual labeling is made by human annotators. Then, different models for each label are implemented to extract the labels automatically and they are compared to manually labeled results.
Benzer Tezler
- Ontoloji tabanlı bir anlamsal ilintililik yöntemi geliştirilmesi ve yöntemin metin bağdaşıklığının otomatik olarak ölçümünde kullanılması
Development of an ontology-based semantic relatedness measurement method and its application to automatic measurement of text coherence
GÖRKEM GİRAY
Doktora
Türkçe
2011
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MURAT OSMAN ÜNALIR
- Evaluating the performance of different continous vector representation methods for turkish words
Türkçe sözcükler için farklı sürekli vektör temsilyöntemlerinin başarım değerlendirmesi
GÖKHAN GÜLER
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Çocuk yazını ürünü olarak Özlem Aytek'in 'Zamanda Yolculuk Dizisi' üzerine bir derlem uygulaması
A corpus of Özlem Aytek's 'Zamanda Yolculuk' seriesas a children literature work
AHMET CİHAN BULUNDU
Yüksek Lisans
Türkçe
2016
Eğitim ve ÖğretimMersin ÜniversitesiTürkçe Eğitimi Ana Bilim Dalı
DOÇ. DR. BÜLENT ÖZKAN
- 2017 - 2020 yılları arasında suç işlediği öne sürülen çocuklara yönelik haberlerin yazılı basın üzerinden analizi
Analysis of the news on the children alleged to commit a crime between 2017 - 2020 through the written press
BÜŞRA NUR ÖZGÜL
Yüksek Lisans
Türkçe
2022
SosyolojiJandarma ve Sahil Güvenlik AkademisiSuç Araştırmaları Ana Bilim Dalı
PROF. DR. ELİF ÇOLAKOĞLU
- Otomatik duygu sözlüğü geliştirilmesi ve haberlerin duygu analizi
Automated sentiment lexicon generation and sentiment analysis of news
FATİH SAĞLAM
Doktora
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FUAT AKAL
PROF. DR. HAYRİ SEVER