Türkçe metinler için konu belirleme sistemi

Topic detection system for Turkish texts

PDF İndir

Tez No: 222323
Yazar: FATİH KESGİN
Danışmanlar: PROF.DR. EŞREF ADALI
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Bilgi Erişimi, Doğal Dil İşleme, Metin sınıflandırma, Gövdeleme, Information Retrieval, Text Classification, Stemming
Yıl: 2007
Dil: Türkçe
Üniversite: İstanbul Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 64

Özet

Bilgi erişimi (BE), bilginin temsil edilmesi, saklanması, düzenlenmesi ve gerektiği zamanda erişilebilmesini mümkün hale getirmek için yöntemlerin geliştirildiği araştırma konusudur. Genel Ağ'ın (İnternet) yaygınlaşması ile sayısal olarak saklanan ve erişilmek istenen belgelerin sayısı her geçen gün artmaktadır. Bu durum, Bilgi Erişimi'ni günümüzde en çok ilgilenilen ve araştırılan konulardan biri haline getirmiştir. Metin işleme BE uygulamaları arasında önemli bir yer tutmaktadır. Metin işleme uygulamalarının bir alt kümesi olan Metin Sınıflandırma doğal dil ile yazılmış metinlerinin içeriklerine göre ilgili kanallara yönlendirilmesi, e-posta iletilerinin önemli önemsiz olarak ayrıştırılması, ya da metinlerin konularının belirlenmesi gibi alanlarda uygulanmaktadır. Doğal Dil İşleme, sözlü veya yazılı dili incelemek üzere, yazılım ya da donanım olarak bilgisayar sistemleri geliştirilmesi işlemini açıklayan bir terimdir. Bilgi Erişimi alanında ele alınan metinler doğal dil ile yazılmış olduğundan, Bilgi Erişimi sistemlerinin başarımını artırmak için Doğal Dil İşleme yöntemlerinden yararlanılması gerekmektedir. Metin sınıflandırma, yazılı belgelerin içeriklerine bağlı olarak belirli sınıflara atanması işlemine verilen isimdir. Metin sınıflandırma işlemine örnek olarak bir kaynaktan gelen haberlerin konularına göre ayrıştırılması işlemi verilebilir. Bu tezde, Türkçenin belirtilen özellikleri göz önüne alınarak, Türkçe bir metnin konusunun belirlenmesine yönelik algoritmalar gerçeklenen yazılımlarla birlikte tanıtılmıştır. Yapılan çalışmada, Bilgi Erişimi için gerekli olan ön çalışmalardan biri olan sözcüklerin yapım eklerinin korunarak çekim eklerinin atılması anlamına gelen gövdeleme işlemi için kullanılabilecek yöntemler karşılaştırılarak incelenmiş ve uygulanmıştır. Ön işlemlerden geçmiş olan metnin sınıflandırılması için gerekli sınıflandırma algoritmaları da incelenmiş ve uygulanmıştır.

Özet (Çeviri)

Information Retrieval (IR) is the research subject that deals with the representation, storage, organization and retrieval of information. With the increasing number of documents available online, information retrieval is becoming more needed and important. Text processing is one of the main subjects in IR. Text Classification, which is a subset of text processing, has many applications such as routing, spam e-mail detection or detecting topics of texts. Natural Language Processing (NLP) is described as developing hardware or software systems in order to analyze spoken or written natural language. In the subject of text processing, since many texts are in natural laguage, NLP is used in order to improve performance. Turkish is a agglutinative language and every word in Turkish has a root and affixes which are added to the root. Stem is used to describe a word that is derived from a root with a derivational affix. Stemming is the process of removing inflectional affixes while keeping derivational ones. In agglutinative languages like Turkish, stemming is a very important proccess that mostly affects the overall performance. Text classification is the process of assigning a document into one or more classes with respect to its content. A system that classifies news texts with respect to their topics can be considered as a text classification system. In this study, a text classification system for Turkish is explained incuding developed algorithms and software. Stemming algorithms, and text classification methods are researched, compared and implemented.

Benzer Tezler

Tez No
496472
Türkçe hedef tabanlı duygu analizi için alt görevlerin incelenmesi–hedef terim, hedef kategori ve duygu sınıfı belirleme
Inspecting sub tasks of aspect based sentiment analysis in Turkish language–opinion target expression, aspect category and sentiment polarity detection
FATİH SAMET ÇETİN
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÜLŞEN ERYİĞİT
Tez No
190302
Türkiye ile bazı Avrupa Birliği ülkelerindeki okul yöneticilerinin yetiştirilme ve atanma süreçlerinin karşılaştırılması
Başlık çevirisi yok
NADİR BOZKURT
Yüksek Lisans
Türkçe
2005
Eğitim ve Öğretim İnönü Üniversitesi
Eğitim Bilimleri Ana Bilim Dalı
PROF.DR. BATTAL ASLAN
Tez No
52181
İslam aile hukukunda velayet
Guardianship in Islamic family law
MUSTAFA KELEBEK
Yüksek Lisans
Türkçe
1996
Din Cumhuriyet Üniversitesi
Temel İslam Bilimleri Ana Bilim Dalı
DOÇ.DR. HAKKI AYDIN
Tez No
690789
Öğretmenlere yönelik çevrim içi müze eğitimi tasarımının geliştirilmesi (MTA Şehit Cuma Dağ Tabiat Tarihi Müzesi örneği)
Developing the design of online museum education for teachers (MTA Martyr Cuma Dağ Natural History Museum example)
GÜNEŞ TURGUT KESEBİR
Doktora
Türkçe
2021
Eğitim ve Öğretim Ankara Üniversitesi
Güzel Sanatlar Eğitimi Ana Bilim Dalı
PROF. DR. AYŞE ÇAKIR İLHAN
Tez No
250380
Sözleşme müzakereleri
Precontractual negotiations
PELİN IŞINTAN
Doktora
Türkçe
2009
Hukuk Galatasaray Üniversitesi
Özel Hukuk Ana Bilim Dalı
PROF. DR. ERDEN KUNTALP

Geri Dön