Rule-based text summarization in Turkish
Türkçe için kural tabanlı metin özetleme
- Tez No: 410518
- Danışmanlar: PROF. DR. YALÇIN ÇEBİ
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2015
- Dil: İngilizce
- Üniversite: Dokuz Eylül Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 120
Özet
Dijital çağın başlamasıyla birlikte üretilen verinin miktarı üssel olarak artmaya başlamıştır ve bu artış bilgisayarların kapasitesini zorlayacak şekilde devam etmektedir. Günümüze kadar ürettiği bilgiden daha fazlasını son iki yılda ürettiğimizi düşünürsek metin özetleme bu yüksek miktardaki günlük veri üretimini dizginleme çabası olarak görülebilir. Bir metnin ne anlattığını anlamak için o metnin açıklayıcılığından bir şey kaybetmeyecek kadar kısa ve metnin önemli bölümlerini içerecek kadar kapsamlı bir özete gereksinim vardır. Bu amacı gerçekleştirmeye çalışan birçok özetleme yazılımı anlambilimsel altyapılar, kavram dizinleri ve sözcük sıklığı listelerini kullanmaktadır. Amacımız, Türkçe için kural tabanlı bir metin özetleme yazılımı geliştirmektir. Bu çalışmada Türkçe için otomatik metin özetleyici bir yazılım ve bu yazılımda kullanılmak üzere bazı anlambilimsel ilişki sözlükleri geliştirilmiş ve daha önceden geliştirilmiş olan bir dizi doğal dil işlemleme aracı iyileştirilerek kullanılmıştır. Ayrıca, otomatik metin özetlemede yeni yöntemler kullanan yazılımlar geliştirilmiştir. Bu süreç içerisinde yan ürün olarak ortaya konan Eş ve Yakın Anlamlılar Sözlüğü ve Zıt Anlamlılar Sözlüğü'nün her ikisi de Türk Dil Kurumu tarafından onaylanmış ve internet sitesi üzerinden yayına çıkarılmıştır. Bahsedilen bu araçlar ve sözlüklerin sayesinde, hedeflenilen yazılımın geliştirilmesi tamamlanmıştır. Kural Tabanlı Otomatik Metin Özetleme Yazılımının ortalama başarı düzeyi hem nicel olarak ROUGE-N yöntemi kullanılarak, hem de nitel olarak çözümlenmiştir. Bu analiz yönteminde elde edilen verilerin, literatür çalışmasında incelediğimiz diğer çalışmalarla yakın değerler olmasının yanı sıra; kişisel olarak ortaya konan özetlerin, sistemden elde edilen özetler ile de benzerlik gösterdiği görülmüştür.
Özet (Çeviri)
The volume of data produced has exponentially increased with the digital revolution and it continues to race to the limits of the capacity of our computers and supercomputers. Automatic text summarization is one of efforts to tame the bestial product of our daily data production. In order to understand what a text is about, a summary is needed which is short enough not to compromise the understandability, and comprehensive to include the most important topics of that text. Numerous automatic text summarization software which aimed at achieving this goal use semantic relations, thesauri, and word frequency lists. Our aim is to develop a Rule Based Automatic Text Summarization Software (RB-TTS) for Turkish. In this thesis, semantic relations dictionaries are developed to be used in an automatic text summarization software for Turkish, and also a series of natural language processing tools developed before but improved in this thesis is used. In addition, new software that use new methodology in automatic text summarization are devised. During the studies carried out for this thesis, both dictionaries as byproducts; the Synonymous Dictionary and the Antonymous Dictionary were developed, each of which was approved and electronically published by Turkish Language Association (Türk Dil Kurumu, TDK). With the help of the mentioned tools and dictionaries, RB-TTS was developed. The average success rate of the RB-TTS is analysed both quantitatively using ROUGE-N metrics and qualitatively. There is shown that, results of this analysis is close to the results of other works, which are explained in literature. The similarity between the summaries of authors and our software is also shown by people who participate to analysis work.
Benzer Tezler
- Analyzing stemming and sentence simplification methodologies for turkish multi-document text summarization
Kök bulma ve cümle sadeleştirme yöntemlerinin türkçe çoklu belge özetleme üzerine etkileri
MUHAMMED YAVUZ NUZUMLALI
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. ARZUCAN ÖZGÜR TÜRKMEN
- Deep learning-based preprocessing tools for Turkish natural language processing
Türkçe doğal dil işleme için derin öğrenme tabanlı ön işleme araçları
BUSE AK
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TUNGA GÜNGÖR
- Learning logic rules from text using statistical methods for natural language processing
İstatistiksel yöntemler kullanarak doğal dil işleme amacıyla mantıksal kural öğrenmesi
MISHAL KAZMI
Doktora
İngilizce
2017
Elektrik ve Elektronik MühendisliğiSabancı ÜniversitesiElektrik Mühendisliği Ana Bilim Dalı
PROF. DR. YÜCEL SAYGIN
YRD. DOÇ. DR. PETER SCHÜLLER
- Financial named entity recognition for turkish news texts
Türkçe haber metinlerinde finansal varlık ismi tanıma
DUYGU DİNÇ
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ HİKMET DOĞRU
PROF. DR. PINAR KARAGÖZ
- Türkçe eşgönderge çözümlemesi
Turkish coreference resolution
TUĞBA PAMAY
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÜLŞEN ERYİĞİT