Türkçede morfolojik analiz yapan bir sistemin morfolojik türetme için kullanılması
Using a turkish morphological analyzer for word generation
- Tez No: 444608
- Danışmanlar: YRD. DOÇ. DR. BURCU CAN BUĞLALILAR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: Türkçe
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 80
Özet
Makine çevirisi, soru-yanıt sistemleri gibi doğal dil işleme uygulamalarında sözdizim ve anlama göre sözcük formlarının morfolojik olarak türetilmesine ihtiyaç duyulur. Türkçe, zengin ve üretken bir morfolojiye sahiptir. Bir Türkçe sözcük binlerce farklı sözcük formuna sahip olabilmektedir. Bu özellikleriyle Türkçe, morfolojik üretme gibi doğal dil işleme çalışmalarında zorlu ve ilgi çekici bir dil olmuştur. Bu çalışmada, Türkçe sözcükleri denetimsiz olarak türetebilen bir model önerilmiştir. Çalışmada Türkçede denetimli morfolojik analiz yapan bir sistem ile sözcükler morfemlerine ayrıştırılmıştır. Sonlu durum özdevinirleri (FSA), Türkçenin sözdizimsel özelliklerini ele alabilmek için kullanılmıştır. Çalışmada sözcük kökleri sözdizimsel özelliklerine göre (isim, fiil vb.) kategorilerine ayrılmıştır. Benzer olarak ekler de alomorfik özelliklerine göre kategorilendirilmiştir. Her bir kök kategorisi için bir FSA oluşturulmuştur. Bu FSA'ların başlangıç durumları bir kök kategorisine karşılık gelirken, takip eden durumlar ise bir ek kategorisine karşılık gelmektedir. FSA'lar kullanılarak Türkçe sözcükler türetilmiştir. Buna ek olarak Türkçenin yazımsal özellikleri denetimsiz olarak keşfedilmiş ve sözcük türetme için kullanılmıştır. Yaklaşık 3000 biricik sözcük kökünden, 1 milyon civarı sözcük türetilmiştir. Geliştirdiğimiz bu model, %82.36 doğruluk oranıyla sözcük formu türetebilmektedir. Bu çalışmada önerilen model, Fince ve Macarca gibi diğer sondan eklemeli ve zengin morfolojiye sahip diller için de uygulanabilir.
Özet (Çeviri)
Generating word forms accordingly with the syntax and semantics is needed by natural language processing applications such as machine translation and question answering. Turkish morphology is rich and productive. A Turkish word can have thousands of different word forms. With these features, Turkish is a challenging and attractive language for natural language processing tasks such as morphological generation. In this study, a model that generates Turkish words in an unsupervised way is presented. In the study, a supervised Turkish morphological analyzer is used for splitting words into morphemes. We used finite state automatas (FSA) to deal with morphosyntactic features. In the study, stems are categorized based on their syntactic features (i.e. noun, verb, etc.). Similarly, suffixes are categorized based on their allomorphic features. An FSA is built for each stem category. Start states of these FSAs correspond a stem category whereas following states correspond a suffix category. Turkish words are generated by using these FSAs. Additionally, Turkish ortographic features are extracted with an unsupervised approach and these features are used for generating words. From approximately 3000 unique stems, around 1 million words are generated. The model that we developed can generate word forms with an accuracy of %82.36. The model proposed in this study, can be applied to other agglutinative languages, such as Hungarian and Finnish that are also morphologically rich.
Benzer Tezler
- Лингво-стилистические особенности ложныхдрузей переводчика
Tuzak kelimelerin çevirisinde dilbilimsel ve üslupbilimselözellikler
ŞUHEDA RENGİN ÖZTÜRK
Yüksek Lisans
Rusça
2024
Mütercim-TercümanlıkKırgızistan-Türkiye Manas ÜniversitesiMütercim Tercümanlık Ana Bilim Dalı
DOÇ. DR. SALTANAT MAMBAYEVA
- Sumerce'de ekler ve Türkçe'ye yansımaları
Affixes in Sumerian and their reflection on Turkish
OĞUZHAN ABACI
Doktora
Türkçe
2023
Eski Çağ Dilleri ve KültürleriNevşehir Hacı Bektaş Veli ÜniversitesiTarih Ana Bilim Dalı
PROF. DR. LÜTFİ GÜRKAN GÖKÇEK
- Türkçe morfolojik analiz için yeni bir yöntem
A new method for turkish morphological analysis
MUHAMED FATİH EKİN
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMaltepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MEHMET ALİ AKSOY TÜYSÜZ
- Deep learning-based preprocessing tools for Turkish natural language processing
Türkçe doğal dil işleme için derin öğrenme tabanlı ön işleme araçları
BUSE AK
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. TUNGA GÜNGÖR
- Makine öğrenmesi tekniklerini kullanarak türkçe metinlerden düşünce çıkarımı ve duygu belirleme
Opinion extraction and sentiment detection for turkish documents using machine learning techniques
MİNE MERCAN
Doktora
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET SERTBAŞ