Güncel Türkçe metinlerde kalıplaşmış söz birliklerinin tespiti
Identification of collocation in current Turkish text
- Tez No: 304844
- Danışmanlar: PROF. DR. BAHAR KARAOĞLAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2011
- Dil: Türkçe
- Üniversite: Ege Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Uluslararası Bilgisayar Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 88
Özet
Tez çalışmasında, güncel Türkçe metinlerde geçen kalıplaşmış söz birliklerinin bir alt grubu olan ikilemelerin dilbilimsel özellikleri dikkate alınarak tespit edilmesi amaçlanmaktadır.İki sözcüğün birleşmesiyle bir anlam bütünü olan söz birliklerine“ikileme”denir. Kelime türü tespiti, bilgi çıkarsama, makine çevirisi vb. doğal dil işleme çalışmalarında ikilemeler önemli yere sahiptirler. Tez çalışmasında kural tabanlı yaklaşım uygulanarak metin içinde geçen ikilemelerin tespiti yapılmıştır. Kuralların oluşturulması için ?Deyimler ve Atasözleri? sözlüğündeki ikilemelerin özellikleri çıkarılmıştır. Bu kurallar, metinde geçen ikilemeleri bulmak amacıyla yapı ve ses benzerliklerine göre ayrılmıştır. Benzerlikler de; kelimenin türüne, uzunluğuna ve harflerin benzerlik oranlarına yani biçimsel özelliklere bakılmış ve kurallar yazılmıştır. Yazılan kurallar ?Orta Doğu Teknik? ve ?Sabancı? üniversitelerinin ortaklaşa çalışmaları sonucu geliştirmiş oldukları OSTAD derleminin gövdelenmiş ve yüzeysel formunda çalıştırılıp, yakalanan ikilemelerin duyarlılık (precision) ve anma (recall) değerleri hesaplanarak kıyaslanmıştır. Elde edilen sonuçlara göre kelime uzunluğu, sözcük türü, benzer harf sayısı ve sesli-sessiz harf benzerlik oranının ikilemelerin tespitinde önemli etkisi olduğu görülmüştür. Aynı zamanda ikilemelerin tespitinde gövdelenmiş derlem kullanımının yüzeysel forma göre daha fazla başarılı olduğu saptanmıştır.
Özet (Çeviri)
In this thesis we aim at identifying reiteratives, subgroup of collocations, in current Turkish language by taking account the linguistic characteristics. Reiteratives are formed when two words come together to make a single meaning. They have very important position in part of speech tagging, information retrieval and extraction, machine translation, natural language processing and similar studies.In this study rule based approach is used in the identification of reiteratives. The rules are formed by examining the ?Idioms and Proverbs? dictionary and classified based on vocal and structural (lentght of the words, number of similar letters, types of words, etc.) similarities of the words making up the reiteratives. These rules are run on OSTAD corpus which is a joint project of METU (Middle East Technical University) and Sabancı Universities both in stemmed and surface form. The results are then compared on the basis of precion and recall metrics. The results show that the lengths and types of words, number of similar consonants and vocals in the words are effective in the identification of the reiteratives. At the same the performance results from the stemmed corpus is higher than that of the surface form one.
Benzer Tezler
- Türk dili ve edebiyatı ders kitaplarındaki metinlerin söz varlığının incelenmesi
The examination of the lexical content in Turkish language and literature textbooks
NİYAZİ ŞİŞİK
Yüksek Lisans
Türkçe
2024
Türk Dili ve EdebiyatıAmasya ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
DOÇ. DR. KÜRŞAT EFE
- Teknolojinin algılama biçimlerine etkisi ve video sanatının alternatif arayışları
The influence of technology on ways of perception and the pursuit of the video art for an alternative
MAHMURE ALP
- Deutsche Pronominaladverbien und deren Erscheinungsformen im Türkischen - eine kontrastive Untersuchung -
Almancada adıl gibi kullanılan belirteçlerin Türkçede kullanım biçimleri - karşılaştırmalı bir çalışma -
FATMA ACAR
Yüksek Lisans
Almanca
2012
Alman Dili ve EdebiyatıGazi ÜniversitesiYabancı Diller Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. NURSEN ZEHRA BERÇİN
- Gender identification of authors of turkish text
Türkçe metinlerde yazarın cinsiyet tahmini
CEREN YAŞAR ÖNTÜRK
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HADİ HAKAN MARAŞ
- İTÜ NER - Türkçe metinlerde adlandırılmış varlık tespiti
ITU NER - named entity recognition on Turkish texts
GÖKHAN AKIN ŞEKER
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. GÜLŞEN ERYİĞİT