Applying and comparing smoothing techniques to contemporary printed Turkish
Güncel basılı Türkçe'ye düzeltme tekniklerinin uygulanması ve karşılaştırılması
- Tez No: 150849
- Danışmanlar: PROF. DR. YALÇIN ÇEBİ
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Corpus, word n-grams, smoothing, n-gram analysis algorithm, Turkish corpus, Turkish word n-grams
- Yıl: 2004
- Dil: İngilizce
- Üniversite: Dokuz Eylül Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 147
Özet
VI ÖZET Ses ve optik karakter tanıma, metin düzeltme, veri sıkıştırma, vs. için doğal bir dilin yapısal özelliklerinin belirlenmesi gereklidir. Bu özellikler, morfolojik ve istatistiksel analiz olmak üzere iki ayrı kategoride incelenebilir. İstatistiksel analiz için, doğal dili temsil eden örnek bir külliyata (corpus) ihtiyaç vardır. Bu külliyatın kelime n-gram frekansları, uygun algoritmalar kullanılarak saptanabilir ve eksik olan n-gramlar düzeltme (smoothing) teknikleriyle tahmin edilebilir. Bu çalışmada, düzeltme tekniklerini karşılaştırmak ve güncel Türkçeye uygulamak amacıyla, kelime n-gram frekanslarının araştınlabileceği TurCo isminde bir külliyat yaratılmıştır. Kelime n-gramlanmn hesaplanması için değişik algoritmalar geliştirilmiş ve denenmiştir. Monogram, digram, trigram, tetragram ve pentagram kelime listeleri bulunduktan sonra özellikleri incelenmiştir. Genelleme yapmak için Zipf Kanunu uygulanmış ve Zipf Kanunu'nun duyarlılığım arttırmak için uygun Mandelbrot sabitleri bulunmuştur. Külliyat, dilin tümünü temsil edecek kadar büyük olamayacağından, görülmeyen n-gramlarm tahmini için düzeltme teknikleri kullanılmalıdır. Düzeltme tekniklerinin incelenmesi ve karşılaştırılması sonucunda, Back-off yönteminin en uygun çözümü verebileceği öngörülmüştür. Bu yöntemin uygulanması ve sonuçların değerlendirilmesi için En Kısa Düzeltme Uzaklığı (Minimum Edit Distance) yöntemi de kullanılarak deneysel bir yazılım geliştirilmiş ve sonuçlar Microsoft Word XP ile karşılaştnılmıştır. Anahtar sözcükler : Külliyat, kelime n-gramlan, yumuşatma, n-gram analiz algoritması, Türkçe külliyat, Türkçe kelime n-gramlan
Özet (Çeviri)
V ABSTRACT For speech and optical character recognition, text correction, data encryption, etc. determination of the structural properties of a natural language is essential. These properties can be analyzed under two different categories; morphological and statistical analysis. For statistical analysis, a corpus which is a representative sample of the natural language is needed. Word n-gram frequencies of that corpus can be determined by using suitable algorithms and missing n-grams can be estimated by using smoothing techniques. In this study, in order to compare and apply smoothing techniques to contemporary Turkish, a corpus named TurCo from which word n-gram frequencies would be investigated, was created. In order to calculate word n-grams, different algorithms were developed and tested. After finding monogram, bigram, trigram, tetragram and pentagram word lists, their characteristics were analyzed. For generalization, Zipf s Law was applied, and to increase the accuracy in Zipf s Law, Mandelbrot Law was applied by finding the appropriate constants of Mandelbrot. As the corpus could not be big enough to represent all of the language, smoothing techniques were used to estimate the unseen word n-grams. After the investigation and comparison of smoothing techniques, it was assumed that Back-off technique would give the best result. To apply this technique and to evaluate the results, by using the Minimum Edit Distance method a prototype program was developed, and the results were compared with Microsoft Word XP.
Benzer Tezler
- İstatistik ve yapay zeka teknikleri ile enerji tüketiminin tahmini: Sakarya doğal gaz tüketiminin uygulaması
Demand forecasting of energy consumption with statistical and artificial intelligent techniques: Sakarya natural gas consumption application
MUSTAFA AKPINAR
Doktora
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
PROF. DR. NEJAT YUMUŞAK
- The significance and the contribution of 6+1 traits of writing to the success of the students in writing courses in English language teaching
Yazmanın 6+1 özelliğinin İngilizce öğretiminde yazılı anlatım derslerindeki öğrenci başarısına katkısı ve önemi
ÖZLEM YAZAR
Yüksek Lisans
İngilizce
2004
Eğitim ve ÖğretimGazi Üniversitesiİngiliz Dili Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. PAŞA TEVFİK CEPHE
- Implementation and comparison of different methods for the estimation of aircraft take-off weight based on ADS-B data
ADS-B verilerine dayalı uçak kalkış ağırlığı tahmini için farklı yöntemlerin uygulanması ve karşılaştırılması
KÜBRA ÇOLAK BİRGÜL
Yüksek Lisans
İngilizce
2024
Uçak Mühendisliğiİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
PROF. DR. METİN ORHAN KAYA
- Yüz veritabanı uygulaması yapılandırması ve yüz özniteliklerinde öğrenme yöntemlerinin veritabanına uygulanması
Face database application implementation and applying learning methods on face features to database
GİZEM İREM KOZAN
Yüksek Lisans
Türkçe
2014
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. TAYFUN AKGÜL
- Okul öncesi eğitim kurumlarında müzik eğitiminde kullanılan materyallerin okul öncesi öğretmenlerinin görüşlerine dayalı olarak değerlendirilmesi
An evaluation of music educational materials for music education in pre - school institutions based on pre - school teachers' vi̇ews
FATMA LEYLA HASESKİ
Yüksek Lisans
Türkçe
2015
Eğitim ve ÖğretimÇanakkale Onsekiz Mart Üniversitesiİlköğretim Ana Bilim Dalı
YRD. DOÇ. DR. FEYZA SÖNMEZÖZ