Eski harfli osmanlı Türkçesi metinlerin doğal dil işleme teknikleriyle latin esaslı Türkçeye aktarılması
Transferring old-letter ottoman Turkish scripts to latin-based turkish using natural language processing techniques
- Tez No: 940756
- Danışmanlar: DOÇ. DR. MURAT KÖKLÜ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Selçuk Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 86
Özet
Türkiye Cumhuriyeti tarihi çizgi olarak Osmanlı Devleti'nin devamı niteliğindedir. Bu nedenle Türkiye Türkçesi Osmanlı Türkçesinden miras almaktadır. Osmanlı Devleti dünya ve Türk tarihine olan siyasi etkisi kadar sosyal ve kültürel etkisi ile de önemli bir yere sahiptir. Hakim olduğu coğrafyanın bugün birçok devlete ev sahipliği yapıyor olması hasebiyle birçok alanda yapılması gereken araştırmaları önemli hem milli tarih açısından hem de uluslararası araştırmalar açısından önemli kılmaktadır. Arapça ve Farsça başta olmak üzere batı dillerinden birtakım kavramları uhdesinde mecz eden Osmanlı Türkçesi evvela tarih araştırmalarında olmak üzere pek çok alanda bilinmesi gerekmektedir. Arap alfabesinin kullanılması ve bu alfabeye bazı eklemeler ile oluşturulmuş olması bugün araştırmacılar arasında bu alfabenin ve Osmanlı Türkçesinin öğrenilmesini elzem hale getirmiştir. Türkiye Cumhuriyeti Cumhurbaşkanlığı Devlet Arşivleri'nde bulunan on milyonlarca vesikanın hala daha yapılan araştırmalarda kullanılamamış olması insan gücünün yanı sıra gelişen teknolojik yöntemlerinde kullanılması gerekliliğini ortaya çıkarmıştır. Bu doğrultuda, Osmanlı Türkçesinin dijital ortama aktarılması ve anlamlandırılmasına yönelik teknik bir çözüm önerisi geliştirilmiştir. Bu projelerin temelinde, veri kaynağı olarak Osmanlıca-Türkçe metinler içeren kitaplardan yararlanılmıştır. Metinlerin dijitalleştirilmesi sürecinde, netlik ve detayların korunması amacıyla 300 DPI çözünürlükte taramalar gerçekleştirilmiş ve yaklaşık 800 sayfadan oluşan bir veri seti oluşturulmuştur. Bu veriler, bulundukları sayfa ve dil yapısına göre sınıflandırılarak kısa, orta ve uzun metin örnekleri hazırlanmış, toplamda 1250 cümlelik bir yapı oluşturulmuştur. Veri seti; %70 eğitim, %15 doğrulama ve %15 test olmak üzere üçe ayrılmıştır. Sistem, Tesseract OCR 5.0 altyapısı üzerine inşa edilmiş ve LSTM, CNN, RNN, Seq2Seq ve Word2Vec gibi derin öğrenme modelleriyle desteklenmiştir. Python ve ASP.NET Core projelerinin entegre biçimde çalıştığı mimari hem metin tanıma hem de çeviri aşamalarında özelleştirilmiş algoritmalar barındırmaktadır. Uygulanan testler sonucunda sistemin 4-gram BLEU skoru 0,8381; ROUGE-1 F1 skoru 0,8674; ROUGE-L F1 skoru 0,8352; TER ortalaması 0,2516; WER 0,2489 ve CER 0,1762 olarak ölçülmüştür. Bu değerler, sistemin çevirilerde hem karakter hem kelime hem de cümle yapısı düzeyinde yüksek başarı sağladığını göstermektedir. Ayrıca, TER metriğine göre %88,24; WER metriğine göre %88,40 ve CER metriğine göre %95,04 oranında çeviri, kabul edilebilir düzeyde değerlendirilmiştir. Özellikle kısa ve orta uzunluktaki cümlelerde daha yüksek başarı gözlemlenirken uzun ve dilbilgisel olarak karmaşık yapılar sistem performansını nispeten zorlamıştır. ROUGE-L F1 skorunun yüksekliği, sistemin cümle bütünlüğünü büyük ölçüde koruyabildiğini göstermektedir. Bu güçlü yapı sayesinde bu tez, eski Osmanlı belgelerinin modern Türkçeye aktarımında derin öğrenme tabanlı NLP tekniklerinin etkinliğini ortaya koymakta ve benzeri tarihsel dil dönüşümleri için akademik ve uygulamalı bir çerçeve sunmaktadır.
Özet (Çeviri)
The history of the Republic of Turkey is essentially a continuation of the Ottoman Empire. Therefore, modern Turkish inherits many elements from Ottoman Turkish. The Ottoman Empire holds an important place not only for its political impact on world and Turkish history but also for its social and cultural influence. As many of the regions it once governed are now home to various modern states, research in this field is significant both from the perspective of national history and international studies. Ottoman Turkish, which blended concepts primarily from Arabic and Persian as well as from Western languages, needs to be understood—especially in historical studies but also in many other areas. The use of the Arabic script, along with modifications specific to Ottoman Turkish, has made learning this script and the language itself essential for researchers today. The fact that tens of millions of documents in the Presidential State Archives of the Republic of Turkey have yet to be fully utilized in academic research highlights the necessity of not only human resources but also advanced technological methods. Accordingly, a technical solution has been developed to digitize and interpret Ottoman Turkish.The foundation of these projects lies in Ottoman-Turkish to modern Turkish texts sourced from books. During the digitization process, pages were scanned at 300 DPI to preserve clarity and detail, resulting in a dataset of approximately 800 pages. The data was categorized based on page structure and linguistic features into short, medium, and long sentence samples, creating a total of 1,250 sentences. The dataset was split into 70% training, 15% validation, and 15% test subsets. The system was built on Tesseract OCR 5.0 and supported by deep learning models such as LSTM, CNN, RNN, Seq2Seq, and Word2Vec. The architecture, which integrates Python and ASP.NET Core projects, includes customized algorithms for both text recognition and translation processes. As a result of testing, the system achieved a 4-gram BLEU score of 0.8381, ROUGE-1 F1 score of 0.8674, ROUGE-L F1 score of 0.8352, an average TER of 0.2516, WER of 0.2489, and CER of 0.1762. These values demonstrate the system's high performance at the character, word, and sentence structure levels. Moreover, translations were rated acceptable at 88.24% by TER, 88.40% by WER, and 95.04% by CER. Higher accuracy was observed in short and medium-length sentences, while longer and syntactically complex structures slightly challenged system performance. The high ROUGE-L F1 score indicates the system's strong ability to preserve sentence integrity. With this robust design, this thesis demonstrates the effectiveness of deep learning-based NLP techniques in translating Ottoman documents into modern Turkish and offers both an academic and practical framework for similar historical language transformations.
Benzer Tezler
- Meninski'nin Thesaurus Linguarum Orientalium Turcicæ, Arabicæ, Persicæ (Doğu Dilleri Türkçe-Arapça-Farsçanın Hazinesi) adlı eserindeki vulgarize (halklılaşmış) kelimelerin fonetik açıdan incelenmesi
Phonetical analysing of vulgarized words in Meninski's book of Thesaurus Linguarum Orientalium Turcicæ, Arabicæ, Persicæ (Treasure of Oriental Languages Turkish - Arabic - Persian)
SİNEM CEYDA BAYSAL
Doktora
Türkçe
2021
Türk Dili ve Edebiyatıİstanbul ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. HATİCE TÖREN
- Menāķıb-ı Şeyħ İlāĥį (Giriş-inceleme-metin-dizin)
Menāķıb-ı Şeyħ İlāĥį (Introduction-review-text-index)
FATMA MEYRA HELVACI
Yüksek Lisans
Türkçe
2024
Türk Dili ve EdebiyatıErzincan Binali Yıldırım ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EBRU SİLAHŞOR ÖZTÜRK
- Firdevsî-i Rûmî'nin Süleymân-Nâme-i Kebîr'i 31. cilt inceleme-metin-dizin
Firdevsi-i Rumi's Süleyman-Name-i Kebir 31. skin review-text-index
MERYEM ÖZKARAKOÇ
Yüksek Lisans
Türkçe
2024
Türk Dili ve EdebiyatıOndokuz Mayıs ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
DOÇ. DR. SALİH DEMİRBİLEK
- Tarihsel arka planı ile Türkiye Türkçesinde çatı
Başlık çevirisi yok
MEHMET FATİH KIRMALI
Doktora
Türkçe
2024
Türk Dili ve EdebiyatıSivas Cumhuriyet ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. HACI İBRAHİM DELİCE
- Abd el-Vahhâb b. Cemâl ed-dîn Yûsuf b. Ahmed Elmedâ'î Kanunçe Fi't-Tıbb (Giriş-inceleme-çeviri yazılı metin-dizin)
Kanunce Fi't-Tıbb Abd el-Vahhâb b. Cemaled-dîn Yûsuf b. Ahmed al-Medâi (Introduction-review-translation written text-index)
NESRİN ARI
Doktora
Türkçe
2022
DilbilimSivas Cumhuriyet ÜniversitesiTürk Dili ve Edebiyatı Ana Bilim Dalı
PROF. DR. RECEP TOPARLI