Türkçe'den İngilizce'ye bilgisayarlı çeviri
Başlık çevirisi mevcut değil.
- Tez No: 763187
- Danışmanlar: DR. ÖĞR. ÜYESİ ADEM ÖZYAVAŞ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: İstanbul Aydın Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 42
Özet
Yapay Sinir Ağlarından Nöral Network Ağlar kullanıldı. Bu ağa Attention mekanizması uygulanarak makine çevirisi yapıldı.Çeviri kalitesini iyileştirmek için dikkat mekanizmasına sahip geleneksel kodlayıcı-kod çözücü mimarisini kullanmaktır. Paralel metin korpusunu içeren veri dosyası okunur ve veriler önceden işlenir. Kodlayıcı, kod çözücü ve dikkat mekanizması kullanılarak Nöral Makine Çevirisi oluşturulur. Model eğitilir. Sonuç ortaya çıkarılır. İki dilli metni içeren dosya önce okunur ve paralel listelere hizalanmış kaynak ve hedef cümlelerle ayrıştırılır. Sözcüklerin küçük harflerle yazılması ve sayısal verilerin kaldırılması, noktalama işaretlerinin kaldırılması vb. gibi verilerin bazı ön işlemeleri için iki sözlük oluşturulur. İlki her sözcüğü benzersiz bir tam sayıya dönüştürmek için kullanılır. İkincisi, kod çözme işleminden sonra kullanılan karşılık gelen kelimelere dönüştürmek için kullanılır. Kodlayıcı, kod çözücü ve dikkat yapıları geleneksel yaklaşım izlenerek oluşturulur. Model, metin dosyasından elde edilen dönüştürülmüş verilerle eğitilir. GPU'daki RAM sınırlamaları nedeniyle, batch boyutu 16'dır. Hem kodlayıcı hem de kod çözücü yapıları için LSTM kullanıldı. Çeviri aşaması için, test için görünmeyen veriler (eğitim sırasında görülen verilerden rastgele seçilen birkaç tanesi hariç) kullanılır. Yapılan araştırmalara göre Türkçeden İngilizceye makine çevirisi çok fazla çalışılmamıştır. Özellikle BLEU puanları veya başka herhangi bir metrik ile çeviri sonuçlarını gösteren araştırmalar literatürde yoktur. Bu nedenle Türkçe-İngilizce diline dikkat mekanizmalı bir kodlayıcı-kod çözücü mimarisi uygulamak yeterli bulundu. Önerilen model yeni bir model değildir. Aksine iyi bilinen bir modeldir. Bu çalışma, üzerinde fazla çalışılmamış bir dil çiftine yapılan uygulamanın sonuçlarını görmek amacıyla hazırlanmıştır. Sonuçlar, sınırlı veriye sahip Nöral Makine Çevirisi'nin kabul edilebilir bir ölçüde başarıya ulaştığını göstermektedir. Eğitim verilerinde daha sık bulunan örüntü çiftleri, önerilen Nöral Makine Çevirisi modelinin daha iyi performans göstermesine yardımcı oldu. Nöral Makine Çevirisi modeli, Nvidia GPU ile Python ve Tensorflow kullanılarak uygulandı.
Özet (Çeviri)
The following is the pseudo-code of the algoriithm used for the Turkish-English translation. A more detailed description of the main steps follow the pseudo code. 1.Read data file that contains the parallel corpus of text and preprocess the data 2.Create the NMT model using encoder, attention and decoder 3.Train the model 4.Make inferences The file that contains the bilingual text is read first and parsed with the source and target sentences aligned into the parallel lists.. Some preprocessing of the data follows such as lowercasing the words and removing numerical data, removing punctuation marks, etc… Two dictionaries are created, the first one for converting every word into a unique integer and the second from integers to their corresponding words used after the decoding process. As neural networks require their data to be in number form and the same length padding is used to convert all sentences to the same length integer values. Then a more dense representation of sentences are applied as a distributional representation of them. This is the last main step before supplying the data into the encoder. Encoder, decoder and the attention structures are created following the traditional approach. For those interested in how this architecture works can refer to. The model is trained with the converted data obtained from the text file. Because of the RAM limitations on the GPU, a batch size of 16 is utilized. Both the encoder and decoder structures used LSTM. For the translation step, unseen data (except for a couple of randomly chosen ones from the seen data during training) are utilized for testing. To the authors' knowledge, machine translation from Turkish to English is not studied much. Especially research showing translation results with BLEU scores or any other metric did not exist in the literatur. Therefore, applying an encoder-decoder architecture with the attention mechanism for Turkhs-English language was enough of motivation. The proposed model is not a new one. On the contrary it is a well known model. This work is intended to see the results of the application to a language pair that is not studied much. The results show that NMT with limited data achieved success to an acceptable extent. As mentioned above, the pattern pairs that more frequently exist in the training data helped the proposed NMT model to perform better. The NMT model is implemented using Python and Tensorflow with a Nvidia GPU.
Benzer Tezler
- A prototype English-Turkish statistical machine translation system
İngilizce-Türkçe istatistiksel bilgisayarlı çeviri sistemi prototipi
İLKNUR DURGAR EL-KAHLOUT
Doktora
İngilizce
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. KEMAL OFLAZER
- İngilizce'den Türkçe'ye istatistiksel bilgisayarlı çeviri sistemlerinde alan uyarlaması ile başarının artırılması
Evaluation of domain adaptation approaches on English-to-Turkish statistical machine translation systems
EZGİ YILDIRIM
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- İngilizceden Türkçeye istatiksel bilgisayarlı çeviri sistemlerinde paralel derlem boyutu ve kalitesinin etkileri
The effect of parallel corpus quality vs size in English to-Turkish statistical machine translation
ERAY YILDIZ
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BANU DİRİ
YRD. DOÇ. DR. AHMET CÜNEYD TANTUĞ
- A hybrid machine translation system from Turkish to English
Türkçe'den İngilizce'ye melez bir bilgisayarla çeviri sistemi
FERHAN TÜRE
Yüksek Lisans
İngilizce
2008
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiBilgisayar Mühendisliği Bölümü
PROF. DR. KEMAL OFLAZER
- Bilgisayar çevirisi kalitesinin değerlendirmesi yöntemlerinde tutarlılık
Consistency in the evaluation methods of machine translation quality
ÖZDEN ŞAHİN
Yüksek Lisans
İngilizce
2015
Mütercim-TercümanlıkHacettepe ÜniversitesiMütercim Tercümanlık Ana Bilim Dalı
PROF. DR. AYMİL DOĞAN