Compositional representations of language structures in multilingual joint-vector space
Çok dilli eklem-vektör uzayda dil yapılarının bileşim temsili
- Tez No: 522506
- Danışmanlar: DR. ÖĞR. ÜYESİ BARIŞ ARSLAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: İngilizce
- Üniversite: İstanbul Şehir Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 50
Özet
Son dönemdeki yapay sinir ağları ve derin öğrenme tekniklerinde ki gelişmelerle beraber, temsili öğrenme pek çok araştırmanın odak noktasında yer almaya başladı. Doğal dil işleme(DDÍ) alanında, temsili öğrenme tekniklerinin uygulamasında ve diğer metodlara göre DDÍ problemlerinin çözümünde ilerleme sağlamıştır. Bu alandaki ana araıstırma konularından biri, dil yapılarının ortak çok dilli uzayda birleşimsel temsillerini oluşturmaktır. Bu çalışmanın hedefi derin öğrenme ve DDÍ mede kullanılan bazıtekniklerin birleştirilerek temsillerin DDÍ uygulamalarındaki etkisini araştırmaktır. Bu amaçla 4 değişik birleşim vektör modeli üzerinde çalışılmıştır. Token yada morpheme gibi dil yapılarının temsil uzaylarının oluşturulması için ilk olarak token yada morfolojik ayrıştırma ile paralel korpus hazırlanmış sonra değişik hiyerarşik birleşim metodları ikilidil modelleri üzerinden kullanılmıştır. Íkili-dil modelleri 4 dil için hazırlanan cümle sıralı korpuslar kullanılarak eğitilmiştir. Bu sayede model, birleşimsel vectör modelini kullanarak cümle elemanlarının temsillerini oluşturmayı öğrenmektedir. Degişik birleşimsel vektör metodlarını değerlendirmek için iki test senaryosu kullanılmıştır. Ílki açımlama testidir. Bu senaryoda ikili model, birleşimsel vektör modelini kullanarak egitilir. Sonra paralel korpusdan iki dil için seçilen karşılıklı cümle çiftlerinin karşılaştır ılmaları ile performansları hesaplanır. Diğer test senaryosu ise gözetimli döküman sınıflama testidir. Bir dilden seçilen dökümanlar kullanılarak eğitilen sınıflandırıcı diğer bir dilden seçilen test dökümanları ile test edilir. Dökümanlar değişik konu başlıkları için pozitif ve negatif olarak işaretlenmiştir. Sınıflandırıcı pozitif ve negatif örnekleri ayırmayı ögrenmektedir.
Özet (Çeviri)
After the recent developments in Artificial Neural Networks and deep learning techniques, representation learning has become the focus of many research interests. In the field of Natural Language Processing, representation learning techniques have gained many implementation advances and improved different tasks compared to any other methods. One of the primary research topics in this area is to construct compositional representations of discrete language structures in multilingual joint-vector space. In this thesis study, several techniques from deep learning and NLP are combined to investigate their potential impact on NLP tasks. For this purpose, 4 different composition vector models (CVM) by using tokens and morphemes as basic language structures are studied. To construct the embedding space of language structures such as tokens and morphemes, first, a parallel corpus is prepared by segmenting into discrete objects via tokenization and morphological analysis. Several hierarchical composition methods via the bilingual method are employed to construct the embeddings of these structures. Bilingual models are trained by using sentence-aligned corpora for 4 languages. The models learn how to employ compositional vector models and construct embeddings of sentence constituents as well. Two different test scenarios are performed to evaluate different CVMs. The first one is the paraphrase test. In this case, the bilingual models using CVMs are trained with each language pair L1-L2 ( English, Turkish, German and French) parallel corpus. Then the models are tested by evaluating their performance in finding the corresponding pairs correctly from 100 randomly selected sentences from each L1-L2 pair. The other test scenario is Cross-lingual document classification. In this case, the trained models are employed by a document classifier model to evaluate their performance in classification task by first training in L1 documents and testing with L2 documents
Benzer Tezler
- Türkçe zamansal ifadelerin etiketlenmesi ve normalleştirilmesi
Başlık çevirisi yok
AYŞENUR GENÇ
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Recursive deep learning for Turkish sentiment analysis
Yinelemeli derin öğrenme teknikleri ile Türkçe duygu analizi
SULTAN ZEYBEK
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiMatematik Mühendisliği Ana Bilim Dalı
PROF. DR. AYDIN SEÇER
DR. ÖĞR. ÜYESİ EBUBEKİR KOÇ
- Mimari bir dilin biçim grameri analizi ve bilgisayar ortamında sunumu
Başlık çevirisi yok
EDA VELİBAŞOĞLU
- Kendilik sunumu olarak yenidışavurumsal otoportreler
New expressive self-portraits as self-presentation
MEHTAP SALDIRAY
Sanatta Yeterlik
Türkçe
2023
Güzel SanatlarErciyes ÜniversitesiResim Ana Sanat Dalı
PROF. DR. AYGÜL AYKUT
- A dependency grammar based semantics for copularcomparatives
Koşaçlı karşılaştırmalı cümleler için bağımsal dilbilgisitemelli bir semantik
ASİYE TUBA ŞERBETÇİ
Yüksek Lisans
İngilizce
2019
DilbilimOrta Doğu Teknik ÜniversitesiBilişsel Bilim Ana Bilim Dalı
YRD. DOÇ. DR. UMUT ÖZGE
DOÇ. DR. AZİZ FEVZİ ZAMBAK