Geri Dön

Compositional representations of language structures in multilingual joint-vector space

Çok dilli eklem-vektör uzayda dil yapılarının bileşim temsili

  1. Tez No: 522506
  2. Yazar: ŞABAN DALAMAN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ BARIŞ ARSLAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: İstanbul Şehir Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 50

Özet

Son dönemdeki yapay sinir ağları ve derin öğrenme tekniklerinde ki gelişmelerle beraber, temsili öğrenme pek çok araştırmanın odak noktasında yer almaya başladı. Doğal dil işleme(DDÍ) alanında, temsili öğrenme tekniklerinin uygulamasında ve diğer metodlara göre DDÍ problemlerinin çözümünde ilerleme sağlamıştır. Bu alandaki ana araıstırma konularından biri, dil yapılarının ortak çok dilli uzayda birleşimsel temsillerini oluşturmaktır. Bu çalışmanın hedefi derin öğrenme ve DDÍ mede kullanılan bazıtekniklerin birleştirilerek temsillerin DDÍ uygulamalarındaki etkisini araştırmaktır. Bu amaçla 4 değişik birleşim vektör modeli üzerinde çalışılmıştır. Token yada morpheme gibi dil yapılarının temsil uzaylarının oluşturulması için ilk olarak token yada morfolojik ayrıştırma ile paralel korpus hazırlanmış sonra değişik hiyerarşik birleşim metodları ikilidil modelleri üzerinden kullanılmıştır. Íkili-dil modelleri 4 dil için hazırlanan cümle sıralı korpuslar kullanılarak eğitilmiştir. Bu sayede model, birleşimsel vectör modelini kullanarak cümle elemanlarının temsillerini oluşturmayı öğrenmektedir. Degişik birleşimsel vektör metodlarını değerlendirmek için iki test senaryosu kullanılmıştır. Ílki açımlama testidir. Bu senaryoda ikili model, birleşimsel vektör modelini kullanarak egitilir. Sonra paralel korpusdan iki dil için seçilen karşılıklı cümle çiftlerinin karşılaştır ılmaları ile performansları hesaplanır. Diğer test senaryosu ise gözetimli döküman sınıflama testidir. Bir dilden seçilen dökümanlar kullanılarak eğitilen sınıflandırıcı diğer bir dilden seçilen test dökümanları ile test edilir. Dökümanlar değişik konu başlıkları için pozitif ve negatif olarak işaretlenmiştir. Sınıflandırıcı pozitif ve negatif örnekleri ayırmayı ögrenmektedir.

Özet (Çeviri)

After the recent developments in Artificial Neural Networks and deep learning techniques, representation learning has become the focus of many research interests. In the field of Natural Language Processing, representation learning techniques have gained many implementation advances and improved different tasks compared to any other methods. One of the primary research topics in this area is to construct compositional representations of discrete language structures in multilingual joint-vector space. In this thesis study, several techniques from deep learning and NLP are combined to investigate their potential impact on NLP tasks. For this purpose, 4 different composition vector models (CVM) by using tokens and morphemes as basic language structures are studied. To construct the embedding space of language structures such as tokens and morphemes, first, a parallel corpus is prepared by segmenting into discrete objects via tokenization and morphological analysis. Several hierarchical composition methods via the bilingual method are employed to construct the embeddings of these structures. Bilingual models are trained by using sentence-aligned corpora for 4 languages. The models learn how to employ compositional vector models and construct embeddings of sentence constituents as well. Two different test scenarios are performed to evaluate different CVMs. The first one is the paraphrase test. In this case, the bilingual models using CVMs are trained with each language pair L1-L2 ( English, Turkish, German and French) parallel corpus. Then the models are tested by evaluating their performance in finding the corresponding pairs correctly from 100 randomly selected sentences from each L1-L2 pair. The other test scenario is Cross-lingual document classification. In this case, the trained models are employed by a document classifier model to evaluate their performance in classification task by first training in L1 documents and testing with L2 documents

Benzer Tezler

  1. Türkçe zamansal ifadelerin etiketlenmesi ve normalleştirilmesi

    Başlık çevirisi yok

    AYŞENUR GENÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  2. Recursive deep learning for Turkish sentiment analysis

    Yinelemeli derin öğrenme teknikleri ile Türkçe duygu analizi

    SULTAN ZEYBEK

    Doktora

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    PROF. DR. AYDIN SEÇER

    DR. ÖĞR. ÜYESİ EBUBEKİR KOÇ

  3. Mimari bir dilin biçim grameri analizi ve bilgisayar ortamında sunumu

    Başlık çevirisi yok

    EDA VELİBAŞOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    1995

    Mimarlıkİstanbul Teknik Üniversitesi

    DOÇ.DR. GÜLEN ÇAĞDAŞ

  4. Kendilik sunumu olarak yenidışavurumsal otoportreler

    New expressive self-portraits as self-presentation

    MEHTAP SALDIRAY

    Sanatta Yeterlik

    Türkçe

    Türkçe

    2023

    Güzel SanatlarErciyes Üniversitesi

    Resim Ana Sanat Dalı

    PROF. DR. AYGÜL AYKUT

  5. A dependency grammar based semantics for copularcomparatives

    Koşaçlı karşılaştırmalı cümleler için bağımsal dilbilgisitemelli bir semantik

    ASİYE TUBA ŞERBETÇİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    DilbilimOrta Doğu Teknik Üniversitesi

    Bilişsel Bilim Ana Bilim Dalı

    YRD. DOÇ. DR. UMUT ÖZGE

    DOÇ. DR. AZİZ FEVZİ ZAMBAK