Geri Dön

Cross-lingual information retrieval on Turkish and English texts

Türkçe ve İngilizce metinlerde çok dilli veri erişimi

  1. Tez No: 268833
  2. Yazar: AKİF BOYNUEĞRİ
  3. Danışmanlar: DR. AYŞENUR BİRTÜRK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2010
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 83

Özet

Bu tezde Türkçe ve İngilizce metinlerde çok dilli veri erişim yaklaşımları karşılaştırılmıştır.Bunun yanında çok dilli veri erişim çalışmalarının çok önemli bir kısmını oluşturan anlambelirsizliklerinin giderilmesi metodları Türkçe kelimeler için karşılaştırılmıştır.Çok dilli veri erişimi gerçekleştirilirken, sorgu metninin hedef dile çevrilmesi ve anlamlaragöre indeksleme yaklaşımları kullanılmıştır. Sorgu metninin hedef dile çevrilmesi sırasında,otomatik ve manual olarak kelime anlamlarının tespit edilmesinin yanı sıra Google translation(çevrim) servisi kullanılmıştır. Anlam indeksleme yaklaşımında ise, dokümanlar içerdiklerikelimeler yerine kelimelerin sahip oldukları anlamlara göre indekslenmiştir. Veri erişimi iseyine kelimelere göre de?gil anlamlara göre yapılmaktadır. Anlam seviyesinde sorgu oluşturulurkenmanual ve otomatik anlam belirleme metodları kullanılmış ve karşılaştırılmıştır.ç ok dilli veri erişim yaklaşımlarının karşılaştırılmasının yanı sıra, Türkçe kelimelerde bilgitabanı dayalı anlam belirsizliklerinin giderilmesi metotları karşılaştırılmıştır. Bu çalışmadabilgi tabanı olarak, Türkçe WordNet'e ilaveten anlam zenginleştirme çalışmaları için ?IngilizceWordNet ve Türkçe Wikipedia kullanılmıştır. Kelimelerin WordNet'te bulunan anlamsalilişkileri ve TürkçeWikipedia kullanılarak, anlamlar arasındaki ilişkilerin daha açık bir şekilde ortayaçıkması sa?glanmıştır. Bunun yanında, anlamlar arasındaki ilişkilerin belirlenmesi sırasında ölçütolarak anlam tanımlarında bulunan ortak kelime sayısının yanı sıra cosine similarity ölç ütü kullanılmıştır ve her bir zengileştirme metodu için karşılaştırılmıştır.

Özet (Çeviri)

In this thesis, cross-lingual information retrieval (CLIR) approaches are comparatively evaluated forTurkish and English texts. As a complementary study, knowledge-based methods for word sense disambiguation(WSD), which is one of the most important parts of the CLIR studies, are compared for Turkish words.Query translation and sense indexing based CLIR approaches are used in this study. In query translationapproach, we use automatic and manual word sense disambiguation methods and Google translationservice during translation of queries. In sense indexing based approach, documents are indexedaccording to meanings of words instead of words themselves. Retrieval of documents is performedaccording to meanings of the query words as well. During the identification of intended meaning ofquery terms, manual and automatic word sense disambiguation methods are used and compared to each other.Knowledge based WSD methods that use different gloss enrichment techniques are comparedfor Turkish words. Turkish WordNet is used as a primary knowledge base and EnglishWordNet and Turkish Wikipedia are employed as enrichment resources. Meanings ofwords are more clearly identified by using semantic relations defined in WordNets and TurkishWikipedia. Also, during calculation of semantic relatedness of senses, cosine similaritymetric is used as an alternative metric to word overlap count. Effects of using cosine similaritymetric are observed for each WSD methods that use dierent knowledge bases.

Benzer Tezler

  1. Neural language modelling approaches for post-ocr text processing

    Optik karakter tanıma sonrası metin işleme adımı için sinirsel dil modelleri yaklaşımları

    AYŞE İREM TOPÇU

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. BEHÇET UĞUR TÖREYİN

  2. Designing a multiligual content autoring and information retrieval model

    Çoklu dilde içerik yönetimi ve bilgi bulma modeli tasarımı

    SELVİHAN NAZLI

    Yüksek Lisans

    İngilizce

    İngilizce

    2005

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    Y.DOÇ.DR. ORHAN GÖKÇÖL

  3. Keyword search for sign language

    İşaret dilinde anahtar kelime arama

    NAZİF CAN TAMER

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MURAT SARAÇLAR

  4. Using crosslingual information for keyword search in low resource languages

    Kısıtlı kaynaklı dillerde anahtar sözcük arama için diller arası bilgi kullanımı

    BOLAJI YUSUF

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik Elektronik Mühendisliği Bilim Dalı

    PROF. DR. MURAT SARAÇLAR

  5. Datasets and transformer models for cross-lingual relation classification

    Çapraz dilli ilişki sınıflandırması için dönüştürücü modelleri ve veri kümeleri

    ABDULLATİF KÖKSAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN