Cross-lingual information retrieval on Turkish and English texts
Türkçe ve İngilizce metinlerde çok dilli veri erişimi
- Tez No: 268833
- Danışmanlar: DR. AYŞENUR BİRTÜRK
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2010
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 83
Özet
Bu tezde Türkçe ve İngilizce metinlerde çok dilli veri erişim yaklaşımları karşılaştırılmıştır.Bunun yanında çok dilli veri erişim çalışmalarının çok önemli bir kısmını oluşturan anlambelirsizliklerinin giderilmesi metodları Türkçe kelimeler için karşılaştırılmıştır.Çok dilli veri erişimi gerçekleştirilirken, sorgu metninin hedef dile çevrilmesi ve anlamlaragöre indeksleme yaklaşımları kullanılmıştır. Sorgu metninin hedef dile çevrilmesi sırasında,otomatik ve manual olarak kelime anlamlarının tespit edilmesinin yanı sıra Google translation(çevrim) servisi kullanılmıştır. Anlam indeksleme yaklaşımında ise, dokümanlar içerdiklerikelimeler yerine kelimelerin sahip oldukları anlamlara göre indekslenmiştir. Veri erişimi iseyine kelimelere göre de?gil anlamlara göre yapılmaktadır. Anlam seviyesinde sorgu oluşturulurkenmanual ve otomatik anlam belirleme metodları kullanılmış ve karşılaştırılmıştır.ç ok dilli veri erişim yaklaşımlarının karşılaştırılmasının yanı sıra, Türkçe kelimelerde bilgitabanı dayalı anlam belirsizliklerinin giderilmesi metotları karşılaştırılmıştır. Bu çalışmadabilgi tabanı olarak, Türkçe WordNet'e ilaveten anlam zenginleştirme çalışmaları için ?IngilizceWordNet ve Türkçe Wikipedia kullanılmıştır. Kelimelerin WordNet'te bulunan anlamsalilişkileri ve TürkçeWikipedia kullanılarak, anlamlar arasındaki ilişkilerin daha açık bir şekilde ortayaçıkması sa?glanmıştır. Bunun yanında, anlamlar arasındaki ilişkilerin belirlenmesi sırasında ölçütolarak anlam tanımlarında bulunan ortak kelime sayısının yanı sıra cosine similarity ölç ütü kullanılmıştır ve her bir zengileştirme metodu için karşılaştırılmıştır.
Özet (Çeviri)
In this thesis, cross-lingual information retrieval (CLIR) approaches are comparatively evaluated forTurkish and English texts. As a complementary study, knowledge-based methods for word sense disambiguation(WSD), which is one of the most important parts of the CLIR studies, are compared for Turkish words.Query translation and sense indexing based CLIR approaches are used in this study. In query translationapproach, we use automatic and manual word sense disambiguation methods and Google translationservice during translation of queries. In sense indexing based approach, documents are indexedaccording to meanings of words instead of words themselves. Retrieval of documents is performedaccording to meanings of the query words as well. During the identification of intended meaning ofquery terms, manual and automatic word sense disambiguation methods are used and compared to each other.Knowledge based WSD methods that use different gloss enrichment techniques are comparedfor Turkish words. Turkish WordNet is used as a primary knowledge base and EnglishWordNet and Turkish Wikipedia are employed as enrichment resources. Meanings ofwords are more clearly identified by using semantic relations defined in WordNets and TurkishWikipedia. Also, during calculation of semantic relatedness of senses, cosine similaritymetric is used as an alternative metric to word overlap count. Effects of using cosine similaritymetric are observed for each WSD methods that use dierent knowledge bases.
Benzer Tezler
- Neural language modelling approaches for post-ocr text processing
Optik karakter tanıma sonrası metin işleme adımı için sinirsel dil modelleri yaklaşımları
AYŞE İREM TOPÇU
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
- Designing a multiligual content autoring and information retrieval model
Çoklu dilde içerik yönetimi ve bilgi bulma modeli tasarımı
SELVİHAN NAZLI
Yüksek Lisans
İngilizce
2005
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. ORHAN GÖKÇÖL
- Keyword search for sign language
İşaret dilinde anahtar kelime arama
NAZİF CAN TAMER
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. MURAT SARAÇLAR
- Using crosslingual information for keyword search in low resource languages
Kısıtlı kaynaklı dillerde anahtar sözcük arama için diller arası bilgi kullanımı
BOLAJI YUSUF
Yüksek Lisans
İngilizce
2018
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik Elektronik Mühendisliği Bilim Dalı
PROF. DR. MURAT SARAÇLAR
- Datasets and transformer models for cross-lingual relation classification
Çapraz dilli ilişki sınıflandırması için dönüştürücü modelleri ve veri kümeleri
ABDULLATİF KÖKSAL
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN