İngilizce bilgi erişimi veri kümelerinde Latin dışı alfabelerle yazılmış içeriğin analizi

Analysis of non-Latin content on the English information retrieval datasets

PDF İndir

Tez No: 587686
Yazar: AHMET ALKILINÇ
Danışmanlar: DR. ÖĞR. ÜYESİ AHMET ARSLAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2019
Dil: Türkçe
Üniversite: Eskişehir Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 59

Özet

Yüzyıllardır insanlar arşivleme ve bilgi bulmanın öneminin farkında olmuşlardır. Bilgisayarların gelişiyle birlikte, büyük miktarda bilgiyi depolamak mümkün olmuştur ve bu tür koleksiyonlardan yararlı bilgiler bulmak bir gereklilik haline gelmiştir. Bilgi erişimi alanı 1950'lerde bu gereklilikten doğmuştur. Bilgi erişimi kullanıcıların ihtiyaç duydukları bilgi ile ilgili kaynakları büyük koleksiyonlardan bulma işlemidir. Bilgi erişim sistemlerinin başarısı bulunan dokümanların ne kadarının kullanıcının aradığı bilgi ile ilgili olmasıyla doğru orantılıdır. Bilgi erişim sistemlerinin başarımını ölçmek, performansları karşılaştırmak için yıllık olarak Text Retrieval Conference düzenlenmektedir. Bu organizasyon tarafından standart veri setleri oluşturulup yayınlanmaktadır. Bu çalışmada İnternet'ten toplanan ve İngilizce Web sayfalarından oluşan ClueWeb09, ClueWeb12 ve Gov2 veri setleri kullanılmıştır. Her ne kadar bu Web sayfalarındaki kelimelerin çoğu Latin alfabesiyle yazılmış olsa da veri setleri ayrıca Latin dışı alfabelerde (Japon, Kiril, Yunan, Arap, vb.) yazılmış kelimeleri de içermektedir. Ayrıca, bu veri kümeleriyle ilişkilendirilmiş olan sorgu kümeleri, tamamen Latin alfabesinde yazılmış sözcüklerden oluşmaktadır. Bu kapsamda, bu tezin amacı, Latin dışı alfabelerle yazılmış kelimelerin İngilizce veri setleri üzerindeki dağılımı incelemek ve Latin dışı kelimelerin indekse dahil etmenin veya hariç tutmanın bilgi erişim başarımı üzerindeki etkisini araştırmaktır.

Özet (Çeviri)

For centuries people have been aware of the importance of archiving and finding information. With the advent of computers, it is possible to store large amounts of information and finding useful information from such collections became a necessity. The field of Information Retrieval emerged from this requirement in the 1950s. Information retrieval is the process of finding resources that are relevant to an information the users need from large collections. The success of information retrieval systems is directly proportional to the fact that the documents found are related to the information the user is looking for. The Text Retrieval Conference is organized annually to measure the success of information retrieval systems and to compare their performances. Standard data sets are created and published by this organization. In this study ClueWeb09, ClueWeb12 and Gov2 data sets, which consist of English web pages collected from the Internet, are used. Although the majority of the words in these web pages are written in the Latin alphabet, datasets also include words written in non-Latin alphabets (Japanese, Cyrillic, Greek, Arabic, etc). Moreover, the query sets associated with these datasets consist of words written entirely in Latin alphabet. In this context, the objective of this thesis is to examine the distribution of words written in non-Latin alphabets on English data sets and to investigate the effect of including or excluding non-Latin words in index on information retrieval effectiveness.

Benzer Tezler

Tez No
671607
Evolutionary mechanisms of imprinting in business clusters
İş kümelerinde örgütsel damgalamanın evrimsel mekanizmaları
EMRE EKŞİ
Doktora
İngilizce
2021
İşletme İstanbul Teknik Üniversitesi
İşletme Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET ERÇEK
Tez No
740823
Neural language modelling approaches for post-ocr text processing
Optik karakter tanıma sonrası metin işleme adımı için sinirsel dil modelleri yaklaşımları
AYŞE İREM TOPÇU
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
Tez No
765594
Novel data partitioning and scheduling schemes for dynamic federated vehicular cloud
Dinamik federe araç bulutu için yeni bir görev yükü paylaşımı ve iş planlaması şemaları
WISEBORN MANFE DANQUAH
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. DENİZ TURGAY ALTILAR
Tez No
385111
Fusion of multimodal information for multimedia information retrieval
Çoğulortam bilgi erişimi için çok kipli bilginin birleştirilmesi
TURGAY YILMAZ
Doktora
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Bölümü
PROF. DR. ADNAN YAZICI
Tez No
652347
Keyword search for sign language
İşaret dilinde anahtar kelime arama
NAZİF CAN TAMER
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. MURAT SARAÇLAR

Geri Dön