İngilizce bilgi erişimi veri kümelerinde Latin dışı alfabelerle yazılmış içeriğin analizi
Analysis of non-Latin content on the English information retrieval datasets
- Tez No: 587686
- Danışmanlar: DR. ÖĞR. ÜYESİ AHMET ARSLAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: Türkçe
- Üniversite: Eskişehir Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 59
Özet
Yüzyıllardır insanlar arşivleme ve bilgi bulmanın öneminin farkında olmuşlardır. Bilgisayarların gelişiyle birlikte, büyük miktarda bilgiyi depolamak mümkün olmuştur ve bu tür koleksiyonlardan yararlı bilgiler bulmak bir gereklilik haline gelmiştir. Bilgi erişimi alanı 1950'lerde bu gereklilikten doğmuştur. Bilgi erişimi kullanıcıların ihtiyaç duydukları bilgi ile ilgili kaynakları büyük koleksiyonlardan bulma işlemidir. Bilgi erişim sistemlerinin başarısı bulunan dokümanların ne kadarının kullanıcının aradığı bilgi ile ilgili olmasıyla doğru orantılıdır. Bilgi erişim sistemlerinin başarımını ölçmek, performansları karşılaştırmak için yıllık olarak Text Retrieval Conference düzenlenmektedir. Bu organizasyon tarafından standart veri setleri oluşturulup yayınlanmaktadır. Bu çalışmada İnternet'ten toplanan ve İngilizce Web sayfalarından oluşan ClueWeb09, ClueWeb12 ve Gov2 veri setleri kullanılmıştır. Her ne kadar bu Web sayfalarındaki kelimelerin çoğu Latin alfabesiyle yazılmış olsa da veri setleri ayrıca Latin dışı alfabelerde (Japon, Kiril, Yunan, Arap, vb.) yazılmış kelimeleri de içermektedir. Ayrıca, bu veri kümeleriyle ilişkilendirilmiş olan sorgu kümeleri, tamamen Latin alfabesinde yazılmış sözcüklerden oluşmaktadır. Bu kapsamda, bu tezin amacı, Latin dışı alfabelerle yazılmış kelimelerin İngilizce veri setleri üzerindeki dağılımı incelemek ve Latin dışı kelimelerin indekse dahil etmenin veya hariç tutmanın bilgi erişim başarımı üzerindeki etkisini araştırmaktır.
Özet (Çeviri)
For centuries people have been aware of the importance of archiving and finding information. With the advent of computers, it is possible to store large amounts of information and finding useful information from such collections became a necessity. The field of Information Retrieval emerged from this requirement in the 1950s. Information retrieval is the process of finding resources that are relevant to an information the users need from large collections. The success of information retrieval systems is directly proportional to the fact that the documents found are related to the information the user is looking for. The Text Retrieval Conference is organized annually to measure the success of information retrieval systems and to compare their performances. Standard data sets are created and published by this organization. In this study ClueWeb09, ClueWeb12 and Gov2 data sets, which consist of English web pages collected from the Internet, are used. Although the majority of the words in these web pages are written in the Latin alphabet, datasets also include words written in non-Latin alphabets (Japanese, Cyrillic, Greek, Arabic, etc). Moreover, the query sets associated with these datasets consist of words written entirely in Latin alphabet. In this context, the objective of this thesis is to examine the distribution of words written in non-Latin alphabets on English data sets and to investigate the effect of including or excluding non-Latin words in index on information retrieval effectiveness.
Benzer Tezler
- Evolutionary mechanisms of imprinting in business clusters
İş kümelerinde örgütsel damgalamanın evrimsel mekanizmaları
EMRE EKŞİ
Doktora
İngilizce
2021
İşletmeİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET ERÇEK
- Neural language modelling approaches for post-ocr text processing
Optik karakter tanıma sonrası metin işleme adımı için sinirsel dil modelleri yaklaşımları
AYŞE İREM TOPÇU
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
- Novel data partitioning and scheduling schemes for dynamic federated vehicular cloud
Dinamik federe araç bulutu için yeni bir görev yükü paylaşımı ve iş planlaması şemaları
WISEBORN MANFE DANQUAH
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. DENİZ TURGAY ALTILAR
- Fusion of multimodal information for multimedia information retrieval
Çoğulortam bilgi erişimi için çok kipli bilginin birleştirilmesi
TURGAY YILMAZ
Doktora
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Bölümü
PROF. DR. ADNAN YAZICI
- Keyword search for sign language
İşaret dilinde anahtar kelime arama
NAZİF CAN TAMER
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. MURAT SARAÇLAR