Geri Dön

İngilizce bilgi erişimi veri kümelerinde Latin dışı alfabelerle yazılmış içeriğin analizi

Analysis of non-Latin content on the English information retrieval datasets

  1. Tez No: 587686
  2. Yazar: AHMET ALKILINÇ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ AHMET ARSLAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: Eskişehir Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 59

Özet

Yüzyıllardır insanlar arşivleme ve bilgi bulmanın öneminin farkında olmuşlardır. Bilgisayarların gelişiyle birlikte, büyük miktarda bilgiyi depolamak mümkün olmuştur ve bu tür koleksiyonlardan yararlı bilgiler bulmak bir gereklilik haline gelmiştir. Bilgi erişimi alanı 1950'lerde bu gereklilikten doğmuştur. Bilgi erişimi kullanıcıların ihtiyaç duydukları bilgi ile ilgili kaynakları büyük koleksiyonlardan bulma işlemidir. Bilgi erişim sistemlerinin başarısı bulunan dokümanların ne kadarının kullanıcının aradığı bilgi ile ilgili olmasıyla doğru orantılıdır. Bilgi erişim sistemlerinin başarımını ölçmek, performansları karşılaştırmak için yıllık olarak Text Retrieval Conference düzenlenmektedir. Bu organizasyon tarafından standart veri setleri oluşturulup yayınlanmaktadır. Bu çalışmada İnternet'ten toplanan ve İngilizce Web sayfalarından oluşan ClueWeb09, ClueWeb12 ve Gov2 veri setleri kullanılmıştır. Her ne kadar bu Web sayfalarındaki kelimelerin çoğu Latin alfabesiyle yazılmış olsa da veri setleri ayrıca Latin dışı alfabelerde (Japon, Kiril, Yunan, Arap, vb.) yazılmış kelimeleri de içermektedir. Ayrıca, bu veri kümeleriyle ilişkilendirilmiş olan sorgu kümeleri, tamamen Latin alfabesinde yazılmış sözcüklerden oluşmaktadır. Bu kapsamda, bu tezin amacı, Latin dışı alfabelerle yazılmış kelimelerin İngilizce veri setleri üzerindeki dağılımı incelemek ve Latin dışı kelimelerin indekse dahil etmenin veya hariç tutmanın bilgi erişim başarımı üzerindeki etkisini araştırmaktır.

Özet (Çeviri)

For centuries people have been aware of the importance of archiving and finding information. With the advent of computers, it is possible to store large amounts of information and finding useful information from such collections became a necessity. The field of Information Retrieval emerged from this requirement in the 1950s. Information retrieval is the process of finding resources that are relevant to an information the users need from large collections. The success of information retrieval systems is directly proportional to the fact that the documents found are related to the information the user is looking for. The Text Retrieval Conference is organized annually to measure the success of information retrieval systems and to compare their performances. Standard data sets are created and published by this organization. In this study ClueWeb09, ClueWeb12 and Gov2 data sets, which consist of English web pages collected from the Internet, are used. Although the majority of the words in these web pages are written in the Latin alphabet, datasets also include words written in non-Latin alphabets (Japanese, Cyrillic, Greek, Arabic, etc). Moreover, the query sets associated with these datasets consist of words written entirely in Latin alphabet. In this context, the objective of this thesis is to examine the distribution of words written in non-Latin alphabets on English data sets and to investigate the effect of including or excluding non-Latin words in index on information retrieval effectiveness.

Benzer Tezler

  1. Evolutionary mechanisms of imprinting in business clusters

    İş kümelerinde örgütsel damgalamanın evrimsel mekanizmaları

    EMRE EKŞİ

    Doktora

    İngilizce

    İngilizce

    2021

    İşletmeİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET ERÇEK

  2. Neural language modelling approaches for post-ocr text processing

    Optik karakter tanıma sonrası metin işleme adımı için sinirsel dil modelleri yaklaşımları

    AYŞE İREM TOPÇU

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. BEHÇET UĞUR TÖREYİN

  3. Novel data partitioning and scheduling schemes for dynamic federated vehicular cloud

    Dinamik federe araç bulutu için yeni bir görev yükü paylaşımı ve iş planlaması şemaları

    WISEBORN MANFE DANQUAH

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. DENİZ TURGAY ALTILAR

  4. Fusion of multimodal information for multimedia information retrieval

    Çoğulortam bilgi erişimi için çok kipli bilginin birleştirilmesi

    TURGAY YILMAZ

    Doktora

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    PROF. DR. ADNAN YAZICI

  5. Keyword search for sign language

    İşaret dilinde anahtar kelime arama

    NAZİF CAN TAMER

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MURAT SARAÇLAR