Geri Dön

Büyük veri işlemede tam metin arama teknolojilerinin uygulanması ve karşılaştırılması

Application and comparison of full-text search technologies for big data processing

  1. Tez No: 809397
  2. Yazar: AYŞENUR DENİZ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ AHMET ARİF AYDIN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: İnönü Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Yazılımı Bilim Dalı
  13. Sayfa Sayısı: 51

Özet

Günümüzde verilerin boyutları ciddi bir hızla artarak devam etmektedir. Büyük veri setlerinde yapılan işlemler verinin boyutu arttıkça bazı zorluklara sebep olmaktadır. Örneğin, bir veri seti içerisinde arama yapmak temel işlemlerden biridir ve veri miktarı arttıkça çeşitli zorlukları açığa çıkarmaktadır. Bu tez çalışmasında, arama işlemlerindeki zorluklardan yola çıkılarak tam metin arama metodu üzerine araştırma yapılmaktadır. Tam metin arama, indekslenmiş veriler üzerinden arama işleminin gerçekleştirildiği bir yöntemdir. Bu yöntem, büyük bir veri setinde veriye daha hızlı erişim ve etkili arama gerçekleştirebilme noktasında avantaj sağlamaktadır. Bu çalışmada, tam metin aramada kullanılan popüler teknolojilerden Apache Solr ve Elasticsearch için indeksleme ve arama performansının bir karşılaştırılması yapılmıştır. Öncelikle, üç farklı veri seti ve üç farklı makine kullanılarak her teknoloji için indeksleme süreleri alınıp karşılaştırılmıştır. Daha sonra, indeksleme performansı en iyi olan makinede, 10 sorgu kullanılarak her iki teknoloji için arama süreleri incelenmiştir. Sonuçlar değerlendirildiğinde Apache Solr hem indekslemede hem de aramada daha iyi performans göstermiştir. Bu yüzden, bu çalışma için geliştirilen web uygulaması Apache Solr üzerine inşa edilmiştir. Uygulama kısmında, Web of Science platformunda yer alan Engineering, Computing & Technology koleksiyonundaki 1,655 derginin çeşitli bilgilerinin toplandığı özgün bir veri seti oluşturulmuş ve kullanılmıştır. Bu uygulama sayesinde, araştırmacılar çalışmalarını yayınlamak için amaçlarına uygun dergileri listeleyebilmektedir.

Özet (Çeviri)

Today, the size of the data continues to increase at a serious pace. Operations performed on large datasets cause some difficulties as the size of the data increases. For example, searching within a dataset is one of the basic operations, and as the amount of data increases, it reveals various difficulties. In this thesis, a research is accomplished on the full-text search method based on the difficulties in the search processes. Full-text search is a method in which the search is performed on indexed data. This method provides an advantage in terms of faster access to data and effective search in a large dataset. In this study, a comparison of indexing and search performance was made for Apache Solr and Elasticsearch, which are popular full-text search technologies. First, indexing times for each technology were taken and compared using three different datasets and three different machines. Then, search times for both technologies were examined using 10 queries on the machine with the best indexing performance. Considering the results, Apache Solr performed better in both indexing and searching. Therefore, the web application developed for this study is built on Apache Solr. In the application part, a unique dataset was created and used, in which various information was collected from 1,655 journals in the Engineering, Computing & Technology collection on the Web of Science platform. Thanks to this application, researchers could list the journals suitable for their purpose to publish their work.

Benzer Tezler

  1. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  2. Multimodal machine comprehension of how-to instructions with images and text

    Görüntü ve metin içeren çok kipli nasıl yapılır talimatlarının makine ile kavranması

    SEMİH YAĞCIOĞLU

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET ERKUT ERDEM

    DOÇ. DR. İBRAHİM AYKUT ERDEM

  3. Modelling Kücük Menderes watershed using soil and water assessment tool (SWAT)

    Küçük Menderes Alt Havzası'nın swat (toprak ve su değerlendirme aracı) ile modellenmesi

    MOHAMMAD MATIN SADDIQI

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Çevre Mühendisliğiİstanbul Teknik Üniversitesi

    Çevre Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. MAHMUT EKREM KARPUZCU

  4. Essays on estimation methods

    Tahmin yöntemleri üzerine makaleler

    YASİN KÜTÜK

    Doktora

    İngilizce

    İngilizce

    2019

    Ekonometriİstanbul Teknik Üniversitesi

    İktisat Ana Bilim Dalı

    PROF. DR. BÜLENT GÜLOĞLU

  5. Implementing big data techniques in 5g mobile networks

    5g mobil ağlarda büyük veri tekniklerinin uygulanması

    MAHMOUD AHMED MOHAMED ERRAMAH

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    Prof. Dr. OĞUZ BAYAT