Büyük veri işlemede tam metin arama teknolojilerinin uygulanması ve karşılaştırılması
Application and comparison of full-text search technologies for big data processing
- Tez No: 809397
- Danışmanlar: DR. ÖĞR. ÜYESİ AHMET ARİF AYDIN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: İnönü Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Yazılımı Bilim Dalı
- Sayfa Sayısı: 51
Özet
Günümüzde verilerin boyutları ciddi bir hızla artarak devam etmektedir. Büyük veri setlerinde yapılan işlemler verinin boyutu arttıkça bazı zorluklara sebep olmaktadır. Örneğin, bir veri seti içerisinde arama yapmak temel işlemlerden biridir ve veri miktarı arttıkça çeşitli zorlukları açığa çıkarmaktadır. Bu tez çalışmasında, arama işlemlerindeki zorluklardan yola çıkılarak tam metin arama metodu üzerine araştırma yapılmaktadır. Tam metin arama, indekslenmiş veriler üzerinden arama işleminin gerçekleştirildiği bir yöntemdir. Bu yöntem, büyük bir veri setinde veriye daha hızlı erişim ve etkili arama gerçekleştirebilme noktasında avantaj sağlamaktadır. Bu çalışmada, tam metin aramada kullanılan popüler teknolojilerden Apache Solr ve Elasticsearch için indeksleme ve arama performansının bir karşılaştırılması yapılmıştır. Öncelikle, üç farklı veri seti ve üç farklı makine kullanılarak her teknoloji için indeksleme süreleri alınıp karşılaştırılmıştır. Daha sonra, indeksleme performansı en iyi olan makinede, 10 sorgu kullanılarak her iki teknoloji için arama süreleri incelenmiştir. Sonuçlar değerlendirildiğinde Apache Solr hem indekslemede hem de aramada daha iyi performans göstermiştir. Bu yüzden, bu çalışma için geliştirilen web uygulaması Apache Solr üzerine inşa edilmiştir. Uygulama kısmında, Web of Science platformunda yer alan Engineering, Computing & Technology koleksiyonundaki 1,655 derginin çeşitli bilgilerinin toplandığı özgün bir veri seti oluşturulmuş ve kullanılmıştır. Bu uygulama sayesinde, araştırmacılar çalışmalarını yayınlamak için amaçlarına uygun dergileri listeleyebilmektedir.
Özet (Çeviri)
Today, the size of the data continues to increase at a serious pace. Operations performed on large datasets cause some difficulties as the size of the data increases. For example, searching within a dataset is one of the basic operations, and as the amount of data increases, it reveals various difficulties. In this thesis, a research is accomplished on the full-text search method based on the difficulties in the search processes. Full-text search is a method in which the search is performed on indexed data. This method provides an advantage in terms of faster access to data and effective search in a large dataset. In this study, a comparison of indexing and search performance was made for Apache Solr and Elasticsearch, which are popular full-text search technologies. First, indexing times for each technology were taken and compared using three different datasets and three different machines. Then, search times for both technologies were examined using 10 queries on the machine with the best indexing performance. Considering the results, Apache Solr performed better in both indexing and searching. Therefore, the web application developed for this study is built on Apache Solr. In the application part, a unique dataset was created and used, in which various information was collected from 1,655 journals in the Engineering, Computing & Technology collection on the Web of Science platform. Thanks to this application, researchers could list the journals suitable for their purpose to publish their work.
Benzer Tezler
- Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
- Multimodal machine comprehension of how-to instructions with images and text
Görüntü ve metin içeren çok kipli nasıl yapılır talimatlarının makine ile kavranması
SEMİH YAĞCIOĞLU
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET ERKUT ERDEM
DOÇ. DR. İBRAHİM AYKUT ERDEM
- Modelling Kücük Menderes watershed using soil and water assessment tool (SWAT)
Küçük Menderes Alt Havzası'nın swat (toprak ve su değerlendirme aracı) ile modellenmesi
MOHAMMAD MATIN SADDIQI
Yüksek Lisans
İngilizce
2019
Çevre Mühendisliğiİstanbul Teknik ÜniversitesiÇevre Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MAHMUT EKREM KARPUZCU
- Essays on estimation methods
Tahmin yöntemleri üzerine makaleler
YASİN KÜTÜK
Doktora
İngilizce
2019
Ekonometriİstanbul Teknik Üniversitesiİktisat Ana Bilim Dalı
PROF. DR. BÜLENT GÜLOĞLU
- Implementing big data techniques in 5g mobile networks
5g mobil ağlarda büyük veri tekniklerinin uygulanması
MAHMOUD AHMED MOHAMED ERRAMAH
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
Prof. Dr. OĞUZ BAYAT