Geri Dön

Sıkıştırılmış metin veri üzerinde metin benzerliğialgoritmalarının uygulaması ve sıkıştırılmamış metin veriyegöre performans karşılaştırması

Application of text similarity algorithms on compressed textdata and performance comparison with uncompressed textdata

  1. Tez No: 935613
  2. Yazar: REŞAT KAZANOĞLU
  3. Danışmanlar: DR. ÖĞR. ÜYESİ HALİL NUSRET BULUŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Tekirdağ Namık Kemal Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 28

Özet

Bu yüksek lisans tezinde, metin sıkıştırma işleminin metin benzerliği algoritmalarının performansı üzerindeki etkisi incelenmiştir. Çalışma kapsamında, farklı uzunluklarda ve büyüklüklerde oluşturulan metin veri setleri üzerinde üç farklı senaryo test edilmiştir: sıkıştırmasız karşılaştırma, dinamik sıkıştırma ve karşılaştırma, önceden sıkıştırılmış havuz ile karşılaştırma. Sıkıştırma işlemi için, tasarlanan ve kelime bütünlüğünü bozmadan sıkıştırma yapabilen bir algoritma kullanılmıştır. Metin benzerliği ölçümü ise kosinüs benzerliği algoritması ile gerçekleştirilmiştir. Toplamda 60 farklı test yapılmış ve bu testlerde sözlük oluşturma süresi, sıkıştırma süresi, benzerlik ölçümü süresi, toplam süre ve benzerlik oranları değerlendirilmiştir. Sonuçlar, sıkıştırılmış metin havuzlarıyla yapılan karşılaştırmaların, sıkıştırma işlemi bulunmayan durumlara göre işlem süreleri açısından avantaj sağladığını göstermiştir. Ayrıca, sıkıştırma işleminin, metin benzerliği oranlarına anlamlı bir etkisinin olmadığı belirlenmiştir.

Özet (Çeviri)

In this master's thesis, the impact of text compression on the performance of text similarity algorithms was examined. Within the scope of the study, three different scenarios were tested on text datasets of various lengths and sizes: comparison without compression, dynamic compression and comparison, and comparison with a pre-compressed pool. A custom-designed compression algorithm, capable of preserving word integrity, was employed for the compression process. Text similarity measurement was performed using the cosine similarity algorithm. A total of 60 tests were conducted, evaluating dictionary creation time, compression time, similarity measurement time, total time, and similarity ratios. The results showed that comparisons made with compressed text pools provided advantages in terms of processing times compared to scenarios without compression. Additionally, it was determined that the compression process did not have a significant impact on text similarity ratios.

Benzer Tezler

  1. Sıkıştırılmış metin veriler içinde dizgi eşleme algoritmalarının kullanılmasının incelenmesi ve yeni bir yaklaşımın geliştirilmesi

    Studying of usage of pattern matching algorithms in compressed text data and developing a new approach

    HALİL NUSRET BULUŞ

    Doktora

    Türkçe

    Türkçe

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTrakya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. AYDIN CARUS

  2. Tomosentez görüntülerinde odak dışı dilim bulanıklığının giderilmesi

    Reduction of out-of-focus slice blur in tomosynthesis images

    METİN ERTAŞ

    Doktora

    Türkçe

    Türkçe

    2015

    Elektrik ve Elektronik Mühendisliğiİstanbul Üniversitesi

    Biyomedikal Mühendisliği Ana Bilim Dalı

    PROF. AYDIN AKAN

    YRD. DOÇ. İSA YILDIRIM

  3. RFID etiketlerinin hafıza alanının verimli kullanımı için yeni bir kodlama algoritmasının geliştirilmesi ve uygulamalı başarım analizi

    Development and applied performance analysis of a new coding algorithm for efficient memory usage of RFID tags

    HAKAN CELİL KAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Elektrik ve Elektronik MühendisliğiOsmaniye Korkut Ata Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ İBRAHİM ÖZTÜRK

  4. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR