Derin öğrenme tabanlı multimodal ürün arama sisteminin geliştirilmesi
Development of a deep learning based multimodal product retrieval system
- Tez No: 958029
- Danışmanlar: PROF. DR. AYÇA ÇAKMAK PEHLİVANLI
- Tez Türü: Doktora
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Mimar Sinan Güzel Sanatlar Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 71
Özet
Son yıllarda bilgi teknolojilerindeki hızlı gelişim, e-ticaret alanında köklü dönüşümlere yol açmış ve kullanıcıların ihtiyaçlarına daha etkili biçimde yanıt verebilen öneri sistemlerinin geliştirilmesini zorunlu kılmıştır. Geleneksel ürün benzerliği arama yöntemleri genellikle tek modaliteye dayalı olup, yalnızca görsel ya da metin verileri üzerinden işlem yapmaktadır. Bu yaklaşımlar kullanıcıların çok çeşitli ve karmaşık sorgularını karşılamada yetersiz kalmakta ve öneri sistemlerinin performansını olumsuz yönde etkilemektedir. Bu bağlamda multimodal (çok modlu) yöntemler özellikle görsel ve metin verilerini entegre ederek ürün özelliklerini daha doğru temsil edebilmekte ve öneri sistemlerinin etkinliğini artırmaktadır. Bu tez çalışmasında, multimodal ürün benzerliği arama sistemleri kapsamında iki farklı ağırlıklandırma yaklaşımı karşılaştırılmıştır. Bunlardan ilki sabit ve basit bir strateji sunan Ortalama Ağırlıklandırma modeli (OA) olurken diğeri ise önerilen yenilikçi Kosinüs Benzerliğine Dayalı Dinamik Ağırlıklandırma (DA) modelidir. DA yöntemi ile multimodal vektör temsilleri arasındaki benzerlik vektörlerin yön ve büyüklük ilişkisini birlikte dikkate alan geometrik temelli bir mekanizma ile ölçülmektedir. Bu mekanizma vektörler arası benzerliği daha doğrudan ve güvenilir biçimde hesaplayarak özellikle farklı modalitelerin katkı düzeyini içerik bağlamında dinamik olarak değerlendirme kapasitesi sunmaktadır. Ayrıca DA yöntemi herhangi bir ek öğrenme süreci gerektirmemesi sayesinde modelin farklı veri kümelerine hızlıca uygulanabilmesini ve öneri sistemlerine kolay entegrasyonunu mümkün kılmaktadır. Önerilen modeller, hem gerçek dünya kaynaklı bir tekstil perakende veri setinde hem de literatürde yaygın kullanılan Fashion200K, Amazon Dresses ve Deep Fashion Multimodal veri setlerinde test edilmiştir. Elde edilen deneysel sonuçlar, DA modelinin genel olarak OA modeline kıyasla daha üstün doğruluk ve sıralama performansı sunduğunu göstermektedir. Özellikle tekstil perakendesi veri setinde kadın ve erkek giyim kategorilerinde DA modeli, HR@20, Precision@20, MAP@20 ve NDCG@20 metriklerinde tutarlı biçimde daha iyi sonuçlar elde etmiştir. Bununla birlikte Deep Fashion Multimodal veri setinde OA modeli sıralama açısından DA modelini geride bırakmıştır. Bu bulgu multimodal sistemlerde ağırlıklandırma stratejisinin veri setinin yapısı ve temsiliyet özelliklerine bağlı olarak değişkenlik gösterebileceğini ortaya koysa da DA modelinin genel performans üstünlüğü ve adaptif yapısı dikkat çekicidir. Çalışmada ayrıca benzerlik aramasında tek tip ağırlıklandırmanın her zaman en iyi sonuçları vermediği ve model tasarımında veri setine özgü uyarlamaların kritik olduğu vurgulanmaktadır. Önerilen DA yöntemi vektörlerin ölçek ve yön bilgilerini dikkate alan yapısı sayesinde korelasyon temelli yaklaşımlara göre daha esnek, doğrudan ve güvenilir bir benzerlik ölçüm mekanizması sunmaktadır. Bu sayede gerçek zamanlı ve ölçeklenebilir multimodal ürün benzerliği aramalarında pratik avantajlar sağlamaktadır. Sonuç olarak bu çalışma, multimodal sinir ağı tabanlı ürün benzerliği arama sistemlerinde ağırlıklandırma stratejisinin performans üzerindeki belirleyici etkisini ortaya koymakta ve farklı veri setlerine uyarlanabilir, eğitim gerektirmeyen, dinamik yöntemlerin geliştirilmesinin gerekliliğini vurgulamaktadır. Elde edilen bulgular, e-ticaret platformlarında kullanıcı deneyimini iyileştirmek ve ürün önerilerinin doğruluğunu artırmak açısından multimodal yaklaşımların işlevsel ve uygulanabilir olduğunu göstermektedir.
Özet (Çeviri)
DEVELOPMENT OF A DEEP LEARNING-BASED MULTIMODAL PRODUCT RETRIEVAL SYSTEM ABSTRACT In recent years, the rapid advancement of information technologies has led to profound transformations in the field of e-commerce, necessitating the development of recommender systems that can more effectively meet users' diverse needs. Traditional product similarity search methods typically rely on a single modality, processing either visual or textual data in isolation. These unimodal approaches fall short in addressing users' complex and varied queries, thereby limiting the performance of recommender systems. In this context, multimodal methods, which integrate multiple data types—particularly visual and textual features—offer richer and more accurate product representations, ultimately enhancing the effectiveness of recommender systems. This thesis compares two different weighting strategies within the scope of multimodal product similarity search systems. The first is the commonly used and fixed-weight approach called the Average Weighting model (AW). At the same time, the second is the proposed and more sophisticated Cosine Similarity-Based Dynamic Weighting model (DW). The DW method introduces a novel dynamic weighting mechanism that evaluates the similarity between multimodal vector representations in a geometrically grounded and direct manner. The proposed mechanism considers both the magnitude and direction of vectors, providing more reliable similarity assessments. Furthermore, the DW method operates without the need for additional training, offering flexibility for rapid adaptation across diverse datasets and facilitating seamless integration into real-time recommender systems. The proposed models were evaluated using a proprietary textile retail dataset as well as widely adopted benchmark datasets, including Fashion200K, Amazon Dresses, and DeepFashion Multimodal. Experimental results show that the DW model generally outperforms the AW model in terms of accuracy and ranking performance. Notably, in the proprietary dataset, the DW model consistently achieved superior results across HR@20, Precision@20, MAP@20, and NDCG@20 metrics, particularly within women's and men's clothing categories. However, on the DeepFashion Multimodal dataset, the AW model performed better in terms of ranking. This indicates that the effectiveness of weighting strategies in multimodal systems may vary depending on dataset structure and representational characteristics. Nonetheless, the adaptive nature and overall performance of the DW model remain significant. The study also emphasizes that a single fixed weighting strategy may not always yield optimal results and that model design should be tailored to dataset-specific attributes. The proposed DW method, by incorporating both scale and directional information of vectors, provides a more flexible and direct similarity measurement compared to correlation-based approaches. This enables practical advantages for scalable and responsive multimodal similarity search in real-world applications. In conclusion, this study highlights the critical role of weighting strategies in neural network-based multimodal product similarity systems. It underscores the need for adaptive, training-free methods that can generalize across datasets. The findings demonstrate that multimodal approaches are functionally effective in improving recommendation accuracy and enhancing user experience on e-commerce platforms.
Benzer Tezler
- Derin öğrenme tabanlı çok modlu duygu analizi yöntemlerinin geliştirilmesi
Development of deep learning based multimodal sentiment analysis methods
MEHMET UMUT SALUR
Doktora
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. İLHAN AYDIN
- Deep learning-based and cost-aware fraud detection system using multi-modal profiling approach to detect fraud attempts in airline ticket sales
Havayolu bilet satış işlemleri için derin öğrenme tabanlı maliyet bilinçli ve çok modlu profilleme yaklaşımını benimseyen sahtekarlık tespit sistemi
MEHMED TAHA ARAS
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET AMAÇ GÜVENSAN
- Identification of object manipulation anomalies for service robots
Servis robotları için nesne etkileşim anomalilerinin tanısı
DOĞAN ALTAN
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SANEM SARIEL UZER
- Dejeneratif omurga hastalıklarının sınıflandırılması için docker konteynerleri tabanlı multimodal derin öğrenme yaklaşımları
Docker-based multimodal deep learning approaches for the classification of degenerative spinal diseases
HASAN YİĞİT
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMuğla Sıtkı Koçman ÜniversitesiYapay Zeka Ana Bilim Dalı
DOÇ. DR. İBRAHİM ÖNDER YENİÇERİ
- Büyük dil modelleri kullanan derin öğrenme tabanlı dinamik çok modlu veri özetleme yaklaşımları
Deep learning based multi modal data summarization approaches using large language models
TURAN GÖKTUĞ ALTUNDOĞAN
Doktora
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET KARAKÖSE