İçerik tabanlı resim arama motoru

Content based image search engine

PDF İndir

Tez No: 414216
Yazar: MEHMET ZAHİD YÜZÜGÜLDÜ
Danışmanlar: PROF. DR. ABDULLAH BAL
Tez Türü: Yüksek Lisans
Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2015
Dil: Türkçe
Üniversite: Yıldız Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
Bilim Dalı: Haberleşme Bilim Dalı
Sayfa Sayısı: 118

Özet

Veri miktarının sürekli büyüdüğü günümüzde doğru ve güvenilir bilgiye ulaşmak oldukça büyük bir önem arz etmektedir. Bilgi en büyük güçtür ve bilgiye en kısa sürede ulaşanlar tüm yarışlarda bir adım öne geçeceklerdir. Hemen her gün insanlar internet üzerinde, bilgisayarlarında, e-posta kutularında, fotoğraf arşivlerinde bir şeyler aramaktadır. Arama ve bilgiye ulaşma günlük hayatın önemli bir rutini haline gelmiştir. Merak edilen hemen her şey arama motorlarından öğrenilebilinmektedir. 2014 yılında Google'da günde ortalama 5,8 milyar kelime aranmıştır. Google'ın insan hafızasına zarar verip tembelleşmeye ittiğini bilim insanları ifade etmiştir. Farklı türden bilgilerin işlenip belli bir değer haline getirilmesinde veri miktarının büyüklüğü nedeni ile zorluklarla karşılaşılmaktadır. Bu zorluklara verinin saklanması dahil edilince yapılmak istenen analiz çalışmaları haftalar hatta aylar alabilmektedir. Büyük hacimli verileri hızlı bir şekilde okumak ve işleyebilmek için Büyük Veri teknolojileri geliştirilmiştir. Bu tezde içerik tabanlı resim arama motoru yapabilmek için Büyük Veri teknolojilerini kullanarak örnek teşkil edecek bir mimari tasarlanmıştır. Veri seti internette bulunan haber sitelerinden sağlanmıştır. 20 haber sitesinin manşet haberleri günde 2 defa olmak üzere bir hafta boyunca taranmıştır. Taranılan haberlerde bulunan, haber ile ilişkili resimler Apache HBASE veri tabanına kaydedilmiştir. Bu şekilde yaklaşık 200bin resimlik bir veri seti oluşturulmuştur. Daha sonra kaydedilen resimlerin öz nitelikleri, MapReduce çatısı altında görüntü işleme algoritmaları yardımı ile çıkartılıp Apache Solr içerisinde indekslenmiştir. Resim sayısının her an artıyor olması, arama işlemi sonucunun dönüş zamanını da artırmaktadır. Bu işlemi sistemin başarısını düşürmeden yapabilmek için kademeli arama mimarisi tasarlanmıştır. Kademeli arama mimarisi, veri setinde sorgulanan resim ile alakası olmayan resimler elendikten sonra daha başarılı görüntü işleme algoritması ile sıralanarak yapılmaktadır. Bu noktada ilk eleme işlemi kullandığımız diğer algoritmalara göre çok daha hızlı olan Bulanık Renk Doku Histogramı (BRDH - FCTH) algoritması ile yapılmıştır. Bu aşamada 200bin resim 500 resme indirgenerek sorgulanan resim ile net olarak ilişkisi olmayan resimler elenmiştir. Eleme işleme sonrasında 500 adet resim içerisinde sorgulanan resme benzeyen resimler Hızlı Retina Anahtar Noktası (HRAN – FREAK) ve Ölçekten Bağımsız Öznitelik Dönüşümü (ÖBÖD – SIFT) algoritmaları ile sıralandırma yapılmıştır. Sıralama sonrasında doku olarak benzerlik yakalanamayan fakat renk dağılımında belirgin benzerlik bulunan resimler de Renk Haritalama algoritması yardımı ile benzerlik sıralamasında yerini almıştır. Sıralanan 500 resmin ilk 60 resmi kullanıcıya sunulmuştur. Sunulan resimlerden üst sıralarda bulunanların, sorgulanan resme daha çok benzemesi beklenmektedir. Başarı ölçümüleri geri getirme oranı (recall) ve kesinlik (precision) değerleri ile yapılmıştır. Geri getirme oranı, beklenilen resimlerden kaç tanesinin ilk sıralarda yer aldığına bakılarak yapılmıştır ve %92 olarak hesaplanmıştır. Kesinlik değerinin hesaplanabilmesi için, benzerlik oranına eşik değeri uygulanmıştır. Farklı eşik değerlerindeki kesinlik ve geri getirme oranı değerleri sonuç bölümünde tablo halinde verilmiştir. Eşik değeri artırılmasıyla yapılan analizler, kesinlik değeri artarken geri getirme oranının azaldığını göstermiştir.

Özet (Çeviri)

Nowadays, since the amount of the information is constantly increasing, reaching accurate and clear data is gaining a great importance. Information has an enormous strength and people who attain it first move one step further at all levels. People are searching everything on the internet, and in their computers, e-mails, as well as photograph archives almost every day. Hence, searching and reaching the information became an everyday routine. People are able to learn almost anything which they are curious about. For instance, 5.8 billion words were searched per day using Google in 2014. However scientists argue that not only Google damages the minds but also causes laziness. Since there is enormous data and information out there, it is very hard to process different types of information and create a value. In addition, a requested analysis may take long time periods such as weeks or even months, when storing the information is added to these difficulties. In order to read and process quickly big amount of data, Big Data technologies are developed. In this thesis, to manage content-based image search engine, we built a potential architectural design using Big Data technologies. Data set is prepared from news websites on the internet. Headline news of 20 news websites are scanned twice a day for a week. Images are stored in Apache HBASE database. By doing so, a dataset containing 200 thousand images is prepared. The features of images are extracted by using MapReduce framework with the help of image processing algorithms and then extracted features are indexed by using Apache Solr. Increasing the number of pictures will also increase the response time. To solve this problem we designed cascading search architecture by using different image processing algorithms. In cascading search architecture, images which are irrelevant to queried image inside the data set are filtered and then ranked with the help of more prosperous image processing algorithms. At this point we choose Fuzzy Color Texture (FCTH) algorithm which has less response time then other image processing algorithms compared (FREAK, SIFT, SURF, BRIEF, BRISK, ORB). By doing so the number of the pictures is decreased from 200 thousand to 500, approximately in 0.2 seconds. After filtering stage, 500 images are ranked according to similarity of the queried image with Fast Retina Keypoints (FREAK) and Scale Invariant Feature Transform (SIFT) algorithms respectively. Finally, the images having different types of texture but having similarity are ordered again among all the peers with the help of Color Mapping algorithms. The similary between query and result images decreases according to the descending order of result images. The performance of systems is measered by recall and precision values. Recall measured as 92 % without treshold usage. To measure precision, 6 different tresholds are used. We used treshold values ascending order and relaize that recall value decreases if precision is increasing.

Benzer Tezler

Tez No
129368
Multimedia search engine for content based retrieval of images and text
İçerik tabanlı resim ve yazı arama için çoklu ortamlı arama motoru
TOLGA ÇİFTÇİ
Yüksek Lisans
İngilizce
2002
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. LALE AKARUN
DOÇ. DR. CEM SAY
Tez No
128519
Analysis of textural image features for content based retrieval
İçerik tabanlı arama sistemleri için imge doku metrik incelemesi
ERAY KULAK
Yüksek Lisans
İngilizce
2002
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sabancı Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AYTÜL ERÇİL
Tez No
765019
A video dataset of incidents & video-based incident classification
Felaket video veriseti & video-tabanlı felaket sınıflandırması
DUYGU SESVER
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HAZIM KEMAL EKENEL
Tez No
478730
A comparison study on image content based retrieval systems
Resim içerik tabanlı alma sistemlerine ilişkin bir karşılaştırma çalışması
HERSH HAMA
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hasan Kalyoncu Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
Assist. Prof. Dr. SAED ABDEL WAHHAB RESHID AL-QARALEH
Tez No
507209
A content-based web image retrieval system for person identification structured on the SSIM, PSNR ve SNR
Kişi tanıma için SSIM, PSNR ve SNR tabanlı bır web görüntü erişim sistemi
RAWA AMJAD AMIN
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Siirt Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YILMAZ KAYA

Geri Dön