Alternatif düşük ranklı matris ayrışımı ile gizli anlamsal dizinleme
Latent semantic indexing with alternate low rank matrix approximation
- Tez No: 512706
- Danışmanlar: PROF. DR. HASAN ERBAY
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: Türkçe
- Üniversite: Kırıkkale Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 96
Özet
Kullanım alanı sürekli genişleyen bilgisayarlar tarafından dijital ortamda depolanan verilerin boyutları günden güne büyümektedir. Ancak bu veriler işlenmediği ya da analiz edilmediği sürece sadece bir arşivden ibarettir. Bu nedenle, istatistikçiler, ekonomistler, iş planlayıcıları, reklam analistleri ve iletişim mühendisleri gibi birçok sektör çalışanları bu depolanan verilerden anlamlı bilgiler elde etmek amacıyla sürekli araştırma ve geliştirme yapmaktadırlar. Araştırmacılar temel olarak büyük veri yığınlarından genel bir sonuca ulaşma, bilinen ya da bilinmeyen problemleri bulma, bu problemleri çözme, problem çözüm yöntemleri geliştirme, yapılabilecek bir değişikliğin etkisini tahmin etme, işlem ve deneylerini zamandan ve veri kaynaklarından bağımsız olarak yapabilmenin yollarını araştırmaktadırlar. Bu çalışmada ise, devasa doküman yığını içerisinden istenilen dokümanlara ve/veya bilgilere doğru bir şekilde erişmeyi amaçlamayan bilgiye erişim sistemlerinden biri olan Gizli Anlamsal Dizinleme (GAD) yönteminde kullanılan Tekil Değer Ayrışımına (TDA) alternatif bir düşük ranklı matris ayrışımı önerilmektedir. GAD modelinde, doküman yığını içerisindeki her bir terim ve bu terimleri içeren dokümanlar lineer cebir yöntemleri ile sayısallaştırılarak bir vektör uzayında temsil edilmektedir. Vektör uzayının elde edilmesinde kullanılan genel yöntem ise TDA'dır. Ancak TDA ile gerçekleştirilen bu işlemin hesaplama ve hafıza açısından çok maliyetli olması araştırmacıları alternatif yöntemlere yönlendirmektedir Düşük ranklı matris ayrışımı olarak önerilen Kesik ULV Ayrışımı ile (K-ULVA) vektör uzayının elde edilme sürecindeki maliyet TDA'ya göre daha düşüktür. Ayrıca, doküman yığınına eklenecek yeni dokümanların temsili için yapılan blok güncelleme sürecinin kolay ve maliyetinin az olması K-ULVA'nın bir diğer avantajıdır. K-ULVA ve TDA ile yapılan iki ayrı GAD sistemini karşılaştırılmak amacıyla bilgiye erişim çalışmalarında yaygın olarak kullanılan veri setleri tercih edilmiştir. Son olarak, bir bot yazılımı kullanarak Türkçe haber sayfalarından elde edilen haber metinleri ile Türkçe bir veri seti geliştirilmiş ve bu iki GAD sisteminin bu veri seti üzerindeki performansı da gözlemlenmiştir. Yapılan incelemeler sonucunda K-ULVA ve TDA tabanlı dizinleme modellerinin tüm veri setlerindeki başarılarının oldukça benzer olduğu görülmüştür. K-ULVA yönteminin blok güncelleme yöntemindeki kolaylığı ve maliyetinin az olması sebebiyle TDA yöntemine iyi alternatif matris ayrışımı olduğu sonucuna varılmıştır.
Özet (Çeviri)
The size of the data stored in the digital environment is increasing day by day by the ever-expanding use of computers. However, this data is only an archive, unless it is processed or analyzed. For this reason, many sector employees, such as statisticians, economists, business planners, advertising analysts and communications engineers, are constantly researching and developing to obtain meaningful information from these stored data. Researchers are basically looking for ways to reach a general outcome from large data sets, finding known or unknown problems, solving these problems, developing problem-solving methods, estimating the effect of a possible change, and performing operations and experiments independently from data sources. In this work, we propose an alternative low rank matrix decomposition for Singular Value Decomposition (SVD) which is used in the latent semantic indexing (LSI) method, which is one of the information retrieval systems that does not intend to access the desired documents and / or information from the gigantic collection of documents. In the LSI model, each term in the collection of documents and documents containing these terms are represented in a vector space by being digitized by linear algebra methods. The general method used to obtain the vector space is SVD. However, this process performed by the SVD is very costly in terms of calculation and memory, which diverts researchers to alternative methods. The cost of obtaining the vector space with Truncated ULV Decomposition (T-ULVD), which is proposed as a low-rank matrix decomposition , is lower than TDA. Another advantage of K-ULVA is that the block updating process for the representation of new documents to be added to the collection of documents is easy and low cost. In order to compare two different LSI systems with T- ULVD and SVD, data sets commonly used in information retrieval studies have been preferred. Finally, a Turkish data set has been developed with news texts from Turkish news pages using a bot software and the performance of these two LSI systems on this data set are also observed. Based on the experiments, it is seen that the success of K-ULVA and TDA-based indexing models in all data sets are very similar. Because of the simplicity and low cost of the T-ULVD method in the block updating method, it is the result of a good alternative matrix decomposition to the SVD method.
Benzer Tezler
- Oscillation problems of the closed seas
Kapalı denizlerin salınım problemleri
SİNAN ÖZEREN
Yüksek Lisans
Türkçe
1997
Jeoloji Mühendisliğiİstanbul Teknik ÜniversitesiMeteoroloji Mühendisliği Ana Bilim Dalı
PROF. DR. H. NÜZHET DALFES
- Interception techniques for direct sequence spread spectrum signals
DSSS sinyaller için tespit teknikleri
UYGAR KARADENİZ
Yüksek Lisans
İngilizce
2005
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. BUYURMAN BAYKAL
- Işığa duyarlı soda kireç camların sentezi ve karakterizasyonu
Synthesis and characterization of soda lime photosensitive glasses
ARCA İYİEL
Doktora
Türkçe
2009
Metalurji Mühendisliğiİstanbul Teknik ÜniversitesiMetalurji ve Malzeme Mühendisliği Ana Bilim Dalı
PROF. DR. ONURALP YÜCEL
PROF. DR. SÜHEYLA AYDIN
- Ratlarda deneysel periodontitis modelinde arjinin silikat inositol kompleksin periodontal dokulara etkisinin biyokimyasal, histopatolojik ve radyografik olarak incelenmesi
Biochemical, histopathologic and radiographic examination of the effect of arginine slicate inositol complex on periodontal tissues in an rat model of experi̇mental periodontitis
SERKAN DÜNDAR
Doktora
Türkçe
2014
Diş Hekimliğiİnönü ÜniversitesiDiş Hekimliği Bölümü
DOÇ. DR. ABUBEKİR ELTAS
PROF. DR. Sema Hakkı
- Vakumlu emdirme yöntemi ile probiyotikle zenginleştirilmiş kuru meyvelerin geliştirilmesi
Development of probiotic enriched dried fruit with vacuum impregnation method
HATİCE HAYAT GİRGİN
Yüksek Lisans
Türkçe
2023
Gıda MühendisliğiSüleyman Demirel ÜniversitesiGıda Mühendisliği Ana Bilim Dalı
DOÇ. DR. BİLGE ERTEKİN FİLİZ