Web nesneleri için kalitenin belirlenmesi
Quality detection for web objects
- Tez No: 324025
- Danışmanlar: DOÇ. DR. ŞULE GÜNDÜZ ÖĞÜDÜCÜ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2011
- Dil: Türkçe
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 57
Özet
Web içerdiği nesnelerin sayısı açısından bakıldığında gün geçtikçe artan birhızla büyümektedir. Günümüzde Web'in ulaştığı boyut, içerdiği nesnelerinkalitelerinin uzmanlar tarafından elle belirlenmesini imkansız halegetirmektedir. İnternetteki otorite eksikliği ve kullanıcıların Web'e tamamenözgürce içerik ekleyip, bu içerikleri idare etmesi de kalitesi düşük içeriğinveya kötü niyetli yaramaz (spam) içeriklerin Web'deki miktarını önemli ölçüdearttırmaktadır. Bu çalışmada, belirtilen nedenlerden ötürü önemi artan, Web'dekinesnelerin kalitelerinin tespit edilmesi üzerine çalışılmıştır.İlk etapta yaramaz mim (bookmark) nesnelerinin yaramaz olmayanlardan ayrılmasıgörevini içeren ikili karar problemi çözülmeye çalışılmıştır. Bununiçin eldeki folksonomi verisi ilişkisel bir veriymiş gibi kabul edilerek,ilişkisel verinin sınıflandırılması için önerilmiş olan İlişkisel BayesSınıflandırıcı (İBS) ile karar verme işlemi gerçekleştirilmiştir. Bunun yanındaC4.5 karar ağacı algoritması, nitelik seçimi amacıyla eldeki veriye uygun olacakşekilde uygulanmıştır. Yapılan deneylerle, önerdiğimiz yöntemin yaramaznesneleri belirleme de oldukça başarılı olduğu görülmüştür. Sonuçlar veyöntemin artı-eksi yönleri, aynı veri kümesini kullanan diğer çalışmalar gözönüne alınarak tartışılmıştır.İkinci olarak internette yer alan sitelerin kalite seviyelerine görederecelendirilmesi üzerine çalışılmıştır. Burada karşı karşıya kalınan problemkategori gibi ikiden fazla değer alabilen ve güvenilirlik, tarafsızlık gibigöreceli değerlendirilmesi gereken kalite sınıfına ait niteliklerin tahminedilmesidir. Bu yüzden, söz konusu çoklu karar problemlerini içeren kalitetespitinin yapılması için bir sistem önerilmiştir. Önerilen sistemden deneylersonucunda tatmin edici sonuçlar alınmıştır. Ayrıca, bu çalışmadakullanılan veri kümesinin sahip olduğu göreli sınıf etiketlerininetiketlenmesi safhasında problem olması ve yine aynı veri setinde birçok siteiçin terim vektörünün bulunmaması gibi sorunlara da değinilmiştir.Bir önceki çalışma sırasında kullanılan veri kümesindeki bazı sitelerin bazınitelik değerlerinin eksik olduğu belirlenmiştir. Bu tür sitelerin kalitesınıfının belirlenmesinde problem olması nedeniyle, üçüncü çalışmada bu problemiçin bir çözüm önerilmiştir. Bu tür sitelerin kalite sınıflarının belirlenmesiamacıyla çizge (graph) üzerinde yayılma (propagation) yapılmıştır. Kalitesınıfını belirleyemediğimiz bir sitenin, sınıfını bildiğimiz komşu sitelerikullanılarak söz konusu site için belli fonksiyonlar yardımıyla sonucagidilmiştir. Buradaki problem ise çizgenin bağlı olmayan parçalar içermesidir.Bu konuda da yapılabilecek olası çalışmalara tez içerinde değinilmiştir. Çizgeüzerinde yayılma ile istenilen sonuçlara, yani daha fazla sayıda siteninkalitesi belirlenirken, performansın düşmemesi amacına başarıyla erişilmiştir.
Özet (Çeviri)
Web is growing rapidly day by day. Today, if size of the Web is considered, itis impossible to detect quality of the Web objects such as e-mail or Web pagesmanually by experts. Lack of authority in the Web and users' freedom on addingand managing content on the Internet causes increase of the number of spam andlow quality content. That's why, in this study, detecting quality of the Webobjects, which is a very important subject due to mentioned reasons, is studied.At the first step, it is studied to split spam bookmark objects from non-spambookmark objects which is a two-class decision problem. For this, availablefolksonomy data is adopted as relational data and then Relational BayesianClassifier (RBC) which is proposed for classification of relational data is usedfor decision process. Also, C4.5 algorithm is adopted to available data set forattribute selection. With experimental results, for detecting spam content, itis shown that the system proposed in this study is quite succesfull. Results ofthe proposed system and both positive and negative features of it mentionedaccording to other studies focused on the same data set.At the second step, we study about ranking Web sites according to theirquality levels. Here, the problem we faced is multi-class decision problemcaused by multi-class valued attributes such as category and categories whichrequires relatively determination such as trustiness and neutrality. That's why,a system which handles these decision problems is proposed. For proposed system,satisfactory results are obtained with experimental results. Also, problemsrelated with dataset are pointed. For example, for most of the Web sites, thereisn't any term vector which is the base element of our framework. Besides,according to distribution of relative class attributes such as trustiness,neutrality and bias, it is concluded that these class attributes are labeled byexperts without any standard.At the third step, as continuation of the study at the second step, for Websites that don't have category prediction results due to term vector absence,graph propagation is performed to generate category prediction results for thesepages. For Web sites that don't have category prediction results, categoryprediction results are obtained according to their neighbors' categoryprediction results and some propagation formulas. Here, problem is the nodesthat are seperate from the biggest and connected graph component. For thisproblem, possible future studies are mentioned in the thesis. With graphpropagation, intended results, namely generating results for more Web siteswithout any performance decrease, are taken.
Benzer Tezler
- Visual attention and visual distortion sensitivity based regional rate allocation in JPEG2000
JPEG2000'de görsel dikkat ve görsel bozunum duyarlılığı tabanlı bölgesel bit hızı dağıtımı
MESUT PAK
Doktora
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ULUĞ BAYAZIT
- BIM entegrasyonunda akıllı nesnelerin rolü-sistematik literatür taraması
The role of smart objects in BIM integration-the systematic literature review
KÜBRA YILMAZ ŞENEL
Yüksek Lisans
Türkçe
2024
Mimarlıkİstanbul Teknik ÜniversitesiBilişim Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ASLI KANAN
- Nesnelerin interneti tabanlı evde sağlık monitörleme sisteminin gerçekleştirilmesi
Implementation of internet of things based home health monitoring system
SELÇUK ALTINAY
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. VEYSEL GÖKHAN BÖCEKÇİ
PROF. DR. HAYRİYE KORKMAZ
- Çok ölçütlü sorun çözümüne yönelik bir bütünleşik karar destek modeli
Integrated decision aid model for multiattribute problem solving
YUSUF İLKER TOPÇU
Doktora
Türkçe
2000
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiPROF. DR. FÜSUN ÜLENGİN
- DNS big data processing for detecting customersbehaviour of isp using an optimized apache spark cluster
İSP müşterilerin davranışlarını tespiti için optimize edilmiş bir apache spark kümesi kullanarak dns büyük veri işleme
YOUSEF ALKHANAFSEH
Yüksek Lisans
İngilizce
2022
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. TAHİR ÇETİN AKINCI