Geri Dön

Web nesneleri için kalitenin belirlenmesi

Quality detection for web objects

  1. Tez No: 324025
  2. Yazar: AHMET AYCAN ATAK
  3. Danışmanlar: DOÇ. DR. ŞULE GÜNDÜZ ÖĞÜDÜCÜ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: Türkçe
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 57

Özet

Web içerdiği nesnelerin sayısı açısından bakıldığında gün geçtikçe artan birhızla büyümektedir. Günümüzde Web'in ulaştığı boyut, içerdiği nesnelerinkalitelerinin uzmanlar tarafından elle belirlenmesini imkansız halegetirmektedir. İnternetteki otorite eksikliği ve kullanıcıların Web'e tamamenözgürce içerik ekleyip, bu içerikleri idare etmesi de kalitesi düşük içeriğinveya kötü niyetli yaramaz (spam) içeriklerin Web'deki miktarını önemli ölçüdearttırmaktadır. Bu çalışmada, belirtilen nedenlerden ötürü önemi artan, Web'dekinesnelerin kalitelerinin tespit edilmesi üzerine çalışılmıştır.İlk etapta yaramaz mim (bookmark) nesnelerinin yaramaz olmayanlardan ayrılmasıgörevini içeren ikili karar problemi çözülmeye çalışılmıştır. Bununiçin eldeki folksonomi verisi ilişkisel bir veriymiş gibi kabul edilerek,ilişkisel verinin sınıflandırılması için önerilmiş olan İlişkisel BayesSınıflandırıcı (İBS) ile karar verme işlemi gerçekleştirilmiştir. Bunun yanındaC4.5 karar ağacı algoritması, nitelik seçimi amacıyla eldeki veriye uygun olacakşekilde uygulanmıştır. Yapılan deneylerle, önerdiğimiz yöntemin yaramaznesneleri belirleme de oldukça başarılı olduğu görülmüştür. Sonuçlar veyöntemin artı-eksi yönleri, aynı veri kümesini kullanan diğer çalışmalar gözönüne alınarak tartışılmıştır.İkinci olarak internette yer alan sitelerin kalite seviyelerine görederecelendirilmesi üzerine çalışılmıştır. Burada karşı karşıya kalınan problemkategori gibi ikiden fazla değer alabilen ve güvenilirlik, tarafsızlık gibigöreceli değerlendirilmesi gereken kalite sınıfına ait niteliklerin tahminedilmesidir. Bu yüzden, söz konusu çoklu karar problemlerini içeren kalitetespitinin yapılması için bir sistem önerilmiştir. Önerilen sistemden deneylersonucunda tatmin edici sonuçlar alınmıştır. Ayrıca, bu çalışmadakullanılan veri kümesinin sahip olduğu göreli sınıf etiketlerininetiketlenmesi safhasında problem olması ve yine aynı veri setinde birçok siteiçin terim vektörünün bulunmaması gibi sorunlara da değinilmiştir.Bir önceki çalışma sırasında kullanılan veri kümesindeki bazı sitelerin bazınitelik değerlerinin eksik olduğu belirlenmiştir. Bu tür sitelerin kalitesınıfının belirlenmesinde problem olması nedeniyle, üçüncü çalışmada bu problemiçin bir çözüm önerilmiştir. Bu tür sitelerin kalite sınıflarının belirlenmesiamacıyla çizge (graph) üzerinde yayılma (propagation) yapılmıştır. Kalitesınıfını belirleyemediğimiz bir sitenin, sınıfını bildiğimiz komşu sitelerikullanılarak söz konusu site için belli fonksiyonlar yardımıyla sonucagidilmiştir. Buradaki problem ise çizgenin bağlı olmayan parçalar içermesidir.Bu konuda da yapılabilecek olası çalışmalara tez içerinde değinilmiştir. Çizgeüzerinde yayılma ile istenilen sonuçlara, yani daha fazla sayıda siteninkalitesi belirlenirken, performansın düşmemesi amacına başarıyla erişilmiştir.

Özet (Çeviri)

Web is growing rapidly day by day. Today, if size of the Web is considered, itis impossible to detect quality of the Web objects such as e-mail or Web pagesmanually by experts. Lack of authority in the Web and users' freedom on addingand managing content on the Internet causes increase of the number of spam andlow quality content. That's why, in this study, detecting quality of the Webobjects, which is a very important subject due to mentioned reasons, is studied.At the first step, it is studied to split spam bookmark objects from non-spambookmark objects which is a two-class decision problem. For this, availablefolksonomy data is adopted as relational data and then Relational BayesianClassifier (RBC) which is proposed for classification of relational data is usedfor decision process. Also, C4.5 algorithm is adopted to available data set forattribute selection. With experimental results, for detecting spam content, itis shown that the system proposed in this study is quite succesfull. Results ofthe proposed system and both positive and negative features of it mentionedaccording to other studies focused on the same data set.At the second step, we study about ranking Web sites according to theirquality levels. Here, the problem we faced is multi-class decision problemcaused by multi-class valued attributes such as category and categories whichrequires relatively determination such as trustiness and neutrality. That's why,a system which handles these decision problems is proposed. For proposed system,satisfactory results are obtained with experimental results. Also, problemsrelated with dataset are pointed. For example, for most of the Web sites, thereisn't any term vector which is the base element of our framework. Besides,according to distribution of relative class attributes such as trustiness,neutrality and bias, it is concluded that these class attributes are labeled byexperts without any standard.At the third step, as continuation of the study at the second step, for Websites that don't have category prediction results due to term vector absence,graph propagation is performed to generate category prediction results for thesepages. For Web sites that don't have category prediction results, categoryprediction results are obtained according to their neighbors' categoryprediction results and some propagation formulas. Here, problem is the nodesthat are seperate from the biggest and connected graph component. For thisproblem, possible future studies are mentioned in the thesis. With graphpropagation, intended results, namely generating results for more Web siteswithout any performance decrease, are taken.

Benzer Tezler

  1. Visual attention and visual distortion sensitivity based regional rate allocation in JPEG2000

    JPEG2000'de görsel dikkat ve görsel bozunum duyarlılığı tabanlı bölgesel bit hızı dağıtımı

    MESUT PAK

    Doktora

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ULUĞ BAYAZIT

  2. BIM entegrasyonunda akıllı nesnelerin rolü-sistematik literatür taraması

    The role of smart objects in BIM integration-the systematic literature review

    KÜBRA YILMAZ ŞENEL

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Mimarlıkİstanbul Teknik Üniversitesi

    Bilişim Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ASLI KANAN

  3. Nesnelerin interneti tabanlı evde sağlık monitörleme sisteminin gerçekleştirilmesi

    Implementation of internet of things based home health monitoring system

    SELÇUK ALTINAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. VEYSEL GÖKHAN BÖCEKÇİ

    PROF. DR. HAYRİYE KORKMAZ

  4. Çok ölçütlü sorun çözümüne yönelik bir bütünleşik karar destek modeli

    Integrated decision aid model for multiattribute problem solving

    YUSUF İLKER TOPÇU

    Doktora

    Türkçe

    Türkçe

    2000

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    PROF. DR. FÜSUN ÜLENGİN

  5. DNS big data processing for detecting customersbehaviour of isp using an optimized apache spark cluster

    İSP müşterilerin davranışlarını tespiti için optimize edilmiş bir apache spark kümesi kullanarak dns büyük veri işleme

    YOUSEF ALKHANAFSEH

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. TAHİR ÇETİN AKINCI