Geri Dön

Spammer detection in social bookmarking systems

Sosyal imleme sistemlerinde istenmeyen kullanıcıları belirleme

  1. Tez No: 315338
  2. Yazar: SOGHRA MEHDİNEJAD GARGARİ
  3. Danışmanlar: DOÇ. DR. ŞULE GÜNDÜZ ÖĞÜDÜCÜ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2012
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 79

Özet

Sosyal imleme sistemleri, Web kullanıcılarına, kaynaklarını depolama, organize etmeve bu kaynakların içinde arama yapma oluna? gı sunmaktadır. Buna ek olarak, busistemler, kullanıcılarına, Web üzerinde depolanmı¸ s kaynaklarını, di? ger kullanıcılarlapayla¸ sma fırsatı da sunmaktadır.Bu kullanıcılar, sosyal imleme sitelerinde ortakilgi alanlarına göre çe¸ sitli gruplara üye olup, aktivitelerde bulunabilirler.Sosyal imleme veya benzer sistemlerin yaygın olmasının nedeni çevrimiçi çalı¸ smaları vekolay kullanılabilmeleridir. Kullanıcılar herhangi bir yerden internete ba? glanarak,hesaplarına ula¸ sabilir ve yönetebilirler.Bu sistemlerde dil kısıtlaması olmadı? gıiçin, kullanıcılar istedikleri dilde etiketleme yapabilmektedir. Son dönemlerde, busistemlerin yaygın kullanımıyla beraber büyük bir veri hacmi olu¸ smu¸ stur. Bu verilerinen önemli tarafı gerçek kullanıcılar tarafından üretilmi¸ s olmalarıdır. Bundan dolayıWeb arama motorları için zengin kaynak olu¸ sturmaktadırlar.Arama motorlarınınonlara gönderilen sorguları cevaplayabilmeleri için internet sayfalarını öncedendepolamaları gerekmektedir.Bir sorgu sonucu olarak sayfaları olu¸ sturmaları dakelimelersayesindeolmaktadır. Burada?Index?adıverilenlistelerdeWebsayfalarındageçen kelimeler tutulmaktadır. Böylece arama motorları sadece bu listeyi belleklerindetutmakta ve zamanla geni¸ sletmektedirler. Onlara gelen sorguları da bu indekslerebakarak cevaplamaktadırlar. Aslında söz konusu olan sosyal imleme sistemlerindede kullanıcılar tarafından sayfalara verilen etiketler, indeks olarak kabul edilebilir. Buetiketlerin gerçek kullanıcılar tarafından verilmesi, arama motorlarına bu bilgileri dekullanarak kullanıcıya do? gru sayfalar sunma olana? gı sa? glamaktadır. Web ortamınınher bir alanında istenmeyen aktiviteler görülebilmektedir. Bu aktivitelere en belirginörnek istenmeyen elektronik mektuplardır. Bu mektupların içeri? gini ço? gunlukla satı¸ samaçlı reklamlar olu¸ sturmaktadır. Aslında istenmeyen aktivitelerin ço? gunun amacısatı¸ s yapmaktır ve Web ortamı da bunun için müsait ve ucuz bir ortamdır. Sosyalimleme sistemlerine olan ilginin artması ve arama motorlarının da bu sistemlerdekibilgileri kullanmalarının bir yan etkisi de“istenmeyen kullanıcı”olarak de? gerlendirilenkullanıcı sayısının artmasıdır. Sosyal imleme sistemlerinin kolayca kullanılabiliyorolması da istenmeyen kullanıcıların bu sistemlerde daha rahat aktivite göstermelerineyol açmı¸ stır. Yapılan ara¸ stırmalara göre istenmeyen kullanıcıların temel amaçlarındanbiri, Web ortamı ve sosyal a? glardaki veri trafi? gini kendi olu¸ sturdukları kaynaklarayöneltmektir. Bu do? grultuda, bu kullanıcılar, Web ortamındaki arama motorlarınıve sosyal imleme sisteminin di? ger kullanıcılarını hedef yapıp, yanlı¸ s yönlendirerekamaçlarına ula¸ sma çabasındadırlar. Bu arada istenmeyen kullanıcılar, sosyal imlemesistemlerindeki uygulanan filtrelerin farkına varıp, kendilerini normal kullanıcı olaraktanıtmaktadırlar. Genellikle istenmeyen kullanıcılar, kendilerine özel sayfaları normalveya popüler sayfa göstermekte ve aynı zamanda filtrelere yakalanmayacak ¸ sekildede? gi¸ sik kullanıcı isimleri kullanmaktadırlar.Bu tip aktiviteler, Web ortamının vexxisosyal imleme sistemlerindeki verinin akı¸ sını ve güvenilirli? gini tehlikeye atmaktadır.O yüzden, güçlü bir istenmeyen kullanıcı bulma ve önleme sistemine ihtiyaçduyulmaktadır. Genellikle bu önleme sistemleri üç de? gi¸ sik yöntem kullanılmaktadır.Bu seviyeler ke¸ sif, alt sınıfa indirme veya önleme olarak adlandırılır. Bulma veyake¸ sif yöntemleri kullanıcıların katkısı ve makina ö? grenme tekniklerine dayalıdır. Buseviyedeki ke¸ sif i¸ slemleri kullanıcı bazında, kaynak bazında veya etiket bazındayapılmaktadır. Bu çalı¸ smada, güvenilir bir istenmeyen kullanıcı bulma ve önlemesistemi sunulmaktadır.Bu çalı¸ smada, güvenilir bir istenmeyen kullanıcı bulma ve önleme sistemisunulmaktadır. Burada önerilen istenmeyen kullanıcıları belirleme ve önleme sistemide ke¸ sif seviyesinde olup, makine ö? grenme tekniklerine dayanmaktadır.Geneldemakineö? grenmetekniklerininamacıgeçmi¸ stekiverilerikullanarakyenigelenörnekleriçin tahminlerde bulunmak ve onları kapsayan örüntülere yakınsamaktır. Bu çalı¸ smadaise önceden belirgin olan normal ve istenmeyen kullanıcıların davranı¸ slarını dikkatealınacak, test kümelerindeki belirsiz kullanıcılar makine ö? grenme teknikleri kullanaraksınıflandırılmaktadır.Çalı¸ sma kaynak, kullanıcı ve etiket bazında yapılarak ikia¸ samadan olu¸ smaktadır. ?Ilk a¸ samada ayırd edici özelliklerle istenmeyen aktivitelerbelirlenmeye çalı¸ sılmı¸ stır. Sosyal imleme sistemlerinin sa? gladı? gı örüntü örnekleri,genel olarak, i¸ slenmemi¸ s bir biçimde sunulmaktadır ve ayırd edici özellikleresahip olmamaktadır. Bu yüzden, veri madencili? gi yöntemlerini kullanarak, sunulanverilerden, ayırd edici özelliklere sahip olan nitelikler çıkarmak, sistem açısındanönemli bir a¸ samadır. Bu çalı¸ smada, veri için yüksek ayırd edici özelliklere sahipolan yeni nitelikler ortaya koyulmu¸ stur. Bu nitelikler zaman ve katılım bazındakiincelemelerden ortaya çıkmı¸ stır. Bir sosyal imleme sistemindeki kullanıcıların zamaniçinde o sisteme yaptı? gı giri¸ s ve çıkı¸ slar gözlemlenmi¸ s, oturum bazında ayırılmı¸ stır.Her bir oturum, içerisinde pe¸ s pe¸ se yapılan etiketlemelerin arası 30 dakikayı (e¸ sikde? ger) geçmeyecek ¸ sekilde dü¸ sünülmü¸ stür. Kullanıcıların oturumlardaki davranı¸ slarıizlenmi¸ s, bazı istenmeyen kullanıcıların de? gi¸ sik kullanıcı isimleri kullanarak, aynısaatte tek bir kayna? gı etiketleyerek sistemi yükledikleri gözlemlenmi¸ stir. Bu davranı¸ sbir istenmeyen kullanıcı davranı¸ sı oldu? gundan, sistemdeki kullanıcıların sistemiyükleme oranları ölçülmü¸ stür. ?Imleme sisteminde, kullanıcıların sık etiketlemelerisonucunda bazı Web kaynakları o etiket içeri? gi için referans kaynak duruma gelmi¸ stir.Bu referans sayfaların ziyaretçi sayısı da artarak, o konuyu ara¸ stıran di? ger kullanıcılarda zamanla o sayfaya yönlenmi¸ stir.?Istenmeyen kullanıcılar ise kendi sayfalarınıreferans veya popüler göstermek amacıyla o sayfaları de? gi¸ sik kullanıcı isimleriyleetiketlemektedir.Bu etiketleme aynı saatte oldu? gu zaman, sistemi fazla yüklemefiltresine yakalanmaktadır. Ancak de? gi¸ sik saatlerde yapılan etiketlemeler bu filtreyidevre dı¸ sı bırakmaktadır. Bu nedenle de ikinci bir filtre olması gerekmektedir.Bu amaçla kullanıcıların payla¸ sım oranlarını ölçerek, payla¸ sım yüklenmesi olarakadlandırdı? gımız kavram ortaya çıkmı¸ stır. Az sayıda kullanıcı toplulu? gunun çok büyüksayıda kaynak etiketlemeleri veya aksine çok sayıda kullanıcı toplulu? gunun az sayıdakaynak etiketlemeleri, ve kaynakların gerçek olmayan güven oranını yükseltmek, biristenmeyen aktivite göstergesidir. Bu nedenle kullanıcıların payla¸ sım oranlarını ölçmefikriyle ikinci bir filtre yapılmı¸ stır. Zaman ve payla¸ sım gibi kavramlardan çıkartılanayırd edici özellikler bu çalı¸ smanın ilk a¸ samasını olu¸ stururken, ikinci a¸ samada dakullanılmaktadır.Sadece ayırd edici özellikleri kullanarak sistemdeki istenmeyenkullanıcıların ço? gunun tanımlanması imkansızdır. Bu nedenle bu çalı¸ smanın ikincixxiikısmında, anlamsal yöntemler kullanılmı¸ stır. Aslında anlamsal yöntemler bundanöncede bu tür problemlerin çözülmesinde iyi performans göstermi¸ slerdir.?Imleme sistemlerini anlamsal olarak incelemekten kasıt, kullanıcıların, kaynaklarınve etiketlerin arasındaki ba? glantıların incelenmesidir.Literatürde bu sistemlerinanlamsal olarak incelenmesi için de? gi¸ sik yöntemler önerilmi¸ stir.Bizim tercihetti? gimiz yöntem ise çok hızlı çalı¸ san ve zaman içeresinde az de? gi¸ sim gerektiren biryöntemdir. ?Imleme sistemleri yeni gelen kullanıcılara açıktır ve kullanıcı sayılarıda gün geçtikçe artmaktadır.Yeni kullanıcılar, kaynaklar ve etiketler eklenirken,istenmeyen kullnıcıları önleme sisteminin az miktarda de? gi¸ sime u? graması büyük biravantajdır. Öte yandan daha önce belirtti? gimiz gibi istenmeyen kullanıcıların zamaniçinde davranı¸ s de? gi¸ stirmeleri nedeniyle, yeni geli¸ sen davranı¸ sların da anla¸ sılmasıgerekmektedir.Sistemdeki tüm kullanıcıların aktiviteleri, ba? glantıları ve davranı¸ sde? gi¸ simlerini anlamak için o sistemin tüm yapısına hakim olunması gerekmektedir.Tüm bu gereksinimleri gözden geçirerek anlamsal inceleme kısmında“Trust Rankyöntemi”adıyla anılan ikinci çerçeve için seçilmi¸ stir.“Trust Rank”yönteminde kullanıcıların ba? gımlılıkları ortak kaynak veya ortaketiketler veya ba¸ ska ortak özelliklerle ölçülüp, bir benzerlik matrisi olu¸ sturulur.Sistemdeki belirgin normal ve istenmeyen kullanıcılar ise çekirdek dizisinde yeralır. Çekirdek dizide normal kullanıcılar pozitif ve istenmeyen kullanıcılar negatifve test kullanıcıları ise sıfır olarak yerle¸ stirilmi¸ stir.Bu formül çalı¸ stırıldıktansonra test kullanıcılarının normal veya istenmeyen kullanıcı olup olmadıklarıbelirlenir.Bu da test kullanıcılarının hangi oranla normal veya istenmeyenkullanıcılarla ba? glantılı olmalarına dayanmaktadır.Bu çalı¸ smada“Trust Rank”yönteminin temel unsurları olarak tanımlanan çekirdek dizisi ve benzerlik matrisiüzerinde iyile¸ stirmeler yapılmı¸ stır. Çekirdek dizideki belirgin kullanıcıların boyutunuazaltmak için destek vektör makinelerinin kullanmasını önerilmi¸ stir. Kullanıcılarınbirinci a¸ samada önerilen ayırd edici özelliklerinin de? gerleri üzerinden destek vektörmakineleri çıkarılmı¸ s ve çekirdek dizide bu vektörlerin kullanılmasıyla dizinin boyutuküçülmü¸ stür. Bu dizinin küçülmesi zaman ve yer karma¸ sıklı? gı konusunda iyile¸ smeanlamına gelmektedir. Ayrıca benzerlik matrisinin olu¸ sturulmasında sadece kaynaklarde? gil o kaynakların sunucuları kullanılmı¸ stır.Bu de? gi¸ sim kullanıcılar arasındakibenzerli? gi arttırdı? gı için daha do? gru sonuçlar vermi¸ stir. Sistemde bazı kullanıcılarhep izole oldu? gundan, benzerlik yöntemi ile çekirdek diziden onlara ula¸ sılmamaktadır.Bu nedenle kullanıcılar arasında en ideal ba? glantıyı kurmak için, kosinüs benzerli? gikullanılmı¸ stır. Önerilen birinci ve ikinci çerçevelerde sunulan yöntemler üzerindetestler yapılmı¸ s, bu yöntemlerin istenmeyen kullanıcıların belirlenmesinde etkilioldukları ispatlanmı¸ stır.

Özet (Çeviri)

One of the the biggest technological developments of the recent century is probablythe Internet. It has brought together people from all corners of the world with differentcultures. Millions of users pass their time to read, learn, research or to do businessusing the internet. The need of users for organize their favourite resources makecompanies to serve services which resulting organizing or sharing of their resourcesefficiently.This lead to the development of what is currently known as“socialbookmarking”sites that have taken the internet world by storm. Bookmarking systemsenable users to store, organize and search their resources. Furthermore, a socialbookmarking system allows users to share their resources with others and even joingroups of people with similar interests.The data size in social bookmarking systems has been increased sharply in recent yearswith the usage of such systems. The importance of data in these systems is due to theirdata type which is filtered by users. Then they can be a good source for the searchengines and help them to easily figure out the contents of Web pages. In addition ofunderstanding the Web contents directly, these social bookmarking systems also helpsearch engines to rank the Web pages too.However, such systems attract spammers due to their ease of use and popularity.SpammershavestartedmisleadingsearchenginesandotherbookmarkingsystemusersinordertodirectWebtraffictowardstheirownpages. Tomaketheirpagesmorevisiblethey use different techniques in order to mislead search engines. They are also awareof filters in the bookmarking systems and mostly act as normal users or change theiractivity type time to time to deceive the spam detection filters.Strong prevention and detection methods in social bookmarking systems areindispensable in order to stop spam activities and guaranty the accuracy and reliabilityof information. The on-line and real time techniques of detection and prevention wouldbe more efficient. In the literature there are some methods which introduced to combatwith this problem. Some of these techniques focus on just posts of users where someothers try to understand the spam activity by consideration of users treatment in thesystem. Directly referring to the resources to realize their contents would be verytime consuming and finding spammers on post levels or user levels are more accepted.In both of these levels different techniques are available. Finding spam features andclassifying users as spam/non-spam base on those features is one of them. Semanticanalysis of social bookmarking systems is the other proposed technique. Here Spamdetection is done by semantic analysing the users activity or analysing the relationsbetween users in the system and also semantically analysing their posts.Here in this thesis, we have a review on works in the literature related toward thisproblem.In most of those researches semantic analysis of the system has beenxixconsidered. However some others worked on finding the efficient features for spamdetection task.In this work, we first introduce a novel framework for spam detection task in socialbookmarking systems . Here, we propose a set of new features to improve the accuracyof spammer detection. Our experiments show that our features demonstrate a highdiscriminative power. Next we modify and use a semantic technique to improve theresults of our proposed spam detection method.A performance evaluation of our proposed method over other spammer detectionmethods indicate that the proposed model yields an improvement of the predictionaccuracy

Benzer Tezler

  1. Exploratory wrangling and annotation of tweets

    Tweetler üzerinde işaretleme ve keşif amaçlı kümeleme

    BERKAY DİNÇER

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. DR. YÜCEL SAYGIN

  2. Using of machine learning for spam and malware detection in emails based on regression algorithm

    Makine öğreniminin regresyon algoritmasına dayalı e-postalarda istenmeyen posta ve kötü yazılım tespiti için kullanılması

    RAJAA MOHAMMED HAMZAH AL-MAMOORI

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Bilişim Teknolojileri Ana Bilim Dalı

    YRD. DOÇ. DR. OĞUZ KARAN

  3. Türkçe istenmeyen e-postaların derin öğrenme ile tespit edilmesi

    Detection of Turkish spam email by deep learning

    ERSİN ENES ERYILMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOndokuz Mayıs Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ERDAL KILIÇ

  4. Comparison of pattern-matching algorithms on spam email detection

    Spam emaıl tespiti üzerinde pattern-matchıng algoritmalarının karşılaştırılması

    HEZHA M.TAREQ ABDULHADI ABDULHADI

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CİHAN VAROL

  5. SMS spam filtering on mobile communication

    Mobil iletişimde SMS filtreleme yöntemleri

    ISRAA HUSSAIN

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SIRMA YAVUZ