Geri Dön

İnternet madenciliğinde istatistiksel metotların uygulanması

Application of statistical methods in web mining

  1. Tez No: 246474
  2. Yazar: BURCU ÇAĞLAR
  3. Danışmanlar: DOÇ. DR. H. CENK ÖZMUTLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilim ve Teknoloji, Mühendislik Bilimleri, Science and Technology, Engineering Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: Türkçe
  9. Üniversite: Uludağ Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Endüstri Mühendisliği Bölümü
  12. Bilim Dalı: Endüstri Mühendisliği Ana Bilim Dalı
  13. Sayfa Sayısı: 99

Özet

İnternetin yaygın kullanılabilirliği, web sayfalarının sayısında büyük bir artışı da beraberinde getirmiştir. Benzer bilgileri barındıran web sayfalarına ulaşabilmek için kullanılan arama motorları, internet kullanıcıları için vazgeçilmez olmuştur. Arama motorlarının geliştirilmesi için kullanıcıların davranışlarının tahmin edilmesi önemli hale gelmiştir. Geliştirilen arama motorlarıyla kullanıcıların daha kısa sürede aradıkları bilgiye ulaşabilmesi sağlanabileceği gibi, kullanıcı temelli arama motorları da geliştirilebilir. Arama motoru kullanıcı davranışlarının tahmininde anlam bazlı veya anlam bazlı olmayan metotlar kullanılabilir. Bu metotlarda en önemli nokta, konu değişikliklerinin tahminidir.Şimdiye kadar konu değişikliği tahmini için anlam bazlı olmayan pek çok istatistiksel yöntem, aynı veriler üzerine uygulanmıştır. Excite ve FAST arama motorlarından alınan verilerin kullanıldığı yöntemlerin sonuçları incelendiğinde, sorgulardaki yazım farklılıklarının yöntemlerin hatalı olarak konu değişimi tahmini yapmasına sebep olduğu gözlenmiştir.Çalışmada yazım farklılıklarından kaynaklanan hatalı tahminlerin azaltılması hedeflenmiştir. Bu amaçla, anlam bazlı olmayan karakter n-gram yöntemi Excite ve FAST verilerine uygulanmıştır. İkinci bir çalışma olarak aynı verilere uygulanan önceki çalışmaların performans değerlendirmeleri yapılmış ve değerlendirme sonucunda bulunan en iyi yöntemin tahmin sonuçlarına karakter n-gram yöntemi uygulanarak tahmin sonuçları güncellenmiş ve her iki çalışmanın performans değerlendirmeleri yapılmıştır.

Özet (Çeviri)

The widespread availability of Internet has brought about significant increase in the amount of web pages. Search engines that utilize to access web pages which include similar information have become indispensable for internet users. In order to enhance better search engines, determining search engine users? behaviors has become important. Due to developed search engines, users could reach information in a short time, and also user based search engines could be built. Content based or content-ignorant methodologies can be used for determining search engine users? behaviors. The most important thing in these methodologies is to identify the topic changes.To date, many content-ignorant studies have been performed to same datasets with the aim of automatic new topic identification. Due to performance results of these content-ignorant studies which use Excite and FAST search engines? datasets, it is observed that spelling errors has caused topic shift estimates by mistake.It is aimed to reduce wrong estimates that are based on spelling errors in this study. For this purpose, a content-ignorant methodology called character n-gram is applied to Excite and FAST datasets. In addition, previous content-ignorant applications that use same datasets are evaluated by their performance, then considering the evaluation results, the topic shift estimations are updated by implementing character n-gram method to the most successful content-ignorant method?s estimation results and performance evaluation is performed for both studies.

Benzer Tezler

  1. Pre-release forecasting of imdb movie ratings using multi-view data

    Gösterime girmemiş filmlerin ımdb puanının farklı özellik kümeleri kullanılarak tahmin edilmesi

    BEYZA ÇİZMECİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞULE ÖĞÜDÜCÜ

  2. Veri madenciliğinde kümeleme analizi yöntemlerinin incelenmesi ve sağlık bilimleri alanındaki uygulamaları

    Evulation of cluster analysis in the methods of data mining and its applications in health sciences

    NİHAN MÜNİSE KAZAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Biyoistatistikİstanbul Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    PROF. DR. AHMET DİRİCAN

  3. Kümeleme analizi yöntemleri ile covıd-19 verilerinin incelenmesi

    Investigation of covid-19 data using with clustering analysis methods

    EZGİ SEREN CANBAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    İstatistikAnkara Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. ESİN KÖKSAL BABACAN

  4. Büyük veri analizi yöntemleri ve yazılım teknolojileriyle metin madenciliği

    Text mining using big data analysis methods and tools

    EVREN PALA

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHava Harp Okulu Komutanlığı

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÜRAY YILMAZ

  5. Destek vektör makineleri yardımıyla tüketici kredilerinin sınıflandırılması

    Classifying consumer loans by means of support vector machines

    KAYAHAN KAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    PROF. DR. FERHAN ÇEBİ