Geri Dön

Türkçe arama motoru sonucu kümeleme çalışmaları

Search result clustering studies in Turkish

  1. Tez No: 329681
  2. Yazar: BURAK DURAL
  3. Danışmanlar: DOÇ. DR. BANU DİRİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2013
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 120

Özet

Internetteki bilgiler gün geçtikçe artmakta ve bu geniş bilgi ağında istenilen bilgiye ulaşmak büyük bir problem oluşturmaktadır. Bu problemi çözmek adına geliştirilen arama motorları, internet sitelerini olabildiğince indeksleyerek, kullanıcıların bu veriler üzerinde istedikleri bilgileri aramalarına imkan sağlamaktadır.Internet gibi geniş bir ağ düşünüldüğünde, yapılan aramalarda ?seçilen sorguya göre- yeri geldiğinde milyonlarca internet sayfası bulunabilmektedir. Bulunan bu kadar sonuç arasından kullanıcının ulaşmak istediği bilgiye en yakın sayfayı bulması ise, ayrı bir problem oluşmaktadır. Bu problemi çözmek için günümüz arama motorları bir çok yöntem sunmaktadır. Arama sonuçlarının belirli kurallara göre derecelendirilerek sıralandırılması için sonuçların kümelenmesi ya da gruplanmasına dayanan yöntemler geliştirilmiştir.Arama sonucunun kümelenmesi de, bu probleme çözüm getirmek için uygulanan yöntemlerden biridir. Arama motoru tarafından getirilen sonuçların, çeşitli bilgi çıkarımı yöntemleriyle içeriğine göre kümelere ayrılmasına dayanır. Arama sonuçları, kullanıcıya açıklayıcı etiketler içeren kümeler halinde gösterilirler. Böylece kullanıcı, kümelerden aradığı bilgiye en yakın olanını seçerek, aradığına daha çabuk ulaşabilir.Arama sonucu kümeleme için bir çok çalışma yapılmıştır. Bu alanda kullanılan en yaygın ve hızlı algoritmalardan biri olan Son Ek Ağacı Kümeleme (Suffix Tree Clustering) algoritmasıdır.Bu tez'deki amacımız, Son Ek Ağacı Kümeleme algoritmasıyla ve doküman benzerliğine dayanan kendi geliştirdiğimiz bir algoritmayla Türkçe sayfalar üzerinde arama sonucu kümeleme çalışmaları yapmak ve mümkün olduğunca bu algoritmaları Türkçe için daha iyi sonuçlar verecek şekilde düzenleyerek başarısını ölçmektir.Çalışmamız çerçevesinde, doküman benzerliğine dayanan DBC, klasik SAK (KSAK), KSAK üzerinde geliştirmeler yaparak oluşturduğumuz GSAK ve GSAK'den elde edilen sonuçların DBC sonuçlarıyla karşılaştırılarak geliştirilmesine dayanan M-GSAK yöntemleri kullanılmıştır. Bu yöntemler kullanılarak yaptığımız deneyler neticesinde, Türkçe arama motoru sonuçları üzerinde, GSAK ve M-GSAK ile yaptığımız kümeleme işlemlerinde, KSAK'ye göre daha başarılı sonuçlar alınmıştır. F-Ölçüm sonuçlarına göre GSAK, KSAK'den %77, M-GSAK de, GSAK'den %13 oranında daha başarılı olmuştur. Ayrıca üzerinde geliştirmeler yapılan SAK tabanlı yöntemler ile doküman benzerliği tabanlı yöntemlerden daha başarılı sonuçlar alındığı da görülmüştür. GSAK, DBC'den %9 oranında daha başarılı sonuç elde etmiştir.

Özet (Çeviri)

Information in the Internet increasing day by day and reaching desired information in this huge network is a major problem. In order to solve this problem, web search engines developed. Web search engines can index web sites to allow users search for the information they need on indexed data.If a large network such as internet is concerned, depends on the search query, a web search can return millions of web pages. Finding the most relevant information in this huge result set is a separate problem. Today?s search engines provide several ways to solve this problem. Generally; methods relies on sorting search results according to ranking with certain rules or clustering and grouping results developed.Search result clustering as well, is one of the methods to bring solution to this problem. It depends on applying various information extraction techniques to search results for clustering them by their content. The search results are displayed to users in clusters that contain descriptive labels. Thus, user selects one of the closest clusters to the information he/she need and he/she can access the information he need quicker.Many studies have been conducted for search result clustering. Suffix Tree Clustering (STC), one of the most widely used and fast algorithm in this field.Our aim in this thesis, performing search result clustering operations with Suffix Tree Clustering and another algorithm based on document similarity on Turkish web pages. Then, trying to improve these algorithms to get better results and measuring success of these algorithms.In our work, we used DBC which is based on document similarity calculation, classical STC, GSAK which is an imporved STC that we prepare and M-GSAK, which tries to improve GSAK results with using DBC results. On our tests, GSAK and M-GSAK get better results than classical SAK algorithm on Turkish web results. Depends on the F-Score calculations; GSAK scored 77% better performance than KSAK and M-GSAK scored 13% more than GSAK. Also we can say that; imporved STC techniques gets better results than document similarity calculation based DBC method. GSAK scored 9% better than DBC.

Benzer Tezler

  1. Türkiye'deki trafik kazalarının mekansal ve zamansal analizi

    Spatial and temporal analysis of traffic accidents in Turkey

    AHMET ATALAY

    Doktora

    Türkçe

    Türkçe

    2010

    TrafikAtatürk Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET TORTUM

  2. Araştırmacı ağı arama motoru

    Researcher network search engine

    YASİN YENER

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMaltepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TURGAY TUGAY BİLGİN

  3. Markaların dijital pazarlama stratejileri: Arama motoru uygulamaları üzerine bir değerlendirme

    Digital marketing strategies of brands: An evaluation on search engine applications

    ERSİN ATAKUL

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Halkla İlişkilerMaltepe Üniversitesi

    Halkla İlişkiler ve Tanıtım Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖZGECAN KALKAN

  4. Dijital reklamcılıkta yeniden pazarlamanın (remarketing) satın alma niyeti üzerindeki rolü: Z kuşağı üzerine bir araştırma

    The role of remarketing in purchasing intent in digital advertising: A research on generation Z

    ZEYNEP KARASU AKÇA

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Halkla İlişkilerGümüşhane Üniversitesi

    Halkla İlişkiler ve Tanıtım Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ERSİN DİKER

  5. İşletmelerin dış ticareti şekillendirmesinde arama motorlarının etkisi

    The effect of search engines in the shaping of foreign trade by businesses

    YASİN ARĞIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    İşletmeManisa Celal Bayar Üniversitesi

    Uluslararası Ticaret Ve Finansman Ana Bilim Dalı

    PROF. DR. ALİ RIZA GÖKBUNAR