Geri Dön

Etkin sorgu önerileri için kullanıcı sorgularının görev tabanlı yönetilmesi

Task based management of user queries for effective query suggestions

  1. Tez No: 899096
  2. Yazar: NURULLAH ATEŞ
  3. Danışmanlar: DOÇ. DR. YUSUF YASLAN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 111

Özet

İnternet kullanıcılarının dolaylı niyetlerinin doğru bir şekilde tahmin edilmesi, çevrimiçi arama deneyimlerini etkinleştirmekte ve kullanıcıların görevlerini daha verimli tamamlamalarına yardımcı olmaktadır. Kullanıcılar, aradıkları bilgilere ulaşmak için çeşitli sorgular yaparak zaman sıralı sorgu günlüklerini oluşturmaktadır. Bu süreçte, internet kullanıcılarının bilgi ihtiyaçlarını karşılamak amacıyla arama motorlarıyla etkileşime girmesi sonucu büyük miktarda arama sorgusu kaydedilir. Sorgu verilerinin doğru analiz edilmesi, kullanıcı görevlerinin tahmin edilmesini ve daha iyi anlaşılmasını sağlar. Aynı oturum içinde farklı arama görevlerine ait sorgular bulunabileceği gibi, tek bir arama görevi de farklı oturumlara yayılabilir. Arama Görevi Özütleme (AGÖ), aynı niyeti taşıyan ve sorgu günlüğü verisine dağılmış sorguları, benzersiz kümeler halinde gruplama (kümeleme) işlemidir. Kullanıcının niyetinin doğru bir şekilde tanımlanması, arama motorları ve e-ticaret platformlarında sorgu önerisi ve yeniden formülasyon, kişiselleştirilmiş öneriler ve reklamcılık gibi arama yönlendirme süreçlerinin performansını arttırmaktadır. Ancak, bu süreçte AGÖ'nün etkinliği, karşılaşılan zorlukların üstesinden gelinmesine bağlıdır. AGÖ sırasında, kısa ve hatalı sorgular ile eksik anahtar kelimeler gibi iç zorlukların yanı sıra, bilinmeyen küme sayısı ve sınırlı etiketli veri seti gibi dış zorluklarla da karşılaşılabilmektedir. Bu tez kapsamında, internette sorgular ile gerçekleştirilen gezinme deneyimini iyileştirmek için üç çalışma yapılarak AGÖ problemine çözümler sunulmuştur. Bu çalışmalardan ilki“Denetimli Öğrenme Tabanlı Sorgu Segmenti Özütleme”adı ile sorgu segmenti tespitinin gerçekleştirilmesidir. Sorgu segmentleri bazen bir arama görevinin parçası olarak, bazen de arama görevinin tamamı olarak ortaya çıkabilir. Bu durum, segmentlerin doğru bir şekilde tanımlanmasını ve bir araya getirilmesini önemli kılar. Arama görevi çalışmalarında sıkça kullanılan algoritmalardan biri olan Baş Kuyruk Bileşenler ile Sorgu Kümeleme (QC-HTC) algoritması, arama görevlerini tespit etmek için sorgu segmentlerini bir araya getirerek uygun segmentlerin nasıl birleştirilebileceğine odaklanmaktadır. Bu sebeple, AGÖ çalışmalarına başlamadan önce, bahsedilen sorgu segmentlerini tespit eden bu çalışma gerçekleştirilmiştir. İkinci çalışma, Ağırlıklı Bağlı Bileşenler ile Sorgu Kümeleme (QC-WCC) ve ayrıca QC-HTC çizge kümeleme algoritmalarını kullanan Siyam Ağı (SA) ile Çizge Tabanlı Arama Görevi Özütleme gerçekleştiren bir çalışmadır. Bu iki çizge kümeleme algoritması, iki sorgu arasındaki benzerliğe ihtiyaç duyduğundan, bu tezde sorgular arasındaki benzerliği tespit etmek için SA kullanılmıştır. SA'nın, iki örnek arasındaki benzerliği az veriyle tespit edebilme kabiliyeti, onu arama görevi problemi için en uygun yöntemlerden biri haline getirmektedir. SA'lar arasındaki benzerliği bulmak için iki nesne genellikle ağın girişinde, aynı mimari ve parametrelere sahip paralel bir katmanda işlenir. Bu yöntem, Siyam mimarisinin iki girdi arasındaki ilişkileri (benzerlik/farklılık) modelleme konusunda daha doğrudan ve etkili olmasını sağlar. Ayrıca, her iki girdi aynı ağ yapısını ve parametrelerini kullanarak işlendiği için, SA öğrenme sürecinde daha az parametreyle daha verimli hale gelir. Bu sayede, özellikle az etiketli veri içeren AGÖ gibi durumlarda, modelin genelleme yeteneği artar ve daha iyi sonuçlar elde edilebilir. Bu tez kapsamındaki son çalışmada, k-kontur Tabanlı Tekrarlayan Derin Çizge Kümelemesini Kullanarak Arama Görevi Özütleme gerçeleştirilmiştir. QC-WCC ve QC-HTC algoritmalarının, AGÖ için en sık kullanılan kümeleme yöntemleri olduğu belirtilmiştir. Bu algoritmalar, arama görevlerini (kümleleri) belirlerken yalnızca belirli bir eşik değerinin üzerindeki ikili sorgu benzerliklerini kullanmakta ve“iki sorgu arasındaki benzerlik”dışında başka bir çizge topolojik özelliğini dikkate almamaktadır. AGÖ için en yaygın olarak kullanılan yöntemlerin çizge tabanlı olması, bu tez çalışmasını çizge tabanlı bir AGÖ için bir çözüm yöntemi aramaya yönlendirmiştir. Bu nedenle, çizgenin derin topolojik özelliklerinden yararlanan bir model önerilmiştir. Yukarıda belirtilen çalışmalar aşağıda üç bölümde genişletilmiştir. Sorgu segmentasyonu, kullanıcı sorgularını analiz ederken yaygın olarak gerçekleştirilen ilk aşamadır ve ardışık sorguların aynı alt göreve ait olup olmadığını belirler. Sorgu segmentasyon sürecindeki herhangi bir eksiklik, doğrudan görev tanımlamayı ve dolaylı olarak sorgu önerisi gibi diğer ileri sorgu tabanlı problemleri ve faaliyetleri olumsuz etkileyebilir. Güncel çalışmalar, sorguların ifade ettiği anlamı tespit etmek için Özyineli Sinir Ağları (ÖSA) ve dikkat tabanlı Yapay Sinir Ağlarına (YSA) odaklanmıştır. Bu tezde, sorguların gömme vektörlerini sorgu segmentasyon problemine özgü olarak iyileştirirken, bir karar ağı içeren Siyam Evrişimsel Sinir Ağı (ESA) önerilmektedir. Önerilen yöntem, Bağlam Dikkat Mekanizmalı Uzun Kısa-Süreli Bellek (İng. Context Attention based Long Short Term Memory (CA-LSTM)) modeli ve Çift Yönlü Özyineli Sinir Ağları (İng. Bidirectional Recurrent Neural Network (BiRNN)) tabanlı modeli ile Webis Arama Görevi Korpusu 2012 (WSMC12) ve Çapraz Oturum Görevi Çıkarma (CSTE) veri setleri üzerinde karşılaştırılmıştır. Modelimiz, \%95 performans göstererek mevcut modellere göre \%1'lik bir iyileşme sağlamış ve CSTE veri setinde \%81 doğruluk oranı ile önceki en iyi sonuçlara göre sınıflandırma doğruluğunda \%6'lık bir artış elde etmiştir. Derin öğrenme modelleri, eğitim için büyük miktarda veri gerektirir; ancak, arama görevi etiketli veri kümeleri nadir ve küçüktür. Tez kapsamında yapılan ikinci çalışmada bu sınırlamaların üstesinden gelmek için, hem mesafe metriklerini hem de karar ağlarını kullanan bir yapıyı özellik çıkarma süreciyle entegre eden Çizge Tabanlı Arama Görevi Özütleme (İng. Graph based Search Task Extraction Using Siamese Network (Graph-SeTES)) modeli önerilmektedir. Graph-SeTES, kısa sorgular için Wikipedia2vec, hatalı sorgular için fastText kullanrak AGÖ'nün iç zorluklarına çözüm üretmeye çalışmaktadır. Ayrıca, SA ile az etiketli veri ile bile iyi sonuçlar vererek AGÖ'nün dış zorluklarının üstesinden gelmeye çalışmıştır. Graph-SeTES, literatürdeki yüksek başarı gösteren AGÖ modelleri ile karşılaştırılmış ve onlara kıyasla daha iyi sonuçlar elde etmiştir. Sonuçlar, CSTE veri setinde en iyi temel modele göre \%6 daha iyi çıkmış ve bu performans farkı WSMC12 veri setinde de korunmuştur. Mevcut yöntemlerin çoğu, sorgular arasındaki ikili ilişkileri kullanan çizge tabanlı kümeleme algoritmalarını tercih etmiştir. Bunun nedeni, çizge tabanlı kümeleme algoritmalarının hem yerel (örneğin, iki sorgu arasındaki doğrudan bağlantı) hem de küresel (örneğin, birden fazla sorgu grubunun oluşturduğu genel yapı) bilgiyi kullanarak benzer sorguları doğal bir yapıda kümeleyebilmesidir. Ancak, bu yöntemler çizge topolojik yapı özelliklerini kullanmak yerine, basit bir eşik değerine göre çizgeyi kümeler. Literatürdeki son çalışmalar, sorgu sayısının artmasıyla model boyutunun büyümesini engellemek için derin kümeleme katmanlarını kullanmıştır. Ancak, bu modeller etiketli veri gerektirmekte ve modern dil modellerinin gömme temsillerini göz ardı etmektedir. Bu çalışmada, veri etiketlemesi gerektirmeden arama görevlerini özütlemek için çizge topolojik özelliklerini kullanan yenilikçi bir Bağlayıcı Yakınlık ve Kümeleme Katmanı Kullanan k-Kontur Tabanlı Grafik Evrişimsel Ağ (İng. k-Contour based Graph Convolutional Network Connective proximity Clustering Layer (CoGCN-C-CL)) mimarisi önerilmektedir. CoGCN-C-CL, sorgu temsillerini ve arama görevlerini eş zamanlı olarak öğrenir. K-tepe algoritması uygulanarak çizgenin çevresine göre daha yoğun olan yüksek ilişkili k-kontur alt çizgeleri çıkarılır. K-konturlar, çizgenin farklı kenar yoğunluklarına sahip, farklı ve bağımsız bölgelerini tanımlarken, Çizge Evrişimli Ağ (ÇEA), bu bölgelerdeki düğümler arasındaki etkileşimlerin kullanılmasını sağlar. Deneysel sonuçlar, CoGCN-C-CL'in, sık kullanılan arama görevi veri kümelerinde mevcut en iyi arama görevi kümeleme yöntemlerinden daha üstün olduğunu göstermektedir. Bu tez kapsamında sunulan yenilikçi yötemler ile sorgu ifadelerine mevcut yöntemlere göre daha etkili bir şekilde analiz etme ve gruplandırma yöntemleri uygulayarak AGÖ performansını arttırmıştır. Çalışmanın odak noktaları, SA'ları kullanarak benzer sorgu çiftlerini tespit etme ve k-kontur tabanlı özyinelemeli derin çizge kümeleme teknikleridir. Önerilen yöntemler, AGÖ'nün zorluklarını aşarak, sorgu önerisi, kişiselleştirilmiş tavsiyeler ve reklamcılık gibi süreçleri destekleyerek internet üzerinden bilgiye erişimin kalitesini ve verimliliğini artırmayı hedeflemektedir. İleriki çalışmalar için, AGÖ sürecini daha da iyileştirmek amacıyla çeşitli çizge yapısal özellikleri keşfetmek mümkün olabilir. Ayrıca, önerilen SA'ının daha bağımsız hale gelebilmesi için kendi kendine denetimli öğrenen bir şekilde çalışabilmesini sağlayacak düzenlemeler yapılabilir. Bu adaptasyonlar sayesinde, modelin genelleme yeteneği artırılabilir ve veri setlerine olan bağımlılık azaltılarak daha etkili bir öğrenme süreci sağlanabilir.

Özet (Çeviri)

The accurate prediction of internet users' implicit intents enables more efficient online search experiences and helps users complete their tasks more effectively. Users generate time-ordered query logs by submitting various queries to reach the information they are searching for. In this process, large amounts of search queries are recorded as a result of users interacting with search engines to meet their information needs. The proper analysis of query data allows for the prediction and better understanding of user tasks. While queries from different search tasks may exist within the same session, a single search task can also span multiple sessions. Search Task Extraction (STE) is the process of grouping queries that share the same intent, scattered across query log data, into unique clusters. Accurately identifying the user's intent enhances the performance of search engines and e-commerce platforms in processes such as query suggestion and reformulation, personalized recommendations, and advertising. However, the effectiveness of STE depends on overcoming certain challenges. During STE, internal challenges such as short and incorrect queries, and missing keywords, as well as external challenges like an unknown number of clusters and limited labeled datasets, can be encountered. In this thesis, three studies were conducted to provide solutions to the STE problem, aimed at improving the browsing experience with queries on the internet. The first study, titled“Supervised Learning-Based Query Segment Extraction”, focuses on detecting query segments. Query segments can sometimes represent part of a search task or, at other times, the entire search task. This makes the accurate identification and combination of segments crucial. The Query Clustering with Head Tail Components (QC-HTC) algorithm, which is frequently used in search task studies, focuses on how to correctly merge appropriate segments by combining query segments to detect search tasks. To start with, this thesis studies query segment detection approaches as well as the STE tasks. The second study focuses on Graph-Based Search Task Extraction using a Siamese Network (SN) that employs the Query Clustering (QC-WCC) with Weighted Connected Components, as well as the QC-HTC graph clustering algorithm. Since these two graph clustering algorithms require similarity between two queries, the SN was utilized in this thesis to determine the similarity between queries. The SN's ability to identify similarities between two samples with limited data makes it one of the most suitable methods for the search task problem. To find the similarity between SAs, two objects are typically processed in parallel layers with the same architecture and parameters at the input of the network. This method enables the Siamese architecture to model relationships (similarity/difference) between two inputs more directly and effectively. Additionally, since both inputs are processed using the same network structure and parameters, SN becomes more efficient during the learning process with fewer parameters. As a result, especially in situations like STE where labelled data is limited, the model's generalization ability increases, yielding better results. In the final study of this thesis, STE was performed using Recurrent Deep Graph Clustering Based on k-Contour. The QC-WCC and QC-HTC algorithms were noted as the most commonly used clustering methods for STE. These algorithms rely solely on binary query similarities above a certain threshold when determining search tasks (clusters) and do not consider other graph topological features beyond“similarity between two queries”. The prevalence of graph-based methods for STE prompted this thesis to search for a solution method that leverages deep topological features of the graph. Therefore, a model that takes advantage of the deep topological features of the graph has been proposed. The studies mentioned above are elaborated upon in three sections below. Query segmentation is the initial step commonly performed when analyzing user queries and determines whether consecutive queries belong to the same subtask. Any deficiency in the query segmentation process can directly affect task definition and indirectly impact other advanced query-based problems and activities, such as query suggestion. Recent studies have focused on Recurrent Neural Networks (RNNs) and attention-based Artificial Neural Networks (ANNs) to capture the meaning expressed by queries. In this thesis, a Siamese Convolutional Neural Network with a decision network is proposed, which improves the query embeddings specific to the query segmentation problem. The proposed method has been compared with the Context Attention based Long Short Term Memory (CA-LSTM) model and the Bidirectional Recurrent Neural Network (BiRNN) based model on the Webis Search Task Corpus 2012 (WSMC12) and Cross-Session Task Extraction (CSTE) datasets. Our model achieved a 95\% performance, showing a 1\% improvement over existing models and an 81\% accuracy rate on the CSTE dataset, resulting in a 6\% increase in classification accuracy compared to previous best results. Deep learning models require large amounts of data for training; however, search task-labeled datasets are rare and small. In the second study conducted within the scope of this thesis, the Graph-based Search Task Extraction Using Siamese Network (Graph-SeTES) model is proposed to overcome these limitations by integrating a structure that uses both distance metrics and decision networks into the feature extraction process. Graph-SeTES aims to address the internal challenges of STE by using Wikipedia2vec for short queries and fastText for erroneous queries. Additionally, it attempted to overcome the external challenges of STE by yielding good results even with limited labeled data using SN. Graph-SeTES was compared with high-performing STE models in the literature and achieved better results. The results showed a 6\% improvement over the best baseline model on the CSTE dataset, and this performance difference was maintained on the WSMC12 dataset as well. Most existing methods have preferred graph-based clustering algorithms that utilize pairwise relationships between queries. This is because graph-based clustering algorithms can naturally cluster similar queries by using both local (e.g., direct connections between two queries) and global (e.g., the overall structure formed by multiple groups of queries) information. However, these methods cluster the graph based on a simple threshold value rather than leveraging the topological properties of the graph. Recent studies in the literature have utilized deep clustering layers to prevent the model size from increasing as the number of queries grows. Bu çeviri, orijinal anlamı koruyarak doğal ve akıcı bir İngi However, these models require labelled data and overlook embedding representations from modern language models. In this study, an innovative k-Contour based Graph Convolutional Network Connective proximity Clustering Layer (CoGCN-C-CL) architecture is proposed, which utilizes graph topological features to extract search tasks without requiring data labeling. CoGCN-C-CL learns query representations and search tasks simultaneously. By applying the k-peak algorithm, highly related k-contour subgraphs, which are denser compared to their surroundings, are extracted. While k-contours define the different and independent regions of the graph with varying edge densities, the Graph Convolutional Network (GCN) leverages the interactions between nodes within these regions. Experimental results show that CoGCN-C-CL outperforms the best existing search task clustering methods on frequently used search task datasets. With the innovative methods presented in this thesis, STS performance has been improved by applying more effective analysis and grouping techniques to query expressions compared to existing methods. The focal points of the study are identifying similar query pairs using Siamese Networks (SNs) and recursive deep graph clustering techniques based on k-contours. The proposed methods aim to overcome the challenges of STE and improve the quality and efficiency of information access on the internet by supporting processes such as query suggestions, personalized recommendations, and advertising. For future work, we recommend to aim at further improving the STE process by exploring various graph structural properties. Additionally, adjustments can be made to enable the proposed SN to work in a self-supervised manner, rendering it more autonomous. With these adaptations, the model's generalization ability can be enhanced, and its dependency on datasets can be reduced, leading to a more effective and reliable learning process.

Benzer Tezler

  1. Bilişim sistemlerindeki gelişmelerin işletme yönetimine etkileri, yönetim bilişim sistemleri geliştirme ve bir uygulama örneği

    Effects of the evoluation of information systems on management, management information systems development and an example of its application

    ZUHAL TANRIKULU

    Doktora

    Türkçe

    Türkçe

    1999

    İşletmeİstanbul Üniversitesi

    Organizasyon ve İşletme Politikaları Ana Bilim Dalı

    PROF. DR. EROL EREN

  2. Konut tercihlerinin, mekansal dizin ve mekansal davranış parametreleri ile ilişkisi

    Relation of the house preferences with space syntax and spatial behaviour parameters

    ERİNCİK EDGÜ

    Doktora

    Türkçe

    Türkçe

    2003

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. ALPER ÜNLÜ

  3. Konutlarda akustik performansın mevzuat ve subjektif etki bağlamında değerlendirilmesi için bir yaklaşım

    An approach for acoustic performance assessment of dwellings in the context of legislations and subjective evaluation

    AYÇA ŞENTOP DÜMEN

    Doktora

    Türkçe

    Türkçe

    2020

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ NURGÜN BAYAZIT

  4. Çeviri dersinde yapılaşma (uygulama sorunları-yöntem önerileri)

    Strukturierung im übersetzungsunterricht (probleme der praxis-vorschlage zur methodik)

    A. TURGAY KURULTAY

    Doktora

    Türkçe

    Türkçe

    1989

    Eğitim ve Öğretimİstanbul Üniversitesi

    Alman Dili ve Edebiyatı Bilim Dalı

    PROF.DR. ŞARA SAYIN

  5. Contribution a la recherche d'un cadre juridique pour un droit international de laconcurrence plus efficace

    Daha etkin bir uluslararası rekabet için hukuki çerçeve arayışı

    ALİ CENK KESKİN

    Doktora

    Fransızca

    Fransızca

    2009

    HukukGalatasaray Üniversitesi

    Kamu Hukuku Ana Bilim Dalı

    PROF. DR. JEAN MARC SOREL

    PROF. DR. HALİL ERCÜMENT ERDEM