Geri Dön

Text and predictive analytics; classification of on-line customer opinion surveys

Metin ve tahmine dayalı analitik; çevrimiçi tüketici görüşü anketlerinin sınıflandırılması

  1. Tez No: 813384
  2. Yazar: AHMET YÜCEL
  3. Danışmanlar: PROF. DR. MARK CARPENTER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgi ve Belge Yönetimi, İstatistik, Information and Records Management, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: İngilizce
  9. Üniversite: Auburn University
  10. Enstitü: Yurtdışı Enstitü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Uygulamalı Veri Bilimi Bilim Dalı
  13. Sayfa Sayısı: 81

Özet

Depolama yeteneklerindeki ilerlemeler, büyük veri koleksiyonları ve hedef verilere kolay erişim, insanları devasa bir veri havuzunun içinde bıraktı. Bu sorunla baş etmenin en önemli yollarından biri Veri Madenciliğidir. Veri madenciliği, bir veritabanındaki bilgiyi keşfetmenin analiz sürecidir. Ancak Merrill Lynch ve Gartner'ın araştırmalarına göre tüm dünyadaki verilerin %85-90'ı yapılandırılmamış biçimde depolanmaktadır (McKnight, 2005) ve bu nedenle veri madenciliği algoritmaları tek başına yeterli değildir. Bu noktada Metin Madenciliği önemli bir rol oynuyor. Metin madenciliği, yapılandırılmış verileri keşfetme ve yapılandırılmamış veriler koleksiyonundan yararlı bilgiler çıkarma sürecidir. Metin madenciliği yöntemleri iş dokümanlarından müşteri incelemelerine, web sayfalarından e-postalara ve diğer kaynaklara kadar çok farklı alanlarda kullanılabilmektedir. En popüler metin madenciliği tekniklerinden biri tahmine dayalı modellemedir. Karar ağaçları, sinir ağları ve güçlendirilmiş ağaçlar farklı tahmin modeli türleridir. Tahmine dayalı modeller, bir veri kümesinin hangi sınıfa ait olduğunu belirlemek için kullanılır. Örneğin bir teknoloji şirketi, yeni bir model oluşturmadan önce, özellikle müşterileri hedeflemek için tahmine dayalı modelleme algoritmaları uygulayabilir. Güvenilir sonuçlar elde etmek için doğru bir tahmin modeli oluşturmak çok önemlidir. Özellikle iş dünyasında hatalı sonuçlar çok pahalıya mal olabilir. Örneğin yukarıda adı geçen teknoloji firmasının hatalı sonuçlar kullanması ve yeni modelini bu sonuçlara göre üretmesi halinde bu durum firmanın pazarını, müşteri güvenini ve parasını kaybetmesine neden olabilir. Araştırmacılar genel olarak karar ağaçları gibi bir topluluk modeli yaklaşımının daha yüksek doğruluk oranlarına sahip tahmin modelleri üreteceğini düşünmektedir. Bu nedenle deneyimizde bir karar ağacı kullanacağız. Deneyimizde, farklı özellik seçim yöntemlerini kullanarak öncülü araştırıyoruz ve ardından seçilen özellikler için karar ağaçları oluşturuyoruz. 2 Bu tezin geri kalanı şu şekilde organize edilmiştir: Bölüm 2, literatür taramasını ve metin madenciliği süreçlerine ilişkin genel bir bakışı ve çeşitli metin madenciliği algoritmaları ve teknikleri hakkındaki açıklamaları içermektedir. Bölüm 3'te deney tasarımı verilerinin toplanması, materyaller/araçlar ve sonuçlar tartışılmaktadır. Bölüm 4 gelecekteki çalışmalar için fikirler sunmaktadır.

Özet (Çeviri)

Advances in storage capabilities, huge data collections, and easy access to target data left people in an immense data pool. One of the most important ways to deal with this problem is Data Mining. Data mining is the analysis process of discovering knowledge in a database. However, according to research by Merrill Lynch and Gartner, 85-90% of the data all over the world are stored in unstructured form (McKnight, 2005), and thus, data mining algorithms are not enough by themselves. At this point Text Mining plays an important role. Text mining is the process of exploring structured data and extracting useful information from a collection of unstructured data. Text mining methods can be used in very different areas including business documents, customer reviews, web pages, e-mails and other sources. One of the most popular text mining techniques is predictive modeling. Decision trees, neural networks and boosted trees are different types of predictive models. Predictive models are used to determine which class a set of data belongs to. For example, a technology company can apply predictive modeling algorithms to specifically target customers, and so before generating a new model. Building an accurate predictive model is very important to get reliable results. Especially in business, inaccurate results may be very expensive. For example, if the technology company mentioned above uses inaccurate results and produce its new model according to that results, this situation may cause the company lose its market, customer confidence and money. Generally researchers think that an ensemble model approach such as decision trees will produce predictive models with higher accuracy rates. Therefore, in our experiment we are going to use a decision tree. In our experiment we investigate the premise using different feature selection methods and then build decision trees for the selected features. 2 The rest of this thesis is organized as follows: Chapter 2 contains the literature review and a general overview about text mining processes and descriptions about various text mining algorithms and techniques. Chapter 3 discusses the experiment design data collection, materials/tools and results. Chapter 4 presents ideas for future work.

Benzer Tezler

  1. Predictive text analytics and text classification algorithms

    Başlık çevirisi yok

    AHMET YÜCEL

    Doktora

    İngilizce

    İngilizce

    2016

    İstatistikAuburn University

    DR. MARK CARPENTER

  2. Excelling customer complaint management through text analytics: Complaint classification in social media and complaint type prediction

    Müşteri şikayet yönetiminin metin analitiği yöntemiyle mükemmelleştirilmesi: Sosyal medyadaki şikayetlerin sınıflandırılması ve şikayet tipi tahminlemesi

    BİRCE DOBRUCALI

    Doktora

    İngilizce

    İngilizce

    2021

    İşletmeDokuz Eylül Üniversitesi

    İşletme (İngilizce) Ana Bilim Dalı

    PROF. DR. BURCU İLTER

  3. Leveraging ai in construction management

    İnşaat proje yönetiminde yapay zekadan faydalanma

    BARAN AKOL

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    DOÇ. DR. FATMA PINAR ÇAKMAK

  4. Bilgi merkezi hizmetlerinin kullanıcılar tarafından kullanım tepki durumlarının veri madenciliği yaklaşımı ile incelenmesi

    Examination of user response states to information center services using a data mining approach

    ENGİN DAYAN

    Doktora

    Türkçe

    Türkçe

    2025

    Dokümantasyon ve EnformasyonVan Yüzüncü Yıl Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. MAHMUT KARA

  5. Dikkat eksikliği ve hiperaktivite bozukluğu olan çocukların el yazılarının görüntü işleme teknikleri ile analizi

    Analysis of handwriting of children with attention deficit hyperactivity disorder using image processing techniques

    ÖZLEM YILDIZ BUDAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUHAMMED FATİH ADAK