Text and predictive analytics; classification of on-line customer opinion surveys

Metin ve tahmine dayalı analitik; çevrimiçi tüketici görüşü anketlerinin sınıflandırılması

PDF İndir

Tez No: 813384
Yazar: AHMET YÜCEL
Danışmanlar: PROF. DR. MARK CARPENTER
Tez Türü: Yüksek Lisans
Konular: Bilgi ve Belge Yönetimi, İstatistik, Information and Records Management, Statistics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2011
Dil: İngilizce
Üniversite: Auburn University
Enstitü: Yurtdışı Enstitü
Ana Bilim Dalı: İstatistik Ana Bilim Dalı
Bilim Dalı: Uygulamalı Veri Bilimi Bilim Dalı
Sayfa Sayısı: 81

Özet

Depolama yeteneklerindeki ilerlemeler, büyük veri koleksiyonları ve hedef verilere kolay erişim, insanları devasa bir veri havuzunun içinde bıraktı. Bu sorunla baş etmenin en önemli yollarından biri Veri Madenciliğidir. Veri madenciliği, bir veritabanındaki bilgiyi keşfetmenin analiz sürecidir. Ancak Merrill Lynch ve Gartner'ın araştırmalarına göre tüm dünyadaki verilerin %85-90'ı yapılandırılmamış biçimde depolanmaktadır (McKnight, 2005) ve bu nedenle veri madenciliği algoritmaları tek başına yeterli değildir. Bu noktada Metin Madenciliği önemli bir rol oynuyor. Metin madenciliği, yapılandırılmış verileri keşfetme ve yapılandırılmamış veriler koleksiyonundan yararlı bilgiler çıkarma sürecidir. Metin madenciliği yöntemleri iş dokümanlarından müşteri incelemelerine, web sayfalarından e-postalara ve diğer kaynaklara kadar çok farklı alanlarda kullanılabilmektedir. En popüler metin madenciliği tekniklerinden biri tahmine dayalı modellemedir. Karar ağaçları, sinir ağları ve güçlendirilmiş ağaçlar farklı tahmin modeli türleridir. Tahmine dayalı modeller, bir veri kümesinin hangi sınıfa ait olduğunu belirlemek için kullanılır. Örneğin bir teknoloji şirketi, yeni bir model oluşturmadan önce, özellikle müşterileri hedeflemek için tahmine dayalı modelleme algoritmaları uygulayabilir. Güvenilir sonuçlar elde etmek için doğru bir tahmin modeli oluşturmak çok önemlidir. Özellikle iş dünyasında hatalı sonuçlar çok pahalıya mal olabilir. Örneğin yukarıda adı geçen teknoloji firmasının hatalı sonuçlar kullanması ve yeni modelini bu sonuçlara göre üretmesi halinde bu durum firmanın pazarını, müşteri güvenini ve parasını kaybetmesine neden olabilir. Araştırmacılar genel olarak karar ağaçları gibi bir topluluk modeli yaklaşımının daha yüksek doğruluk oranlarına sahip tahmin modelleri üreteceğini düşünmektedir. Bu nedenle deneyimizde bir karar ağacı kullanacağız. Deneyimizde, farklı özellik seçim yöntemlerini kullanarak öncülü araştırıyoruz ve ardından seçilen özellikler için karar ağaçları oluşturuyoruz. 2 Bu tezin geri kalanı şu şekilde organize edilmiştir: Bölüm 2, literatür taramasını ve metin madenciliği süreçlerine ilişkin genel bir bakışı ve çeşitli metin madenciliği algoritmaları ve teknikleri hakkındaki açıklamaları içermektedir. Bölüm 3'te deney tasarımı verilerinin toplanması, materyaller/araçlar ve sonuçlar tartışılmaktadır. Bölüm 4 gelecekteki çalışmalar için fikirler sunmaktadır.

Özet (Çeviri)

Advances in storage capabilities, huge data collections, and easy access to target data left people in an immense data pool. One of the most important ways to deal with this problem is Data Mining. Data mining is the analysis process of discovering knowledge in a database. However, according to research by Merrill Lynch and Gartner, 85-90% of the data all over the world are stored in unstructured form (McKnight, 2005), and thus, data mining algorithms are not enough by themselves. At this point Text Mining plays an important role. Text mining is the process of exploring structured data and extracting useful information from a collection of unstructured data. Text mining methods can be used in very different areas including business documents, customer reviews, web pages, e-mails and other sources. One of the most popular text mining techniques is predictive modeling. Decision trees, neural networks and boosted trees are different types of predictive models. Predictive models are used to determine which class a set of data belongs to. For example, a technology company can apply predictive modeling algorithms to specifically target customers, and so before generating a new model. Building an accurate predictive model is very important to get reliable results. Especially in business, inaccurate results may be very expensive. For example, if the technology company mentioned above uses inaccurate results and produce its new model according to that results, this situation may cause the company lose its market, customer confidence and money. Generally researchers think that an ensemble model approach such as decision trees will produce predictive models with higher accuracy rates. Therefore, in our experiment we are going to use a decision tree. In our experiment we investigate the premise using different feature selection methods and then build decision trees for the selected features. 2 The rest of this thesis is organized as follows: Chapter 2 contains the literature review and a general overview about text mining processes and descriptions about various text mining algorithms and techniques. Chapter 3 discusses the experiment design data collection, materials/tools and results. Chapter 4 presents ideas for future work.

Benzer Tezler

Tez No
403033
Predictive text analytics and text classification algorithms
Başlık çevirisi yok
AHMET YÜCEL
Doktora
İngilizce
2016
İstatistik Auburn University
DR. MARK CARPENTER
Tez No
666577
Excelling customer complaint management through text analytics: Complaint classification in social media and complaint type prediction
Müşteri şikayet yönetiminin metin analitiği yöntemiyle mükemmelleştirilmesi: Sosyal medyadaki şikayetlerin sınıflandırılması ve şikayet tipi tahminlemesi
BİRCE DOBRUCALI
Doktora
İngilizce
2021
İşletme Dokuz Eylül Üniversitesi
İşletme (İngilizce) Ana Bilim Dalı
PROF. DR. BURCU İLTER
Tez No
876304
Leveraging ai in construction management
İnşaat proje yönetiminde yapay zekadan faydalanma
BARAN AKOL
Yüksek Lisans
İngilizce
2024
Mimarlık İstanbul Teknik Üniversitesi
Mimarlık Ana Bilim Dalı
DOÇ. DR. FATMA PINAR ÇAKMAK
Tez No
932566
Bilgi merkezi hizmetlerinin kullanıcılar tarafından kullanım tepki durumlarının veri madenciliği yaklaşımı ile incelenmesi
Examination of user response states to information center services using a data mining approach
ENGİN DAYAN
Doktora
Türkçe
2025
Dokümantasyon ve Enformasyon Van Yüzüncü Yıl Üniversitesi
İstatistik Ana Bilim Dalı
PROF. DR. MAHMUT KARA
Tez No
956406
Dikkat eksikliği ve hiperaktivite bozukluğu olan çocukların el yazılarının görüntü işleme teknikleri ile analizi
Analysis of handwriting of children with attention deficit hyperactivity disorder using image processing techniques
ÖZLEM YILDIZ BUDAK
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sakarya Üniversitesi
Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUHAMMED FATİH ADAK

Geri Dön