A mathematical contribution of statistical learning and continuous optimization using infinite and semi-infinite programming to computational statistics

İstatistiksel öğrenme ve sürekli optimizasyon yöntemlerinıin sonsuz ve yarı sonsuz programlama kullanılarak hesaplamalı istatistiğe uygulanması

PDF İndir

Tez No: 255594
Yazar: SÜREYYA ÖZÖĞÜR AKYÜZ
Danışmanlar: PROF. DR. GERHARD WİLHELM WEBER, PROF. DR. JOHN SHAWE TAYLOR
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Matematik, İstatistik, Computer Engineering and Computer Science and Control, Mathematics, Statistics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2009
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Uygulamalı Matematik Enstitüsü
Ana Bilim Dalı: Bilimsel Hesaplama Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 152

Özet

Makina öğrenimi, yapay zekanın bilgisayarların öğrenimini sağlayan algoritmaların geliştirilmesiile ilgilenen bir alt alanıdır. Bu yöntem, sisteme ait kuralları ve sablonları çok fazla sayıdaörnek ile eğiterek çıktısı bilinmeyen yeni veri noktalarını tahmin etme sürecidir. Yaygınmakine öğrenimi problemleri denetlenmiş öürenim, denetlenmemis öğrenim, yarı denetlenmisöğrenim ve desteklenmis öğrenim vb. alt başlıklardan oluşur. Bu alan doğal dil işleme, aramamotorları, medikal diagnoz, bioinformatik, kredi kartı sahtekarlığı tespiti, borsa analizi, DNAdizilerinin sınıflandırılması, konuşma ve el yazısı tanıma ve obje tanıma gibi pek çok uygulamayıiçermektedir. Bu tezde, makina öğrenimi alanları içerisinde en güçlü metodlardan biriolan Destekçi Vektör Makinaları (DVM) üzerine yoğunlaşılacaktır.İlk motivasyon olarak, NCBI veri bankasından derlenmiş gerçel veri üzerinde ökaryotik propeptidkesim yerlerini sorgulayan biyoloji problemini çözmek için SVM metodunun içerisindemodel seçimi yapan bir araç geliştirilmiştir. Biyolojik problem esas alınarak bulunan birönceki model seçimi yöntemi, çeşitli veri kümelerine de uygulanabilir halde genelleştirilmiştir.Makine öğrenimi algoritmalarında önemli bir unsur da verinin ifade ya da gösterim biçimidir.Ayrık geometrik şekiller, özellikle verinin doğrusal olarak ayrılabilirliği makine öğrenimiyöntemlerinde önemli rol oynamaktadır. Doğrusal olarak ayrılamayan veri kümelerinde,çekirdek (kernel) fonksiyonu ile doğrusal olmayan veriler yüksek boyutlu uzaya taşınaraklineer ayrılabilir hale getirilmektedir. Çok boyutlu ve heterojen kaynaklı veri kümelerindetek çekirdekli sınıflandırma algoritmaları doğrusal olmayan veriyi sınıflandırmakta yetersizkalmaktadır. Bu tür veriyi sınıflandırmak için çekirdeklerin (kernellerin) dış bükey kombinasyonlarındanoluşan çoklu çekirdek öğrenim yöntemi geliştirilmiştir [8]. Buna rağmençoklu çekirdek öğrenimindeki çekirdeklerin seçimi sınırlı sayı ile kısıtlıdır. Bu eksikliğingiderilmesi için bu tezde çekirdek uzayının tüm elemanlarını kapsayan sonsuz ve yarısonsuzprogramlama ile modellenen sonsuz çekirdek öğrenimi yöntemi önerilmiştir. Sonsuz çekirdeköğrenimi sayesinde gerçel hayat problemlerinde karşımıza çıkan heterojen ve çok boyuttakiveri kümelerinin sınıflandırıldığı durumlarda, olası bütün çeşitleri kapsayan çekirdeklerin(kernel) kombinasyonları incelenmiş olacaktır. Çekirdeklerin kombinasyonları homotopi parametrelerisayesinde ifade edilmiştir. Sonsuz çekirdek uzayında Riemann-Stieltjes integraliile sonsuz sayıdakı çekirdeğin kombinasyonuna bakılarak, tıkız sonsuz indeks seti altındaiki sınıf arasındaki uzaklık maksimize edilmiştir. Sonsuz programlama olarak modellenensınıflandırma problemi, paramterizasyon ile yarı sonsuz programlamaya indirgenmiştir. İndirgemeansatz gerekliliklerini sağlayan, düzenlilik koşulları incelenerek, kısıt yapıları ve iki seviyelioptimizasyon problemi içerisinde çeşitli dağılım fonksiyonları analiz edilmiştir. Sonolarak yarısonsuz programlamaya uygulanan bilinen nümerik yöntemler önerdiğimiz çekirdekmakinasına uyarlanmıştır. Önerilen model için uyarlanan ayrıştırma yöntemini geliştirilipiki ayrı algoritma geliştirilmiştir. Bu problemin nümerik yöntemler ile teorik bazlı analiziyapılmış ve optimal sonucun varlığı ve yakınsaması için gerekli koşullar araştırılmıştır.

Özet (Çeviri)

A subfield of artificial intelligence, machine learning (ML), is concerned with the developmentof algorithms that allow computers to ?learn?. ML is the process of training a systemwith large number of examples, extracting rules and finding patterns in order to make predictionson new data points (examples). The most common machine learning schemes aresupervised, semi-supervised, unsupervised and reinforcement learning. These schemes applyto natural language processing, search engines, medical diagnosis, bioinformatics, detectingcredit fraud, stock market analysis, classification of DNA sequences, speech and hand writingrecognition in computer vision, to encounter just a few. In this thesis, we focus on SupportVector Machines (SVMs) which is one of the most powerful methods currently in machinelearning.As a first motivation, we develop a model selection tool induced into SVM in order to solvea particular problem of computational biology which is prediction of eukaryotic pro-peptidecleavage site applied on the real data collected from NCBI data bank. Based on our biologicalexample, a generalized model selection method is employed as a generalization for allkinds of learning problems. In ML algorithms, one of the crucial issues is the representationof the data. Discrete geometric structures and, especially, linear separability of the data playan important role in ML. If the data is not linearly separable, a kernel function transformsthe nonlinear data into a higher-dimensional space in which the nonlinear data are linearlyseparable. As the data become heterogeneous and large-scale, single kernel methods becomeinsufficient to classify nonlinear data. Convex combinations of kernels were developed toclassify this kind of data [8]. Nevertheless, selection of the finite combinations of kernelsare limited up to a finite choice. In order to overcome this discrepancy, we propose a novelmethod of ?infinite? kernel combinations for learning problems with the help of infinite andsemi-infinite programming regarding all elements in kernel space. This will provide to studyvariations of combinations of kernels when considering heterogeneous data in real-world applications.Combination of kernels can be done, e.g., along a homotopy parameter or a morespecific parameter. Looking at all infinitesimally fine convex combinations of the kernelsfrom the infinite kernel set, the margin is maximized subject to an infinite number of constraintswith a compact index set and an additional (Riemann-Stieltjes) integral constraintdue to the combinations. After a parametrization in the space of probability measures, it becomessemi-infinite. We analyze the regularity conditions which satisfy the Reduction Ansatzand discuss the type of distribution functions within the structure of the constraints and ourbilevel optimization problem. Finally, we adapted well known numerical methods of semiinfiniteprogramming to our new kernel machine. We improved the discretization methodfor our specific model and proposed two new algorithms. We proved the convergence of thenumerical methods and we analyzed the conditions and assumptions of these convergencetheorems such as optimality and convergence.

Benzer Tezler

Tez No
255608
A new contribution to nonlinear robust regression and classification with MARS and its applications to data mining for quality control in manufacturing
Doğrusal olmayan sağlam regresyon ve sınıflandırmaya MARS ile yeni bir katkı ve bu katkının endüstride kalite kontrolü amaçlı veri madenciliği uygulamaları
FATMA YERLİKAYA
Yüksek Lisans
İngilizce
2008
Bilim ve Teknoloji Orta Doğu Teknik Üniversitesi
Bilimsel Hesaplama Ana Bilim Dalı
DOÇ. DR. İNCİ BATMAZ
PROF. DR. GERHARD WİLHELM WEBER
Tez No
947264
Билим, илим жана маданият тармагындагы Кыргызстан менен Түркиянын кызматташтыгы (1992-2012 жж.)
Kırgız Cumhuriyeti ile Türkiye Cumhuriyeti arasında eğitim, bilim ve kültürel ilişkiler (1992-2012)
KADRİ AĞGÜN
Doktora
Kırgızca
2016
Tarih Kyrgyz State University named after I Arabaev
Tarih Ana Bilim Dalı
PROF. DR. TÖLÖBEK ABDRAHMANOV
Tez No
856705
Güneş enerji santrallerinde makine öğrenmesi algoritmaları ve coğrafi bilgi verileri kullanılarak enerji üretiminin tahminlenmesi
Prediction of energy production in solar power plants usi̇ng machine learning algorithms and geographic information data
EREN POLATCAN
Yüksek Lisans
Türkçe
2024
Mühendislik Bilimleri İstanbul Teknik Üniversitesi
Bilişim Uygulamaları Ana Bilim Dalı
PROF. DR. HAYRİ HAKAN DENLİ
Tez No
941164
Capturing aerodynamic characteristics of attas aircraft with evolving intelligent system
Evrilen akıllı sistem ile attas uçağının aerodinamik özelliklerinin yakalanması
AYDOĞAN SOYLU
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
PROF. DR. TUFAN KUMBASAR
Tez No
145026
The significance and the contribution of 6+1 traits of writing to the success of the students in writing courses in English language teaching
Yazmanın 6+1 özelliğinin İngilizce öğretiminde yazılı anlatım derslerindeki öğrenci başarısına katkısı ve önemi
ÖZLEM YAZAR
Yüksek Lisans
İngilizce
2004
Eğitim ve Öğretim Gazi Üniversitesi
İngiliz Dili Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. PAŞA TEVFİK CEPHE

Geri Dön