Geri Dön

A mathematical contribution of statistical learning and continuous optimization using infinite and semi-infinite programming to computational statistics

İstatistiksel öğrenme ve sürekli optimizasyon yöntemlerinıin sonsuz ve yarı sonsuz programlama kullanılarak hesaplamalı istatistiğe uygulanması

  1. Tez No: 255594
  2. Yazar: SÜREYYA ÖZÖĞÜR AKYÜZ
  3. Danışmanlar: PROF. DR. GERHARD WİLHELM WEBER, PROF. DR. JOHN SHAWE TAYLOR
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Matematik, İstatistik, Computer Engineering and Computer Science and Control, Mathematics, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Uygulamalı Matematik Enstitüsü
  11. Ana Bilim Dalı: Bilimsel Hesaplama Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 152

Özet

Makina öğrenimi, yapay zekanın bilgisayarların öğrenimini sağlayan algoritmaların geliştirilmesiile ilgilenen bir alt alanıdır. Bu yöntem, sisteme ait kuralları ve sablonları çok fazla sayıdaörnek ile eğiterek çıktısı bilinmeyen yeni veri noktalarını tahmin etme sürecidir. Yaygınmakine öğrenimi problemleri denetlenmiş öürenim, denetlenmemis öğrenim, yarı denetlenmisöğrenim ve desteklenmis öğrenim vb. alt başlıklardan oluşur. Bu alan doğal dil işleme, aramamotorları, medikal diagnoz, bioinformatik, kredi kartı sahtekarlığı tespiti, borsa analizi, DNAdizilerinin sınıflandırılması, konuşma ve el yazısı tanıma ve obje tanıma gibi pek çok uygulamayıiçermektedir. Bu tezde, makina öğrenimi alanları içerisinde en güçlü metodlardan biriolan Destekçi Vektör Makinaları (DVM) üzerine yoğunlaşılacaktır.İlk motivasyon olarak, NCBI veri bankasından derlenmiş gerçel veri üzerinde ökaryotik propeptidkesim yerlerini sorgulayan biyoloji problemini çözmek için SVM metodunun içerisindemodel seçimi yapan bir araç geliştirilmiştir. Biyolojik problem esas alınarak bulunan birönceki model seçimi yöntemi, çeşitli veri kümelerine de uygulanabilir halde genelleştirilmiştir.Makine öğrenimi algoritmalarında önemli bir unsur da verinin ifade ya da gösterim biçimidir.Ayrık geometrik şekiller, özellikle verinin doğrusal olarak ayrılabilirliği makine öğrenimiyöntemlerinde önemli rol oynamaktadır. Doğrusal olarak ayrılamayan veri kümelerinde,çekirdek (kernel) fonksiyonu ile doğrusal olmayan veriler yüksek boyutlu uzaya taşınaraklineer ayrılabilir hale getirilmektedir. Çok boyutlu ve heterojen kaynaklı veri kümelerindetek çekirdekli sınıflandırma algoritmaları doğrusal olmayan veriyi sınıflandırmakta yetersizkalmaktadır. Bu tür veriyi sınıflandırmak için çekirdeklerin (kernellerin) dış bükey kombinasyonlarındanoluşan çoklu çekirdek öğrenim yöntemi geliştirilmiştir [8]. Buna rağmençoklu çekirdek öğrenimindeki çekirdeklerin seçimi sınırlı sayı ile kısıtlıdır. Bu eksikliğingiderilmesi için bu tezde çekirdek uzayının tüm elemanlarını kapsayan sonsuz ve yarısonsuzprogramlama ile modellenen sonsuz çekirdek öğrenimi yöntemi önerilmiştir. Sonsuz çekirdeköğrenimi sayesinde gerçel hayat problemlerinde karşımıza çıkan heterojen ve çok boyuttakiveri kümelerinin sınıflandırıldığı durumlarda, olası bütün çeşitleri kapsayan çekirdeklerin(kernel) kombinasyonları incelenmiş olacaktır. Çekirdeklerin kombinasyonları homotopi parametrelerisayesinde ifade edilmiştir. Sonsuz çekirdek uzayında Riemann-Stieltjes integraliile sonsuz sayıdakı çekirdeğin kombinasyonuna bakılarak, tıkız sonsuz indeks seti altındaiki sınıf arasındaki uzaklık maksimize edilmiştir. Sonsuz programlama olarak modellenensınıflandırma problemi, paramterizasyon ile yarı sonsuz programlamaya indirgenmiştir. İndirgemeansatz gerekliliklerini sağlayan, düzenlilik koşulları incelenerek, kısıt yapıları ve iki seviyelioptimizasyon problemi içerisinde çeşitli dağılım fonksiyonları analiz edilmiştir. Sonolarak yarısonsuz programlamaya uygulanan bilinen nümerik yöntemler önerdiğimiz çekirdekmakinasına uyarlanmıştır. Önerilen model için uyarlanan ayrıştırma yöntemini geliştirilipiki ayrı algoritma geliştirilmiştir. Bu problemin nümerik yöntemler ile teorik bazlı analiziyapılmış ve optimal sonucun varlığı ve yakınsaması için gerekli koşullar araştırılmıştır.

Özet (Çeviri)

A subfield of artificial intelligence, machine learning (ML), is concerned with the developmentof algorithms that allow computers to ?learn?. ML is the process of training a systemwith large number of examples, extracting rules and finding patterns in order to make predictionson new data points (examples). The most common machine learning schemes aresupervised, semi-supervised, unsupervised and reinforcement learning. These schemes applyto natural language processing, search engines, medical diagnosis, bioinformatics, detectingcredit fraud, stock market analysis, classification of DNA sequences, speech and hand writingrecognition in computer vision, to encounter just a few. In this thesis, we focus on SupportVector Machines (SVMs) which is one of the most powerful methods currently in machinelearning.As a first motivation, we develop a model selection tool induced into SVM in order to solvea particular problem of computational biology which is prediction of eukaryotic pro-peptidecleavage site applied on the real data collected from NCBI data bank. Based on our biologicalexample, a generalized model selection method is employed as a generalization for allkinds of learning problems. In ML algorithms, one of the crucial issues is the representationof the data. Discrete geometric structures and, especially, linear separability of the data playan important role in ML. If the data is not linearly separable, a kernel function transformsthe nonlinear data into a higher-dimensional space in which the nonlinear data are linearlyseparable. As the data become heterogeneous and large-scale, single kernel methods becomeinsufficient to classify nonlinear data. Convex combinations of kernels were developed toclassify this kind of data [8]. Nevertheless, selection of the finite combinations of kernelsare limited up to a finite choice. In order to overcome this discrepancy, we propose a novelmethod of ?infinite? kernel combinations for learning problems with the help of infinite andsemi-infinite programming regarding all elements in kernel space. This will provide to studyvariations of combinations of kernels when considering heterogeneous data in real-world applications.Combination of kernels can be done, e.g., along a homotopy parameter or a morespecific parameter. Looking at all infinitesimally fine convex combinations of the kernelsfrom the infinite kernel set, the margin is maximized subject to an infinite number of constraintswith a compact index set and an additional (Riemann-Stieltjes) integral constraintdue to the combinations. After a parametrization in the space of probability measures, it becomessemi-infinite. We analyze the regularity conditions which satisfy the Reduction Ansatzand discuss the type of distribution functions within the structure of the constraints and ourbilevel optimization problem. Finally, we adapted well known numerical methods of semiinfiniteprogramming to our new kernel machine. We improved the discretization methodfor our specific model and proposed two new algorithms. We proved the convergence of thenumerical methods and we analyzed the conditions and assumptions of these convergencetheorems such as optimality and convergence.

Benzer Tezler

  1. A new contribution to nonlinear robust regression and classification with MARS and its applications to data mining for quality control in manufacturing

    Doğrusal olmayan sağlam regresyon ve sınıflandırmaya MARS ile yeni bir katkı ve bu katkının endüstride kalite kontrolü amaçlı veri madenciliği uygulamaları

    FATMA YERLİKAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Bilim ve TeknolojiOrta Doğu Teknik Üniversitesi

    Bilimsel Hesaplama Ana Bilim Dalı

    DOÇ. DR. İNCİ BATMAZ

    PROF. DR. GERHARD WİLHELM WEBER

  2. Güneş enerji santrallerinde makine öğrenmesi algoritmaları ve coğrafi bilgi verileri kullanılarak enerji üretiminin tahminlenmesi

    Prediction of energy production in solar power plants usi̇ng machine learning algorithms and geographic information data

    EREN POLATCAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    PROF. DR. HAYRİ HAKAN DENLİ

  3. The significance and the contribution of 6+1 traits of writing to the success of the students in writing courses in English language teaching

    Yazmanın 6+1 özelliğinin İngilizce öğretiminde yazılı anlatım derslerindeki öğrenci başarısına katkısı ve önemi

    ÖZLEM YAZAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2004

    Eğitim ve ÖğretimGazi Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. PAŞA TEVFİK CEPHE

  4. Pertübasyon yöntemi ile hassas veri güvenliğine yönelik çok değişkenli veriler için tahmin analizi

    Prediction analysis for multivariate data with respect to sensitive data security using the perturbation method

    İLKER İLTER

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Endüstri ve Endüstri MühendisliğiSakarya Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SAFİYE SENCER

  5. Zaman serisi verilerinin derin yapay sinir ağları ile analizi ve eniyilemesi: Finansal tahmin algoritmaları

    Analysis and optimization of the time series data with deep artificial neural networks: Financial estimation algorithms

    ÖMER BERAT SEZER

    Doktora

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTOBB Ekonomi ve Teknoloji Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AHMET MURAT ÖZBAYOĞLU