Geri Dön

Generalized multi-view data proliferator (gem-vip) for boosting classification

Genelleştirilmiş çok boyutlu veri üretimi ile sınıflandırma hassaslığının yükseltilmesi

  1. Tez No: 760011
  2. Yazar: MUSTAFA ÇELİK
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ISLEM REKIK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 83

Özet

Demans, dünyada saysı en hızlı artan hastalıklardan biridir. Dünya sağlık örgütünün verilerine göre dünya genelinde 50 milyon demans hastası vardır. Her yıl bu sayıya 10 milyon yeni hasta eklenmekte ve 2050 yılına kadar bu sayının üç katına çıkması beklenmektedir. Demans toplumlar için ciddi bir ekonomik külfete sebep olmaktadır. Dünya genelinde, 2030 yılına kadar, yılda 2 trilyon ABD dolarını bulan bakım giderleri olacağı tahmin edilmektedir. Neyse ki demans hastalığı, hafif bilişsel bozukluk (MCI) olarak adlandırılan ve erken tedavisi mümkün olan bir hastalığın ardından ortaya çıkmaktadır. Araştırmalar, hafif bilişsel bozukluğu olan hastaların, yalnızca yüzde 5 ile 10'unun ilk 10 yıl içerisinde demansa yakalandığını göstermektedir. Bu sebeple, MCI'nın erken tespiti ve tedavisi, demansın yukarda belirtilen etkilerinden korunmak için büyük önem taşımaktadır. Fakat, MCI tüm hastalar için ortak tek bir tedavi yönteminin olmadığı, nörolojik rahatsızlıklardan biridir. Yapılan son çalışmalarda, kişiye özel tedavi yöntemlerinin genel tedavi yöntemlerine kıyasla daha etkili olduğu beyan edilmektedir. Böylece tıpta, tüm hastaları kapsayan tek ve genel bir tedavi ile iyileştirme yaklaşımı yerine; alternatif bir yöntem olan kişiye özel tedavi yöntemleri önem kazanmaya başlamıştır. Bu yöntemlerden biri de, örüntü tanıma da insan kapasitesinin çok üzerinde çalışan makine öğrenimi modellerinden faydalanmaktır. Bu bağlamda yapılan son araştırmalar, çok-görünümlü (multi-view) tıbbi görüntüleme verileri kullanılarak geliştirilen makine öğrenme modellerinin, biyobelirteç tespitlerinde etkili olduğunu göstermektedir. Bu bilgiler ışığında, hastaya özel tedavi yöntemlerini belirleme işlemleri önemli ölçüde kolaylaşmaktadır. Özetle çok-görünümlü veriler, içerisinde yer alan çeşitli öznitelik kümeleri sayesinde, hastalıkların teşhisinde önemli roller oynamaktadırlar. Tıbbi görüntüleme kullanılarak teşhisi yapılan bir diğer hastalık da Alzaymırdır. Bu hastalığın beyindeki biyoişaretçileri, manyetik rezonans görüntüleme (MRI) yöntemiyle elde edilen beyin görüntüleri sayesinde keşfedilmiştir. Beyindeki iki anatomik ilgi bölgesi (ROI) arasındaki ilişki, bir beyin konektomu diye adlandırılmaktadır. Bu ilgi bölgeleri arasındaki ilişkiler de yapısal ve işlevsel beyin ağları olmak üzere 2 farklı şekilde gruplandırılır. Yapısal beyin ağları difüzyon ağırlıklı MRI (dMRI) yöntemi kullanılarak; işlevsel beyin ağları ise dinlenme-durumu işlevsel MRI (rsfMRI) yöntemiyle oluşturulmaktadır. Ancak, bu tip beyin verileri genel olarak toplaması zor ve masraflıdır. Ayrıca hatalı olma ihtimalleri yüksek olduğundan, sonucunda elde edilen çıkarımların doğruluğu olumsuz etkilenmektedir. Bu sorunu aşmak için, son yapılan çalışmalarda morfolojik beyin ağlarından (MBN) üretilen beyin konektomları tercih edilmeye başlanmış ve buradan elde edilen verilerin beyin hastalıklarının teşhisinde önemli bir iyileştirme yaptığı gözlemlenmiştir. Böylece, morfolojik beyin ağları Alzaymır hastalığının teşhisinde defakto bir yöntem olarak kullanılmaya başlanmıştır. Fakat, Alzaymır'ın teşhisinde kullanılan çok-görünümlü bu yeni yöntem de (MBN), veri setinin toplanma aşamasında sorun çıkartabilmektedir. Bu sorunların başında dengesiz veri seti problemi gelmektedir. Bu durum, popülasyonda yer alan sınıflardan birindeki denek sayısının diğerine göre az olmasıdır ve sınıflandırma işleminde sorun oluşturmaktadır. Bu sorunun çözümü için çeşitli yöntemler kullanılmıştır. Bunlardan biri, sayısı çok olan sınıftaki deneklerin sayısının azaltılması ve az olan ile eşit hale getirilmesidir. Ancak deneklerin çıkarılmasından dolayı veri kaybı olacağından ve popülasyonun genel dağılımı etkileneceğinden dolayı her durumda kullanılması uygun değildir. Başka bir çalışmada ise, fazla olan sınıfın denek sayısının azaltılması yerine, eksik olan sınıftaki verilerin sentetik olarak artırılması önerilmiştir. Temel formu SMOTE olarak bilinen bu yöntem ile, gerçek deneklerin en yakın komşuları arasındaki rastgele bir noktaya sentetik denek üretilmesi amaçlanmıştır. Bu sayede, sayısı az olan sınıftaki denek sayısı arttırılarak sınıflar arası denge sağlanmaya çalışılmıştır. Bu yöntem, uzun yıllar araştırmacılar tarafından kullanılmasına rağmen; çok boyutlu veriler söz konusu olduğunda yetersiz kalmıştır. Çok-görünümlü verilerde görünümler arası özniteliklerin aynı kapsamda olmaması, SMOTE kullanımında gürültülü sentetik veri üretilmesine sebep olmaktadır. Gürültü veriler üzerine eğitilen sınıflandırıcıların başarımı da negatif etkilenmektedir. Bu çalışmalara alternatif olarak, araştırmamızda farklı görünümlerin öznitelikleri arasındaki ilişkilere odaklanılmıştır. Bu ilişkilerden, bir destek vektör makinesi sınıflayıcısının başarısını arttırmak için kullanılacak etkili bilgiler çıkarılabileceği varsayılmıştır. Bu kapsamda, bir sınıfın tamamını tek başına ifade edebilen bağlantılı beyin ağları (connectional brain networks) kullanılarak sentetik veri üretilmesini amaçlayan, Genelleştirilmiş Çok Boyutlu Veri Üretimi (GEM-VIP) yöntemi önerilmiştir. Bu yöntem aşağıda belirtilen üç önemli adımdan oluşmaktadır. Bu yöntem, çok-değişkenli normal dağılımın (MVND) olasılık yoğunluk fonksiyonunun (PDF) tersi alınarak sentetik veri üretilmesini amaçlamaktadır. Bir çok-değişkenli normal dağılım, iki veya daha fazla tek-değişkenli normal dağılımın birleşimidir ve iki önemli parametreye sahiptir. Birincisi, çok-değişkenli normal dağılımı oluşturan her bir tek-değişkenli normal dağılımın popülasyon ortalamasının (mean) tutulduğu vektördür. İkinci parametre ise her bir tek-değişkenli normal dağılımın varyansının tutulduğu kovaryans matrisidir. Burada geçen tek-değişkenli normal dağılımlardan her biri çok-görünümlü verinin bir görünümüne karşılık gelmektedir. Özetlemek gerekirse, ortalama vektörü ve kovaryans matrisi bilinen bir sınıftan (AD veya MCI); yine o sınıfa ait çok-değişkenli normal dağılımın içerinde yer alan sentetik veri üretimi yapılabilmektedir. İkinci adımda, çok-değişkenli normal dağılımda kullanılacak olan ortalama vektörünün elde edilmesi hedeflenmiştir. Burada her bir deneğin farklı görünümlerdeki öznitelikleri toplanmakta ve deneği ifade eden tek bir tensör oluşmaktadır. netNorm yöntemi kullanılarak da, popülasyondaki tensörlerin tamamını temsil eden merkezi tek bir tensör üretilmektedir. Bu tensör, ilgili popülasyonun matematiksel bir ortalaması olarak kabul edilebilmektedir. Özetle, bu yöntem verilen bir popülasyondaki deneklerin en genel bilgilerini kullanarak, o popülasyonu tek bir tensör ile ifade eder ve ortalama (mean) olarak kullanılabilir. Son adımda, çok-değişkenli normal dağılımda ihtiyaç duyulan kovaryans matris parametresinin üretilmesi hedeflenmiştir. Ancak, tıbbi verilerin sınırlı olmasından dolayı bu işlem sağlıklı yapılamamaktadır. Çünkü sınırlı veriden elde edilen kovaryans matrisi, sınıflandırma işleminde istenilen başarıyı sağlamamaktadır. Bu sorunun üstesinden gelmek için, basit ve etkili bir yöntem olan genetik algoritma yaklaşımı ile uygun kovaryans matrisi üretilmesi önerilmiştir. Bu yöntem, başlangıçta rastgele üretilen veya sınırlı sayıda denek üzerinden çıkartılan kovaryans matrisleri aday kovaryans matrisler olarak tanımlamaktadır. Bu tanımla matrislerlin her biri uygunluk fonksiyonuna sokulmakta ve uygunluk puanı hesaplanmaktadır. Bu puana göre sıralanan ve en yüksek puana sahip matrisler sonraki adım için ata kovaryans matrisler olarak seçilmektedir. Seçilen bu matrisler kendi aralarında eşlenmekte ve parametrelerin değer değişimi (crossover) yapılmaktadır. Ayrıca bu değişimden sonra rastgele seçilen parametreler, rastgele seçilen değerler ile değiştirilerekte genetik çeşitlilik sağlanmaktadır (mutation). Bu işlemler, uygunluk puanı sabitlenene kadar tekrarlanmakta ve sonunda optimum bir kovaryans matris elde edilmektedir. Böylece, çok-değişkenli normal dağılımdan sentetik veri üretme aşamasında ihtiyaç duyulan ortalama tensörü ve kovaryans matris elde edilmiştir. Bu parametreler ve veri çeşitliliğini sağlayacak rastgele üretilmiş bir vektörün de yardımıyla çok-değişkenli normal dağılım denklemi tersten hesaplanarak sentetik veri üretilmesi sağlanmaktadır. Önerilen yöntem ile sınıflandırması yapılacak popülasyonlara sentetik veri üretilmekte ve veri sayısı arttırılmaktadır. Sonrasında üretilen sentetik ve gerçek veriler ile SVM sınıflayıcısı eğitilmekte ve sınıflama sonuçlarında artış sağlandığı gözlemlenmektedir. Ayrıca farklı yöntemler ile üretilen veriler ile eğitilmiş SVM sınıflayıcıları ile önerilen yöntem kıyaslanmıştır. Farklı verisetleri üzerinde yapılan bu testlerde önerilen yöntemin başarısının diğer yöntemelere göre daha iyi sonuç verdiği gözlemlenmiştir. Bu testlerin dışında, genetik algoritma yaklaşımı ile kovaryans matris üretme kısımları da değerlendirilmiştir. Burada üretilen kovaryans matrisinin uygunluğu, yine farklı yöntemler ile elde edilen diğer kovaryans matrisleri ile kıyaslanmıştır. Kıyaslama sonunda önerilen yöntemin daha iyi sonuç verdiği gözlemlenmiştir. Ayrıca, genetik algoritmanın çalışma süresi boyunca oluşturduğu çıktılar incelenmiş, zamanla algoritmanın optimum kovaryans matrise doğru evrildiği hesaplamalar ile tespit edilmiştir. Bu tez çalışmasın, önerilen GEM-VIP yöntemi ile sentetik veri üretilerek çok-görünümlü beyin verilerinin sınıflandırma performansının arttırılması amaçlanmıştır. Veri üretimi aşamasında çok-değişkenli normal dağılım fonksiyonundan faydalanılmış ve bu fonksiyonun değişkenleri olan popülasyon ortalama ve kovaryans matrisi elde edilemeye çalışılmıştır. Bu aşamada netNorm ve genetik algoritma kullanılarak ilgili değişkenler üretilmiştir. Bu değişkenler ile sentetik veri üretilmiş ve sınıflandırma performansı artırılmıştır. Bu çalışma da 2 farklı veri seti kullanılmış, bu veri setlerinde yer alan sınıflar için ayrı ayrı bu yöntem uygulanıp sonuçlar gözlemlenmiştir. Gözlemler sonucunda, önerilen yöntemin her iki veri seti içinde sınıflandırma performansını pozitif yönte arttırdığı sonucuna varılmıştır.

Özet (Çeviri)

Multi-view network representation revealed multi-faced alterations of the brain as a complex interconnected system, particularly in mapping neurological disorders. Such rich data representation maps the relationship between different brain views which has the potential of boosting neurological diagnostic tasks. However, multi-view brain data is scarce and generally is collected in small sizes. Thus, such data type is broadly overlooked among researchers due to its relatively small size. Despite the existence of data proliferation techniques as a way to overcome data scarcity, to the best of our knowledge, multi-view data proliferation from a single sample has not been fully explored. Here, we propose to bridge this gap by proposing our GEneralized Multi-VIew data Proliferator (GEM-VIP), a framework aiming to proliferate synthetic multi-view brain samples from a single multi-view brain to boost multi-view brain data classification tasks. For the given Connectional Brain Template (i.e., represents an approximation of brain graphs that captures the unique connection shared by a population's subjects), we set out the proliferate synthetic multi-view brain graphs using the inverse of multi-variate normal distribution (MVND). However, one needs two crucial components, which are the mean an the covariance of a given population. As such, first, our proposed GEM-VIP framework obtains a population-representative tensor (i.e., drawn from the prior CBT) which can be mathematically regarded as a mean of the population. Second, drawing inspiration from the genetic algorithm paradigm our proposed GEM-VIP learns the covariance matrix of the population using the given CBT. Lastly, it proliferates synthetic samples using the earlier obtained representative tensor and created covariance matrix of the population on the MVND equation. We evaluate our GEM-VIP against several comparison methods. The results show that our framework boosts the multi-view brain data classification accuracy of AD/ lMCI and eMCI/ normal control (NC) datasets. In short, our GEM-VIP method boosts the diagnoses of the neurological disorders.

Benzer Tezler

  1. Çok faktörlü varyans analizi ve eğitim bilimlerine uygulanışı üzerine bir deneme

    Multifactor variance analysis and on the application to educational sciences

    MEHMET GÜNGÖR

    Doktora

    Türkçe

    Türkçe

    1992

    Eğitim ve ÖğretimFırat Üniversitesi

    Matematik Ana Bilim Dalı

    PROF.DR. SALİH ÖZÇELİK

  2. Current-mode CMOS design of multi-valued logic circuits

    Çok değerli mantık devrelerinin akım modlu CMOS tasarımı

    TURGAY TEMEL

    Doktora

    İngilizce

    İngilizce

    2002

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. AVNİ MORGÜL

  3. Güvencesizliğin sosyolojisi: Tuzla Tersaneler Bölgesi çalışanları üzerine bir araştırma

    Sociology of precarity: A research on employees Tuzla Shipyards Zone

    MEVLÜT YILMAZ

    Doktora

    Türkçe

    Türkçe

    2016

    SosyolojiFırat Üniversitesi

    Sosyoloji Ana Bilim Dalı

    DOÇ. DR. SÜLEYMAN İLHAN

  4. Yakın geçmişteki nükleer reaktör dinamik analiz yöntemlerine bir bakış

    Başlık çevirisi yok

    MURAT ALGÜL

    Yüksek Lisans

    Türkçe

    Türkçe

    1996

    Nükleer Mühendislikİstanbul Teknik Üniversitesi

    Nükleer Enerji Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ERDİNÇ EDGÜ

  5. Veri zarflama analizi ve bankacılık sektöründe bir uygulama

    Data envelopment analysis and an application in the banking sector

    İBRAHİM İLERİ

    Yüksek Lisans

    Türkçe

    Türkçe

    1997

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TUFAN V. KOÇ