Geri Dön

Multiclass classification of hepatic anomalies based on in vivo microwave dielectric properties

Hepatik anomalilerin in vivo mikrodalga dielektrik özelliklerine dayalı çok sınıflı sınıflandırılması

  1. Tez No: 546677
  2. Yazar: ZEYNEP GÜLSÜM BİLGEN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ TUBA YILMAZ ABDOLSAHEB
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Biyomühendislik, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Bioengineering, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Biyomedikal Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 93

Özet

Biyolojik malzemelerin elektriksel özellikleri ve elektromanyetik dalgalar ile etkileşimi, tıp ve elektromanyetik alanında çalışan araştırmacıların dikkatini çekmektedir. Çalışmalar, mikrodalgaların özellikle teşhis ve tedavi amaçlı tıbbi uygulamalarda çok büyük potansiyele sahip olduğunu göstermektedir. Radyo dalgaları ve mikrodalgalar kullanan bir dizi yenilikçi teknoloji, kanser gibi birçok hastalığın tespiti, teşhisi ve tedavisini geliştirmek için yeni teknikler geliştirmek amacıyla araştırılmaktadır. Elektromanyetik alanların dokulardaki etkileşimini anlamak için öncelikle karmaşık dielektirik sabitini anlamak gerekmektedir. Dielektirik sabitinin anlaşılabilmesi için ölçümünün düzgün bir şekilde yapılması gerekmektedir. Mikrodalga frekanslarında biyolojik numunelerin dielektirik ölçümü zorlu bir iştir. Literatürde yüksek kayıplı numunelerin doğru ölçümü için farklı yöntemler rapor edilmiştir. Ancak yöntemlerin çoğu yalnızca belirli bir frekans aralığı için uygundur. Bu çalışmada, tek bir prob ile geniş bir frekans aralığında kullanılabilen açık uçlu koaksiyel prob yöntemi kullanılmıştır. Son yıllarda, biyolojik dokuların mikrodalga frekanslarındaki dielektrik özellikleri, birçok farklı hastalığın teşhisinde bir doku dielektrik özellik veri tabanı oluşturularak kapsamlı bir şekilde araştırılmaktadır. Makine öğrenme algoritmaları, meme kanseri teşhisi, Parkinson, üriner sistem bozukluğu, vb. gibi birçok farklı tıbbi alanda bu veri setlerini teşhis amaçlı kullanmaktadır. Farklı biyolojik dokuların elektromanyetik özellikleri sağlık durumlarına bağlı olarak farklılık göstermektedir. Bu da bu özelliklerin yukarıda bahsi geçen teşhis amacıyla kullanımına olanak sağlamaktadır. Mikrodalga ile dielektirik özelliklere bakılarak yapılan teşhis çalışmalarında genel prensip çalışılan bölgedeki dokuya elektromanyetik dalga gönderilmesi ve bu bölgeden yansıyan dalganın algılanması şeklindedir. Aynı dokunun dielektirik özelliklerinin hasta ve sağlıklı olma durumunda farklılık göstermesi yansıyan dalganın farklı olmasından kaynaklıdır. Literatürde bu farklılıktan yararlanarak kanser gibi başlıca hastalıkların teşhisinin kolaylaştırılması hedeflenen birçok çalışma bulunmaktadır. Bu tez çalışmasında, sirozlu, kanserli ve sağlıklı karaciğer dokularının sınıflandırılması ve kullanılan farklı sınıflandırıcıların sirozlu, kanserli ve sağlıklı karaciğer dokularının sınıflandırılmasındaki hassasiyetlerine göre karşılaştırılması amaçlanmaktadır. Sıçan karaciğer doku örnekleri için çoklu sınıflandırıcı algoritmalarının gösterdiği başarı, doku tiplerini belirlemek için dielektrik özelliklerin kullanılabileceğini göstermektedir. Karaciğer kolorektal ve hepatoselüler (HCC) kanserleri dünya çapında üçüncü ve beşinci en yaygın görülen kanserlerdir. Bu iki kanserin yılda yaklaşık bir milyon ölüme neden olduğu düşünüldüğünde bu kanser tipinin teşhis aşamasında yapılabilecek en ufak bir iyileştirme büyük önem arz etmektedir. Aynı şekilde uzmanlar tarafından sirotik hastalıkların bir yıl içinde yüzde 1-4 oranında karaciğer kanserine dönüştüğü belirtilmektedir. Bu duruma siroz kaynaklı ölümlerde eklendiğinde yine sirotik dokunun erkenden teşhis edilmesi büyük önem taşımaktadır. Bu tezde, literatürde yapılmış mevcut ikili sınıflandırma çalışmalarına ek olarak çoklu sınıflandırma amaçlanmış ve sirozlu, kanserli dokunun tespiti için makine öğrenmesi metotları kullanılmıştır. İstanbul Üniversitesi Aziz Sancar Deneysel Tıp Araştırma Enstitüsü'nden 30 adet dişi yetişkin Wistar albino cinsi sıçan kullanılarak dielektirik ölçümleri yapılmıştır. Hayvanlar rastgele iki gruba ayrılmıştır. Bunlardan 6'sı kontrol ve 24'ü deney grubundadır. Deney grubundaki hayvanlarda hepatik kanserli doku oluşumu süreci tamamlandıktan sonra dielektirik ölçümlerini almak için hazır hale gelmişlerdir. Açık uçlu koaksiyel prob tekniği kullanılarak sıçan karaciğer dokularının in vivo dielektirik ölçümleri alınmıştır. Ağ analizöründen elde edilen S11 değerlerinden dielektirik sabiti ve dielektirik kaybını hesaplayan bir yazılım kullanılmıştır. Bu sayede makine öğrenme algoritmaları için veri setleri, 500 MHz aralıklarla 500 MHz ve 6 GHz arasında malign, normal ve siroz sıçan karaciğer dokularının in vivo dielektrik özelliklerinin ölçülmesiyle toplanmıştır. Oluşturulan datasette örnek sayıları şu şekildedir: • Sağlıklı (-1) örnek sayısı 391 • Sirozlu (0) örnek sayısı 196 • Kanserli (1) örnek sayısı 380 Karaciğer dokularını sınıflandırmak için, makine öğrenme algoritması olarak Destek Vektör Makinesi (DVM) ve Rastgele Orman (RO) kullanılmıştır. Bu algoritmalar çeşitli nitelik kümeleri kullanılarak eğitilmiştir. Öncelikle epsilon nitelikleri kullanılmıştır. Bu nitelikler hem ham halde hem de normalize edilerek denenmiştir. Aynı zamanda S11 değerleri de algoritmalar tarafından aynı şekilde kullanılmıştır. Daha sonra Temel Bileşenler Analizi kullanılarak elde edilen temel bileşenler ile algoritmalar eğitilmiştir. Ayrıca Parçacık Sürü Optimizasyonu yardımıyla üretilen Cole-Cole parametreleri de algoritmalara girdi olarak verilmiştir. Algoritmalara girdiler verilmeden önce, veri seti train ve test olmak üzere iki gruba ayrılmıştır. İlk denemelerde bu ayrım yüzde 70 train yüzde 30 test olmak üzere yapılmıştır. Makine öğrenmesi modelleri yüzde 70'lik train verileriyle eğitilmiştir. Modele tanıtılmayan yüzde 30'luk test verileri ile de model performansı ölçülmüştür. İlerleyen denemelerde daha emin sonuçlar elde etmek ve sonuçların şanstan gelme riskini azaltmak amacıyla k katlamalı çapraz doğrulama tekniği kullanılmıştır. Bu teknikte k değeri 10 olarak seçilmiştir ve veriler sınıf sayıları dikkate alınarak 10 eşit parçaya bölünmüştür. Her döngüde bu bölmelerin 9'u ile algoritmalar eğitildi. Kalan bölümdeki veriler eğitilen algoritma modelini test etmek için kullanıldı. Böylece döngüler tamamlandığında veri kümesinin her parçası test olarak kullanılmış oldu. Bu sayede eğitilen modelin performansı eğitim kümesinin tamamı kullanılarak test edilmiş oldu. Destek Vektör Makinesi doğrusal bir yöntem olduğundan doğrusal olmayan verileri sınıflandırmak için kernel yöntemleri kullanılmalıdır. Bu çalışmada Radyal Temel Fonksiyon (RTF) kullanılmıştır. Radyal Temel Fonksiyonunun cost ve gamma şeklinde iki parametresi vardır. Parametre optimizasyonu, DVM'nin R programlama dilinde mevcut olan ayar fonksiyonu (tuning) kullanılarak yapıldı. Yapılan her test başında bu işlem tekrar edilmiş ve en iyi cost ve gamma değerleri cross validation tekniğiyle elde edilmiştir. Sonuç olarak DVM- RTF yöntemiyle epsilon değerleri , S11 değerleri, hem epsilon hem S11 değerleri ortak ve son olarak Cole-Cole değerlerinden oluşan datasetler kullanılarak sonuçlar elde edilmiştir. Rastgele orman metodunda 100, 500 ve 1000 ağaç ile eğitim yapılmıştır. Her ağaç, eğitim kümesi ve öz niteliklerin rastgele bir alt kümesi kullanılarak büyütülür. Sınıfların örnek sayısındaki dengesizliğin sonucu olumsuz etkilememesi için her bir ağaca tanıtılan her sınıftan örneklerin sayısı eşit olarak belirlenmiştir. Rastgele orman metodunda her karar düğümünde bölme işlemi için kullanılacak niteliğin seçilmesi için k(m-try) adet rastgele aday nitelik denenmek üzere seçilir ve bu nitelikler içerisinden bölme sonucu en iyi olan niteliğe göre bölme işlemi gerçekleştirilir. Bu değer k = 1, \, 2, \, ..., \, 8 için test edildi. En iyi sonuç $k = 1$ olduğunda elde edildi. k=1 olarak belirlenmesi, karar ağaçlarında bölme işlemi yapılırken denenecek nitelik kümesi için sadece bir aday değişkenin rastgele biçimde seçilmesi anlamına gelir. Yani her bölme işlemi rastgele seçilecek bir niteliğe göre gerçekleştirilir. Böylece daha çeşitli ve rastgeleliği yüksek karar ağaçları oluşur. Öznitelikler arasındaki korelasyonun fazla olması ve/veya bazı niteliklerin diğerlerine baskın olması sebebiyle bu şekilde bir sonuç elde edilmiş olabilir. Çok sınıflı sınıflandırmada, makine öğrenmesi algoritmalarının performans ölçüleri n-by-n karışıklık matrisi ile hesaplanır. Tahmin edilenlere karşı gerçek sınıf etiketleri, karışıklık matrisini oluşturmak için kullanılır. Veri seti etiketleri sağlıklı (-1), sirozlu (0), kanserli (1) olmak üzere üç sınıftan oluşmaktadır. Başlıca performans ölçütleri Doğruluk, Kesinlik, Geri Çağırma ve F1 ölçütleri R studio programında karışıklık matrisi kullanılarak pratik bir şekilde hesaplanmıştır. DVM metodunda en iyi sonuçlar Doğruluk, Kesinlik, Geri Çağırma ve F1 ölçütleri için ortalama %96 olarak bulunmuştur. RO metodunda en iyi sonuçlar bu değerler için ortalama %94 olarak hesaplanmıştır.

Özet (Çeviri)

The time-varying electric fields lead to the movement of electric charges in live tissues (current flow), polarization of loads (electrical dipole formation) and change of the existing dipoles. Their severity depends on the electrical parameters of the tissues. The conductivity determines the electric current and the dielectric constant determines the polarity. Conductivity and dielectric constants vary from tissue to tissue, but also by frequency. The electromagnetic properties of different biological tissues also differ depending on their health status. In most of the studies, due to the difference dielectric properties of the tissues, data sets consisting of dielectric properties of the related region are used for diagnostic purposes. Furthermore, when these studies in the literature are examined, it is seen that the focus is especially on the diagnosis of cancer types and successful results are obtained. The aim of this study is to classify cirrhosis, cancerous and healthy liver tissues and to compare the different classifiers according to their performance in the classification of cirrhosis, malignant and healthy liver tissues based on accuracy, precision, recall and F1 measurements. Usage of the dielectric properties of the tissues are very important for calculation of internal electric fields within the body in the case of exposure to electromagnetic waves, in the development of medical applications such as diagnostics and therapy with electromagnetic energy, and understanding the probable damages of these electromagnetic fields. The success of multinomial classifier algorithms for rat liver tissue samples indicates that dielectric properties can be used to determine tissue health statues. Dielectric measurements were performed using 30 adult female Wistar albino rats from Aziz Sancar Institute of Experimental Medicine, Istanbul University (IU). The animals were randomly divided into two groups. Six of these were in the control group and 24 in the experimental group. After the observation of hepatic cancer tissue formation in the animals in the experimental group, they were ready to take dielectric measurements. In vivo dielectric measurements of rat liver tissues were taken using the open-ended coaxial probe technique. A software calculating the dielectric constant and dielectric loss from the S11 values obtained from the network analyzer was used. Thus, data sets for machine learning algorithms were collected by measuring in vivo dielectric properties of malignant, normal and cirrhosis rat liver tissues between 500 MHz and 6 GHz at 500 MHz intervals. The sample numbers in the generated dataset are as follows: • Number of Healthy Samples (-1) 391 • Number of Cirrhosis Samples (0) 196 • Number of Malignant Samples (1) 380 To classify liver tissues, Support Vector Machine (SVM) and Random Forest (RF) were used as the machine learning algorithm. These algorithms were trained using various sets of attributes. First, epsilon properties were used. These features were tested both in raw and normalized form. At the same time, S11 values were used by the algorithms. Then, the principal components obtained using Principal Components Analysis (PCA) were used to train the algorithms. In addition, Cole-Cole parameters produced with the help of Particle Swarm Optimization were given as input to the algorithms. Before introducing input to the algorithms, the data set was divided into two groups: train and test. In the first trials, this distinction was made with 70 percent train and 30 percent test. Machine learning models were trained with 70 percent train data. Model performance was also measured with 30 percent test data not introduced to the model. In further trials, k-fold cross-validation technique was used to obtain more confident results and to reduce the risk of results from chance. In this technique, the k value was chosen as 10 and the data was divided into 10 equal subsets (fold) considering the number of classes. Algorithms were trained with 9 of these subsets in each cycle. The data in the remaining section was used to test the algorithm model. Thus, when the loops were completed, each part of the data set was used as a test. In this way, the performance of the trained model was tested using the whole training set. Since the Support Vector Machine is a linear method, kernel methods should be used to classify nonlinear data. In this study Radial Basis Function was used. The Radial Basis Function has two parameters, cost and gamma. Parameter optimization was performed using the tuning function available in the R programming language of the SVM. At the beginning of each test, this process was repeated and the best cost and gamma values were obtained by cross validation technique. As a result, the results were obtained by using SVM-RBF method with datasets consisting of epsilon values, S11 values, both epsilon and S11 values, and Cole-Cole values. Training was carried out with 100, 500 and 1000 trees in random forest method. Each tree was grown using random subset of training set and features. The number of samples from each class introduced to each tree was determined equally so that the imbalance in the number of samples did not adversely affect the result. At each decision node, k (m-try) candidate attributes are selected randomly for split process and the best attribute, i.e. the attribute which decreases the impurity of its leaf nodes most when used for split, is chosen among them. The default $k=4$ when Epsilon features are used. This value was tested for k = 1, \, 2, \, ..., \, 8. The best performance was obtained when the k parameter is set to 1. k=1 means that only one candidate variable is randomly selected for the set of attributes to be tried at each decision node. As a result, decision trees of which diversity and randomness are high are formed. Such a result might have been caused by the high correlation between the attributes and/or by the dominance of some attributes over others. In multi-class classification, the performance measures of the machine learning algorithms are calculated by the n-by-n confusion matrix. True class labels versus predictions are used to generate the confusion matrix. Data set labels consist of three classes: healthy (-1), cirrhosis (0), cancerous (1). The main performance criteria, Accuracy, Precision, Recall and F1 criteria were calculated practically by using the confusion matrix in the R studio program. The best results in SVM method were found to be 96% on average for Accuracy, Precision, Recall and F1 criteria. The best results in the RF method were calculated as the average 94% for these values.

Benzer Tezler

  1. Bilgisayarlı tomografi görüntülerinden tekstür analizi ve sınıflandırma yöntemleri yardımıyla karaciğer fibrozisinin evrelendirilmesi

    Staging of the liver fibrosis from computed tomography images using texture analysis and classification methods

    ÖMER KAYAALTI

    Doktora

    Türkçe

    Türkçe

    2014

    BiyomühendislikErciyes Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSA HAKAN ASYALI

    PROF. DR. SADIK KARA

  2. Multiclass classification of scientific texts written in Turkish by applying deep learning technique

    Türkçe dilinde yazılan bilimsel metinlerin derin öğrenme tekniği uygulanarak çoklu sınıflandırılması

    MUSTAFA ÖZKAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÖRKEM KAR

  3. Investigation of imbalance problem effects on text categorization

    Dengesizlik probleminin metin sınıflama üzerindeki etkilerinin araştırılması

    BEHZAD NADERALVOJOUD

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. EBRU AKÇAPINAR SEZER

  4. Beyin bilgisayar arayüzü tasarımı için farklı zhinsel aktiviteler esnasında oluşan EEG sinyallerinin analiz edilmesi ve sınıflandırılması

    Analysis and classification of EEG signals recorded during different mental tasks for a brain computer interface design

    NURHAN GÜRSEL ÖZMEN

    Doktora

    Türkçe

    Türkçe

    2010

    Makine MühendisliğiKaradeniz Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    DOÇ. DR. LEVENT GÜMÜŞEL

  5. Yabancı dil yeterlik sınavı maddelerinin sınıflandırılmasında farklı metin madenciliği algoritmalarının sınıflama doğruluklarının karşılaştırması

    A comparison of classification accuracy of different text mining algorithms in classification of foreign language proficiency exam items

    HÜSEYİN ATASEVEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Eğitim ve ÖğretimAnkara Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    PROF. DR. ÖMAY ÇOKLUK BÖKEOĞLU