Geri Dön

Machine learning-based prediction of FTIR spectral peaks for biomass characterization

Biyokütle karakterizasyonu için FTIR spektral pik noktalarının makine öğrenmesi tabanlı tahmini

  1. Tez No: 947924
  2. Yazar: FAHREDDİN TALHA SAĞİŞ
  3. Danışmanlar: PROF. DR. SERDAR YAMAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Kimya Mühendisliği, Chemical Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Kimya Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Kimya Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 111

Özet

Bu tez, lignoselülozik biyokütlenin hızlı ve güvenilir şekilde karakterizasyonu amacıyla Fourier Dönüşümlü Kızılötesi (FTIR) spektroskopi ile makine öğrenmesi (ML) yöntemlerinin bütünleştirilmesini ele almaktadır. Geleneksel yaş kimyasal analiz yöntemleri (örneğin Soxhlet ekstraksiyonu, Klason lignin tayini) hassas sonuçlar verse de oldukça zaman alıcıdır. FTIR ise, materyalin kızılötesi ışığı nasıl soğurduğunu yansıtan bir spektrum sunarak çok daha kısa sürede ölçüm yapma avantajına sahiptir. Biyokütlenin temel bileşenleri—selüloz, hemiselüloz, lignin ve ekstraktifler—kendilerine özgü fonksiyonel gruplara sahip olduğundan, 3700–2800 cm⁻¹ gibi bölgelerde O–H ve C–H gerilme bantları, 1800–1500 cm⁻¹ aralığında karbonil ve aromatik titreşimler gözlenmektedir. Böylece FTIR, numunenin kimyasal“parmak izi”verilerini sağlar. Ancak bu spektrumların nicel yorumlanması, özellikle bantların üst üste binmesi ve çeşitli fiziksel etkiler nedeniyle zordur. Tezde, FTIR verilerini istatistiksel ve makine öğrenmesi yaklaşımlarıyla işleyerek, biyokütlenin bileşim ve yapısına dair parametrelerin (örneğin selüloz/lignin içeriği veya geniş bantlardaki pik varlığı) otomatik biçimde tahmin edilmesi hedeflenmiştir. Bu çalışma üç aşamada kurgulanmıştır: Faz 1 (Tüm Spektrumun Regresyonu): 9 girdi özelliğinden (biyokütle kategorisi, nem, kül, uçucu madde, sabit karbon, vb.) hareketle 3551 dalgaboyu noktasının her birinde ölçülen FTIR şiddetinin öngörülmesi hedeflenmiştir. Çoklu çıkışlı (multi-output) regresyon olarak tasarlanan bu yaklaşımda, PLS (kısmi en küçük kareler), Ridge Regresyonu, Random Forest ve Yapay Sinir Ağı (MLP) gibi modeller denenmiştir. Böylece her dalgaboyunun transmittans/absorptans değeri tahmin edilmeye çalışılmıştır. Faz 2 (Geniş Dalgaboyu Aralıklarında Sınıflandırma): Ayrıntılı regresyon yerine, hangi geniş aralıklarda (örneğin 3700–3000 cm⁻¹, 3000–2800 cm⁻¹, 1800–1500 cm⁻¹, 1500–1150 cm⁻¹, 1150–900 cm⁻¹ gibi) belirgin bir pik oluştuğunun“var/yok”şeklinde sınıflandırılması yapılmıştır. Her aralık için“pik mevcut (1)”ya da“pik yok (0)”etiketine karar veren çok-etiketli (multi-label) sınıflandırıcılar (Lojistik Regresyon, Random forest, Gradient Boosting, SVM) eğitilmiştir. Amaç, yüksek çözünürlüklü spektrum yerine seçili bantların varlığını belirleyerek yorumlamayı kolaylaştırmaktır. Faz 3 (Hedeflenmiş Dar Aralıklar): Daha spesifik kimyasal ilişkileri yakalayabilmek için 3000–2800 cm⁻¹ (alifatik C–H titreşimleri), 1800–1500 cm⁻¹ (aromatik/lignin sinyalleri) ve 1150–900 cm⁻¹ (karbonhidrat ayakizi) gibi dar bantlara odaklanılmıştır. Burada sınıflandırma ya da dar bant regressiyonu (pik şiddetini tahmin etme) uygulanarak, lignin veya selüloz gibi belirli fonksiyonel grupların varlığı daha yüksek doğrulukla öngörülmüştür. Temel Bulgular •Faz 1 (Tüm Spektrum): Çok sayıda dalgaboyu noktasını tek seferde tahmin etmek zordur. R² değerleri 0.04–0.21 arasında kalmıştır. MLP, en iyi sonuçları verse de veri boyutunun fazlalığı ve örnek sayısının sınırlılığı yöntemi zorlamaktadır. •Faz 2 (Geniş Bant Sınıflandırma):“Pik var mı?”yaklaşımı, tüm yoğunluğu modellemekten kolay olduğundan, Hamming doğruluğu ~%75'e ulaşmıştır. Lojistik Regresyon çoğu zaman en iyi sonucu sağlamıştır. •Faz 3 (Dar Bantlar): 3000–2800, 1800–1500 ve 1150–900 cm⁻¹ gibi spesifik aralıklara odaklanmak, daha kararlı ve yüksek doğruluklu (yaklaşık %80 üzerinde) sınıflandırma imkânı sunmuştur. Random forest özellikle bu odaklı bantlarda iyi performans göstermiştir. Sonuç ve Öneriler Bu tezde, FTIR verisinin makine öğrenmesiyle işlenerek biyokütle karakterizasyonunda hem hızlı hem de oldukça güvenilir tahminlerin yapılabildiği gösterilmiştir. Tüm spektrumun tahmini (Faz 1) kapsamlı ancak karmaşık bir görev olup verisetinin boyutu nedeniyle sınırlı başarı kaydetmiştir. Buna karşın, geniş bant (Faz 2) ve hedeflenmiş dar bant (Faz 3) yaklaşımları, kimyasal olarak anlamlı bölgeleri vurgulayarak daha yüksek doğruluk ve yorumlanabilirlik sağlamıştır. Random forest ve MLP gibi gelişmiş modeller, doğrusal yöntemlerin ötesine geçerek spektral veri içindeki doğrusal olmayan etkileşimleri yakalayabilmiştir. Ayrıca verilerin önişlemesi (normalize etme, bant seçimi) model performansında kritik rol oynamıştır. Gelecekte, bu yaklaşımın daha geniş bir biyokütle yelpazesinde, daha çok sayıda örnekle test edilmesi ve derin öğrenme modelleri gibi daha sofistike yöntemlerle kıyaslanması planlanabilir. Sonuç olarak, tez bulguları, FTIR ve ML entegrasyonunun hızlı biyokütle analizinde önemli bir yenilik ve pratik fayda sunduğunu göstermektedir. Bu entegrasyon hem laboratuvar maliyetlerini azaltıp hızı artırmakta hem de farklı biyokütle türlerini ayrıntılı şekilde ayırt edebilme becerisi sağlamaktadır.

Özet (Çeviri)

This thesis explores how machine learning (ML) can be integrated with Fourier Transform Infrared (FTIR) spectroscopy to rapidly characterize lignocellulosic biomass. Traditional wet-chemical methods (e.g., Soxhlet extraction, Klason lignin assay) are accurate but time-consuming, motivating the use of FTIR as a faster, non-destructive tool. By capturing specific transmittance dips (absorbance peaks) tied to functional groups (e.g., O–H, C=O, aromatic rings), FTIR provides a detailed“fingerprint”of biomass components such as cellulose, hemicellulose, lignin, and extractives. This research aims to develop machine learning models that transform FTIR spectra into meaningful compositional or structural information. Three phases of investigation are designed for increasingly focused prediction targets: •Phase 1 (Full Spectrum): A multi-output regression approach predicts every wavenumber's intensity (3551 points) from nine input features (including biomass category, moisture, ash, volatile matter, holocellulose, lignin, etc.). We compare algorithms such as Partial Least Squares (PLS), Ridge Regression, Random Forest, and a Multi-Layer Perceptron (MLP). •Phase 2 (Broad-Range Classification): Instead of predicting each intensity, we classify whether a strong absorbance peak appears within broad wavenumber intervals (e.g., 3700–3000 cm⁻¹, 1800–1500 cm⁻¹). We employ multi-label classification (Logistic Regression, Random Forest, Gradient Boosting, SVM) to determine“peak present/absent”in each interval. •Phase 3 (Targeted Narrow Ranges): We zoom in on crucial intervals (like 3000–2800 cm⁻¹, 1800–1500 cm⁻¹, 1150–900 cm⁻¹) that directly link to chemical properties (e.g., lignin's aromatic ring signals, carbohydrate fingerprints). Classification models identify specific dips within these smaller spectral windows. Key Findings •Full-spectrum regression (Phase 1) is challenging, yielding low R² values (~0.04–0.21). MLP performed best overall for this high-dimensional task. •Broad-range classification (Phase 2) achieved higher accuracies (Hamming accuracy up to ~0.75) since“peak vs. no peak”is less complex than predicting all intensities. •Targeted intervals (Phase 3) gave the most robust classification (Hamming accuracy up to ~0.81) and better interpretability, as each narrow band strongly correlates with a known chemical feature. Conclusion & Implications By tailoring the ML approach to the desired level of spectral detail—ranging from full-spectrum regression to broad or narrow-interval classification—this thesis demonstrates that FTIR combined with data-driven modeling can effectively screen and characterize biomass. The findings support the hypothesis that simplified or chemically targeted outputs (Phase 2 and 3) can outperform fully detailed predictions (Phase 1). Ultimately, ML-enhanced FTIR offers a rapid, cost-saving alternative to classical assays, facilitating large-scale, real-time biomass characterization for bioenergy and bioproduct applications.

Benzer Tezler

  1. Farklı lif içeriğine sahip yüksek fırın cürufu, obsidyen ve metakaolin tabanlı geopolimer harçların ve betonların incelenmesi

    Investigation of geopolymer mortars and concretes based on blast furnace slag, obsidian, and metakaolin with different fiber content

    ZAFER KURT

    Doktora

    Türkçe

    Türkçe

    2023

    İnşaat MühendisliğiRecep Tayyip Erdoğan Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. İLKER USTABAŞ

  2. Standart penetrasyon deney verileri ile zemin parametrelerinin makine öğrenmesi tabanlı tahmini

    Machine learning based prediction of soil parameters with standard penetration test data

    HATİCE BEYZA URGANCI

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    İnşaat MühendisliğiKTO Karatay Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ESRA URAY

  3. Makine öğrenimi tabanlı kanat profili üzerindeki aerodinamik kuvvetlerin tahmini ve şekil optimizasyonu modelinin geliştirilmesi

    Machine learning based prediction of aerodynamic forces on wing profile and development of shape optimization model

    ABDULSAMET EKŞİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SELÇUK SEVGEN

  4. Nesnelerin interneti platformları için makine öğrenmesi tabanlı bir tahmin modülü

    A machine learning based prediction module for internet of things platforms

    HALİL GÜLAÇAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YUSUF YASLAN

  5. Prediction of risky maritime encounters in narrow and congested waterways via clustering based ensemble machine learning and sequential deep learning

    Dar ve trafiği yoğun su yollarında riskli gemi karşılaşmalarının kümeleme tabanlı yapay öğrenme ve sıralı derin öğrenme ile tahminlenmesi

    MUHAMMET FURKAN ORUÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YİĞİT CAN ALTAN