Machine learning-based prediction of FTIR spectral peaks for biomass characterization

Biyokütle karakterizasyonu için FTIR spektral pik noktalarının makine öğrenmesi tabanlı tahmini

PDF İndir

Tez No: 947924
Yazar: FAHREDDİN TALHA SAĞİŞ
Danışmanlar: PROF. DR. SERDAR YAMAN
Tez Türü: Yüksek Lisans
Konular: Kimya Mühendisliği, Chemical Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: İngilizce
Üniversite: İstanbul Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Kimya Mühendisliği Ana Bilim Dalı
Bilim Dalı: Kimya Mühendisliği Bilim Dalı
Sayfa Sayısı: 111

Özet

Bu tez, lignoselülozik biyokütlenin hızlı ve güvenilir şekilde karakterizasyonu amacıyla Fourier Dönüşümlü Kızılötesi (FTIR) spektroskopi ile makine öğrenmesi (ML) yöntemlerinin bütünleştirilmesini ele almaktadır. Geleneksel yaş kimyasal analiz yöntemleri (örneğin Soxhlet ekstraksiyonu, Klason lignin tayini) hassas sonuçlar verse de oldukça zaman alıcıdır. FTIR ise, materyalin kızılötesi ışığı nasıl soğurduğunu yansıtan bir spektrum sunarak çok daha kısa sürede ölçüm yapma avantajına sahiptir. Biyokütlenin temel bileşenleri—selüloz, hemiselüloz, lignin ve ekstraktifler—kendilerine özgü fonksiyonel gruplara sahip olduğundan, 3700–2800 cm⁻¹ gibi bölgelerde O–H ve C–H gerilme bantları, 1800–1500 cm⁻¹ aralığında karbonil ve aromatik titreşimler gözlenmektedir. Böylece FTIR, numunenin kimyasal“parmak izi”verilerini sağlar. Ancak bu spektrumların nicel yorumlanması, özellikle bantların üst üste binmesi ve çeşitli fiziksel etkiler nedeniyle zordur. Tezde, FTIR verilerini istatistiksel ve makine öğrenmesi yaklaşımlarıyla işleyerek, biyokütlenin bileşim ve yapısına dair parametrelerin (örneğin selüloz/lignin içeriği veya geniş bantlardaki pik varlığı) otomatik biçimde tahmin edilmesi hedeflenmiştir. Bu çalışma üç aşamada kurgulanmıştır: Faz 1 (Tüm Spektrumun Regresyonu): 9 girdi özelliğinden (biyokütle kategorisi, nem, kül, uçucu madde, sabit karbon, vb.) hareketle 3551 dalgaboyu noktasının her birinde ölçülen FTIR şiddetinin öngörülmesi hedeflenmiştir. Çoklu çıkışlı (multi-output) regresyon olarak tasarlanan bu yaklaşımda, PLS (kısmi en küçük kareler), Ridge Regresyonu, Random Forest ve Yapay Sinir Ağı (MLP) gibi modeller denenmiştir. Böylece her dalgaboyunun transmittans/absorptans değeri tahmin edilmeye çalışılmıştır. Faz 2 (Geniş Dalgaboyu Aralıklarında Sınıflandırma): Ayrıntılı regresyon yerine, hangi geniş aralıklarda (örneğin 3700–3000 cm⁻¹, 3000–2800 cm⁻¹, 1800–1500 cm⁻¹, 1500–1150 cm⁻¹, 1150–900 cm⁻¹ gibi) belirgin bir pik oluştuğunun“var/yok”şeklinde sınıflandırılması yapılmıştır. Her aralık için“pik mevcut (1)”ya da“pik yok (0)”etiketine karar veren çok-etiketli (multi-label) sınıflandırıcılar (Lojistik Regresyon, Random forest, Gradient Boosting, SVM) eğitilmiştir. Amaç, yüksek çözünürlüklü spektrum yerine seçili bantların varlığını belirleyerek yorumlamayı kolaylaştırmaktır. Faz 3 (Hedeflenmiş Dar Aralıklar): Daha spesifik kimyasal ilişkileri yakalayabilmek için 3000–2800 cm⁻¹ (alifatik C–H titreşimleri), 1800–1500 cm⁻¹ (aromatik/lignin sinyalleri) ve 1150–900 cm⁻¹ (karbonhidrat ayakizi) gibi dar bantlara odaklanılmıştır. Burada sınıflandırma ya da dar bant regressiyonu (pik şiddetini tahmin etme) uygulanarak, lignin veya selüloz gibi belirli fonksiyonel grupların varlığı daha yüksek doğrulukla öngörülmüştür. Temel Bulgular •Faz 1 (Tüm Spektrum): Çok sayıda dalgaboyu noktasını tek seferde tahmin etmek zordur. R² değerleri 0.04–0.21 arasında kalmıştır. MLP, en iyi sonuçları verse de veri boyutunun fazlalığı ve örnek sayısının sınırlılığı yöntemi zorlamaktadır. •Faz 2 (Geniş Bant Sınıflandırma):“Pik var mı?”yaklaşımı, tüm yoğunluğu modellemekten kolay olduğundan, Hamming doğruluğu ~%75'e ulaşmıştır. Lojistik Regresyon çoğu zaman en iyi sonucu sağlamıştır. •Faz 3 (Dar Bantlar): 3000–2800, 1800–1500 ve 1150–900 cm⁻¹ gibi spesifik aralıklara odaklanmak, daha kararlı ve yüksek doğruluklu (yaklaşık %80 üzerinde) sınıflandırma imkânı sunmuştur. Random forest özellikle bu odaklı bantlarda iyi performans göstermiştir. Sonuç ve Öneriler Bu tezde, FTIR verisinin makine öğrenmesiyle işlenerek biyokütle karakterizasyonunda hem hızlı hem de oldukça güvenilir tahminlerin yapılabildiği gösterilmiştir. Tüm spektrumun tahmini (Faz 1) kapsamlı ancak karmaşık bir görev olup verisetinin boyutu nedeniyle sınırlı başarı kaydetmiştir. Buna karşın, geniş bant (Faz 2) ve hedeflenmiş dar bant (Faz 3) yaklaşımları, kimyasal olarak anlamlı bölgeleri vurgulayarak daha yüksek doğruluk ve yorumlanabilirlik sağlamıştır. Random forest ve MLP gibi gelişmiş modeller, doğrusal yöntemlerin ötesine geçerek spektral veri içindeki doğrusal olmayan etkileşimleri yakalayabilmiştir. Ayrıca verilerin önişlemesi (normalize etme, bant seçimi) model performansında kritik rol oynamıştır. Gelecekte, bu yaklaşımın daha geniş bir biyokütle yelpazesinde, daha çok sayıda örnekle test edilmesi ve derin öğrenme modelleri gibi daha sofistike yöntemlerle kıyaslanması planlanabilir. Sonuç olarak, tez bulguları, FTIR ve ML entegrasyonunun hızlı biyokütle analizinde önemli bir yenilik ve pratik fayda sunduğunu göstermektedir. Bu entegrasyon hem laboratuvar maliyetlerini azaltıp hızı artırmakta hem de farklı biyokütle türlerini ayrıntılı şekilde ayırt edebilme becerisi sağlamaktadır.

Özet (Çeviri)

This thesis explores how machine learning (ML) can be integrated with Fourier Transform Infrared (FTIR) spectroscopy to rapidly characterize lignocellulosic biomass. Traditional wet-chemical methods (e.g., Soxhlet extraction, Klason lignin assay) are accurate but time-consuming, motivating the use of FTIR as a faster, non-destructive tool. By capturing specific transmittance dips (absorbance peaks) tied to functional groups (e.g., O–H, C=O, aromatic rings), FTIR provides a detailed“fingerprint”of biomass components such as cellulose, hemicellulose, lignin, and extractives. This research aims to develop machine learning models that transform FTIR spectra into meaningful compositional or structural information. Three phases of investigation are designed for increasingly focused prediction targets: •Phase 1 (Full Spectrum): A multi-output regression approach predicts every wavenumber's intensity (3551 points) from nine input features (including biomass category, moisture, ash, volatile matter, holocellulose, lignin, etc.). We compare algorithms such as Partial Least Squares (PLS), Ridge Regression, Random Forest, and a Multi-Layer Perceptron (MLP). •Phase 2 (Broad-Range Classification): Instead of predicting each intensity, we classify whether a strong absorbance peak appears within broad wavenumber intervals (e.g., 3700–3000 cm⁻¹, 1800–1500 cm⁻¹). We employ multi-label classification (Logistic Regression, Random Forest, Gradient Boosting, SVM) to determine“peak present/absent”in each interval. •Phase 3 (Targeted Narrow Ranges): We zoom in on crucial intervals (like 3000–2800 cm⁻¹, 1800–1500 cm⁻¹, 1150–900 cm⁻¹) that directly link to chemical properties (e.g., lignin's aromatic ring signals, carbohydrate fingerprints). Classification models identify specific dips within these smaller spectral windows. Key Findings •Full-spectrum regression (Phase 1) is challenging, yielding low R² values (~0.04–0.21). MLP performed best overall for this high-dimensional task. •Broad-range classification (Phase 2) achieved higher accuracies (Hamming accuracy up to ~0.75) since“peak vs. no peak”is less complex than predicting all intensities. •Targeted intervals (Phase 3) gave the most robust classification (Hamming accuracy up to ~0.81) and better interpretability, as each narrow band strongly correlates with a known chemical feature. Conclusion & Implications By tailoring the ML approach to the desired level of spectral detail—ranging from full-spectrum regression to broad or narrow-interval classification—this thesis demonstrates that FTIR combined with data-driven modeling can effectively screen and characterize biomass. The findings support the hypothesis that simplified or chemically targeted outputs (Phase 2 and 3) can outperform fully detailed predictions (Phase 1). Ultimately, ML-enhanced FTIR offers a rapid, cost-saving alternative to classical assays, facilitating large-scale, real-time biomass characterization for bioenergy and bioproduct applications.

Benzer Tezler

Tez No
833074
Farklı lif içeriğine sahip yüksek fırın cürufu, obsidyen ve metakaolin tabanlı geopolimer harçların ve betonların incelenmesi
Investigation of geopolymer mortars and concretes based on blast furnace slag, obsidian, and metakaolin with different fiber content
ZAFER KURT
Doktora
Türkçe
2023
İnşaat Mühendisliği Recep Tayyip Erdoğan Üniversitesi
İnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. İLKER USTABAŞ
Tez No
888132
Standart penetrasyon deney verileri ile zemin parametrelerinin makine öğrenmesi tabanlı tahmini
Machine learning based prediction of soil parameters with standard penetration test data
HATİCE BEYZA URGANCI
Yüksek Lisans
Türkçe
2024
İnşaat Mühendisliği KTO Karatay Üniversitesi
İnşaat Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ESRA URAY
Tez No
931153
Makine öğrenimi tabanlı kanat profili üzerindeki aerodinamik kuvvetlerin tahmini ve şekil optimizasyonu modelinin geliştirilmesi
Machine learning based prediction of aerodynamic forces on wing profile and development of shape optimization model
ABDULSAMET EKŞİ
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Üniversitesi-Cerrahpaşa
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SELÇUK SEVGEN
Tez No
510657
Nesnelerin interneti platformları için makine öğrenmesi tabanlı bir tahmin modülü
A machine learning based prediction module for internet of things platforms
HALİL GÜLAÇAR
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YUSUF YASLAN
Tez No
815017
Prediction of risky maritime encounters in narrow and congested waterways via clustering based ensemble machine learning and sequential deep learning
Dar ve trafiği yoğun su yollarında riskli gemi karşılaşmalarının kümeleme tabanlı yapay öğrenme ve sıralı derin öğrenme ile tahminlenmesi
MUHAMMET FURKAN ORUÇ
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Özyeğin Üniversitesi
İnşaat Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YİĞİT CAN ALTAN

Geri Dön