Hidrolojik sapan değer tespitine yeni bir yaklaşım
A new approach to hydrologic outlier detection
- Tez No: 829065
- Danışmanlar: PROF. DR. NECATİ AĞIRALİOĞLU
- Tez Türü: Doktora
- Konular: Meteoroloji, İnşaat Mühendisliği, İstatistik, Meteorology, Civil Engineering, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: İnşaat Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Hidrolik ve Su Kaynakları Mühendisliği Bilim Dalı
- Sayfa Sayısı: 371
Özet
Su kaynaklarının yönetilmesi için yapılan araştırma geliştirme faaliyetleri hidrolojik verilerin ölçülmesi ile başlar. Ardından güvenirlik kontrolü gelir. Burada ilk aşama belli bir mesafe uzakta kalan ve sapan değer olarak ifade edilen verilerin tespitidir. Bu çalışmada hidrolojik verilerde sapan değer tespiti için 1926 – 2012 arası Türkiye genelinde 129 istasyonda aylık ortalama sıcaklık (°C), bağıl nem (%) ve toplam yağış (mm) kullanılmıştır. Sapan değer tespiti, geliştirilen grafiksel OSMA (olmayan sapma miktarlarının adetleri) yöntemiyle yapılmış, grafiksel histogram ve kutu grafiği yöntemleriyle kıyaslanmıştır. OSMA yönteminde verilerin sapma miktarlarından olmayanlarının adetleri incelenir. Sapma miktarları (SM) ham verilere SAF işlemi (sırala, aynı değere sahip verilerden bir tane bırak, fark al) uygulanarak bulunur. OSMA içeren diziler, sapma miktarlarına SAF-1 işlemi (sırala, Aynı değere sahip verilerden bir tane bırak, fark al, bir çıkar) uygulanarak bulunur. OSMA dizileri iki farklı yaklaşımla incelenir. OSMA-GS (görülme sıklığı) yaklaşımında aynı aydaki 129 OSMA dizisi aylık olarak tek bir dizi gibi düşünülür. Bu 12 farklı dizinin her elemanının kendi dizisinde görülme sıklıklarının grafiği çizilir. Bu grafikten elemanların birer birer çıkarılmasıyla eleman sayısı kadar fonksiyonlar üretilir. Bu fonksiyonların her birinin doğrusal regresyon determinasyon katsayısı (R²) hesaplanır. Hesaplanmayan R²'lere karşı gelen istasyonların yıllarının sapma miktarlarının kendi görülme sıklıklarıyla olan grafiği tüm aylar için bütün olarak hesaplanır. Bu grafiğin elemanlarının birer birer çıkarılmasıyla eleman sayısı kadar fonksiyonlar üretilir. Fonksiyonların her birinin R²'sihesaplanır. Hesaplanmayan R²'lere karşı gelen istasyonların yılları yüksek güvenirlikli sapan değerler, R²'nin sondan ikinci düşüşü ve sonrasına karşı gelen elemanlarda tüm sapan değerler olarak kabul edilir. OSMA- OE (olmayan eleman) yaklaşımında OSMA dizilerinin her birine tek değer kalıncaya kadar SAF-1 tekrar edilir. Sonunda çıkan hem 129x12 elemanlı diziye hem de her ay için ayrı ayrı 129 elemanlı dizilere, bu diziler 3 eleman kalıncaya kadar SAF-1 tekrar edilir. Bu son üç elemandan ortanca eleman son elemandan daha uzaksa son eleman, ilk elemandan daha uzaksa son iki eleman eşik değer olur. Bu eşik değer ve üstüne sahip her istasyonda sapan değer var olduğu düşünülür. Bu istasyonlarda geriye doğru işlem yapılınca hangi değerlerin hangi yılda sapan değer olduğu bulunmuş olur. 129x12 elemanlı diziden çıkanlar yüksek güvenirlikli sapan değerler, 129 elemanlı dizilerden çıkanlar tüm sapan değerler olarak kabul edilir. Histogram ve kutu grafiği yönteminde sapan değerleri tespit etmek için sıcaklık ve bağıl nemde µ±3σ, yağışta Q₃,₁±2IQR ve Q₃,₁±4IQR sınırları kullanılmıştır. Sıcaklık ve bağıl nemde eğimleri sıfırlanmış ama standart sapmaları eşitlenmemiş, yağışta hiç önişlem yapılmamış veriler kullanılmıştır. İncelenen değer en yakın 3 komşu ile kıyaslanır, herhangi biriyle sapan değer göstermiyorsa sapan olmadığı kabulü yapılır. Ama herhangi bir (iki) komşusu eksik ama diğer iki (bir) komşusuyla da sapan değer gösteriyorsa o zaman başka bir (iki) komşu ile kontrol edilmesine gerek vardır. Çünkü güvenilir olsun diye en az üç komşu ile sapan değer çıkması gerektiği tasarlanmıştır. İncelenen istasyonun incelenen yılı için ilk üç komşunun hepsi eksik ise o zaman en yakın 4.komşuya ve devam eden komşulara başvurulmuştur. Dolayısıyla her değer en yakından başlamak üzere farklı komşu kombinasyonlarına sahip olabilir. Eğer değer, 129 istasyon içinde sadece bir/iki komşuyla çakışıyorsa bir/iki komşu ile değerlendirme yapılmıştır. Hem komşularıyla hem kendi istasyonunda sapan değerler, yüksek güvenirlikli sapan değerler (YGSD)olarak kabul edilir. YGSD'lere sadece komşularıyla sapan ama kendi içinde sapmayan değerler eklenince, tüm sapan değerler olarak kabul edilir. Veri adeti 20'nin altındaki komşu sayısı sıcaklık için % 1,2 bağıl nem için % 1,3 ve yağış için % 3,8'dir. Sıcaklık, bağıl nem ve yağışta sırasıyla OSMAGS 28, 40, 32 adet sapan değer 5, 13, 4 adet yüksek güvenirliğe sahip sapan değer; OSMAOE 12, 40, 54 adet sapan değer, 1, 5, 3 adet yüksek güvenirliğe sahip sapan değer; Histogram ve kutu grafiği yöntemi 61, 33, 324 (Q₃,₁± 2IQR), 19 (Q₃,₁± 4IQR) adet sapan değer, 19, 26, 231 (Q₃,₁± 2IQR) 19 (Q₃,₁± 4IQR) adet yüksek güvenirliğe sahip sapan değer tespit etmiştir. Sonuç olarak histogram ve kutu grafiği yönteminde bulunan ve OSMA yönteminin geliştirilmesine sebep olan olumsuzluklar bertaraf edilmiştir. Bunlardan ilki, sınırların katsayılarının belirsizliğidir. Sıcaklık ve bağıl nemde on binde 2 - 3 değer sınırların dışında çıkarken, yağışta on binde 20 - 25 değer Q₃,₁± 2IQR sınırlarının dışındadır. Sıcaklık ve bağıl nemle uyumlu olabilmesi için sınırları Q₃,₁± 4IQR almak gerekir. İkincisi µ±xσ ve Q₃,₁± xIQR sınırları sıcaklık ve bağıl nem değişkenleri üzerinde 4 önişlem denenerek karşılaştırılmış ve sınırlar birbirleriyle % 40 - 50 arası uyumsuz çıkmıştır. Üçüncüsü optimum önişlemlerin aydan aya ve değişkenden değişkene farklı çıkmasıdır. Histogram ve kutu grafiğinde standart sapmaları eşitleme ve eğimleri eşitlememe, standart sapmaları eşitlememe ve eğimleri eşitleme, her ikisini de eşitleme veya her ikisini de eşitlememe işlemleri denenmiştir. Sıcaklıkta ve bağıl nemde tüm istasyonların eğimlerinin sıfıra eşitlendiği durum sırasıyla 2 ve 1 değer, yağışta hiçbir önişlem yapılmayan durum 25 değer fazladan yakalayabilmiştir. Fazla yakalayan önişlemin sonuçları daha güvenilir kabul edilmiştir. En uygun önişlemi seçmenin işlem yükü fazladır. OSMA'da önişlem yoktur. Dördüncüsü komşu verinin seçiminin önişlemin seçimi gibi çok işlemli ve sonuçlarının heterojen olmasıdır. Histogram ve kutu grafiğinde komşu istasyon belirlenirken incelenen istasyona yakınlığı veya korelasyon katsayısı dikkate alınabilir. Yakınlığa göre komşu seçildiğinde yakın komşulardaki veri eksikliğinden dolayı verilerin % 7 – 8'i daha uzak komşularla kontrol edilir. Komşuların%0,04 - %3'ü 140 km'den fazla mesafe ve 0,4'ten daha düşük korelasyona geriler. Sapan bağıl nem ve yağış değerlerinin tümünün %9 ve %5'ininkomşuları güvenilir olmaz. Ayrıca incelenen dizilerin % 1- 3 (sıcaklık) ve % 0,1- 0,3'de (yağış) daha uzak olan komşuların en yakın 5 komşudan anlamlı olarak daha yüksek korelasyon göstermiştir. Korelasyon katsayısına göre komşu seçildiğinde istasyonların %8'inde (sıcaklık) %2'sinde (bağıl nem), % 4'ünde (yağış) her ayın sadece kendi 1.komşusu o ay için kullanılabilir. 2. ve 3.komşular için bu oran düşer. İstasyonların %2,5'inde her değişkenin sadece kendi 1.komşusu o değişken için kullanılabilir. 2. ve 3.komşular için bu oran düşer. Ek olarak tespit edilen sapan değerler çıkarılınca, sapan değerli dizilere göre korelasyon katsayısı, sıcaklıkta % 1-5 daha fazla, bağıl nemde % 1-36 daha fazla, yağışta üçte birinde % 1 - 10 daha fazla, yarısından çoğunda % 1-5 daha az çıkar. OSMA'da komşu kullanılmadığından bu durumlar ortadan kalkmıştır. Bu sonuçlara ek olarak OSMA yönteminin histogram ve kutu grafiği yöntemine göre sonradan fark edilen üstünlükleri olmuştur. Bunlardan ilki histogram ve kutu grafiğinin kullandığı eşikler çok yakın iki değerin birini sapan diğerini sapan olmayan olarak gösterebilir. Sıcaklık, bağıl nem ve yağış için tüm sapan değerlerin sırasıyla % 25, % 42, % 45 ve yüksek güvenirliğe sahip sapan değerlerin sırasıyla %32, %31, %45'i böyledir. OSMA'nın eşikleri böyle çıkarmaz. İkincisi eksik veri tamamlama hesaplarında veri bilgisinden yararlanılabilecek, büyük bir zaman diliminde tek bir veri olarak duran 1 bağıl nem verisini, OSMAGS; 2 sıcaklık ve 1 yağış verisini histogram ve kutu grafiği yöntemi sapan değer olarak almıştır. Üçüncüsü, histogram ve kutu grafiğinin sapan tespit ettiği değerlerin OSMA'nınkilere göre sıcaklıkta yaklaşık 8 katı fazlasının, bağıl nemde yaklaşık 2 katı azının, yıllık dizilerdeki ortalama kırılması sebebiyle aylık dizilerde sapan değer gibi tespit edilen değerler olduğu düşünülür. Yıllık varyans değişiminin olduğu yıllarla aynı zamanda aylık dizilerde tespit edilen 3 sapan değerin, histogram ve kutu grafiği yönteminde, OSMA yöntemine göre daha üst sırada sapan değer çıktığı görülür. Dördüncüsü, haziran, temmuz, ağustos ve eylülde nadir yağışlı durumlar kutu grafiği yöntemiyle çoğunlukla sapan değer olarak gözükmektedir. Sıfır değerler kayıt yok olarak değiştirildiğinde önceden sapan çıkan değerlerin hepsi haziranda sapan çıkmaya devam eder, eylülde bu değer % 44'e, ağustos %15'e ve temmuzda %21'e geriler. Hangi aylarda değişiklik olduğunu bulmak işlem yüküdür. OSMA'da bu durumlar gözlenmez. Beşincisi, histogram ve kutu grafiğinde sapan değerler sırasıyla sapma durumu, komşu güvenirliği, sapma miktarı, korelasyon katsayısı, komşularıyla mesafe ve sapan değerin yılı referanslarıyla sıralanır. OSMA'da otomatik sıralama oluşur. Altıncısı, sıcaklık ve yağışta OSMA'nın yüksek güvenirliğe sahip sapan değer içerdiğini tespit ettiği dizilerden yüksek veri adetlerine sahip olanlar histogram ve kutu grafiği yönteminin aynı durumundakilerden yaklaşık %21 ve % 22,5 daha fazla, düşük veri adetlerine sahip olanlar, histogram ve kutu grafiği yönteminin aynı durumundakilerden sadece yağış için %5 daha azdır. Tüm dizilerin sıcaklık ve bağıl nemde % 2'sini, yağışta % 4'ünü oluşturan 7 ile 20 arasında veri adetine sahip diziler histogram ve kutu grafiğinin de en düşük veri adeti literatürde 20 olduğu için daha az güvenilir şekilde kontrol edilmiştir. Bu sonuçların dışında sapan değerlerin davranışları da gösterilmiştir. Her iki yöntemde yarı kurak bölgelerde daha çok bağıl nem değeri, nemli bölgelerde daha çok yağış değeri sapan çıkar. Sapan sıcaklık değerleri ise daha çok histogram ve kutu grafiği yöntemine göre yarı nemli, OSMA yönteminde yarı kurak bölgelerde çıkar. Her iki yöntemde sıcaklık ve bağıl nem sapanları yağışa göre birbirine daha benzer yıllarda tespit edilmiştir ve ilkbaharda sapan yağış değerleri pek görülmez. OSMA'da sapanların küçük sapma miktarları sık ve birden çok kere, yüksek sapma miktarları seyrek ve bir kere görülür. Histogram ve kutu grafiğinde bağıl nemin sapma miktarları, sıcaklık ve yağışınkiler kadar yüksek değildir. Sapan değerin bulunması dizinin normal dağılımlı olmadığını göstermez. Ancak yüksek güvenirliğe sahip sapanlardan düşük güvenirliklere doğru gidilince sapan değer içeren dizilerin normalliği OSMA'da sıcaklık ve bağıl nem için artar, histogram ve kutu grafiğinde üç değişken için de artar. Tüm sapan değerlerinin bulunduğu dizilerin veri adetleri sıcaklıkta 20'nin altına düşmez. Bağıl nemde OSMA'da 10'un altına düşer ama histogram ve kutu grafiğinde düşmez, yağışta tam tersidir. Her iki yöntemde tüm sapan değerlerin sıcaklık için ‰0 0,6'sı, bağıl nem için ‰0 1,3'ü (OSMAGS) ve ‰0 1'i (OSMAOE) ve yağış için ‰0 2'si (Q₃,₁±2IQR) ve ‰0 0,66'si (Q₃,₁±4IQR) ortaktır. Bunların sıcaklık için %67 (OSMAGS) ve %17 (OSMAOE), bağıl nem için %58-56 ve yağış için % 22-17'i yüksek güvenirliğe sahiptir.
Özet (Çeviri)
Research and development activities for the management of water resources begin with the measurement of hydrological data. Next comes the reliability check. Here, the first step is to determine the data, which is a certain distance away and expressed as the outlier value. In this study, outliers were detected in hydrological data. Between 1926 and 2012, 4620 series of monthly average temperature (°C) at 129 stations, monthly average relative humidity (RH) (%) at 128 stations, and monthly total precipitation (mm) at 128 stations across Turkey were analyzed. The total number of values is 92787 in temperature, 90506 in RH and 90618 in precipitation. Outlier analysis was made with the graphical UGN (unexisting gaps number) method developed in this work and compared with the graphical histogram and boxplot methods. In UGN, the numbers of unexisting gaps between data are examined. The gaps (G) are found by applying ORD operation (order all raw data from largest to smallest, remove the same ones, take the difference between remaing data) to the raw data. Unexisting gaps number (UGN) series are formed by applying ORD-1 operation (order all raw data from largest to smallest, remove the same ones, take the difference between remaing data, subtract one) to the gaps. UGN series are analyzed with two different approaches. In the UGNF (UGN and frequency) approach, 129 UGN series in the same month are considered as a single series. The frequency for each data of this single series is plotted. Some functions are produced by removing each data one by one from this plot. The linear regression coefficients of determination (R²) for these functions are calculated. All steps are repeated for 12 months. So twelve plots are formed. Another plot of the gaps (G) of data corresponding to uncalculated R²s vs their frequencies is calculated as a single series for all 12 months. Again some functions are produced by removing each data one by one from this plot and R²s for these functions are calculated. The data corresponding to uncalculated R²s are considered as high- confidence outliers and the data corresponding to the second-to-last drop of R² and after as all outliers. In the UGNUE (UGN and unexisting element) approach, ORD-1 operation is repeated until each UGN series have one element left. So 129x12 (stations x months) elements form. ORD-1 operation is repeated for both 12 series with 129 elements and a series with 129x12- elements as a whole, until these series have 3 elements left. Of these last three elements, if the median element is further away from the last element, the last element is the threshold, and if it is further from the first element, the last two elements are the threshold. It is considered that there is an outlier at every station with this threshold and above. High-confidence outliers are found in 129-element series. All outliers are found in 129x12-element series. In the histogram and boxplot method, µ±3σ limit in temperature and RH, Q₃,₁± 2IQR and Q₃,₁± 4IQR limits in precipitation were used to detect outliers. For temperature and RH, the slopes were removed but the standard deviations were not scaled, in precipitation, no preprocessing done. For outlier detection, it is checked whether the values in the difference series of the station and its neighbor exceed the limits. Using neighbors one by one was able to capture changes between the station and its neighbors better than using a reference station formed by the gathering of several neighbors. A value is compared with the 3 closest neighbors, if it is within the limits for all three, it is not an outlier. If one (two) neighbor is missing but the other two (one) neighbors show the value as an outlier, then it needs to be checked with another one (two) neighbor. Because of data reliability, it was designed the value should be controled at least three neighbors. If all of the first three neighbors are missing, then the nearest 4th neighbor and the continuing neighbors were used. Therefore, each value can have different neighbor combinations. If the value has only one or two neighbors, analysis was made with one or two neighbors. Values exceeding the limits both at the difference series and at the raw series are together called as high-confidence outliers; If values exceeding the limits only at the difference series are added to this, then it is called as all outliers. Values exceeding the limits only at the raw series were found to be low-confidence outliers and were not evaluated. In 4620 UGN series, a series with minimum number of data is 11 for temperature, 10 for RH, 7 for precipitation. It becomes 5 for temperature, 4 for RH, 2 for precipitation because of preprocessing of raw data and missing data in the neighbors in the histogram and boxplot method. The percentage of neighbors which have data number below 20 is 1.2% for temperature, 1.3% for RH and 3.8% for precipitation. In UGNF, 5, 13, and 4outliers of 28, 40, 32 all outliers in temperature, RH and precipitation respectively are high-confidence outliers; In UGNUE, 1, 5 and 3 outliers of 12, 40, 54 all outliers in temperature, RH and precipitation respectively are high-confidence outliers. In histogram and box plot, 19, 26, 231(Q₃,₁± 2IQR) 19 (Q₃,₁± 4IQR) outliers of 61, 33, 324 (Q₃,₁± 2IQR), 19 (Q₃,₁± 4IQR) all outliers in temperature, RH and precipitation respectively are high-confidence outliers. In short, ‰0 2 – 6 of all values in the histogram and boxplot and ‰01.5 – 6 of all values in UGN are outlier. ‰0 2 – 3 of all values in the histogram and boxplot and ‰01.5 – 0.1 of all values in UGN are high-confidence outliers. As a result, by the creation of the UGN method, the negativities in the histogram and boxplot method have been eliminated. The first of these negativities is the uncertainty of the coefficients of the boundaries. While 2 – 3 values per ten thousand are outside the limits for temperature and RH, 20 – 25 values per ten thousand for precipitation are outside the limits of Q₃,₁± 2IQR. In order to be compatible with temperature and RH, the limits should be taken as Q₃,₁± 4IQR. Second, the limits of µ±xσ and Q₃,₁± xIQR were compared on temperature and RH by applying 4 preprocessing methods, and the limits were found to be 50-60% similar with each other. Third, the optimum preprocessings differ from month to month and from variable to variable. In the histogram and boxplot method, scaling standard deviations but not slopes, scaling slopes but not standard deviations, not scaling both and scaling both were tried as preprocessing. The situation with removal of slopes for temperature and RH were able to detect 2 and 1 more outliers respectively. The situation with no preprocessing for the precipitation was able to detect 25 more outliers. More outlier detection was considered more reliable. Choosing the most suitable preprocessing has high calculation load. There is no preprocessing in UGN. Fourth, when determining the neighboring station, the extent of nearness or correlation to the investigated station can be taken into account. When a neighbor is selected according to nearness, 7 - 8% of the data is analyzed with neighbors farther than the 3 nearest neighbors due to lack of data in nearest neighbors, so the percentage of the distances more than 70 km between the investigated station and its neighbor increases from 45% to 95%. About 0.04% (for temperature), 3% (for RH), and 2% (for precipitation) of all neighbors are more than 140 km away and have a correlation of less than 0.4. 10% values of RH and 2% values of precipitation with Q₃,₁±2IQR are detected as outlier according to these low-confidence neighbors. 9% and 5% of all RH and precipitation outlier and 4% and 6% of high-confidence RH and precipitation outliers are detected according to these low-confidence neighbors.All 3 closest neighbors do not have data and provided that the other(s) show the value as an outlier, 2 (1) closest neighbors do not have data are mostly observed between the 1920s and the 60s. This situation was observed in 7.4% for temperature, 7.2% for RH and 8.6% for precipitation of all data. This situation occurs in at most 1 value and at least 42 values in a series. 11 precipitation and 16 RH values do not have neighbor value. Therefore, They cannot be controlled by the histogram and boxplot method. In addition, neighbors farther from the nearest 5 neighbors showed significantly higher correlations in 1-3% (temperature) and 0.1- 0.3% (precipitation) of the series. When the neighbor is selected according to the greatness of the correlation coefficient, the first neighbor of each monthly series can be used for only that monthly series in 8% (temperature), 2% (RH), 4% (precipitation) of the stations. This percentage decreases for 2ᴺᴰ and 3ᴿᴰ neighbors. In 53% (temperature) of stations, 25% (RH) and 86% (precipitation), the 1st neighbor(s) in a given month(s) can be used for all months, but which month(s) it is should be determined. In terms of variables, only the first neighbor of each variable can be used for that variable in 2.5% of the stations considering all months as a whole. This percentage decreases for 2ᴺᴰ and 3ᴿᴰ neighbors. In 29% of stations, 1st neighbor(s) in a certain variable(s) can be used for all variables, but it should be determined which variable(s) they are. When the outliers are removed, the correlation coefficient is mostly 1-5% higher in temperature, 1-36% higher in RH, 1-10% higher in one third of precipitation, 1-5% less in more than half of precipitation.Since neighbors are not used in UGN, these situations have disappeared. In addition to these results, the UGN method has some advantages over the histogram and boxplot method. The first is that one of the two close values can be detected as outlier, the other is not by the histogram and boxplot method can show. This is true for 25%, 42%, 45% of all outliers and 32%, 31%, 45% of high- confidence outliers for temperature, RH, and precipitation respectively. That's not how UGN sets limits. Secondly, some value is standing as a single value over a large period of time and its information may be used in estimation of missing value. There is one such value (October in 1951 of 17246 station for RH) detected as an outlier by UGNF approach, three values (July in 1929 of 17728 station for temperature, November in 1950 of 17664 station for temperature, May in 1930 of 17192 station for precipitation ) detected as outlier by histogram and box graph method.Third, variance of the annual series changes in time at 1 station for precipitation and 14 stations for RH. Average of the annual series changes in time at 86 stations for temperature, 115 stations for RH and 27 stations for precipitation according to RHtestV3. It is seen some values in monthly series detected as outliers and average variation in the annual series at the same time. This occurs 8 times more and about 2 times less at histogram and boxplot method than UGN method for temperature and RH respectively. It is also seen three values in monthly series detected as outliers and variance variation in the annual series at the same time. These three outliers are seen in the higher ranks at histogram and boxplot method than UGN method. Fourth, since most values in the precipitation series in June, July, August and September are zero, rare rainy cases are detected mostly as outliers in the boxplot method. When zero values are changed to no record, 56%, 85% and 79% of all outliers does not continue to be outliers in September, in August, and in July respectively. Determining which months are changed to no record is a calculation load.These conditions are not observed in UGN. Fifth, since outliers are not of equal importance, they must be in a certain order. The outliers determined by the histogram and boxplot method are ranked by ranking references which are the deviation status, neighbor reliability, deviation amount, correlation coefficient, distance with neighbors, and the year of the outlier. There is an an automatic ordering for the outliers detected by the UGN method.Sixth, the series with high data numbers containing high-confidence outliers detecting by UGN in temperature and precipitation are approximately 21% and 22.5% more than the series in the same situation but detecting by the histogram and boxplot method. The series with low data numbers containing high-confidence outliers detecting by UGN in precipitation are 5% less than the series in the same situation but detecting by the histogram and boxplot method.Because the minimum number of data was 20 in the literature for using the histogram and boxplot method, 2% of temperature and RH series and 4% of precipitation series having 7 to 20 data number were controlled less reliably. Apart from these results, the behavior of outliers was also shown. First, in both methods,RHoutliers more in semi-arid regions and precipitation outliers more in humid regions were found. temperature outliers are mostly obtained in semi-humid regions according to histogram and boxplot method, and in semi-arid regions in UGN method. Second, precipitation outliers are not detected much in the spring for both methods. Temperature outliers in spring and RH outliers in winter are not detected much for UGN method. Third, in UGN, temperature and RH outliers are more similar when 60's and 90's are taken into account. The common years for detecting outliers for all three variables are 30s. In the histogram and boxplot method, temperature and RH outliers were found in more similar years than those of precipitation. The common situation in UGN and histogram and boxplot methods is that the years of detected temperature and RH outliers were more similar to each other than those of precipitation. Fourth, in UGN, outliers with small deviations are seen frequently and multiple times and outliers with high deviations are seen rarely and once. In temperature and precipitation, this rarelness increases as the deviation increases. In RH, after a certain amount of deviation, this rarelness remains constant even if the amount of deviation increases. In the histogram and boxplot method, the deviations of RH outliers (3σ - 7σ) are not as high as those of temperature (3σ - 9σ) and precipitation (2IQR - 41IQR). Fifth, 10-25% for temperature, 45-30% for RH, and 88-85% for precipitation of the series with outliers detected UGN method don't have a normal distribution. They becomes 60-100%, 69-100%, and 75-66% for high- confidence outliers respectively. 5% for temperature, 36% for RH, and 87% for precipitation of the series with outliers detected histogram and boxplot method don't have a normal distribution. They becomes 16%, 46%, and 96% for high-confidence outliers respectively. That is, outliers do not indicate that the series is not normally distributed. However, from high-confidence outliers to low-confidence outliers, the normality increases for temperature and RH in UGN, and increases for all three variables in histogram and boxplot method. Sixth, in both methods, the data numbers of the series with outliers are mainly between 45 and 85, and for temperature the data numbers of the series with outliers do not fall to small values (n>20). However, for RH the data numbers of the series with outliers decrease to small values (n=10) in UGN, but not in the histogram and boxplot method, it is the opposite in precipitation (n
Benzer Tezler
- Çeşitli asitlere maruz bırakılmış insan dişlerinden DNA geri kazanımının belirlenmesi
Determination of DNA recovery from human teeth exposed to various acids
NEJLA KARABOĞA
Yüksek Lisans
Türkçe
2024
Adli TıpÜsküdar ÜniversitesiAdli Bilimler Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUĞBA ÜNSAL SAPAN
- Mogan gölünde su ve sedimentte ağır metal düzeylerinin tespiti; sazan (Cyprinus carpio) ve kadife (Tinca tinca) balık dokuları üzerine etkilerinin incelenmesi
Determination of heavy metal concentrations in water and sediment of Mogan lake; examination of effects on tissues of carp (Cyprinus carpio) and tench (Tinca tinca)
MUSTAFA DOSTBİL
Yüksek Lisans
Türkçe
2010
Çevre MühendisliğiGazi ÜniversitesiÇevre Bilimleri Ana Bilim Dalı
DOÇ. DR. A. ÇAĞLAN KARASU BENLİ
- Arka kök ganglionu satellit hücrelerinin morfolojik özellikleri ve immünhistokimyasal işaretlenmeleri
The morfolological characteristics and immunohistochemical labelling of satellite cells of dorsal root ganglia
ÇİĞDEM GÜNDÜZ
Yüksek Lisans
Türkçe
2006
Tıbbi BiyolojiYüzüncü Yıl ÜniversitesiHistoloji ve Embriyoloji Ana Bilim Dalı
DOÇ.DR. ENDER ERDOĞAN
- Uzun dönemde meydana gelen Akdeniz ve Karadeniz'deki deniz seviyesi değişimlerinin boğazlar sistemi üzerindeki etkilerinin araştırılması
Investigation of the effects of long term sea-level variations in the Mediterranean and the Black Sea on the Turkish straits system
CEM ŞENDURAN
Doktora
Türkçe
2022
Deniz Bilimleriİstanbul Teknik ÜniversitesiKıyı Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET SEDAT KABDAŞLI