İstatistiksel çalışmalarda bağımlı değişken ile bağımsız değişkenler arasındaki nedensellik ilişkisini açıklamak için sıklıkla regresyon analizi kullanılmaktadır. Klasik çoklu doğrusal regresyon analizinde bağımlı değişkenin sürekli ve normal dağılıma sahip olma koşulu vardır. Ancak bazı durumlarda bağımlı değişken kesikli değerler alan bir değişken olabilir. Bu durumda regresyon analizi lojistik regresyon analizi adını alır. Çoklu doğrusal regresyon modelinde olduğu gibi lojistik regresyon modelinde de bağımsız değişkenler arasında yüksek derecede korelasyonların olması çoklu iç ilişki problemini ortaya çıkaracaktır. Bu problemin üstesinden gelmek için yanlı regresyon yöntemleri kullanılabilir. Yanlı regresyon yöntemlerinden olan ridge regresyon, lojistik regresyon modeline uyarlanmasıyla elde edilen ve L2 kısıtı altında parametreleri tahmin etmeye çalışan lojistik ridge regresyon yöntemi çoklu iç ilişkinin üstesinden gelmek için önerilmiştir. Çoklu iç ilişki probleminin üstesinden gelmenin bir diğer yolu modeldeki bağımsız değişken sayısının azaltılmasıdır. Hem çoklu iç ilişki problemini çözen hem de cezalı regresyon yöntemlerinde biri olan LASSO (En küçük büzülme ve seçim yöntemi) L1 kısıtı altında parametre tahmini yapmaktadır. Lojistik regresyon modeline uyarlanmasıyla elde edilen lojistik-LASSO boyut indirgeyerek değişken seçimi yapan bir yöntemdir. Bu yöntemde hem değişken seçimi yapılırken aynı zamanda model parametreleri de tahmin edilmektedir. LASSO’ nun dezavantajlarını azaltmak için L1 ve L2 normu arasında bir denge sağlamaya çalışan Elastik ağ yöntemi lojistik regresyon modeline uyarlanarak elde edilen Lojistik Elastik ağ yöntemi, bağımsız değişkenler arasında ikili korelasyonlar yüksek olsa bile etkin sonuçlar sağlamaktadır. Regresyon analizindeki bir diğer sorun ise aykırı değer problemidir. Lojistik regresyonda veri setinde aykırı değerlerin olması durumunda EÇO tahmin edicisinin etkinliği azalmaktadır. Bu durumda veri setindeki aykırı değerlerin etkilerini azaltmak için sağlam yöntemler kullanılmaktadır.
Bu tez çalışmasında sağlam lojistik regresyon yöntemi kullanılmıştır. Bu tez çalışmasında Sakarya Nehri üzerinden seçilmiş sekiz istasyona ait su verileri lojistik regresyon, lojistik ridge, lojistik-LASSO, lojistik Elastik ağ ve sağlam lojistik regresyon yöntemleri kullanılarak iki istayon arasındaki değişime neden olan su kalite karakteristikleri belirlenmeye çalışılmıştır
Regression analysis is used to explain the causality relationship between the dependent variable and the independent variables in statistical studies. In classical multiple linear regression analysis, the dependent variable must have a continuous and normal distribution. However, in some cases, the dependent variable may take discrete values. In this case, logistic regression analysis is widely used. In logistic regression analysis, the problem of multicollinearity can also be encountered. Penalized regression methods can be used to overcome this problem. One of the penalized regression method ridge regression is a method that tries to estimate parameters under the L2 constraint in the logistic regression model and is called the logistic ridge regression model. LASSO (Least absolute shrinkage and selection operator), which is another penalized regression method, makes parameter estimation under the L1 constraint. Logistics-LASSO, obtained by adapting it to the logistic regression model, is a method that performs variable selection and parameter estimation simultaneously. In order to reduce the disadvantages of Ridge and LASSO, the Elastic net method, which tries to provide a balance between L1 and L2 norms, has also been adapted to the logistic regression model. Logistics Elastic net method provides effective results in case of multicollinearity. In addition, the presence of outliers in the data set in the logistic regression analysis reduces the effectiveness of the MLE estimator. In this case, robust methods should be used to reduce the effects of outliers in the data set.
In this thesis, robust logistic regression method is discussed. These methods discussed in this thesis study were compared using the water quality data of eight stations selected over Sakarya River. The water quality characteristics causing the change between the two stations were determined and it was determined that the Logistic Elastic Net method gave the most efficient classification