Regresyon analizi, bağımlı bir değişken ile bağımsız değişken/değişkenler arasındaki fonksiyonel ilişkiyi açıklamak ve bağımlı değişken değerlerini tahmin etmek için kullanılan istatistiksel bir yöntemdir. Değişkenler arasındaki bu ilişkiyi belirlemek için birçok regresyon yöntemi geliştirilmiştir. Regresyon analizinde bağımlı değişken genellikle sürekli ve ölçülebilir bir değişken olarak ele alınır. Ancak bazı durumlarda bağımlı değişken kesikli bir değişken olabilir ve sınırlı sayıda değer alabilir. Bağımlı değişkenin kesikli olması durumunda uygulanan regresyon analizi yöntemine lojistik regresyon analizi denir.
Lineer regresyon modelinde olduğu gibi lojistik regresyon modelinde de açıklayıcı değişkenler arasında çoklu iç ilişki söz konusu olabilir. Bu durumda klasik lojistik regresyon analizi sonucunda elde edilen regresyon katsayıları gerçek değerlerini yansıtmayacaktır. Ayrıca elde edilen modelin tahmin yeteneği düşük olabilecektir. Bu durum için lojistik regresyon analizine alternatif olarak Ridge lojistik regresyon modeli kullanılmalıdır.
Regresyon analizinde karşılaşılan bir diğer sorun veri setinde aykırı değerlerin yer almasıdır. Bu durumda model sağlaması gereken varsayımların bazılarını sağlayamamaktadır. Veri setinde aykırı değerlerin bulunması durumunda bu değerlerin olumsuz etkilerini en aza indirgeyecek robust yöntemler tercih edilmelidir. Lojistik regresyon analizinde veri setinde aykırı değerlerin bulunması halinde yaygın olarak Bianco-Yohai tahmin edicisi kullanılmaktadır.
Bu çalışmada 132 ülkeye ait sosyal gelişmişlik endeks değeri kullanılarak lojistik regresyon modelleri kurulmuştur. Oluşturulan modeller doğru sınıflandırma performansları bakımından karşılaştırılmıştır.
Regression analysis explains functional relationships between a dependent variable and an independent variable (or variables). It is a statistical method which is used to predict values of the dependent variable. There are several regression techniques to determine the relationship between the variables. In regression analysis, the dependent variable is usually considered as continuous and measurable. However, in some cases, the dependent variable could be discrete and restricted. When the dependent variable is discrete, performed regression analysis is called as logistic regression analysis.
In logistic regression models, multicollinearity can be valid between the explanatory variables as in the linear regression models. In this case, the classical logistic regression coefficients obtained from the analysis results will not reflect the actual values. Moreover, the prediction ability of the model will be lower. In that case Ridge logistic regression model should be used as an alternative to logistic regression analysis.
Another problem encountered in the regression analysis of the data set is the existence of outliers. The model cannot satisfy some of the assumptions in this situation. One of the best solutions for this problem is to use robust methods to minimize the negative effects of outliers on the model. When the data includes outliers, Bianco-Yohai estimator is used in logistic regression analysis in common.
In this study, logistic regression models were established by using social development index of 132 countries. These models were compared in terms of correct classification performance.