Sağlık alanında yapılan araştırmalarda ikili şekilde gözlenen bağımlı değişken
içeren veri setleri ile sıklıkla karşılaşılmaktadır. Örneğin bazı fenomenler var-yok, ölü sağ, başarılı-başarısız gibi ikili biçimde sonuçlanabilmektedir. Bu sonuçların ortaya
çıkmasında birçok faktör söz konusudur. Bu ilişkinin incelenmesinde bağımlı değişken
kategorik yapıda olduğu için lojistik regresyon yöntemi en çok kullanılan yöntemlerden
biridir.
Lojistik regresyon yönteminde kullanılan model oluşturma tekniği, istatistik
alanında kullanılan diğer model yapılandırma teknikleri ile benzerdir ve lojistik
regresyon analizinin amacı en az sayıda bağımsız değişken kullanarak en iyi uyuma
sahip olacak şekilde bağımlı ile bağımsız değişkenler arasındaki ilişkiyi tanımlayabilen
bir model kurmaktır.
Sağlık alanında yapılan çalışmalarda ikili yapıda gözlenen veri setlerinin
analizlerinde en yaygın kullanılan genel lojistik regresyon yöntemlerinin
uygulanabilmesi, büyük örnek hacmine ve koşulsuz olabilirlik fonksiyonunun
kullanılmasına bağlıdır. Ancak genel lojistik regresyon yöntemleri, örnek hacmi küçük,
çarpık, seyrek ya da bağımlı değişkenin beklenenin dışında sapan değerler alması
durumunda (heterojen veri seti) geçerli ve güvenilir sonuçlar vermeyebilirler. Bu
durumda alternatif yöntemlerin kullanılması güvenilir sonuçların elde edilmesi için
gereklidir. Alternatif yöntemler arasında en yaygın olarak kullanılan lojistik regresyon
yöntemi kesin lojistik regresyon analizidir. Ancak son yıllarda sağlam lojistik regresyon
yöntemleri de alternatif yöntemler arasında yerini almaktadır. Yapılan literatür
taramaları sonucunda çok sayıda sağlam lojistik regresyon yöntemine rastlanılmıştır.
Croux ve Haesbroeck, Bianco ve Yohai tarafından ortaya atılan sağlam lojistik
regresyon yöntemini modifiye ederek diğer sağlam lojistik regresyon yöntemlerine göre
hızlı ve stabil sonuç veren bir algoritma geliştirmişlerdir. Bu nedenle sağlam lojistik
regresyon yöntemi olarak Croux ve Haesbroeck tarafından geliştirilen yöntem bu tez
çalışmasına dahil edilmiştir.
vi
Bu çalışmanın amacı, ikili yapıda bağımlı değişken içeren heterojen veri
setlerinin analizlerinde Genel lojistik regresyon, Sağlam lojistik regresyon ve Kesin
lojistik regresyon yöntemlerinin performanslarını karşılaştırmaktır.
Yöntemler; parametre tahminlerinin yanlılıkları ve standart hataları kullanılarak
ve farklı örnek büyüklüğünde, farklı bozulma oranında simülasyon çalışmaları yapılarak
karşılaştırıldı. Yöntemlerin karşılaştırılmasında Monte Carlo simülasyon yöntemi
kullanıldı ve analizler R v2.13.2 ve SAS 9.0 paket programlarında yapıldı. Grafikler
Minitab 15.0 programında oluşturuldu.
Simülasyon analizleri sonucunda; bozulma oranının %0 olduğu homojen veri
setlerinde üç yöntemin de benzer sonuçlar verdiği gözlendi. Bozulmanın var olduğu veri
setlerinde sağlam lojistik regresyon yönteminin, genel lojistik regresyon yöntemi ve
kesin lojistik regresyon yöntemine göre daha yansız parametre tahminleri verdiği ve
sağlam lojistik regresyon yönteminin parametre tahminlerine ilişkin standart hataları
düzelterek daha güvenilir sonuçlar verdiği belirlendi
The data sets that contain binary dependent variable often encountered in
research in the field of health. For example, there are some phenomena such as yes-no,
alive - dead and successful - unsuccessful. There are many factors that affect the
observation of these results. For certain categories of the dependent variable is the study
of this relationship, the logistic regression method is one of the most widely used
methods.
Model building technique used in logistic regression analysis is similar to other
model building techniques used in statistical field. The purpose of logistic regression
analysis is to establish model that can define the relationship between dependent and
independent variables by using a minimum number of independent variables having the
best fit.
Asymptotic logistic regression is the most common methods used in binary data
sets in the field of health studies. The application of this method depends on the use of
large sample volume and the unconditional likelihood function. However, the
asymptotic logistic regression methods may not release reliable results when the sample
size is small, skewed, sparse or contaminated. In this case, the use of alternative
methods is required to achieve reliable results. Exact logistic regression analysis is the
most widely used method among alternative methods. On the other hand, robust logistic
regression methods have become one of the alternative methods in recent years. Croux
and Haesbroeck developed an algorithm that works fast and stable than other robust
regression methods for the robust logistic regression method proposed by Bianco and
Yohai. For this reason, the method improved by Croux and Haesbroeck included in this
study.
The purpose of this study, compare the performance of asymptotic logistic
regression, robust logistic regression and exact logistic regression on homogeneous
contaminated data sets that contains binary dependent variable.
The methods were compared using biases of the parameter estimation and
standard errors in different sample size and contamination rate and the comparisons
viii
were performed using Monte Carlo simulation method. The simulations were achieved
using R v2.13.2 and SAS 9.0 package programs. The graphs were drawn on Minitab
15.0 program.
As a result of simulation analyses, it was observed that there were no significant
differences among the three methods in the homogeneous data sets having 0%
contamination rate. In contaminated data sets, it was observed that robust logistic
regression methods yielded less biased parameter estimates than asymptotic and exact
logistic regression methods, also robust logistic regression methods released more
reliable results by adjusting the standard errors for the parameter estimates