2024-03-29T17:02:35Z
http://openaccess.ogu.edu.tr:8080/oai/request
oai:openaccess.ogu.edu.tr:11684/249
2016-02-22T10:17:03Z
com_11684_26
com_11684_2
col_11684_160
2014-11-24T10:08:11Z
urn:hdl:11684/249
Random Forests yönteminde kayıp veri probleminin incelenmesi ve sağlık alanında bir uygulama
Yılmaz, Hülya
Bal, Cengiz
TR56710
Biyoistatistik
Random Forests
Kayıp Veri Analizi
K En Yakın Komşu ile Kayıp Değer Atama Yöntemi
Missing Data Analysis
KNN Imputation Method
Bu tez çalışmasında, kayıp verili sınıflandırma probleminde kullanılan Random Forests (RF) yönteminin kayıp değer atama algoritmasıyla, K En Yakın Komşu (KNN) ile kayıp değer atama yönteminin karşılaştırılması amaçlanmaktadır. Karşılaştırmalar iki aşamada gerçekleştirilmiştir. İlk aşamada benzetim çalışmaları yapılmıştır. (100000/n) Monte Carlo benzetim tekniği örneklem hacimlerine (n=100, 200, 500, 1000) ve tekrar sayılarına (s=1000, 500, 200, 100) karar vermek için kullanılmıştır. Çok değişkenli standart normal dağılımdan, önemli değişkenlerinin birbirleri ile düşük, orta ve yüksek (r=0.1, 0.5, 0.9) derecede ilişkili olduğu veri setleri türetilmiştir. Bu veri setlerinin iki değişkeni üzerinde aynı anda ve aynı yüzdeliklerde ( %5, %10, %15, %20, %25) kayıp değerler oluşturulmuştur. Kayıp değerler RF’nin atama algoritması ve farklı komşuluk değerli (k=5, 10, 15, 20) KNN ile kayıp değer atama yöntemleri tarafından ayrı ayrı tamamlandıktan sonra farklı veri setleri elde edilmiştir. Atanmış farklı veri setleri aynı RF algoritmasına ayrı ayrı yerleştirilerek sınıflandırma sonuçları gözlemlenmiştir. Doğru sınıflandırma oranları (DSO) kullanılarak atama yöntemleri karşılaştırılmıştır. İkinci aşamada ise sağlık alanına ait kayıp değerli bir veri seti, atama yöntemlerini uygulamak ve elde edilen sonuçları benzetim çalışmalarıyla ilişkilendirmek için kullanılmıştır. Benzetim çalışmalarında atama yöntemleri benzer DSO sonuçları sunmaktadır. Örneklem hacimleri ve değişkenler arasındaki ilişki arttıkça DSO artmakta, ama kayıp değer yüzdesi arttıkça DSO azalmaktadır. Orta ve düşük derecede ilişkili veri setlerinde KNN ile kayıp değer atama yöntemi, yüksek derecede ilişkili veri setlerinde ise RF’nin kayıp değer atama algoritması üstün sonuçlar vermiştir. En
vi
yüksek DSO tahmin değeri örneklem hacminin 1000’e eşit olduğu %5 kayıp değerli
yüksek derecede ilişkili (r=0.9) veri setlerinde RF’nin atama algoritması tarafından
%95.66 olarak bulunmuştur. En düşük DSO tahmin değeri ise örneklem hacminin
100’e eşit olduğu %25 kayıp değerli düşük derecede ilişkili (r=0.1) veri setlerinde
RF’nin atama algoritması tarafından %78.27 olarak bulunmuştur. Sağlık alanına
yönelik yapılan uygulama, benzetim çalışması ile uyumlu sonuçlar vermiştir.
Bu çalışma; bir sınıflandırma probleminde, kayıp değerli veri setlerine atama
yapmak için her iki yöntemin de kullanılabileceğini göstermektedir; ancak veri
setinin ilişki yapısına göre en uygun atama yönteminin seçilmesi önerilmektedir.
Düşük ve orta derecede ilişkili veri setlerinde komşuluk değerinin k=10, 15 ya da
20’e eşit olduğu KNN ile kayıp değer atama yöntemi kullanılmalıdır. Yüksek
derecede ilişkili veri setlerinde ise RF’nin atama algoritması tercih edilmelidir.
In this thesis study, it’s aimed to compare the missing data imputation algorithm of Random Forests (RF) and the K Nearest Neighbourhood (KNN) imputation method in a classification problem with missing data. Comparisons were made in two steps. At the first step simulation studies were done. (100000/n) Monte Carlo Simulation Technique was used to determine sample sizes (n=100, 200, 500, 1000) and the number of repetitions (s=1000, 500, 200, 100). Data sets, whose important variables are low, middle, and high (r=0.1, 0.5, 0.9) correlated with each other, were generated from multivariate standard normal distribution. Missing values were created on two important variables with using same percentage (5%, 10%, 15%, 20%, 25%) simultaneously. Different datasets were obtained after having imputed the missing values seperately by RF’s imputation algorithm and KNN imputation method with different neighbourhood values (k=5, 10, 15, 20). Classification results were observed by putting the different imputed datasets in the same RF model one by one. Imputation methods were compared by their true classification rates (TCR). At the second step, a dataset with missing values in health field was used to apply the imputation methods and associate the obtained results with simulation studies. In simulation studies, imputation methods present simular TCR results. As the sample sizes and the correlation between variables increase, TCR increases, but as the percentage of missing value increases, TCR decreases. In low and middle correlated datasets KNN imputation, in high correlated datasets RF’s imputation
viii
algorithm gave better results. The highest TCR value was found 95.66% by RF’s
imputation algorithm in high corralated (r=0.9) datasets with 5% missing value
when the sample size is equal to 1000. The lowest TCR was found found 78.27% by
RF’s imputation algorithm in low (r=0.1) corralated datasets with 25% missing
value when the sample size is equal to 100. The application in health field gave
matching results with simulation studies.
This study shows both methods can be used to impute a dataset with missing
values in a classification problem, but it is suggested to choose the most suitable
imputation method according to the the correlation structure of the dataset. In low
and middle correlated datasets, KNN imputation method with the neighbourhood
value is equal to 10, 15 or 20 should be used. In high correlated data sets RF’s
imputation algorithm should be prefered.
2014-11-24T10:08:11Z
2014-11-24T10:08:11Z
2014-01
2014-01-17
masterThesis
http://hdl.handle.net/11684/249
tur
info:eu-repo/semantics/openAccess
Eskişehir Osmangazi Üniversitesi
oai:openaccess.ogu.edu.tr:11684/353
2016-03-25T01:00:19Z
com_11684_26
com_11684_2
col_11684_160
2016-03-24T09:08:35Z
urn:hdl:11684/353
Türkiye’de 2007-2014 yılları arasında farklı yaşam tablosu yöntemleri kullanılarak yaşam ümidinin değerlendirilmesi
Şençelikel, Tuğçe
Öner, K. Setenay
ESOGÜ, Tıp Fakültesi, Biyoistatistik
Yaşam Tablosu
Yaşam Ümidi
Kısaltılmış
Reed-Merrel
Life Table
Life Expectancy
Abridged
Türkiye için Türkiye İstatistik Kurumu istatistiklerine dayanarak, kadın ve erkek bireylerde 2007-2014 yılları arasında yaşam ümidini, yaşam tablosu yöntemine göre belirlemek, yaşam tablolarına dayalı olarak Türkiye’nin sağlık düzeyi ile ilgili tahminlerde bulunmak ve yaşam tablosu yöntemlerinin uygulama yönünden karşılaştırılmasını yapmak amacı ile bu araştırma yapılmıştır.
Belirlenen amaçlar doğrultusunda Türkiye için Kısaltılmış Yaşam Tablosu ve Reed-Merrel Yaşam Tablosu ‘ndan yararlanılmıştır.
Erkek bireylerde doğuşta beklenen yaşam ümidi 2007 yılında 78.26 yaş/yıl iken, kadınlarda 83.18 yaş/yıl; 2010 yılında erkek bireylerde 71.61 yaş/yıl, kadın bireylerde 76.15 yaş/yıl; 2014 yılında ise erkek bireylerde yaşam ümidi 71.70 yaş/yıl iken kadın bireylerde 76.25 yaş/yıl olarak bulunmuştur. Yıllardan 2007 ve 2008 haricinde 2009’dan 2014’e kadar ki yaşam ümidi değerleri her iki cins içinde aynı oranda değişim gösterdiği bulunmuştur.
Yıllara göre Türkiye’de her iki cins için 8 yıllık süre içinde 0 yaşta beklenen yaşamda yaklaşık 7 yaşlık bir azalma kaydedilmiştir.
Yaşam ümidini belirlemede yararlanılan yaşam tablosu yöntemlerinden Kısaltılmış ve Reed-Merrel Yaşam Tablosu yöntemleri birbirine benzer sonuçlar vermiştir.
Uygulama kolaylığı, Türkiye nüfus ve ölüm bildirimlerinin yapısı bakımından uygun yaşam tablosu Kısaltılmış Yaşam Tablosudur.
Türkiye için 2013 yılında erkek bireylerde 5 yaşta beklenen yaşam ümidi 67.8 yaş/yıl, kadınlar için ise 72.51 yaş/yıl bulunmuştur. Gelişmiş ülkelere bakıldığında 2013 yılı için 5+ yaş beklenen yaşam ümidi değerlerinden yaklaşık 8 yaş/yıl daha azdır.
Ülkemizde sağlık düzeyinin yıllara göre değişimini izleyebilmek için nüfus ve ölüm istatistiklerinin düzenli tek yaşlara göre toplanarak yaşam tablosu yöntemlerinden yararlanılması gerekmektedir.
In this thesis study, it’s aimed to compare life table methods in terms of implementation, to determine life expectancy by the life table method in male and female individuals between 2007 and 2014, based on statistics of Turkish Statistical Instıtute and to estimate with regard to Turkey’s health level based on life tables.
It has been utilized from Abridged and Reed-Merrel Life Table methods, in line with the specified purposes.
In Turkey, the life expectancy at birth was estimated 78.26 years for males, 83.18 years for females in 2007. In 2010, life expectancy at birth was estimated 71.61 years for males, 76.15 years for females. In 2014, those estimates were calculated as 71.70 and 76.25. From 2009 to 2014 values of life expectancy were found to vary at the same rate not only male both also female except for 2007 and 2008.
The decreasing of life expectancy at birth for both sexes in 8 year period was observed approximately 7 years.
The Abridged and Reed-Merrel Life Table Methods have given the same life expectancy results.
Practical and easiest applicable life table method was Abridged Method for the mortality and other demographic statistics of Turkey
In Turkey, the life expectancy at 5 age was estimated 67.8 years for males, 72.51 years for females in 2013. When it looks at developed countries, the decreasing of life expectancy at 5+ age was observed approximately 8 years.
To observe and estimate the right indices of health levels in our country, it must be regularly recorded the mortality and other demographic statistics of all civilised area of Turkey according the single age and life table methods.
2016-03-24T09:08:35Z
2016-03-24T09:08:35Z
2015
2015-06-30
masterThesis
http://hdl.handle.net/11684/353
tur
info:eu-repo/semantics/openAccess
ESOGÜ, Sosyal Bilimler Enstitüsü
oai:openaccess.ogu.edu.tr:11684/365
2016-04-09T00:00:10Z
com_11684_26
com_11684_2
col_11684_160
2016-04-08T09:40:56Z
urn:hdl:11684/365
Farklı veri yapısı ve örneklem büyüklüklerinde yapısal eşitlik modellerinin geçerliği ve güvenirliğinin değerlendirilmesi
Doğan, İlkay
Özdamar, Kazım
ESOGÜ, Sağlık Bilimleri Enstitüsü, Biyoistatistik ve Tıbbi Bilişim
Yapısal Eşitlik Modellemesi
Model Uyum Ölçütleri
Parametre Tahmin Yöntemleri
Simülasyon Çalışması
Structural Equation Modeling
Model Fit Measures
Parameter Estimation Methods
Simulation Study
Bu tez çalışmasında, farklı veri yapısının ve farklı örneklem büyüklüklerinin yapısal eşitlik modellemesi üzerindeki değişimleri ve bu faktörlerin model uyum ölçütleri üzerindeki etkisini ortaya koymak amaçlanmıştır. Bu amaç çerçevesinde farklı veri yapısı ve örneklem büyüklüklerinde yapısal eşitlik modellemesinin geçerlik ve güvenirliği değerlendirilmiştir. Farklı veri yapısı ve farklı örneklem büyüklükleri altında oluşturulan yapısal eşitlik modellemesinin incelenmesi, model uyum ölçütlerinin değerlendirilmesi simülasyon çalışması yardımıyla yapılmıştır. Simülasyon çalışmasında, 4 gizli değişkenli ve her bir gizli değişkeni açıkladığı düşünülen 4 gözlenen değişkenli model kullanılmıştır. Çok değişkenli normallik varsayımının sağlandığı veri setleri için ML parametre tahmin yöntemi kullanılarak 50, 100, 150, 200, 250, 500, 1000 ve 5000 birimlik örneklem büyüklüklerinde oluşturulan yapısal eşitlik modellemesine ilişkin model uyum ölçütleri karşılaştırmalı olarak değerlendirilmiştir. Yapılan tez çalışmasında AGFI, GFI, CFI, NFI, NNFI, IFI, RMSEA ve RMR uyum ölçütleri dikkate alınmıştır. Ayrıca, yapılan simülasyon çalışmasında replikasyon sayısı 1000 ve iterasyon sayısı ise 50 olarak belirlenmiştir. Simülasyon çalışması sonucunda, örneklem büyüklüğü ve korelasyon değişimine bağlı optimizasyon ve negatif varyans tahmini problemleri ile karşılaşılmıştır. Bu problemlerin örneklem büyüklüğünün veya faktör içindeki değişkenler arası korelasyonun artmasıyla birlikte ortadan kalktığı gözlenmiştir. Örneklem büyüklüğü sabit tutulduğunda AGFI ve GFI uyum ölçütü değerlerinin korelasyon değişiminden etkilenmediği, fakat AGFI ve GFI uyum ölçütü değerlerinin örneklem büyüklüğünden etkilendiği ve örneklem büyüklüğü arttıkça uyum ölçütü değerlerinin ideal uyum sınırları içinde değerler aldığı tespit edilmiştir. CFI, NFI, NNFI ve RMR uyum ölçütlerinin örneklem büyüklüğünden ve korelasyon değişiminden etkilendiği belirlenmiştir. Çalışmada dikkate alınan diğer uyum ölçütlerinin aksine, RMSEA ve IFI uyum ölçütlerinin ise örneklem büyüklüğü ve korelasyon değişiminden etkilenmediği tespit edilmiştir. Sonuç olarak, bundan sonraki çalışmalarda çok değişkenli normal dağılım varsayımının gerçekleştiği veri setleri için bütün örneklem büyüklüklerinde ve korelasyon değerlerinde RMSEA ve IFI model uyum ölçütlerinin tercih edilmesi önerilmiştir.
In this thesis study, our aim was to investigate the changes on the structural equation modeling of different data structures and different sample sizes and the influence of these factors on the model fit measures. In the scope of this purpose the validity and reliability of structural equation modeling in different data structure and sample sizes were evaluated. Examining the created structural equation modeling under different data structures and sample sizes, the evaluation of model fit measures were performed with simulation study. In the simulation study, model with 4 latent variables and 4 observed variables were used to explain each latent variable. Model fit measures which were related to 50, 100, 150, 200, 250, 500, 1000 and 5000 units of sample size for structural equation modeling were evaluated by comparatively using ML parameter estimation method for data sets that ensure the multivariate normality assumption. In the thesis study AGFI, GFI, CFI, NFI, NNF, IFI, RMSEA and RMR model fit measures were taken into account. In addition, the number of replication and the number of iterations are determined as 1000 and 50, respectively to carry simulation studies. As a result of simulation study, depending on the sample size and changing the correlations have been encountered with optimization and negative variance estimation problems. It has been observed that these problems were disappeared either by increasing the sample size or correlations between the variables in factor. It was found that AGFI and GFI values were not affected by the changing of correlation when sample size was held constant. However, AGFI and GFI values were affected by the sample size and the value of the fit measures is going to get in ideal fit boundaries with the increasing sample size. It was determined that CFI, NFI, NNF and RMR fit measures were influenced by the sample size and the changing of correlation. In contrast to other model fit measures considered in the study, it has been found the RMSEA and IFI fit measures were not affected by the sample size and changes in correlation. As a result, for the upcoming studies the choice of RMSEA and IFI model fit measures can be suggested in all the sample size and the correlation value for data sets are ensured the multivariate normal distribution assumption.
2016-04-08T09:40:56Z
2016-04-08T09:40:56Z
2015
2015-12-29
doctoralThesis
http://hdl.handle.net/11684/365
tur
info:eu-repo/semantics/openAccess
ESOGÜ, Sağlık Bilimleri Enstitüsü
oai:openaccess.ogu.edu.tr:11684/1010
2017-05-24T00:00:22Z
com_11684_26
com_11684_2
col_11684_160
2017-05-23T06:28:41Z
urn:hdl:11684/1010
Görüntü işleme ve analizinin tıpta kullanımı ve bir uygulama
Osmanoğlu, Usame Ömer
Mutlu, Ferzan
ESOGÜ, Tıp Fakültesi, Biyoistatistik
Görüntü İşleme
Görüntü Analizi
MATLAB
Biyoistatistik
Optik Biyometri
Image Processing
Image Analysis
Biostatistics
Optical Biometry
Gelişen teknoloji ile birlikte modern cihazların sağlık alanında kullanımı artmıştır. Buna paralel olarak son zamanlarda tıpta görüntü işleme tekniklerinin kullanımı da yaygınlaşmaya başlamıştır. Bu teknikler hekimlere zaman, maliyet, tedavi ve teşhis konusunda büyük kolaylık sağlamaktadır. Özellikle pediatrik olgularda doğumsal ya da travmatik katarak cerrahisi öncesi göz içi merceği ölçümü için görüntü işleme teknikleri hekimlere yol gösterici olabilir. Ayrıca mental retarde (zekâ geriliği durumu) ya da Alzheimer hastalarında katarak cerrahisi öncesi optik biyometri zor olabilir. Bu tür hastalarda başka nedenlerle çekilen Manyetik Rezonans (MR) görüntülerinden göz içi mercek gücü ölçümü için Matrix Laboratory (MATLAB) programı kullanılabilir.
Görüntü işleme genel olarak resimsel bilgilerin analizine yönelik bir yöntem olarak tanımlanabilir. Bu tezde MATLAB ile görüntü işleme ve analizi, manyetik rezonans görüntüleme (MRG) ve optik biyometri hakkında genel bilgiler verilmiştir.
Ayrıca, MATLAB programının görüntü işleme sürecinin sağlık alanında kullanılabilirliğini değerlendirmek amacıyla bir uygulama çalışması yapılmıştır.
Eskişehir Osmangazi Üniversitesi Tıp Fakültesi Göz Hastalıkları Anabilim Dalı’na 08/03/2015-08/05/2016 tarihleri arasında başvuran hastalardan rutin göz muayenesi pratiğinde Orbita MR endikasyonu olan hastalar çalışmaya alınmıştır. Bu hastalar üzerinde Göz Hastalıkları Anabilim Dalı’nda optik biyometri çalışılmıştır. Eskişehir Osmangazi Üniversitesi Tıp Fakültesi Radyoloji Anabilim Dalı’nda AW iş istasyonunda aynı hastalar üzerinde bulbus oküli çap değerlendirmesi yapılmıştır. GE 750w 3T MR cihazı kullanılarak elde edilen MR görüntüleri üzerinde Codonics Clarity Viewer programı aracılığı ile Ön Kamara Derinliği (ÖKD), Lens Kalınlığı (LK) ve Aksiyel Uzunluk (AU) hesaplamaları yapılmıştır. Daha sonra aynı hastalara ait ham MR görüntüleri MATLAB programında görüntü işleme ve analizi sürecine alınmıştır. Son olarak üç farklı yöntemle hesaplanan bu ölçümler istatistiksel yöntemler ile karşılaştırılmıştır.Karşılaştırmalar sonucunda; MATLAB bulguları ile optik biyometri bulguları arasında anlamlı bir fark bulunamamıştır (AU için p=0.342, ÖKD için p=0.091, LK için p=0.766). Ayrıca, MATLAB bulgularının Codonics Clarity Viewer bulgularına göre optik biyometri bulgularına daha yakın olduğu görülmüştür (AU için 23.06-20.90-23.93, ÖKD için 3.11-2.65-3.31, LK için 4.16-3.85-4.31). Bland-Altman grafiklerine göre Lenstar ile MATLAB ölçümleri arasında uyum olduğu görülmüştür (AU için ortalama fark 0,29 mm (%95 GA, -0,78 ile 1,36), ÖKD için ortalama fark 0,28 mm (%95 GA, -0,83 ile 1,36), LK için ortalama fark 0,40 mm (%95 GA, -2,20 ile 3,00)).
MATLAB programı ile elde ettiğimiz verilerin optik biyometri ile yakın sonuçlar vermesi bu yöntemin optik biyometri yapmanın zor olabileceği olgularda yardımcı bir yöntem olabileceğini düşündürmektedir.
Ayrıca lensin aşırı şeffaf olduğu olgularda Lenstar cihazı ile ölçüm yapılamayabilir. Bu durumlarda MR’da görünebilen bu lenslerin ölçümü MATLAB programı görüntü işleme yöntemi ile yapılabilir. Sonuç olarak, MATLAB programı görüntü işleme yöntemi tıpta yardımcı bir yöntem olarak kullanılabilir.
Use of modern devices has increased in healthcare field with the improving technology. Likewise, use of image processing techniques in medicine has started to spread recently. These techniques provide great convenience for physicians in terms of time, cost, treatment and diagnosis. Especially in pediatric cases, image processing techniques could be a guide for physicians for the measurement of intraocular lenses before congenital or traumatic cataract surgery. Furthermore, optical biometry may be difficult before cataract surgery in mental retarted or Alzheimer patients. In such patients, Matrix Laboratory (MATLAB) can be used for intraocular lens power measurement from magnetic resonance (MR) images taken for other reasons.
Image processing can be generally defined as a method of analyzing pictorial information. In this thesis, general information was given about image processing and analysis with MATLAB, magnetic resonance imaging (MRI) and optical biometry.
In addition, an application performed in order to show the usability of image processing with MATLAB program in healthcare field.
Among the patients applied to Eskişehir Osmangazi University, Medical Faculty, Department of Ophthalmology between 08/03/2015 and 08/05/2016, those who have Orbital MRI indication in routine eye test practice were included in the study. Optical biometry was studied on these patients in the Department of Ophthalmology. Bulbus oculi diameter evaluation was made on the same patients in AW workstation in Eskişehir Osmangazi University, Medical Faculty, Department of Radiology. Anterior Chamber Depth (ACD), Lens Thickness (LT) and Axial Length (AL) calculations were made via Codonics Clarity Viewer program on MR images obtained by using GE 750w 3T MR device. Then, the raw MR images of the same patients were subjected to image processing and analyzing process in MATLAB program. Finally, these measurements calculated with three different methods were compared using statistical methods.According to the analysis results, difference of between MATLAB results and Lenstar results are not significant statistically (p=0.342 for AL, p=0.091 for ACD, p=0.766 for LT). In addition, it was observed that MATLAB results were closer to optical biometry results compared to Codonics Clarity Viewer results (23.06-20.90-23.93 for AL, 3.11-2.65-3.31 for ACD, 4.16-3.85-4.31 for LT). According to the Bland-Altman plots, it was found that MATLAB measurements were in agreement with Lenstar measurements (mean difference for the AL is 0,29 mm (%95 CI, -0,78 to 1,36), mean difference for the ACD is 0,28 mm (%95 CI, -0,83 to 1,36), mean difference for the LT is 0,40 mm (%95 CI, -2,20 to 3,00)).
Parallel results of optical biometry and the data obtained from MATLAB program indicate that this method can be an auxiliary method for cases in which optical biometry may be difficult.
Furthermore, extreme transparent lens cannot be measured by Lenstar device, but MATLAB program can measure the lens. To conclude, image processing with MATLAB program can be used as an auxiliary method in medicine.
2017-05-23T06:28:41Z
2017-05-23T06:28:41Z
2016
2016
masterThesis
http://hdl.handle.net/11684/1010
tur
info:eu-repo/semantics/openAccess
ESOGÜ, Sağlık Bilimleri Enstitüsü
oai:openaccess.ogu.edu.tr:11684/1055
2017-07-13T00:00:29Z
com_11684_26
com_11684_2
col_11684_160
2017-07-12T05:25:50Z
urn:hdl:11684/1055
Klinik ve biyolojik denemelerde LD50 ve ED50 tahmin yöntemlerinin dağılım türlerine, doz aralıklarına ve denek sayısına göre etkinliğinin karşılaştırılması
Sevinç, Merve
Özdamar, Kazım
TR56968
ESOGÜ, Tıp Fakültesi, Biyoistatistik
Biyolojik Deneme
Doz-cevap Eğrisi
Medyan Letal Doz
LD50
ED50
Probit
Lojit
Dragstedt-Behrens
Shuster-Dietrich
Spearman-Kärber
Tolerans Dağılımı
Biological Assay
Dose-response Curve
Median Letal Dose
Logit
Dragstedt-Behrens
Tolerance Distribution
Günümüzde ilaç, vitamin vb. çeşitli kimyasallar üretmek ve onlardan yararlanmak için biyolojik ya da klinik denemeler dikkate alınmaktadır. Yeni ve etkin ilaçların geliştirilmesi aşamasında denemeler aracılığı ile tolerans limitleri, eşik doz tanımlamaları ve %50 etkin doz (ED50) ya da %50 öldürücü doz (LD50) hesaplanmaktadır.
Biyolojik deneme, biyolojik bir canlıya uygulanan herhangi bir fiziksel, kimyasal, biyolojik, farmakolojik veya toksikolojik vb. etkili maddelerin (stimulus) farklı doz düzeylerinin oluşturduğu cevapların incelenmesidir. LD50 değeri, biyolojik denemelerde bir maddenin toksisitesinin göstergesi olarak kullanılmaktadır. ED50 ise tedavi amaçlı kullanılan bir maddenin etkinliğinin/yararlılığını göstergesi olarak kullanılmaktadır. Bir preparatın LD50 değeri elde edilmeden önce deneklere bu preparatın farklı dozları verilmektedir. Bu preparatın etkisi açıkça bilinmediğinde geniş aralıklı dozlar uygulanabilmektedir.
Bu araştırmada, klinik ve biyolojik denemelerde medyan letal dozun (LD50) ya da medyan etkin dozun (ED50) tahmin edilmesi için kullanılan bazı yöntemlerin; deneklere uygulanan doz düzeylerinin aralıklarının dar ya da geniş olmasına ve elde edilen tolerans dağılımlarının Normal, Uç değer ve Lojistik dağılım formunda olmalarına göre etkinliklerinin karşılaştırılması amaçlanmaktadır.
Bu çalışma medyan letal dozu tahmin etmede kullanılan Dragstedt-Behrens, Spearman-Kärber, Shuster-Dietrich, Probit ve Lojit yöntemlerini içermektedir. Bu yöntemlerden Probit ve Lojit yöntemleri literatürde bilinen en iyi yöntemlerdir. Ancak bu yöntemler teorik bir dağılım varsayımı içermektedir. Bunun aksine Dragstedt-Behrens, Spearman-Kärber, Shuster-Dietrich yöntemleri ise dağılım varsayımı gerektirmeyen parametrik olmayan yöntemlerdir. Bu nedenle farklı tolerans dağılımları (normal, uç değer ve lojistik dağılım) altında ve doz aralıklarının dar ya da geniş olması durumlarına göre türetilen veri yapılarında bu yöntemlerin etkinlikleri karşılaştırılmıştır. Yöntemlerin etkinlikleri karşılaştırılırken Monte Carlo simülasyon tekniğinden faydalanılmıştır. Simülasyon kodları R studio programı aracılığı ile yazılmıştır. Karşılaştırma ölçütleri olarak hata kareler ortalaması, güven aralığı uzunluğu ve etkinlik değerleri dikkate alınmıştır. Probit ve Lojit Analiz yöntemleri tüm dağılım türlerinde benzer sonuçlar göstermiştir. Dragstedt-Behrens, Spearman-Kärber ve Shuster-Dietrich yöntemleri parametrik olmamalarına rağmen uç değer dağılımında parametrik yöntemlere göre daha yanlı sonuçlar göstermişlerdir. Uç değer ve Lojistik dağılımdan türetilen verilerde Dragstedt-Behrens ve Shuster-Dietrich yöntemlerinin Spearman-Kärber yönteminden daha etkin sonuçlara sahip olduğu görülmüştür. Doz aralıkları genişlediğinde parametrik yöntemlerin etkinlikleri fark edilir düzeyde azalmıştır.
Bu çalışmada elde edilen sonuçlar değerlendirildiğinde, doz aralıklarının dar tutulduğu durumlarda Normal ve Lojistik dağılım gösteren verilerin LD50 ya da ED50 değerlerinin hesaplanmasında parametrik yöntemlerden yararlanılması (Probit ve Lojit) önerilmektedir. Ancak bu dağılım türleri için doz aralıkları genişlediğinde parametrik yöntemler etkinliğini kaybetmekte ve Dragstedt-Behrens ile Shuster-Dietrich yöntemleri kullanımı daha uygun hale dönüşmektedir. Uç değer dağılımı için hem dar doz hem de geniş doz aralıklarında bu yöntemler arasından parametrik yöntemler kullanılması daha uygundur.
Nowadays, bioassays or clinical trials are taking into consideration to product various chemicals (drug, vitamin etc.) and to take advantage of them. Tolerance limits, definitions of threshold dose and %50 effective dose (ED50) or %50 letal dose (LD50) are calculated during the development new and effective drugs via bioassays.
Biological assay is the study of responses to physical, chemical, biological or toxicological etc. substances (stimulus) applied in a biological alive occurring in different dose levels. The value of LD50 is frequently used as the indicator of the toxicity of a substance in bioassays. The value of ED50 is used as indicator of the efficiency of a substance that is used for therapeutic purposes. Before LD50 value of a preparate is obtained, different dosage levels of this preparate are applied to experimental animal. When the effect of preparate is not clearly known, wider spaced dose levels can be applied to test subject.
The main purpose of this research was to compare some methods while determining median lethal dose (LD50) and median effective dose (ED50) in clinical and biological assays according to normal, extreme value and logistic distribution types and narrower or wider dose spaced.
This study contains Dragstedt-Behrens, Spearman-Kärber, Shuster-Dietrich, Probit and Logit methods that are used to estimate median letal dose. Probit and Logit methods are the best known procedures which are popular in literature. However they require the assumption of a theoretical tolerance distribution. Contrary to this, Dragstedt-Behrens, Spearman-Kärber and Shuster-Dietrich does not contain any assumption of distribution since it is a nonparametric method. That’s why we wanted to compare these techniques under different tolerance distribution (which are normal, extreme value and logistic distribution) and narrower or wider dose spaced. Monte Carlo simulation technique is used when efficiencies of methods were compared. Simulation codes were written via R studio package program. Mean square errors (MSE), length of confidence intervals and efficiency was used as comparison criteria. Probit and Logit methods had the same results for all distribution types and sample sizes. Although Dragstedt-Behrens, Spearman-Kärber and Shuster-Dietrich methods are a nonparametric method, they gave more biased for extreme value distributed tolerance values. In extreme value and logistic distribution types, Dragstedt-Behrens and Shuster-Dietrich methods had more unbiased results than Spearman-Kärber. Efficiencies of parametric methods were distinguishably decreasing when the dosage intervals were enlarging.
The result of this study shows that in normal and logistic distribution types, parametric methods (Probit and Logit) should be used for narrower dose spaced. However for this distribution types, parametric methods were losing effectiveness of themselves when the dosage intervals were enlarging and Dragstedt-Behrens and Shuster-Dietrich methods were more useful than parametric methods. For extreme value distribution, to use parametric methods are more appropriate for both narrower and wider dose spaced.
2017-07-12T05:25:50Z
2017-07-12T05:25:50Z
2016
2016
masterThesis
http://hdl.handle.net/11684/1055
tur
info:eu-repo/semantics/openAccess
ESOGÜ, Sağlık Bilimleri Enstitüsü
oai:openaccess.ogu.edu.tr:11684/1056
2017-07-13T00:00:34Z
com_11684_26
com_11684_2
col_11684_160
2017-07-12T05:25:57Z
urn:hdl:11684/1056
Standart tobit regresyon modelinde kullanılan parametre tahmin yöntemlerinin karşılaştırılması
Emir, Büşra
Öner, K. Setenay
TR232054
ESOGÜ, Tıp Fakültesi, Biyoistatistik
Sansürlü Veri
Sınırlandırılmış Veri
En Büyük Olabilirlik Yöntemi
Tobit Model
Probit Model
Lojit Model
2 Aşamalı Heckman Tahmin Yöntemi
NEWRAP
QUANEW
CONGRA
DBLDOG
NMSIMP
NRRIDG
TRUREG
Censored Data
Truncated Data
Maximum Likelihood Estimation Method
Tobit Model
Probit Model
Logit Model
Heckman Two Step Model
Bu çalışmanın amacı, bağımlı değişkeni sınırlı olan regresyon modellerinde parametre tahmin yöntemlerini karşılaştırmaktır. Bu model, Tobit Model ya da Sansürlü Regresyon Modeli olarak adlandırılmaktadır.
Tobit modelde, rasgele hatanın 0 ortalama ve σ2 varyans ile normal dağılım gösterdiği varsayılmaktadır. Bu varsayıma göre simülasyon çalışması yapılmıştır. Simülasyon çalışmasının amacı, hangi yöntemin parametreleri tahmin etmede en iyi olduğunu belirlemektir. Tahmin yöntemleri, Probit En Büyük Olabilirlik yöntemi, Lojit En Büyük Olabilirlik yöntemi, Tobit En Büyük Olabilirlik yöntemi ve Heckman 2 Aşamalı tahmin yöntemidir.
Probit, Lojit, Tobit ve Heckman modellerinin analizinde yedi farklı optimizasyon algoritması; Newton Raphson (NEWRAP), Quasi Newton (QUANEW), Conjugate-Gradient (CONGRA), Double Dogleg (DBLDOG), Nelder Mead Simplex (NMSIMP), Newton Raphson Ridging (NRRIDG) ve Trust Region (TRUREG) kullanılmıştır. Karşılaştırmalar iki temel ölçüt kullanılarak yapılmıştır. Bu ölçütler, parametre tahminleri ve hata kareler ortalamaları, yakınsama oranlarına göre algoritmaların performansları olarak belirlenmiştir.
Simülasyon sonuçları, Tobit tahmin yöntemi ve Heckman iki aşamalı tahmin yönteminin parametreleri tahmin etmede daha yansız ve küçük hata kareler ortalama değerlerine sahip olduğunu göstermiştir. Küçük veri setlerinde NEWRAP, NRRIDG ve TRUREG algoritmalarının uygulanması uygundur. Örnek hacmi arttıkça QUANEW, CONGRA, DBLDOGLEG, NMSIMP algoritmaları birbirine benzer parametre tahminleri ve küçük hata kareler ortalamaları vermiştir.
The main objective of this study was to compare various estimation methods on regression models in which the dependent variable is limited. These models, called Tobit models which is also known as censored regression model.
It is assumed that the random error follows a normal distribution with zero mean and unknown variance in the Tobit model. It was conducted simulation study according to this assumption. The goal of the simulation study is to examine which estimation method does best at estimating α and β. These estimation methods included Probit Maximum Likelihood, Logit Maximum Likelihood, Tobit Maximum Likelihood and Heckman’s Two-Step.
It is used seven different type optimization algorithm in the analysis of Probit, Logit, Tobit and Heckman models. These methods were compared with respect to parameter estimates, empirical mean square errors, and performances of the algorithms by convergence rates.
We showed through simulations that the Tobit estimation method and Heckman two step estimation method not only estimated more unbiased but also gave lower mean square errors. It is suitable for the implementation of NEWRAP, NRRIDG and TRUREG algorithms in small data sets. As sample size increases it yielded to parameter estimates, empirical mean square errors similar to each other QUANEW, CONGRA, DBLDOGLEG, NMSIMP algorithms.
2017-07-12T05:25:57Z
2017-07-12T05:25:57Z
2016
2016
masterThesis
http://hdl.handle.net/11684/1056
tur
info:eu-repo/semantics/openAccess
ESOGÜ, Sağlık Bilimleri Enstitüsü
oai:openaccess.ogu.edu.tr:11684/1900
2021-03-10T01:00:47Z
com_11684_26
com_11684_2
col_11684_160
2021-03-09T12:27:30Z
urn:hdl:11684/1900
Kesişen iki yaşam fonksiyonu için kullanılan istatistiksel testlerin karşılaştırılması
Özen, Hülya
Bal, Cengiz
ESOGÜ, Tıp Fakültesi, Biyoistatistik
Ağırlıklandırılmış Lin ve Wang Testleri
Kesişen Yaşam Fonksiyonları
Log-Rank Testi
Parçalanmış Log-Rank Testleri
Yaşam Analizi
Weighted Lin and Wang Tests
Crossing Survival Functions
Log-Rank Test
Partitioned Log-Rank Tests
Survival Analysis
İki yaşam fonksiyonunun eşitliğinin araştırılması yaşam analizi çalışmalarında sıklıkla kullanılmaktadır. Literatürde en çok tercih edilen yöntem log-rank testidir, ancak orantılı hazardlar varsayımının ihlal edildiği kesişen yaşam fonksiyonlarını değerlendirmede yanıltıcı sonuçlar sunmaktadır. Kesişen yaşam fonksiyonları birçok farklı yapıda oluşabilmektedir. Tek başına tüm koşulları uygun bir şekilde değerlendirilecek bir test ise bulunmamaktadır. Bu nedenle kesişen yaşam fonksiyonlarını değerlendirmek için farklı karşılaştırma testleri önerilmiştir.
Bu tez çalışmasında literatüre önerilen güncel yöntemlerden parçalanmış log-rank testleri ve ağırlıklandırılmış Lin ve Wang testleri, log-rank ve ağırlıklandırılmış log-rank testleri ile karşılaştırılmıştır. Monte Carlo simülasyon tekniği kullanılarak farklı örneklem büyüklüğü ve sansür oranlarında karşılaştırma testlerinin tip 1 hata oranları ve güçleri kıyaslanmıştır. Orantılı hazardlar varsayımının sağlandığı ve kesişen yaşam fonksiyonları ile bu varsayımın ihlal edildiği senaryolarda karşılaştırma testlerinin zayıf ve güçlü yönleri incelenmiştir. Simülasyon çalışmasına ek olarak sağlık alanında gerçek bir yaşam veri setinde de karşılaştırma testleri değerlendirilmiştir.
Simülasyon çalışmaları sonucunda tüm testler makul tip 1 hata oranları sunmuştur. Orantılı hazardlar varsayımı altında, log-rank en başarılı karşılaştırma testidir. Kesişen yaşam fonksiyonlarına ait senaryolarda ise en başarılı sonuçlar parçalanmış log-rank testlerine aittir. Lin ve Wang testleri ve ağırlıklandırılmış log-rank testleri, keşişen yaşam fonksiyonlarına ait senaryolarda parçalanmış log-rank testlerinden oldukça düşük güç oranları sunmuştur. Örneklem büyüklüğündeki artış testlerin performansını arttırmış, ancak sansür oranındaki artış olumsuz bir etki yaratmıştır. Yaşam fonksiyonlarının kesişim noktasının çalışmanın başlangıcından sonuna doğru
ilerlemesi, testlerin performansını olumsuz yönde etkilemiştir. En büyük etki log-rank, en küçük etki ise parçalanmış log-rank testlerinde görülmüştür. Gerçek yaşam veri setinden elde edilen sonuçlar, simülasyon çalışması sonuçları ile uyumlu bulunmuştur.
Sonuç olarak orantılı hazardlar varsayımı sağlandığında log-rank testinin, kesişen yaşam fonksiyonlarının karşılaştırılmasında ise parçalanmış log-rank testlerinin kullanılması önerilmektedir.
The investigation of the equality of two survival functions is frequently used in survival analysis studies. The most preferred method in the literature is the log-rank test, but it provides misleading results in evaluating the crossing survival functions in which the proportional hazards assumption is violated. Crossing survival functions can occur in many different ways. There is not a single test to properly assess all conditions. Therefore, different comparison tests have been proposed to evaluate crossing survival functions.
In this thesis study, partitioned log-rank tests and weighted Lin and Wang tests, which are the current methods proposed in the literature, were compared with log-rank and weighted log-rank tests. Using the Monte Carlo simulation technique, type 1 error rates and powers of comparison tests were compared in different sample sizes and censorship rates. The weaknesses and strengths of the comparison tests were examined in scenarios where the proportional hazards assumption was provided and violated with two crossing survival functions. In addition to the simulation study, comparison tests were evaluated in a real life data set in the field of health.
As a result of the simulation studies, all tests provided reasonable type 1 error rates. Under the assumption of proportional hazards, log-rank is the most successful comparison test. The most successful results in the scenarios of crossing survival functions were belong to partitioned log-rank tests. Lin and Wang tests and weighted log-rank tests showed lower power rates than the partitioned log-rank tests in scenarios of crossing survival functions. The increase in the sample size increased the performance of the tests, while the increase in the censorship rate had a negative effect. From the beginning to the end of the study, the progress of the crossing point of survival functions affected the performance of the tests adversely. The largest effect was seen in log-rank, and the smallest effect was in partitioned log-rank tests. The results obtained
from the real life data set were consistent with the results of the simulation study.
In conclusion, it is recommended to use the log-rank test when the proportional hazards assumption is provided and the use of partitioned log-rank tests in the comparison of crossing survival functions.
2021-03-09T12:27:30Z
2021-03-09T12:27:30Z
2019
2019
doctoralThesis
http://hdl.handle.net/11684/1900
tur
info:eu-repo/semantics/openAccess
ESOGÜ, Sağlık Bilimleri Enstitüsü
oai:openaccess.ogu.edu.tr:11684/1828
2021-03-05T01:00:22Z
com_11684_26
com_11684_2
col_11684_160
2021-03-04T11:06:01Z
urn:hdl:11684/1828
Longitudinal veri analizinde geçiş modelleri ve bir uygulama
Karabulut, Zeynep
ESOGÜ, Tıp Fakültesi, Biyoistatistik ve Tıbbi Bilişim Anabilim Dalı
Geçiş Modelleri
Longitudinal Veri
Longitudinal Veri Analizi
Markov Modelleri
Sağlık alanında yapılan araştırmalarda longitudinal veriler sıklıkla kullanılmaktadır. Longitudinal verilerin oluşturduğu longitudinal bir çalışma zamana bağlı olarak birey üzerinden alınan tekrarlı ölçümlerin toplanarak analiz edilmesidir.
Longitudinal veri analizinde genelleştirilmiş doğrusal modeller üç model içermektedir. Bunlar marjinal modeller, rassal etkiler modeli ve geçiş modelleridir. Geçiş modellerinde amaç, geçmiş yanıtları çeşitli dönüştürme işlemine tabii tutarak modele ilave açıklayıcı değişkenler olarak katmaktır.
Bu çalışmada, geçiş modellerinin teorik yapısı incelenmiş ve bir uygulama yapılmıştır. Bu uygulama da, Osmangazi Üniversitesi Tıp Fakültesi Çocuk Sağlığı ve Hastalıkları Anabilim Dalı’na başvuran 250 çocuğun solunum yolları enfeksiyonuna ilişkin verileri kullanılmıştır. Çocuklardaki solunum yolları enfeksiyon durumu bağımlı değişken; yaş, cinsiyet ve A vitamini eksikliğinin olup olmaması bağımsız değişkenler olarak ele alınmıştır. Birimlerden üç aylık zaman aralıklarında 6 kez tekrar edilen ölçümler alınarak veriler toplanmıştır. Verilerin analizi için geçiş modelleri ve geçişsiz modeller uygulanmıştır.
Geçiş modelleri uygulandığı ve uygulanmadığı durumlardaki analiz sonuçları karşılaştırılmış ve geçiş modeli uygulandığında A vitamini eksikliğinin çocuklarda solunum yolları enfeksiyon riskini arttırdığı, geçişsiz modelde ise A vitamini eksikliğinin çocuklarda solunum yolları enfeksiyon durumunu etkilemediği görülmüştür.
Longitudinal veri analizinde, geçiş modelleri uygulandığında gerçekleştirilen tahmin denklemleri, geçişsiz modeller için gerçekleştirilen tahmin denklemlerinden daha etkin sonuçlar vermektedir
On the researches which are done in the field of medicine longitudinal datas are often used. A longitudinal work which is formed by longitudinal datas is analysed by collecting repitation measures which are taken from on individual as related to time.
On the longitudinal data analysis, generalized linear models include three models. These are marginal models, random effects models and transition models. Purpose of transition models proccessing past responses to transition includes to the models as explanatory variants.
In this study, theorical structure of transition models was examined and an application was done. In this application, datas which related to 250 childrens’s respiratory throat infection, who applied to Osmangazi University School of Medicine Pediatrics. This respiratory throat infection of children took in hand as a dependent variable, but being or not age, sex and lack of A vitamin took in hand as independent variable. Datas were collected from modules taking measures which are repeated six times for three times at the interual. For datas analysis, transition models and intransitive models were applied.
Analysis results on conditions that transition models are applied or not applied were compared and it was shown that increased risk of respiratory throat infection on the children when transition models applied, but on the intransitive models it was shown that lack of A vitamin didn’t affect state of respiratory throat infection on the children.
On the longitudinal data analysis, whwn transition models are applied, iplemented estimate equations give more effective results than implemented estimate equations for intransitive models.
2021-03-04T11:06:01Z
2021-03-04T11:06:01Z
2005
2005
masterThesis
http://hdl.handle.net/11684/1828
tur
info:eu-repo/semantics/openAccess
ESOGÜ, Sağlık Bilimleri Enstitüsü
oai:openaccess.ogu.edu.tr:11684/1809
2021-03-05T01:00:23Z
com_11684_26
com_11684_2
col_11684_160
2021-03-04T10:12:22Z
urn:hdl:11684/1809
Parametrik olmayan istatikseltestlerde asimptoik, monte carlo ve exact yöntemlerin karşılaştırlması
Elmalı, Ferhan
ESOGÜ, Sağlık Bilimleri Enstitüsü
Geçiş Modelleri
Longitudinal Veri
Longitudinal Veri Analizi
Markov Modelleri
Sağlık alanında yapılan araştırmalarda longitudinal veriler sıklıkla kullanılmaktadır. Longitudinal verilerin oluşturduğu longitudinal bir çalışma zamana bağlı olarak birey üzerinden alınan tekrarlı ölçümlerin toplanarak analiz edilmesidir.
Longitudinal veri analizinde genelleştirilmiş doğrusal modeller üç model içermektedir. Bunlar marjinal modeller, rassal etkiler modeli ve geçiş modelleridir. Geçiş modellerinde amaç, geçmiş yanıtları çeşitli dönüştürme işlemine tabii tutarak modele ilave açıklayıcı değişkenler olarak katmaktır.
Bu çalışmada, geçiş modellerinin teorik yapısı incelenmiş ve bir uygulama yapılmıştır. Bu uygulama da, Osmangazi Üniversitesi Tıp Fakültesi Çocuk Sağlığı ve Hastalıkları Anabilim Dalı’na başvuran 250 çocuğun solunum yolları enfeksiyonuna ilişkin verileri kullanılmıştır. Çocuklardaki solunum yolları enfeksiyon durumu bağımlı değişken; yaş, cinsiyet ve A vitamini eksikliğinin olup olmaması bağımsız değişkenler olarak ele alınmıştır. Birimlerden üç aylık zaman aralıklarında 6 kez tekrar edilen ölçümler alınarak veriler toplanmıştır. Verilerin analizi için geçiş modelleri ve geçişsiz modeller uygulanmıştır.
Geçiş modelleri uygulandığı ve uygulanmadığı durumlardaki analiz sonuçları karşılaştırılmış ve geçiş modeli uygulandığında A vitamini eksikliğinin çocuklarda solunum yolları enfeksiyon riskini arttırdığı, geçişsiz modelde ise A vitamini eksikliğinin çocuklarda solunum yolları enfeksiyon durumunu etkilemediği görülmüştür.
Longitudinal veri analizinde, geçiş modelleri uygulandığında gerçekleştirilen tahmin denklemleri, geçişsiz modeller için gerçekleştirilen tahmin denklemlerinden daha etkin sonuçlar vermektedir.
On the researches which are done in the field of medicine longitudinal datas are often used. A longitudinal work which is formed by longitudinal datas is analysed by collecting repitation measures which are taken from on individual as related to time.
On the longitudinal data analysis, generalized linear models include three models. These are marginal models, random effects models and transition models. Purpose of transition models proccessing past responses to transition includes to the models as explanatory variants.
In this study, theorical structure of transition models was examined and an application was done. In this application, datas which related to 250 childrens’s respiratory throat infection, who applied to Osmangazi University School of Medicine Pediatrics. This respiratory throat infection of children took in hand as a dependent variable, but being or not age, sex and lack of A vitamin took in hand as independent variable. Datas were collected from modules taking measures which are repeated six times for three times at the interual. For datas analysis, transition models and intransitive models were applied.
Analysis results on conditions that transition models are applied or not applied were compared and it was shown that increased risk of respiratory throat infection on the children when transition models applied, but on the intransitive models it was shown that lack of A vitamin didn’t affect state of respiratory throat infection on the children.
On the longitudinal data analysis, whwn transition models are applied, iplemented estimate equations give more effective results than implemented estimate equations for intransitive models.
2021-03-04T10:12:22Z
2021-03-04T10:12:22Z
2005
2005
masterThesis
http://hdl.handle.net/11684/1809
tur
info:eu-repo/semantics/openAccess
ESOGÜ, Sağlık Bilimleri Enstitüsü
oai:openaccess.ogu.edu.tr:11684/2126
2021-03-12T01:02:34Z
com_11684_26
com_11684_2
col_11684_160
2021-03-11T13:10:25Z
urn:hdl:11684/2126
Parametrik olmayan istatistiksel testlerde asimptotik, monte carlo Ve exact yöntemlerin karşılaştırılması
Elmalı, Ferhan
Demirüstü, Canan
ESOGÜ, Tıp Fakültesi, Biyoistatistik ve Tıbbi Bilişim Anabilim Dalı
Parametrik Olmayan İstatistiksel Testler
Asimptotik Yöntem
Exact Yöntem
Monte Carlo Yöntemi
Sağlık alanında yapılan çalışmalarda değişkenlerin ve veri setinin özelliklerine göre parametrik ya da parametrik olmayan istatistiksel testler kullanılmaktadır.
Parametrik olmayan istatistiksel testler verilerin parametrik bir değeri ve belirli bir dağılım varsayımı olmadığı durumlarda analiz yapmayı amaçlayan yöntemlerdir. Parametrik olmayan istatistiksel testlerde veri setinin örnek hacminin büyük ya da küçük, seyrek, dengesiz olduğu ve uç değerler içerdiği durumlarda farklı p değeri hesaplama yöntemleri kullanılmaktadır.
Bu çalışmada parametrik olmayan istatistiksel testlerde kullanılan p değerleri hesaplama yöntemlerinden Asimptotik Yöntem, Exact Yöntem ve Monte Carlo Yöntemi karşılaştırılarak kullanılmıştır. Karşılaştırmalar 2 X 2, 3 X 3, 4 X 4, 5 X 5, 10 X 10 kontenjans tablolarında Pearson Ki-Kare Testi, Diziler Testi, Wilcoxon T Testi, Mann-Whitney U Testi, Kruskal-Wallis ve Friedman testlerinde yapılmıştır. Her bir testin özelliğine göre birim sayıları, grup sayıları ve işlem sayıları dikkate alınarak 100’er örnek için veriler tamsayı olarak türetilmiş ve yöntemler arası karşılaştırmalar yapılmıştır.
Parametrik olmayan istatistiksel testlerde Asimptotik p değeri H0 hipotezinin reddine yönelik yanlış kararlar alınmasına neden olabilmektedir. Bu nedenle p değerinin hesaplanmasında Exact p değerinin kullanımı her zaman için tercih nedeni olmaktadır. Exact p değerinin hesaplanamadığı durumlarda ise Monte Carlo yönteminin kullanılması uygun olmaktadır. Veri setinde 10.000, 100.000 ve 250.000 örnek tekrarlarında Monte Carlo p değerleri arasında önemli fark bulunmadığı durumlarda Monte Carlo p değeri, fark bulunduğu durumlarda ise Asimptotik p değerinin kullanımı tercih edilmelidir.
2021-03-11T13:10:25Z
2021-03-11T13:10:25Z
2005
2005
masterThesis
http://hdl.handle.net/11684/2126
tur
info:eu-repo/semantics/openAccess
ESOGÜ, Sağlık Bilimleri Enstitüsü
oai:openaccess.ogu.edu.tr:11684/2129
2021-03-12T01:00:28Z
com_11684_26
com_11684_2
col_11684_160
2021-03-11T13:12:42Z
urn:hdl:11684/2129
Longitudinal veri analizinde geçiş modelleri ve bir uygulama
Karabulut, Zeynep
ESOGÜ, Tıp Fakültesi, Biyoistatistik ve Tıbbi Bilişim Anabilim Dalı
Geçiş Modelleri
Longitudinal Veri
Longitudinal Veri Analizi
Markov Modelleri
Sağlık alanında yapılan araştırmalarda longitudinal veriler sıklıkla kullanılmaktadır. Longitudinal verilerin oluşturduğu longitudinal bir çalışma zamana bağlı olarak birey üzerinden alınan tekrarlı ölçümlerin toplanarak analiz edilmesidir.
Longitudinal veri analizinde genelleştirilmiş doğrusal modeller üç model içermektedir. Bunlar marjinal modeller, rassal etkiler modeli ve geçiş modelleridir. Geçiş modellerinde amaç, geçmiş yanıtları çeşitli dönüştürme işlemine tabii tutarak modele ilave açıklayıcı değişkenler olarak katmaktır.
Bu çalışmada, geçiş modellerinin teorik yapısı incelenmiş ve bir uygulama yapılmıştır. Bu uygulama da, Osmangazi Üniversitesi Tıp Fakültesi Çocuk Sağlığı ve Hastalıkları Anabilim Dalı’na başvuran 250 çocuğun solunum yolları enfeksiyonuna ilişkin verileri kullanılmıştır. Çocuklardaki solunum yolları enfeksiyon durumu bağımlı değişken; yaş, cinsiyet ve A vitamini eksikliğinin olup olmaması bağımsız değişkenler olarak ele alınmıştır. Birimlerden üç aylık zaman aralıklarında 6 kez tekrar edilen ölçümler alınarak veriler toplanmıştır. Verilerin analizi için geçiş modelleri ve geçişsiz modeller uygulanmıştır.
Geçiş modelleri uygulandığı ve uygulanmadığı durumlardaki analiz sonuçları karşılaştırılmış ve geçiş modeli uygulandığında A vitamini eksikliğinin çocuklarda solunum yolları enfeksiyon riskini arttırdığı, geçişsiz modelde ise A vitamini eksikliğinin çocuklarda solunum yolları enfeksiyon durumunu etkilemediği görülmüştür.
Longitudinal veri analizinde, geçiş modelleri uygulandığında gerçekleştirilen tahmin denklemleri, geçişsiz modeller için gerçekleştirilen tahmin denklemlerinden daha etkin sonuçlar vermektedir.
2021-03-11T13:12:42Z
2021-03-11T13:12:42Z
2005
2005
masterThesis
http://hdl.handle.net/11684/2129
tur
info:eu-repo/semantics/openAccess
ESOGÜ, Sağlık Bilimleri Enstitüsü
oai:openaccess.ogu.edu.tr:11684/3949
2022-07-29T00:00:46Z
com_11684_26
com_11684_2
col_11684_160
2022-07-28T11:23:26Z
urn:hdl:11684/3949
Gauss karma regresyon analizinin türetilmiş verilerde etkinliğinin araştırılması
Aydemir, Eylem Itır
Öner, Setenay
ESOGÜ, Sağlık Bilimleri Fakültesi, Biyoistatistik Anabilim Dalı
Gauss Karma Regresyon
Sonlu Karma Modeller
Bıc
Em
Model Tabanlı Kümeleme Analizi
Çok Boyutluluk
Araştırmacılar doğrusal olmayan örneklerde esnekliği elde etmek için
parametrik modellerin geliştirilmesine yönelmişlerdir. Veri modellemede parametrik
modeller çok boyutlu problemlere başarı ile uygulanırken esneklik varsayımlarını
sağlayamayıp, yanlı tahminler vermektedir. Parametrik olmayan yöntemler ise esnekliği
sağlar fakat yüksek boyutlarda güçlük çekmektedirler.
Esneklik varsayımlarını sağlayan GMR yöntemi, verideki heterojeniteyi
belirlemek ya da aşırı yayılmayı açıklamak için regresyon modellerinin sonlu karmaları
kullanılarak oluşturulur. Regresyon modeli oluşturulurken yoğunluk fonksiyonunu
modelleme amacıyla kullanılır, verinin bileşik yoğunluğu modellenir ve GMM’den
regresyon fonksiyonu türetilir.
Bu çalışmanın amacı, GMR yönteminin teorik temellerini açıklamak,
Doğrusal ve Karesel Ayırma Analizi ile Esnek Ayırma Analizi yöntemlerinden MARS
ve BRUTO Analizlerinin sonuçlarını karşılaştırmak, türetilmiş veriler kullanarak ayırma
problemlerinde kullanımını göstermek ve Model Tabanlı Kümeleme yöntemlerini
açıklamaktır.
Veri türetimi ve analizlerde; ortalama vektörleri, kovaryans matrisleri ve
grup gözlem sayıları değiştikçe ayırma yöntemlerinin doğruluk oranları arasındaki
değişiklikler, grup sayısının artışı ile birlikte ayırma yöntemlerinin doğruluk oranları
arasındaki değişimler ve GMM’e Model Tabanlı Kümeleme yöntemi uygulayarak en iyi
modelin belirlenmesi ve Poisson gürültü (Poisson noise) uygulandığındaki ayırma
yönteminin nasıl uygulandığı gösterilmiştir.
Sonuç olarak Kovaryans matrisinin parametrizasyonuna göre, grup ortalama
vektörleri arasındaki farka göre doğruluk oranlarının değiştiği, grup gözlem sayılarına
göre doğruluk oranlarının değişmediği, büyük gözlem sayılarında GMR’nin yüksek vi
doğruluk oranları verdiği gözlenmiştir. GMR parametrik olmayan regresyon
modellemede diğer yöntemlerin yerine kullanılabilir.
The analysts have gone towards to developing the parametric methods to get
flexibility in non linear samples. Parametric models could be applied in high dimensions
but could not supply the flexibility assumptions, this results in biassed forecasting. Non
parametric methods have problems in high dimensions.
GMR is a flexible method used to determine the heterogenity in data and
explain the overdispersion with Finite Mixtures. The GMM is used to model the density
function and the joint density of the data and derived the regression function.
The main goal of this research is to explain the theoretic basis of GMR and
to compare the analysis results with Lineer, Quadratic, MARS, BRUTO discriminant
analysis and to show how the analysis work in discrimination when the simulation data
is used and to explain the model-based DA.
For simulations and analysis; it is shown that, how the accuracy proportions
of the discriminant methods changed when the mean vector, covariance matrix and
group observation sizes are changed, how the accuracy proportions of discrimant
methods are changed when the groups are increased, what is the best model when the
model-based cluster method is applied to GMM, how the discriminant method works
after poisson noise added to the model.
Finally the accuracy ratios are changed due to the covariance matrix
parametrization and the difference between mean vectors, but the group observation
sizes. The GMR should be used in non parametric regression modeling instead of other
methods.
2022-07-28T11:23:26Z
2022-07-28T11:23:26Z
2009
2009
physicsThesis
http://hdl.handle.net/11684/3949
tur
info:eu-repo/semantics/openAccess
ESOGÜ, Sağlık Bilimleri Enstitüsü
oai:openaccess.ogu.edu.tr:11684/3938
2022-07-29T00:01:09Z
com_11684_26
com_11684_2
col_11684_160
2022-07-28T09:29:38Z
urn:hdl:11684/3938
Altın standartlı ve altın standartsız durumlarda parametrik, yarı parametrik ve parametrik olmayan ROC eğrisi yöntemlerinin karşılaştırılması
Elmalı, Ferhan
Bal, Cengiz
ESOGÜ, Sağlık Bilimleri Fakültesi, Biyoistatistik Anabilim Dalı
Altın Standart
Roc Eğrisi Yöntemi
Gizli Sınıf Analizi
Klasik Hata Modeli
Monte Carlo Yöntemi
Bu çalışmada, normal ve lognormal dağılımdan türetilmiş, sürekli tanı testi veri setleri için altın standartlı (AS(+)) ve altın standartsız (AS(-)) durumlarda parametrik, yarı parametrik ve parametrik olmayan ROC (Receiver Operating Characteristic) eğrisi yöntemlerinin performansları karşılaştırıldı.AS(+) ve AS(-) durumu için gösterge parametreleri, a=1.40, b=0.90, eğri altında kalan alan (EAA) 0.85 olacak şekilde normal ve lognormal dağılımdan türetilmiş n=50, 100 ve 250 birimlik veri setleri için üç farklı yönteme göre ROC EAA'ları ve gösterge parametresine olan yakınsama değerleri (bias) hesaplandı. AS(-) durumda hasta ve sağlam grupların belirlenmesi için gizli sınıf analizi yönteminin klasik hata modeli kullanıldı. Genelleştirilmiş doğrusal modeller (GLM) yaklaşımı ile elde edilen yarı parametrik ROC yönteminin bağlantı fonksiyonu olarak probit bağlantı fonksiyonu (PBF) ve logit bağlantı fonksiyonu (LBF) kullanıldı. Yöntemlerin karşılaştırılmasında, Monte Carlo simülasyonu sonucu elde edilen ROC eğrisinin a ve b parametre tahminleri ile EAA'lardan yararlanıldı. Simülasyonlar SAS/IML ve SAS/GENMOD kullanılarak yapıldıTüretilen veri setlerinde AS(+) ve AS(-) durumda ve farklı örnek hacimlerinde, parametrik yöntem, PBF'li ve LBF'li yarı parametrik yöntem ve parametrik olmayan yöntemlere ait ROC eğrileri çizildi. Yöntemler, ait oldukları EAA'ların yanlılıkları dikkate alınarak karşılaştırıldı.Lognormal dağılım gösteren veri setlerinde AS(+) durumda parametrik yöntem yanlı tahmin verirken, en iyi yakınsamayı parametrik olmayan yöntemin verdiği görüldü. Birim sayısı arttıkça PBF'li yarı parametrik yöntem ile parametrik olmayan yöntemin benzer sonuçlar verdiği gözlendi. AS(-) durumda ise PBF ve LBF'li yarı parametrik yöntemler ile parametrik olmayan yöntemlerin benzer sonuçlar verdiği ve gösterge parametresini en iyi yakınsamayı LBF'li yarı parametrik yöntemin verdiği saptandı.Sonuç olarak; tanı testlerinin performanslarının değerlendirilmesinde, deneme sayısı 50 birimin altında olmamak koşulu (n?50) ile birim sayısı yöntemler üzerinde önemli farklılaşmalara neden olmadı. AS(+) durumunda veri setinin dağılımına bakılmaksızın PBF'li yarı parametrik, AS(-) durumunda lognormal dağılım gösteren veri setlerinde LBF'li yarı parametrik yöntem, normal dağılım gösteren veri setlerinde ise parametrik yöntem ya da PBF'li yarı parametrik yöntem tercih edilmesinin uygun olduğu belirlendi.
In this study, it was aimed to compare the performances of parametric, semiparametric, and nonparametric Receiver Operating Characteristic (ROC) Curve methods for continuous diagnostic data sets generated normal and lognormal distributions with and without a gold standard, which are called GS and NGS respectively.In the simulation study, data set were generated from normal and lognormal distributions with sample sizes are n=50, 100 and 250 for GS and NGS conditions. The parameter values were determined as a=1.40, b=0.90 and corresponding area under the curve (AUC=0.85) for normally distributed data set. In the lognormally distributed data set the corresponding parameter value for AUC was considered as 0.85. Then the three ROC methods were applied to these data set and the parameter estimates with their biases were evaluated. In the condition of NGS, classical error model in latent class method was used to predict diseased and nondiseased subjects. For the semiparametric ROC approach with generalized linear models (GLM) probit (PLF) and logit (LLF) link functions were applied.To compare of the three ROC methods performances, the parameter estimates of a, b, and AUCs, which evaluated from Monte Carlo simulation studies, were used. Simulations were performed by using SAS/IML and SAS/GENMOD procedure. Using generated data set, parametric, semiparametric with PLF and LLF, and nonparametric ROC Curves were traced out, under different sample sizes in the condition of GS and NGS.In the condition of GS, parametric ROC method had biased parameter estimates for lognormally distributed data set. However, nonparametric ROC method showed a good performance with too little bias for the same condition and data set. When the sample size increased semiparametric methods with PLF and LLF had similar parameter estimates. In the condition of NGS with lognormally distributed data set semiparametric ROC method with PLF and nonparametric ROC method yielded similar results. Semiparametric method with LLF had less biased estimates than the other two methods.As a result, in the assessment of the diagnostic test accuracy, when the sample size is greater than 50 there is no any effect of sample size on the methods. In the condition of GS, ignoring the distribution of test results, semiparametric ROC method with PLF, in the condition of NGS with nonnormally distributed test result, semiparametric ROC method with LLF were suggested. Parametric ROC method and semiparametric ROC method with LLF should be applied to the test results in the condition of NGS with normally distributed test results.
2022-07-28T09:29:38Z
2022-07-28T09:29:38Z
2009
2009
doctoralThesis
http://hdl.handle.net/11684/3938
tur
info:eu-repo/semantics/openAccess
ESOGÜ, Sağlık Bilimleri Enstitüsü
oai:openaccess.ogu.edu.tr:11684/2419
2022-01-25T01:00:19Z
com_11684_26
com_11684_2
col_11684_160
2022-01-24T06:27:12Z
urn:hdl:11684/2419
Bayesgil yaşam analizi ve cox regresyon yaşam analizinin yüretilmiş ve gerçek veri setlerinde uygulanması
Kurt, İmran
Özdamar, Kazım,MevlütTüre
ESOGÜ, Tıp Fakültesi Bioistatistik Anabilim Dalı
Cox Regresyon
Bayes
Yaşam Süresi
Meme Kanseri
Bayesian Survival Analysis
Survival Time
Breast Cancer
Markov Chain Monte Carlo
Prior
Posterior
Simulation
In this study, it is aimed to compare the performance of Cox Regression (CRA)
and Bayesian Survival Analyses (BSA) by using simulations that performed in different
conditions and a real application.
Simulation study was carried out with two different algorithms that were
informative and noninformative priors. Moreover, in a real data set application, a data
set related to recurrence-free survivals that were obtained from 423 breast cancer
patients diagnosed between years of 1998-2007 in Trakya University Medical Faculty
Department of Radiation Oncology was used.
In the simulation application, it was observed that BSA with noninformative
priors and CRA methods were showed similar performances in point of convergence to
simulation parameter. In the informative priors’ simulation application, BSA with
reliable informative prior showed a good performance with too little bias. It was found
out that bias of BSA increased while priors were becoming distant from reliability in all
conditions. In addition, BSA obtained predictions with more little bias and standard
error than the CRA in both of small and big samples in the light of reliable priors.
In the real data set application, age, tumor size, hormonal therapy, axillary nodal
status were found statistically significant prognostic factors for recurrence-free survival
in stepwise CRA, BSA with informative and noninformative priors. Furthermore,
standard errors of predictions in BSA with informative priors were observed slightly
little.
As a result, BSA shows better performance than CRA, when subjective data
analysis performed by considering of expert opinions and historical knowledge about
parameters. Consequently, BSA should be preferred in existence of reliable informative
priors, in the contrast cases, CRA should be preferred
Bu çalışmada, Bayesgil Yaşam Analizi (BYA) ile Cox Regresyon Analizi (CRA)
yöntemlerinin performanslarının, farklı koşullar altında yapılan simülasyon çalışmaları
ve gerçek bir uygulamayla karşılaştırılması amaçlandı.
Simülasyon çalışması, açıklayıcı olan ve olmayan prior bilgiye dayalı iki farklı
algoritmaya göre veri türetimi biçiminde yapıldı. Uygulamada kullanılan gerçek veri
seti ise Trakya Üniversitesi Tıp Fakültesi Radyasyon Onkolojisi Anabilim Dalı’na
1998-2007 yılları arasında başvuran ve meme kanseri tanısı konulan 423 hastanın
yinelemesiz yaşam sürelerine ilişkin veri seti idi.
Simülasyon uygulamasında, açıklayıcı olmayan prior bilgili veri setlerinde BYA
ve CRA yöntemlerinin simülasyon parametresine yakınsama bakımından benzer
performans sergilediği gözlendi. Açıklayıcı prior bilgili simülasyon uygulamasında ise
veri yapısına uygun ve gerçeği yansıtan prior bilgi kullanılan BYA, oldukça küçük
yanlılıkla iyi bir performans gösterdi. Her koşulda prior bilgi gerçeği yansıtmaktan
uzaklaştıkça, BYA’nın yanlılığının arttığı belirlendi. Ayrıca BYA’da, gerçeği yansıtan
prior bilgi ışığında hem az birim içeren hem de çok sayıda birim içeren örneklemlerde
CRA’ya göre daha küçük yanlılık ve standart hatalı tahminler elde edildi.
Gerçek veri seti uygulamasında, aşamalı CRA, açıklayıcı prior bilgili BYA ve
açıklayıcı olmayan prior bilgili BYA yöntemlerinde yaş, tümör büyüklüğü, hormon
terapisi ve aksiller lenf nodu tutulumunun yinelemesiz yaşam süresi için önemli risk
faktörleri olduğu bulundu. Ayrıca açıklayıcı prior bilgili BYA’da, parametre
tahminlerinin standart hatalarının biraz daha küçük olduğu gözlendi.
Sonuç olarak; BYA, tahmin edilecek parametreler hakkında var olan bilgiler ve
uzman görüşleri hesaba katılarak subjektif veri analizi gerçekleştirildiğinde, CRA’ya
göre daha iyi performans göstermektedir. Bu nedenle yaşam sürelerine ilişkin verilerin
analizinde, veri yapısına uygun ve gerçeği yansıtan prior bilgi olduğunda BYA yöntemi
aksi durumda ise CRA yöntemi tercih edilmelidir
2022-01-24T06:27:12Z
2022-01-24T06:27:12Z
2008-05
2008-05
doctoralThesis
http://hdl.handle.net/11684/2419
tur
info:eu-repo/semantics/embargoedAccess
ESOGÜ, Sağlık Bilimleri Enstitüsü
oai:openaccess.ogu.edu.tr:11684/2842
2022-03-08T01:00:17Z
com_11684_26
com_11684_2
col_11684_160
2022-03-07T13:22:18Z
urn:hdl:11684/2842
Türetilmiş ikili heterojen veri yapılarında genel, sağlam ve kesin lojistik regresyon yöntemlerinin karşılaştırılması
Bilgin, Muzaffer
Çolak, Ertuğrul
ESOGÜ, Sağlık Bilimleri Fakültesi, Biyoistatistik ve Tıbbi Bilişim Anabilim Dalı
İkili Gözlemeler
Genel Lojistik Regresyon
Lojistik Regresyon Yöntemi
Bozulma Oranı
Sağlık alanında yapılan araştırmalarda ikili şekilde gözlenen bağımlı değişken
içeren veri setleri ile sıklıkla karşılaşılmaktadır. Örneğin bazı fenomenler var-yok, ölü sağ, başarılı-başarısız gibi ikili biçimde sonuçlanabilmektedir. Bu sonuçların ortaya
çıkmasında birçok faktör söz konusudur. Bu ilişkinin incelenmesinde bağımlı değişken
kategorik yapıda olduğu için lojistik regresyon yöntemi en çok kullanılan yöntemlerden
biridir.
Lojistik regresyon yönteminde kullanılan model oluşturma tekniği, istatistik
alanında kullanılan diğer model yapılandırma teknikleri ile benzerdir ve lojistik
regresyon analizinin amacı en az sayıda bağımsız değişken kullanarak en iyi uyuma
sahip olacak şekilde bağımlı ile bağımsız değişkenler arasındaki ilişkiyi tanımlayabilen
bir model kurmaktır.
Sağlık alanında yapılan çalışmalarda ikili yapıda gözlenen veri setlerinin
analizlerinde en yaygın kullanılan genel lojistik regresyon yöntemlerinin
uygulanabilmesi, büyük örnek hacmine ve koşulsuz olabilirlik fonksiyonunun
kullanılmasına bağlıdır. Ancak genel lojistik regresyon yöntemleri, örnek hacmi küçük,
çarpık, seyrek ya da bağımlı değişkenin beklenenin dışında sapan değerler alması
durumunda (heterojen veri seti) geçerli ve güvenilir sonuçlar vermeyebilirler. Bu
durumda alternatif yöntemlerin kullanılması güvenilir sonuçların elde edilmesi için
gereklidir. Alternatif yöntemler arasında en yaygın olarak kullanılan lojistik regresyon
yöntemi kesin lojistik regresyon analizidir. Ancak son yıllarda sağlam lojistik regresyon
yöntemleri de alternatif yöntemler arasında yerini almaktadır. Yapılan literatür
taramaları sonucunda çok sayıda sağlam lojistik regresyon yöntemine rastlanılmıştır.
Croux ve Haesbroeck, Bianco ve Yohai tarafından ortaya atılan sağlam lojistik
regresyon yöntemini modifiye ederek diğer sağlam lojistik regresyon yöntemlerine göre
hızlı ve stabil sonuç veren bir algoritma geliştirmişlerdir. Bu nedenle sağlam lojistik
regresyon yöntemi olarak Croux ve Haesbroeck tarafından geliştirilen yöntem bu tez
çalışmasına dahil edilmiştir.
vi
Bu çalışmanın amacı, ikili yapıda bağımlı değişken içeren heterojen veri
setlerinin analizlerinde Genel lojistik regresyon, Sağlam lojistik regresyon ve Kesin
lojistik regresyon yöntemlerinin performanslarını karşılaştırmaktır.
Yöntemler; parametre tahminlerinin yanlılıkları ve standart hataları kullanılarak
ve farklı örnek büyüklüğünde, farklı bozulma oranında simülasyon çalışmaları yapılarak
karşılaştırıldı. Yöntemlerin karşılaştırılmasında Monte Carlo simülasyon yöntemi
kullanıldı ve analizler R v2.13.2 ve SAS 9.0 paket programlarında yapıldı. Grafikler
Minitab 15.0 programında oluşturuldu.
Simülasyon analizleri sonucunda; bozulma oranının %0 olduğu homojen veri
setlerinde üç yöntemin de benzer sonuçlar verdiği gözlendi. Bozulmanın var olduğu veri
setlerinde sağlam lojistik regresyon yönteminin, genel lojistik regresyon yöntemi ve
kesin lojistik regresyon yöntemine göre daha yansız parametre tahminleri verdiği ve
sağlam lojistik regresyon yönteminin parametre tahminlerine ilişkin standart hataları
düzelterek daha güvenilir sonuçlar verdiği belirlendi
The data sets that contain binary dependent variable often encountered in
research in the field of health. For example, there are some phenomena such as yes-no,
alive - dead and successful - unsuccessful. There are many factors that affect the
observation of these results. For certain categories of the dependent variable is the study
of this relationship, the logistic regression method is one of the most widely used
methods.
Model building technique used in logistic regression analysis is similar to other
model building techniques used in statistical field. The purpose of logistic regression
analysis is to establish model that can define the relationship between dependent and
independent variables by using a minimum number of independent variables having the
best fit.
Asymptotic logistic regression is the most common methods used in binary data
sets in the field of health studies. The application of this method depends on the use of
large sample volume and the unconditional likelihood function. However, the
asymptotic logistic regression methods may not release reliable results when the sample
size is small, skewed, sparse or contaminated. In this case, the use of alternative
methods is required to achieve reliable results. Exact logistic regression analysis is the
most widely used method among alternative methods. On the other hand, robust logistic
regression methods have become one of the alternative methods in recent years. Croux
and Haesbroeck developed an algorithm that works fast and stable than other robust
regression methods for the robust logistic regression method proposed by Bianco and
Yohai. For this reason, the method improved by Croux and Haesbroeck included in this
study.
The purpose of this study, compare the performance of asymptotic logistic
regression, robust logistic regression and exact logistic regression on homogeneous
contaminated data sets that contains binary dependent variable.
The methods were compared using biases of the parameter estimation and
standard errors in different sample size and contamination rate and the comparisons
viii
were performed using Monte Carlo simulation method. The simulations were achieved
using R v2.13.2 and SAS 9.0 package programs. The graphs were drawn on Minitab
15.0 program.
As a result of simulation analyses, it was observed that there were no significant
differences among the three methods in the homogeneous data sets having 0%
contamination rate. In contaminated data sets, it was observed that robust logistic
regression methods yielded less biased parameter estimates than asymptotic and exact
logistic regression methods, also robust logistic regression methods released more
reliable results by adjusting the standard errors for the parameter estimates
2022-03-07T13:22:18Z
2022-03-07T13:22:18Z
2012
2012
masterThesis
http://hdl.handle.net/11684/2842
tur
info:eu-repo/semantics/openAccess
ESOGÜ, Sağlık Bilimleri Enstitüsü
oai:openaccess.ogu.edu.tr:11684/4281
2022-08-09T00:02:20Z
com_11684_26
com_11684_2
col_11684_160
2022-08-08T13:32:31Z
urn:hdl:11684/4281
Klinik çalışmalarda bileşik sonlanım noktası analizi için önerilen win ratio yaklaşımının farklı koşullar altında değerlendirilmesi
Şençelikel, Tuğçe
Öner, K. Setenay
ESOGÜ, Tıp Fakültesi, Biyoistatistik Anabilim Dalı
Win Ratio
Bileşik Sonlanım Noktası
Hazard Ratio
Composite Endpoint
Yaşam analizi, sağlık alanında hastalıkların risk etkilerini ve tedavi başarılarını ortaya çıkarabilmesi açısından önemli bir yöntemdir. Yaşam analizi çalışmaları sadece t zaman süresinde gerçekleşen incelenen durumun “ölüm” olayı olmama durumunu ve aynı zamanda çalışmada önemliliği belirlenmiş farklı olayların gerçekleşmesinin de tedavi etkinliğini belirlenebilmesine olanak tanımaktadır. Çalışmada belirlenen bu farklı olaylara çalışmanın sonlanım noktası adı verilmektedir. Klinik çalışmalarda tek bir sonlanım noktası kullanmak yerine birden fazla sonlanım noktası belirlenmesi, tedavi etkilerini daha net olarak belirleye bilmek için oldukça önemli olmaktadır. Bu nedenle birçok araştırmada en uygun tedaviyi bulmak için ilgilenilen alanı çeşitli yönlerden incelemek amacıyla mümkün olduğunca fazla bilgi toplayarak birden fazla sonuç düşünülmektedir. Genellikle bu sonuç değişkenleri ya ölüme kadar geçen süre ya da ölümcül olmayan olayın gerçekleşmesine kadar geçen süreyi kapsamaktadır. Bu iki sonucu tek bir birincil sonuçta birleştirmek ana amaç olmaktadır. Bileşik bir sonuç, çoklu çalışma sonuçlarının kombinasyonuna dayanan tek bir sonuç ortaya çıkarmaktadır.
Bu çalışmada, klinik çalışmalarda büyük önem taşıyan birden fazla sonlanım noktası içeren bileşik sonlanım noktası analizlerinde geleneksel analizlerin yarattığı problemlerden yola çıkılarak sonlanım noktaları arasında önem sırasını dikkate alan Pocock ve arkadaşlarının önermiş oldukları Win Ratio yaklaşımı incelenmiştir. Bu yaklaşım ile farklı gözlem sayıları, farklı ortalamalar, farklı olay gerçekleşme oranları, farklı sonlanım noktası sayıları ile oluşturulan senaryolar ile simülasyon çalışmalarının yapılması ve Kalp ve Damar Cerrahisi’nden alınan 74 hastaya ilişkin gerçek bir uygulama veri seti ile analiz yapılması amaçlanmıştır.
Çalışmanın simülasyon sonuçlarında, Win ratio değeri küçük örnek genişliklerinde anlamlı olmamasına rağmen büyük örnek genişliklerine göre daha yüksek değerler elde edilmiştir. Win ratio aynı zamanda olay gerçekleşme oranlarından ve bileşik sonlanım noktası sayılarından etkilendiği gözlenmiştir. Bileşik sonlanım sayısı arttıkça win ratio değerleri düşmüştür. Benzer şekilde olayın gerçekleşme oranları düştükçe win ratio değerlerinde düşüş gözlenmiştir. Üç grup simülasyon senaryolarında ise gruplar arasındaki ortalama değerleri birbirinden çok uzak olmasına rağmen win ratio değeri
v
sadece en yüksek olay gerçekleşme oranında ve iki gruba göre daha düşük değerlere sahip iken olay gerçekleşme oranı düştükçe win ratio’da “1” değerine düşmektedir. Gerçek veri seti sonuçlarında ise win ratio değerleri 1’in üzerinde bulunmuş ancak güven aralığı 1’i kapsadığından anlamlı bulunmamıştır.
Sonuç olarak, Bileşik sonlanım noktası içeren çalışmalarda geleneksel analizler yerine Win ratio yaklaşımının kullanılmasının çalışmayı daha anlamlı hale getireceği, küçük örnekler için win ratio ve p değerlerinin hesaplanması üzerine daha fazla çalışma yapılmasının gerekli olduğu ve üç grup için bileşik sonlanım noktası analizlerinin geliştirilmesi win ratio yaklaşımının Yaşam Analizleri’nde kullanılabilirliğini artırabileceği öngörülmektedir
Survival analysis is an important method in terms of revealing the risk effects and treatment successes of diseases in the field of health. Life analysis studies allow the determination of the condition of not being a "death" event, and also the treatment efficiency of the occurrence of different events whose significance was determined in the study. These different events determined in the study are called the end point of the study. Determining more than one endpoint instead of using a single endpoint in clinical trials is very important in order to determine the effects of treatment more clearly. For this reason, in many studies, multiple results are considered by collecting as much information as possible in order to examine the area of interest from various aspects in order to find the most appropriate treatment. Generally, these outcome variables include either the time to death or the time until the non-fatal event occurs. Combining these two results into one primary result is the main goal. A combined result produces a single result based on a combination of multiple study results.
In this study, the Win Ratio approach proposed by Pocock et al, which takes into account the order of importance among the endpoints, based on the problems created by traditional analyzes in composite endpoint analyzes containing more than one endpoint, which is of great importance in clinical studies. With this approach, it was aimed to simulate scenarios created with different observation numbers, different averages, different case realization rates, different endpoint numbers, and to analyze with a real application data set of 74 patients from Cardiovascular Surgery.
In the simulation results of the study, although the Win ratio value was not significant in small sample sizes, higher values were obtained compared to large sample sizes. Win ratio was also observed to be affected by event occurrence rates and the number of composite endpoints. As the number of composite outcomes increased, the win ratio values decreased. Similarly, as the realization rates of the event decreased, a decrease was observed in the win ratio values. In three group simulation scenarios, although the average values between the groups are far from each other, the win ratio value only has the highest event realization rate and lower values than the two groups, while the event realization rate decreases to "1" value in the win ratio. In the actual data
vii
set results, the win ratio values were found to be above 1, but the confidence interval was not found to be significant since it covers 1.
In conclusion, the use of the Win ratio approach instead of traditional analyzes in studies with composite endpoints will make the study more meaningful, more work is needed on the calculation of win ratio and p values for small samples, and the development of composite endpoint analyzes for three groups It is predicted that it may increase its usability in life analysis
2022-08-08T13:32:31Z
2022-08-08T13:32:31Z
2021
2021
doctoralThesis
http://hdl.handle.net/11684/4281
tur
info:eu-repo/semantics/openAccess
ESOGÜ, Sağlık Bilimleri Enstitüsü
oai:openaccess.ogu.edu.tr:11684/3628
2022-07-05T00:00:29Z
com_11684_26
com_11684_2
col_11684_160
2022-07-04T10:42:08Z
urn:hdl:11684/3628
Standart tobit regresyon modelinde kullanılan parametre tahmin yöntemlerinin karşılaştırılması
Emir, Büşra
Öner, K. Setenay
ESOGÜ, Sağlık Bilimleri Fakültesi, Biyoistatistik Anabilim Dalı
Görüntü Sınıflandırma
Fundus Görüntüleri
Derin Öğrenme
Konvolüsyonel Sinir Ağları
Ön-eğitimli Ağlar
Inceptionv3
VGG16
ResNet50
Image Classification
Fundus İmages
Deep Learning
Convolutional Neural Networks
Pre-Trained Networks
Oftalmolojide, insan gözündeki anatomik yapıları ve anomalilikleri yakalamak için bir retina görüntüleme yöntemi olan fundus görüntüleme ve erken fundus taraması, oftalmolojik hastalıkların neden olduğu körlüğü önlemenin etkili ve ekonomik bir yoludur. Klinik olarak, tıbbi kaynakların yetersizliği nedeniyle manuel teşhis zaman alıcıdır. Hastalığa ait tanı, teşhis ve tedavi durumunu geciktirebilir. Günümüzde hızlı ve otomatik hastalık tespiti, oftalmologların iş yükünü azaltmak için kritik ve acildir. Oftalmologlar, gözün ve çevresindeki yapıların doğrudan veya dolaylı olarak görselleştirilmesi yoluyla örüntü tanımaya dayalı olarak hastalıkları teşhis eder. Oftalmoloji alanının hastalık tespitinde fundus görüntülerine olan bu bağlılığı, derin öğrenme mimarilerinden yararlanmak için mükemmel bir zemin hazırlamıştır. Bu tez çalışmasının temel amacı, yapay zekâ odaklı oküler hastalıkların sınıflandırma probleminin çözümlenmesini sağlamaktır. Bu kapsamda, hastaların sağ ve sol gözlerinden alınan renkli fundus görüntüleri ve her bir görüntüye ait hastalık teşhis anahtar kelimeleri olan eğitim verisi kullanılarak oküler hastalık sınıflandırması için farklı derin konvolüsyonel sinir ağı modelleri oluşturmak, bu modellerin eğitimini gerçekleştirmek, model eğitimi sonrası, test fundus görüntü kümesi kullanılarak oluşturulan modellerin hastalık sınıflandırma performans ölçütleri olan kappa değeri, F1 skoru, Eğri altında kalan alan (Area Under Curve-AUC) ve bu üç ölçütün ortalaması olan Final skoru değerlerinin hesaplanması, modellerin sınıflandırma performansının bu ölçütlere göre değerlendirilmesi, en iyi skora sahip modelin oküler hastalıkların sınıflandırılmasında kullanılması ve literatüre önerilmesi amaçlanmıştır.
Yöntem: Konvolüsyonel sinir ağları (CNN), güçlü özellik öğrenme yeteneği ile fundus görüntüleri üzerinde dikkate değer bir başarı elde etmiştir ve derin öğrenmenin gelişmesiyle birlikte, oftalmoloji alanında hastalıklar üzerine yapılan araştırmalar hız kazanmıştır. Yapılan araştırmaların çoğu sadece tek bir hastalığa odaklanmıştır. Göz dibi taraması sırasında, oftalmologlar genellikle binoküler fundus görüntüsünde çoklu hastalık teşhisi verirler. Gerçek tıbbi senaryoyu karşılayabilmek için 2019 yılında ilk kez 8 farklı hastalık sınıfı içeren binoküler fundus görüntülerinden oluşan halka açık Oküler Hastalık Akıllı Tanıma (ODIR) veri seti yayınlanmıştır.
v
Bulgular: Bu tez çalışmasında, oftalmolojik hastalıklara ait görüntülerinin sınıflandırılması için literatürde State of the Art Modelleri olarak adlandırılan ve üç başarılı model olan Inceptionv3, VGG16 ve ResNet50 CNN mimarisi oluşturulmuştur. Ön-eğitimli ImageNet ağırlıkları kullanılarak, her bir model için öznitelik çıkarımı elde edildikten sonra modellerin hastalık sınıflandırma performansları değerlendirilmiştir. Uluslararası Oküler Hastalık Akıllı Tanıma Yarışması tarafından sağlanan veri seti üzerinde eğitilen ve test edilen modeller için sırası ile Final skoru değerleri VGG16 modeli için, 0.677, Inceptionv3 modeli için 0.669, ResNet50 modeli için 0.628 bulunmuştur.
Sonuç: Elde edilen yüksek doğruluk, AUC, F1 skoru, kappa değeri ve son üç ölçütün ortalaması olan en yüksek Final skor değerine sahip CNN modeli olan VGG16 modelinin fundus görüntülerinin sınıflandırılmasında kullanılabileceğini; Tıp Fakültelerinin Oftalmoloji alanında uzmanlara tanı aşamasında yardımcı bir destek rolü üstlenebileceği ve bu alanda gelecekte kullanılabilir sistemler tasarlanabileceğini göstermektedir
Fundus imaging and early fundus scanning, a retinal imaging method to capture anatomical structures and anomalies in the human eye in ophthalmology, is an effective and economical way to prevent blindness caused by ophthalmologic diseases. Clinically, manual diagnosis is time consuming due to the scarcity of medical resources. Diagnosis, diagnosis and treatment of the disease may delay. Fast and automated disease detection today is critical and urgent to reduce the workload of ophthalmologists. Ophthalmologists diagnose diseases based on pattern recognition through direct or indirect visualization of the eye and surrounding structures. This commitment of the field of ophthalmology to fundus images in disease detection has laid the perfect groundwork for taking advantage of deep learning architectures. The main purpose of this thesis is to solve the classification problem of ocular diseases focused on artificial intelligence. In this context, creating different deep convolutional neural network models for ocular disease classification by using color fundus images taken from the right and left eyes of the patients and the education data, which are the disease diagnosis keywords of each image, to train these models, after the model training, the test fundus image set Calculation of the disease classification performance criteria such as kappa value, F1 score, Area Under Curve (AUC) and Final score values which are the average of these three criteria, evaluation of the classification performance of the models according to these criteria, It is aimed to be used in the classification of diseases and suggested to the literature.
Method: Convolutional neural networks (CNN) have achieved remarkable success on fundus images with their powerful feature learning ability, and with the development of deep learning, research on diseases in the field of ophthalmology has gained momentum. Most of the research has focused on only one disease. During fundus scanning, ophthalmologists usually diagnose multiple diseases on a binocular fundus image. In order to meet the real medical scenario, a public Ocular Disease Intelligent Recognition (ODIR) data set consisting of binocular fundus images containing eight different disease classes was published for the first time in 2019.
vii
Results: In this thesis, three successful models Inceptionv3, VGG16 and ResNet50, which are called State of the Art Models in the literature, were created for the classification of images of ophthalmologic diseases. The disease classification performances of the models were evaluated after feature extraction was obtained for each model using pre-trained ImageNet weights. Final score values for the models trained and tested on the data set provided by the International Ocular Disease Intelligent Recognition Competition were 0.677 for the VGG16 model, 0.669 for the Inceptionv3 model, and 0.628 for the ResNet50 model, respectively.
Conclusion: The obtained high accuracy, AUC, F1 score, kappa value and the highest Final score value of the CNN model, which is the average of the last three criteria, can be used in classification of fundus images; It shows that Medical Faculties can play an auxiliary role to support specialists in the field of ophthalmology at the diagnosis stage and those systems can be designed in the future
2022-07-04T10:42:08Z
2022-07-04T10:42:08Z
2021
2021
masterThesis
http://hdl.handle.net/11684/3628
tur
info:eu-repo/semantics/openAccess
ESOGÜ, Sağlık Bilimleri Enstitüsü
oai:openaccess.ogu.edu.tr:11684/3064
2022-06-10T00:00:31Z
com_11684_26
com_11684_2
col_11684_160
2022-06-09T07:18:06Z
urn:hdl:11684/3064
Gail modeli ile makine öğrenmesi algoritmalarının meme kanseri risk değerlendirmesinde karşılaştırılması
Parçalı, Berfu
Mutlu, Fezan
ESOGÜ, Sağlık Bilimleri Fakültesi, Biyoistatistik Anabilim Dalı
Gail Modeli
Makine Öğrenmesi
Meme Kanseri
Yapay Sinir Ağları
Destek Vektör Makinesi
k-En Yakın Komşu
Naive Bayes
Gail Model
Machine Learning
Breast Cancer
Artificial Neural Network
Support Vector Machine
k-Nearest Neighbor
Meme kanserinin erken aşamada teşhis edilmesi; tedavi yöntemlerinin sayısını, tedavinin başarıya ulaşma oranını ve hayatta kalma şansını arttırmaktadır. Gail Modeli, meme kanserinde temel faktörleri değerlendiren, kabul görmüş kanser riski değerlendirme modelidir. Bu çalışmada Gail Modeli baz alınarak makine öğrenmesi yöntemlerinin meme kanseri risk değerlendirmesinde karşılaştırılması amaçlanmıştır. İlk olarak veri setine Gail Modeli uygulanmış ve risk faktörü belirlenmiş, %70 eğitim %30 test ve %80 eğitim %20 test olmak üzere 2 ayrı eğitim test veri seti oluşturulmuştur. Daha sonra veri setlerine k-En Yakın Komşu, Yapay Sinir Ağları, Destek Vektör Makinesi ve Naive Bayes algoritmaları uygulanmış ve risk tahmin sonuçları karşılaştırılmıştır. Karşılaştırma sonuçlarına göre %70 eğitim %30 test veri seti için sınıflandırma performansı en düşükten en yükseğe doğru sırası ile k-NN (AUC=0.5375), NB (AUC=0.8542), SVM (AUC=0.9375) ve YSA(AUC=0.9875) şeklindedir. %80 eğitim %20 test veri seti için sınıflandırma performansı en düşükten en yükseğe doğru sırası ile k-NN (AUC=0.5892), SVM (AUC=0.9088), NB (AUC=0.9305) ve YSA (AUC=0.9718) şeklindedir
Early diagnosis of breast cancer increases the number of possible treatments, the success rate of the treatments and the chance of survival. The Gail Model is a well accepted cancer risk assessment model which evaluates the main factors in breast cancer. The aim of this work is compare machine learning methods in breast cancer risk assessment based on the Gail Model.SVM, k-NN, ANN, NB algorithm with the purpose of breast cancer risk assessment. Firstly, risk factor was determined using the Gail method on the dataset, then dataset was divided into training - testing sets using 70 - 30 and 80 - 20 splits which resulted in two seperate training and testing sets. Afterwards, on each set, k-NN, ANN, SVM and NB algorithms were applied and results were compared based on the classification performance. According to the comparison results, the classification performance for 70% training and 30% test data set was k-NN (AUC=0.5375), NB (AUC=0.8542), SVM (AUC=0.9375) and ANN (AUC=0.9875) directly from from lowest to highest. On the other hand, for 80% training and 20% test data set, classification performance wasis from lowest to highest, respectively, k-NN (AUC=0.5892), SVM (AUC=0.9088), NB (AUC=0.9305) and ANN (AUC=0.9718)
2022-06-09T07:18:06Z
2022-06-09T07:18:06Z
2020
2020
masterThesis
http://hdl.handle.net/11684/3064
tur
info:eu-repo/semantics/openAccess
ESOGÜ, Sağlık Bilimleri Enstitüsü
oai:openaccess.ogu.edu.tr:11684/4299
2022-08-10T00:02:31Z
com_11684_26
com_11684_2
col_11684_160
2022-08-09T05:54:45Z
urn:hdl:11684/4299
Makine öğrenmesi sınıflama algoritmalarıyla kalp yetersizliği mortalitesinin tahminlenmesi
Osmanoğlu, Usame Ömer
Mutlu, Fezan
ESOGÜ, Sağlık Bilimleri Fakültesi, Biyoistatistik Anabilim Dalı
Makine Öğrenmesi
Sınıflandırma
Tahminleme
Kalp Yetersizliği
Machine Learning
Classification
Prediction
Heart Failure
Bu tez çalışmasında sağlık alanında yapay zekâ (artificial intelligence,
AI) literatürüne ve bu alanda çalışma yapmak isteyen araştırmacılara ilgili teorik alt
yapıyı sunarak kalp yetersizliği mortalitesinin ML sınıflandırma algoritmalarıyla
tahminlenmesi konusunda uygulama çalışması ile katkı sağlamak amaçlanmıştır.
Yöntem: Makine Öğrenmesi (machine learning, ML) insan beyninin anlama
kapasitesini aşan verileri anlamlı bir şekilde işlemek için gerekli olan temel
teknolojidir. Geleneksel yaklaşımlar ile makine öğrenmi arasındaki temel fark, makine
öğreniminde bir modelin kurallarla programlanmak yerine örneklerden öğrenmesidir.
Tahmine dayalı doğruluğun kritik öneme sahip olduğu özellikle sağlık
uygulamalarında olduğu gibi yüzlerce değişken ve birimler arasında istatistiksel
modeller bulma işlemi ancak insanüstü bir performansla mümkün olabilmektedir.
Bununla birlikte, bu modeller yeni tedavilerin geliştirilmesinin önemli rol oynayan
temel tıbbi yöntemlerin veya risk faktörlerinin tanımlanmasına da yardımcı
olmaktalardır. Ayrıca, özelleştirilmiş makine öğrenmesi modelleri hekimlerin girdiği
tıp notları, tıbbi görüntüler, sensörlerden gelen izleme verileri ve yardımcı genomik
veriler gibi modern klinik bakımdan üretilen karmaşık ve heterojen veri türlerinden
öğrenmek için de çok uygundur. Kalp yetersizliği; kalbin, dokuların metabolik
ihtiyaçlarını karşılayacak ölçüde oksijen sağlayamamasına neden olan işlevsel veya
kardiyak yapısal bir bozukluk olarak tanımlanmaktadır. Kalpteki işlevsel ya da yapısal
bozukluk sebepli hastalarda görünen klinik bir sendromdur. Kalp yetersizliği hayatı
olumsuz etkileyen bir sağlık problemidir. Amerikan Kalp Birliği (American Heart
Association) 2012-2030 yılları arası akut kalp yetersizliğinde yaklaşık olarak %46’lık
bir artma öngörmüştür. Bu tez çalışmasında kalp yetersizliği mortalitesini tahmin
etmek amacıyla makine öğrenmesi sınıflandırma yöntemlerinden olan yapay sinir ağı,
destek vektör makinesi, naive bayes sınıflandırıcı, k en yakın komşuluk, lojistik
regresyon, karar ağacı ve rasgele orman algoritmaları kullanılmıştır. Veri sayısını
artırmak amacıyla sentetik veri türetme işlemi uygulanmıştır. Ayrıca model
iv
doğruluğunu artırma için çapraz doğrulama uygulanmıştır. Karmaşıklık matrisi ve
ROC AUC (Receiver Operating Characteristic, Area Under The Curve) skoru ile
model başarısı ölçülmüştür.
Bulgular: Yapılan uygulama çalışmasında kalp yetersizliği mortalitesinde risk
faktörlerinin hasta takip süresi, ejeksiyon fraksiyonu, serum kreatinin düzeyi ve
hastanın yaşı olduğu tespit edilmiştir. Uygulama sonucunda %85.0 doğruluk, %78.1
duyarlık, %88.2 özgüllük ve %83.1 ROC AUC değerlerine Rasgele Orman
algoritmasıyla ulaşılmıştır.
Sonuç: Sonuç olarak kalp mortalitesinin tahminlenmesinde makine öğrenmesi
sınıflandırma algoritmalarının kullanımı hekimlere karar destek mekanizması olarak
önemli bir katkı sunma potansiyeline sahip olduğu görülmüştür
In this thesis, it is aimed to contribute to the artificial intelligence
(AI) literature in the field of health and to the researchers who want to work in this
field, by presenting the relevant theoretical infrastructure, with an application study on
the estimation of heart failure mortality with ML classification algorithms.
Method: Machine Learning (ML) is the underlying technology needed to
meaningfully process data that exceeds the human brain's comprehension capacity.
The main difference between traditional approaches and machine learning is that in
machine learning, a model learns from examples rather than being programmed with
rules. Finding statistical models among hundreds of variables and units, especially in
healthcare applications where predictive accuracy is critical, is only possible with
superhuman performance. However, these models also help identify key medical
modalities or risk factors that play an important role in the development of new
treatments. In addition, customized machine learning models are well suited for
learning from complex and heterogeneous data types generated by modern clinical
care, such as physician-input medical notes, medical images, tracking data from
sensors, and ancillary genomic data. Heart failure is defined as a functional or cardiac
structural disorder that causes the heart to not be able to provide oxygen to meet the
metabolic needs of the tissues. It is a clinical syndrome that appears in patients with
functional or structural disorders in the heart. Heart failure is a health problem that
negatively affects life. The American Heart Association predicted an approximately
46% increase in acute heart failure between 2012 and 2030. In this thesis, artificial
neural network, support vector machine, naive bayes classifier, k nearest neighbor,
logistic regression, decision tree and random forest algorithms, which are machine
learning classification methods, were used to predict heart failure mortality. In order
to increase the number of data, synthetic data derivation was applied. In addition, cross
validation was applied to increase model accuracy. Model success was measured by
vi
confusion matrix and ROC AUC (Receiver Operating Characteristic, Area Under The
Curve) score.
Results: In the practice study, it was determined that the risk factors for heart
failure mortality were the duration of patient follow-up, ejection fraction, serum
creatinine level and age of the patient. As a result of the application, 85.0% accuracy,
78.1% sensitivity, 88.2% specificity and 83.1% ROC AUC values were reached with
Randım Forrest algorithm.
Conclusion: In conclusion, it has been seen that the use of machine learning
classification algorithms in the estimation of cardiac mortality has the potential to
provide an important contribution to physicians as a decision support mechanism
2022-08-09T05:54:45Z
2022-08-09T05:54:45Z
2021
2021
doctoralThesis
http://hdl.handle.net/11684/4299
tur
info:eu-repo/semantics/openAccess
ESOGÜ, Sağlık Bilimleri Enstitüsü
oai:openaccess.ogu.edu.tr:11684/4253
2022-08-09T00:01:38Z
com_11684_26
com_11684_2
col_11684_160
2022-08-08T10:20:37Z
urn:hdl:11684/4253
Avrupa Birliği üye ülkeleri ve aday ülke Türkiye'nin sağlık göstergeleri bakımından çok değişkenli istatistiksel yöntemlerle analiz edilmesi
Tuzcu, Anıl
Bal, Cengiz
ESOGÜ, Sağlık Bilimleri Fakültesi, Biyoistatistik Anabilim Dalı
Avrupa Birliği
Temel Bileşenler Analizi
Faktör Analizi
Kümeleme Analizi
Sağlık Değişkenleri
European Union
Key Components Analysis
Factor Analysis
Cluster Analysis
Health Variables
Sosyo-ekonomik göstergelerden biri olan sağlık hizmetleri, ülkelerin gelişmişlik düzeylerini belirlemek için kullanılan önemli bir kriterdir. Bu araştırmada Türkiye’nin sağlık değişkenlerinin, Avrupa Birliği’ne (AB) üye ülkeler ile karşılaştırılması ve konumunun belirlenmesi amaçlanmıştır. Yöntem: Türkiye’nin AB’ye katılım sürecinde sağlık değişkenleri bakımından böyle bir sıralama ve kümelemenin yapılmasının sağlık planlayıcılarına faydalı olacağı düşünülmüştür. Bu tez çalışmasında, Türkiye ve AB’ye üye 27 ülkenin sağlık hizmetlerinin gelişmişlik düzeylerini belirmek amacıyla uluslararası kuruluş ve yayınların veri tabanlarından elde edilmiş güncel 17 sağlık değişkeni, çok değişkenli istatistiksel analizlerde kullanılmıştır. Sonuç: Bu tez çalışmasında ülkelerin sağlık hizmetlerinin gelişmişlik düzeyini belirleyecek nitelikteki sağlık değişkenlerine, çok değişkenli istatistiksel yöntemler uygulanmıştır. Temel bileşenlerin özdeğerlerine göre faktör sayısı belirlenmiş olup faktör skorlarına göre ülkelerin sıralaması yapılmış ve bu skorlara göre kümeleme analizi uygulanarak gruplandırma gerçekleştirilmiştir. Analizler ve objektif değerlendirmeler sonucunda Türkiye’nin hem sağlık hizmetleri alanındaki gelişmişliği hem de sosyo-ekonomik düzeyi anlamlandırılmaya çalışılmış, elde edilen bulgular literatürle karşılaştırılmış ve önerilere yer verilmiştir
Health care, one of the socio-economic indicators, is an important criterion used to determine the countries' levels of development. This study aims to compare and determine the position of Turkey's health variables with EU member states.Method: In the process of joining the EU, such a ranking and clustering in terms of health variables was thought to be beneficial to health planners. In this thesis study, the current 17 health variables obtained from the databases of international organizations and publications were used in multi-variable statistical analyzes to determine the development levels of health care for 27 countries member of Turkey and the EU. Result: In this thesis study, multi-varied statistical methods have been applied to health variables that will determine the level of development of health care in countries. The number of factors is determined based on the core components' equity, and the countries have been ranked by factor scores and grouped by applying clustering analysis according to those scores. Analysis and objective assessments have tried to make sense of Turkey’s development in health care and socio-economic level, and the findings obtained have been compared to literature and the recommendations have been included
2022-08-08T10:20:37Z
2022-08-08T10:20:37Z
2021
2021
masterThesis
http://hdl.handle.net/11684/4253
tur
info:eu-repo/semantics/openAccess
ESOGÜ, Sağlık Bilimleri Enstitüsü
oai:openaccess.ogu.edu.tr:11684/4339
2022-08-11T00:01:05Z
com_11684_26
com_11684_2
col_11684_160
2022-08-10T08:27:57Z
urn:hdl:11684/4339
Laboratuvar yöntemlerinin karşılaştırılmasında bootstrap yöntemine dayalı regresyon yaklaşımları
Ertürk Zararsız, Gözde
Bal, Cengiz
ESOGÜ, Sağlık Bilimleri Fakültesi, Biyoistatistik Anabilim Dalı
Bootstrap
Doğrusal Regresyon
İn Vitro Tanı
Sistematik Hata
Yöntem Karşılaştırma
Bootstrap
İn Vitro Diagnostics
Linear Regression
Method Comparison
Systematic Error
In vitro tanı şirketlerinde üretilen aday analitik yöntemlerin ölçümleri sıklıkla kabul görmüş referans yöntemlerin ölçümleri ile karşılaştırılmaktadır. Yöntem karşılaştırmalarında doğrusal regresyon modellerinden yararlanılmaktadır. Doğrusal regresyon modelleri ile elde edilen katsayı kestirimlerinin güven aralıkları incelenerek yöntemler arasında sistematik bir hatanın olup olmadığı belirlenebilmektedir. Literatürdeki çalışmalarda yaygın kullanımı olan bootstrap güven aralıklarının yöntem karşılaştırma çalışmalarındaki kullanımı sınırlıdır. Ayrıca, yöntem karşılaştırma çalışmalarında uygun regresyon yöntemini belirlemeye yönelik çalışmalar gerçekleştirilmiş olsa da, çalışmaların bulguları birbirini tamamıyla desteklememektedir. Amaç: Bu tez çalışmasının amacı ölçüm hatalarının sabit varyanslı olduğu durumlara yönelik kapsamlı bir benzetim gerçekleştirerek farklı senaryolarda, regresyon yöntemleri ve güven aralığı yaklaşımlarının performanslarının değerlendirilmesidir. Özellikle, farklı bootstrap güven aralığı yaklaşımlarının yöntem karşılaştırma çalışmalarındaki performansının araştırılması ve araştırmacılara yön gösterici bulguların elde edilmesi hedeflenmiştir. Yöntem: Öncelikle yedi çalışmaya ilişkin otuz gerçek veri setinde regresyon yöntemlerinin ve güven aralığı yaklaşımlarının uyumları araştırılmıştır. Bu amaçla En Küçük Kareler (EKK), Deming (DR) ve Passing-Bablok (PB) regresyon yöntemleri ile analitik, jackknife, bootstrap yüzdelik, bootstrap student, bootstrap Bca ve bootstrap t güven aralığı yaklaşımları kullanılmıştır. Gerçek verilerden elde edilen bulgulara dayanarak kapsamlı bir benzetim düzenlenmiştir. Farklı
iv
dağılım aralığı, örneklem büyüklüğü, ölçüm dağılımı, analitik standart
sapma oranı, ölçümsel hata oranının bilinip bilinmemesi, etkili gözlemin
olup olmaması, sabit ve oransal hatanın varlığına ilişkin tüm olası
kombinasyonları içeren benzetim düzenlerinde regresyon yöntemleri ve
güven aralığı yaklaşımlarının performansları araştırılmış ve birbirleriyle
karşılaştırılmıştır. Bu karşılaştırmalarda, yöntemlerin tip-I hata oranları
ve güçleri değerlendirme kriteri olarak belirlenmiştir. Bu amaçla, her bir
benzetim 5,000 kez tekrarlanmıştır. Bootstrap sayısı 999 olarak
belirlenmiştir.
Bulgular: DR ve PB yöntemlerinin performansları, EKK yöntemine
kıyasla daha yüksek bulunmuştur. DR yöntemi için ölçüm hatasının
bilindiği, analitik standart sapma oranının 1 olduğu, dağılım aralığının
geniş olduğu ve etkili gözlemlerin olmadığı durumlarda en iyi sonuçları
verdiği gözlenmiştir. PB yöntemi için analitik standart sapma oranının
1 olduğu durumlarda en iyi sonuçlar elde edilmiştir. DR yöntemi için
jackknife, bootstrap yüzdelik, bootstrap Bca ve bootstrap t güven
aralıkları kullanıldığında; PB yöntemi için bootstrap yüzdelik ve
bootstrap Bca güven aralıkları kullanıldığında yöntemlerin en iyi
performansa sahip olduğu gözlenmiştir.
Sonuç: Yöntem karşılaştırma çalışmalarında EKK yöntemi tercih
edilmemelidir. DR ve PB yöntemleri en iyi performansa sahip yöntemler
olsa da; ölçüm hatasının bilinmediği, dağılım aralığının dar olduğu,
analitik standart sapma oranının 1 olmadığı ve etkili gözlemin olduğu
durumlarda daha dikkatli davranılmalıdır. DR yöntemi ile jackknife ve
bootstrap, PB yöntemi ile bootstrap güven aralıklarının kullanımı ile en
iyi sonuçlara ulaşılabilir. Özellikle gözlem sayısının az olduğu
durumlarda bootstrap güven aralıklarının kullanımı önerilmektedir
Measurements of candidate analytical methods produced in
vitro diagnostic companies are often compared with those of accepted
reference methods. Linear regression models are used in these
comparisons. The presence of a systematic error among the methods can
be determined by examining the confidence intervals of the coefficient
estimates obtained from these regression models. The use of bootstrap
confidence intervals, which are widely used in other studies in the
literature, in method comparison studies is limited. In addition, although
studies were conducted to determine the appropriate regression method
in method comparison studies, the findings of the studies did not fully
support each other.
Objective: The purpose of this thesis study is to perform a comprehensive
simulation and evaluate the performances of regression methods and
confidence interval approaches in different scenarios for situations where
measurement errors have constant variance. In particular, it was aimed
to investigate the performance of different bootstrap confidence interval
approaches in method comparison studies and to obtain guiding findings
for researchers.
Methods: Firstly, the agreement of regression methods and confidence
interval approaches in thirty real data related to seven studies were
investigated. For this purpose, Ordinary Least Squares (OLS), Deming
(DR) and Passing-Bablok (PB) regression methods and analytical,
jackknife, bootstrap percentile, bootstrap student, bootstrap Bca and
bootstrap t confidence interval approaches were used. A comprehensive
simulation is designed based on the findings from real data.
The performances of the regression methods and confidence interval
approaches are investigated and compared with each other in the
vi
simulation scenario including different measurement range, sample size,
measurement distribution, analytical standard deviation ratio, whether
or not the measurement error rate is known, whether there is influential
observation, and the existence of constant and proportional error.
In these comparisons, the type-I error rates and power of the methods
were determined as the evaluation criteria. For this purpose, each
simulation was repeated 5,000 times. The number of bootstrap is set as
999.
Results: The performances of DR and PB methods were found to be
higher than the OLS method. It was observed that DR method performed
the best results when the measurement errors are known, the analytical
standard deviation ratio is 1, the distribution range is wide and when
there is no influential observations. PB method performed the best
results when the analytical standard deviation ratio is 1. It was observed
that the methods had the best performance when jackknife, bootstrap
percentile, bootstrap Bca and bootstrap t confidence intervals are used
with DR method; bootstrap percentile and bootstrap Bca confidence
intervals were used with the PB method.
Conclusion: OLS method should not be preferred in method comparison
studies. Although DR and PB methods are the best performing methods;
a special care should be taken when the measurement errors are
unknown, the measurement range is narrow, the analytical standard
deviation ratio is not 1, and when there are influential observations. The
best results can be achieved with the use of jackknife and bootstrap
with the DR method, and bootstrap confidence intervals with the PB
method. It is recommended to use bootstrap confidence intervals,
especially in cases where the sample size is low
2022-08-10T08:27:57Z
2022-08-10T08:27:57Z
2021
2021
masterThesis
http://hdl.handle.net/11684/4339
tur
info:eu-repo/semantics/openAccess
ESOGÜ, Sağlık Bilimleri Enstitüsü