İş dünyası karar verme süreçlerinde bilgiye ulaşma önemli rol oynamaktadır.
Dolayısıyla, veri tabanları, karar vericilerin bilgiye ulaşmada yararlandıkları en önemli
araçlardan biri olmuştur. Ancak veritabanlarından yararlı enformasyon/bilgi çıkarımı
çok önemli olmakla birlikte bir o kadar da zor bir görevdir. Veri madenciliği,
veritabanlarından gizli ve kullanışlı enformasyonun çıkarılmasına odaklanmış, makine
öğrenimi algoritmalarını kullanan yeni ve güçlü bir teknoloji olarak karşımıza
çıkmaktadır. Veri madenciliğinin görevlerinden biri olan sınıflandırma probleminin
çözümü için geliştirilmiş önemli makine öğrenimi algoritmalarından biri Destek Vektör
Makineleri’dir. Literatürde Destek Vektör Makineleri’nin diğer birçok tekniğe göre
daha başarılı sonuçlar verdiği kanıtlanmıştır. Bilgiye ulaşma sürecinde başka bir sorun
optimum nitelik kümesinin belirlenmesi diğer bir deyişle nitelik indirgemedir. Bu
alanda yapılan birçok çalışma, nitelik indirgemenin NP-zor problemler sınıfında yer
aldığını göstermiştir.
Bu tez çalışmasında, farklı alanlardaki sınıflandırma problemlerinin Destek
Vektör Makineleri ile çözümüne ilişkin genelleme performansı yüksek kapsamlı bir
yaklaşım geliştirilmiştir. Geliştirilen yaklaşımda, Destek Vektör Makineleri’nin
genelleme performansını/etkinliğini arttırmak amacıyla veri seti iyileştirme ve nitelik
indirgeme çalışmaları genetik algoritma tabanlı Kaba Küme Teorisi kullanılarak
gerçekleştirilmiştir. Optimizasyon tabanlı nitelik indirgeme ve sınıflandırma süreci
araştırma hipotezleri temeline dayandırılmıştır. Söz konusu hipotezlerin sınanmasında
istatistiksel tekniklerden yararlanılmıştır.
Sonuç olarak bu çalışmada, araştırmacılara nitelik indirgeme ve sınıflandırma
süreçlerinde yararlanabilecekleri etkin bir yaklaşım önerilmiştir. Önerilen yaklaşım
karar vericilere istatistiksel bakış açısıyla desteklenmiş önemli ipuçları sağlamaktadır.
Gaining useful information/knowledge plays an important role in the businness
decision making process. Therefore, databases have been one of the most important
tools that using by the decision makers for gaining useful information/knowledge.
Useful information/knowledge extraction is very important but a hard task. For this
context, data mining emerges as a new and powerful technology which is focused on to
extracting hidden and useful information from databases by using machine learning
algorithms. One of the most important machine learning algorithms developed for to
accomplish classification task of data mining is Support Vector Machines. In the
literature, Support Vector Machines has been shown to outperform many other
techniques.
Another challenge in gaining information/knowledge process is obtaining
optimum set of attributes in other words attribute reduction. Many studies in this area
have been shown that attribute reduction is NP-hard problems.
In this thesis, an integrated approach with higher generalization performance
was developed to solve classification problems via Support Vector Machines. In the
developed approach, in order to enhance the generalization performance of Support
Vector machines, data improvement activities and attribute reduction works were
carried out using genetic algorithm based Rough Set Theory. Optimization based
attribute reduction and classification process was ground on the statiscal hypotheses.
And so, many statistical techniques were utilized for testing those hypothesis.
As a result, in this study, efficient approach was proposed to researches uses in
attribute reduction and classification process. And, proposed approach provides
important insights to decision makers supported with statistical viewpoint.