Bu tezin amacı, el yazısı karakterlerden karakter ve yazıcı tanımadır. Karakter tanıma
çalışmasında, MNIST veri tabanındaki el yazısı ile yazılmış rakamlar kullanılarak Eigenspace,
Fisherspace, Ortak Vektör Yaklaşımı (OVY) ve Gaussian Karışım Modeli (GKM) yöntemleri ile tanıma
yapılmıştır. OVY ilk defa bu tezde el yazısı karakter tanıma çalışmasında kullanılmış olup, daha önceden
yapılan ses, konuşmacı ve görüntü tanıma çalışmalarında tatmin edici sonuçlar vermiştir. Bir alt uzay
yöntemi olan OVY’nın temel amacı her sınıfa ait, o sınıfın ortak özelliklerini en iyi temsil edebilecek ve
tek olan bir vektör bulmaktır. Sınıflandırma aşamasından önce her karaktere ait Zernike, Dikgen Fourier-
Mellin (DFM) ve iki boyutlu ölçekleme (2D-ölçekleme) isimli moment tabanlı öznitelikler elde
edilmiştir. Bu öznitelikler ve ham verinin tanıma oranlarına olan etkileri değerlendirilmiştir.
Sınıflandırma sonucunda yöntemler, tanıma oranlarının yanında, eğitim ve test için gerekli süre ile hafıza
ihtiyaçları bakımından karşılaştırılmıştır.
Karakter tanıma çalışması sonucunda, en iyi tanıma oranları GKM yöntemi ile elde edilmiştir.
Ancak OVY diğer alt uzay yöntemleri Eigenspace ve Fisherspace’e göre daha iyi sonuç vermiştir. Eğitim
ve test için gerekli süre ve hafıza ihtiyaçları düşünüldüğünde ise OVY’nın diğer yöntemlere göre daha
üstün olduğu görülmüştür. Ham veri, üzerinde boyut eşitleme haricinde, kopuk karakterleri birleştirme,
eğikleri düzeltme, gürültü temizleme gibi çalışmalar yapılmadığı halde, bütün yöntemler için en iyi
sonuçları vermiştir. Moment tabanlı özniteliklerde ise 2D-ölçekleme momentlerinden elde edilen
sonuçlar ham veri için elde edilen sonuçlara yakın çıkmıştır.
Yazıcı tanıma aşamasında, veri tabanının yetersiz olması ve literatürde ayrık karakterlerden
yazıcı tanıma çalışmasına rastlanamadığından dolayı iyi bir performans değerlendirmesi
yapılamamıştır. Bu bölümde NIST 19 özel veri tabanındaki yazıcısı belli olan numaralar üzerinde
OVY uygulanmıştır. Yazıcı tanıma çalışması kişinin yazdığı numaraya bağımlı ve bağımsız olarak iki
aşamada gerçekleştirilmiştir.
The aim of this thesis is character and writer recognition from handwritten characters. Four
different approaches, which are Eigenspace, Fisherspace, Common Vector Approach (CVA) and
Gaussian Mixture Models (GMM), are compared using MNIST database of handwritten digits. CVA is
used in character recognition problem for the first time in this thesis and also CVA has given
satisfactory results in previous works such as speech, speaker and image recognition. CVA is a
subspace method and it aims to find a unique vector, which contains the common features for each
class. Before the classification phase, three different types of moment based features, which are
Zernike, Orthogonal Fourier-Mellin (OFM), and 2-D Scaling Moments are obtained for each digit. The
raw data and these moment-based features are discussed about their affects on the recognition rates.
The results are compared in terms of raw accuracy but also training time, recognition time and
memory requirements.
The experimental study indicates that GMM is superior to the other methods. But CVA has
given better results among the subspace methods. When we consider the training time and test time
and the memory requirements of the methods, CVA is superior to the other methods. However, except
the scaling any pre-processing such as disjoint region connection, slant correction and noise reduction,
are achieved, best results are obtained for raw data with all methods. 2D-scaling moments have the
best results among the other type moments.
In the writer recognition part of this thesis, a good comparison of the performance couldn’t be
done because of the insufficient database and the absence of any publishes about the writer recognition
from isolated characters. In this part, CVA is applied on the numbers, writers of which are known, in
NIST 19 special database. In the recognition phase, number dependent and number independent
recognitions are achieved.