In this thesis, phoneme based Turkish isolated word recognition is studied using
Common Vector Approach (CVA). It is known that CVA provides successful results in
word based speech recognition. On the other hand, the success of phoneme-based
speech recognition is influenced due to the fact that the phonemes in a language are
short; some of them are not used frequently and their distributions in the feature space
overlap. In the thesis study, the class models and recognition rates have been obtained
from METU database. Phoneme classification has been performed on the speech
windows with 20 ms duration. The speech window is moved by 10 ms to classify the
succeeding phonemes. Once the phoneme series is obtained, then the closest word in the
dictionary has been found by applying Redundant Hash Addressing (RHA). In order to
decrease the amount of inaccurate recognition due to classification errors, certain
improvements have been applied in RHA. In the thesis study, speaker-dependent and
speaker- independent word recognition has been achieved. The success in phoneme
recognition using CVA in the training set is over 95%. The correct recognition rates in
speaker- independent phoneme recognition in the training set are approximately 48%
for vowels and 58% for consonants. The speaker-independent and speaker dependent
recognition rates are increased to 72.22% and 82.5% respectively as a result of
improvements in RHA. Despite the success of phoneme classification is low, high
rates of word recognition have been achieved by using the RHA The results of this
study point out that it is necessary to improve CVA and the word decoder in order to
increase the recognition rates.
Bu tez çalışmasında, Ortak Vektör Yaklaşımı (OVY) ile fonem tabanlı Türkçe
yalıtık kelime tanıma üzerinde çalışılmıştır. OVY, kelime tabanlı ses tanımada yüksek
tanıma başarımları verdiği bilinmektedir. Fakat bir dildeki ses birimlerinin süresinin
kısa olması, bu birimlerin bazılarının çok sık kullanılmaması ve özellik uzayında
bunların dağılımlarının iç içe olması ses birim tabanlı ses tanıma başarımlarını
etkilemektedir. Tez çalışmasında sınıf modelleri ve tanıma başarımları METU veri
tabanı üzerinden elde edilmiştir. Tanınacak kelime üzerinde 10 ms aralıklarla pencere
kaydırılarak her bir aralık için ses birim sınıflaması yapılmış ve daha sonra elde edilen
harf dizisi Redundant Hash Addressing (RHA) uygulanarak dizinin en yakın olduğu
kelime bulunmuştur. Sınıflama hatalarından kaynaklanan yanlış tanıma sayısını
azaltmak için RHA’de iyileştirmeler yapılmıştır. Tez çalışmasında kişi bağımlı ve kişi
bağımsız kelime tanıma başarımları elde edilmiştir. OVY ile fonem tanımada eğitim
kümesinde %99 tanıma oranı elde edilmiştir. Test kümesinde kişi bağımsız fonem
tanıma başarımları ünlü ve ünsüz sesler için sırasıyla %48 ve %58 civarındadır.
RHA’de yapılan iyileştirmeler sonucunda kişi bağımsız ve bağımlı kelime tanıma
başarımları sırasıyla %72.22 ve %82.5 olarak elde edilmiştir. Fonemlerin sınıflama
başarımları düşük olmasına rağmen, RHA kullanılarak yüksek kelime tanıma
başarımları elde edilmiştir. Yapılan çalışmaların sonuçları sınıflama başarımlarını
arttırmak için OVY’de ve kelime çözümlemesinde iyileştirmeler yapılması gerektiğini
göstermektedir.