Bu çalısmada, çok robotlu sistemlerde görev atama problemlerinin çözümünde
sistem performansının artırılması amacıyla öğrenme tabanlı görev atama yaklasımı
önerilmistir. Bu amaçla Q-öğrenme yöntemi kullanılmıstır. Teorik olarak tek erkinli
yapılar üzerinde tanımlanmıs olan Q-öğrenme yönteminin çok robotlu sistemlerde
uygulanması arastırılmıstır. Çok erkinli sistemlerde Q-öğrenme yönteminin
uygulanmasına dair mevcut yaklasımlar olan dağıtık ve merkezi öğrenme yaklasımları
ele alınmıstır. Bu iki temel yaklasımın avantajlarını birlestirmek üzere Strateji
Planlamalı Dağıtık Öğrenme yaklasımı önerilmistir. Q-öğrenme yönteminin çok
robotlu sistemlerde uygulanmasında ortaya çıkan önemli bir problem ayrık ve sonlu
durum ve hareket uzayları belirlenmesidir. Uygulamada kullanılan sistemde sürekli
nitelikte olan durum uzayının temsili için Sabit Aralıklı Ayrık Durum Uzayı (SAADU),
Dağılım Fonksiyonlu Sürekli Durum Uzayı (DFSDU) ve Değisken Aralıklı Ayrık
Durum Uzayı (DAADU) yöntemleri önerilmistir. Ayrık durum uzayı kullanımı
yaklasımı olan SAADU yöntemi sürekli durum uzayını sabit temsil hassasiyeti
kullanarak ayrıklastırırken, DAADU yönteminde durum uzayı ayrıklastırma islemi
ardısıl kümeleme tabanlı bir yaklasım ile adaptif olarak gerçeklestirilmektedir. DFSDU
yönteminde ise durum uzayı sürekli bir yapıda temsil edilmektedir. Önerilen
yaklasımların etkinliği gerçeklestirilen uygulamalarda gösterilmistir.
In this study, a learning-based task allocation approach is proposed in order to
increase the overall system performance. For this purpose, Q-learning algorithm is
preferred. Theoretically, Q-learning algorithm is defined on single-agent frame. The
difficulties of scaling up the multi-agent Q-learning to multi-robot systems are
investigated. Two major approaches of multi-agent Q-learning in literature, distributed
learning and centralized learning, are examined. To combine the advantages of these
approaches, Strategy-Planned Distributed Learning approach is proposed. An important
problem that appears in the application of Q-learning algorithm in multi-robot domain is
to define discrete and finite state and action spaces. To represent the continuous state
space, three methods, Fixed-Interval Discrete State Space (FIDSS), Continuous State
Space with Distribution Function (DFCSS) and Variable-Interval Discrete State Space
(VIDSS), are proposed. The continuous state space is discretized by using a fixed
resolution value in FIDSS, whereas the discretization process is realized by a sequential
clustering-based approach in an adaptive manner in VIDSS. DFCSS method represents
the continuous state space by distribution functions in continuous way. The
effectiveness of proposed approaches on system performance are demonstrated by
applications.