PEKİŞTİRMELİ ÖĞRENME • YAPAY ZEKA OYUN AJANI

X-O Yapay Zekâ

X-O oyunu için pekiştirmeli öğrenme ajanı.
DQN ve DDQN kullanılarak öz-oyun ile en iyi stratejileri öğrenmek üzere geliştirildi. Lisans tezimde temel çalışmamı oluşturdu.

Genel Bakış

Bu proje, klasik X-O oyununa uygulanan Derin Pekiştirmeli Öğrenmeyi inceledi. Amaç, stratejilerle önceden programlanmadan, tamamen öz-oyun yoluyla öğrenen bir yapay zekâ ajanı geliştirmekti. Ajan, öğrenmeyi stabilize etmek için DQN ve DDQN tekniklerinden faydalandı.

Teknik Özellikler

Sonuçlar

Ajan, kapsamlı eğitimden sonra en iyi X-O stratejilerini başarıyla öğrendi. DDQN, DQN’e kıyasla daha kararlıydı ve aşırı iyimser hamleleri azalttı. Eğitimli ajan, insanlara ve rastgele rakiplere karşı neredeyse kusursuz oynayarak sürekli galibiyet veya beraberlik elde etti.

Zorluklar ve Çözümler

En büyük zorluk keşif ve yararlanma arasındaki dengedir. İlk modeller ya aşırı rastgele hamle yaptı ya da kısa vadeli kalıplara aşırı uyum sağladı. ε-greedy keşif azalması ve hedef ağ güncellemeleri ile öğrenme dengelendi. DDQN ise Q-değer tahminlerini iyileştirerek eğitimi stabilize etti.