Bilgisayarlı Görü • Derin Öğrenme

Video Nesne Bölütleme

DAVIS 2017 veri seti kullanılarak gerçek zamanlı segmentasyon için özel bir derin öğrenme yapısı. ResNet50 omurgası, ConvLSTM ile zamansal modelleme ve CBAM dikkat mekanizması entegre edilmiştir.

Genel Bakış

Bu proje Video Nesne Bölütleme (VOS) problemine odaklandı. Amaç, video kareleri boyunca nesneleri segmentleyip izlemekti. Klasik CNN’ler kareleri bağımsız işler ve zamansal tutarlılığı sağlayamaz. Bu nedenle ResNet50 omurgası, ConvLSTM katmanları ve CBAM dikkat modülü birleştirildi.

Teknik Özellikler

Sonuçlar

Temel CNN’lere kıyasla %12 IoU artışı sağlandı. Görsel karşılaştırmalar, daha az titreme ve daha tutarlı sınırlar gösterdi.

Zorluklar ve Çözümler

Başlangıçta modeller hızlı hareketlerde nesne sürekliliğini koruyamadı. ConvLSTM katmanları, hareket kalıplarını “hatırlamayı” sağladı. CBAM dikkat mekanizması ise modelin önemli bölgelere odaklanmasını artırdı.