DAVIS 2017 veri seti kullanılarak gerçek zamanlı segmentasyon için özel bir derin öğrenme yapısı. ResNet50 omurgası, ConvLSTM ile zamansal modelleme ve CBAM dikkat mekanizması entegre edilmiştir.
Bu proje Video Nesne Bölütleme (VOS) problemine odaklandı. Amaç, video kareleri boyunca nesneleri segmentleyip izlemekti. Klasik CNN’ler kareleri bağımsız işler ve zamansal tutarlılığı sağlayamaz. Bu nedenle ResNet50 omurgası, ConvLSTM katmanları ve CBAM dikkat modülü birleştirildi.
Temel CNN’lere kıyasla %12 IoU artışı sağlandı. Görsel karşılaştırmalar, daha az titreme ve daha tutarlı sınırlar gösterdi.
Başlangıçta modeller hızlı hareketlerde nesne sürekliliğini koruyamadı. ConvLSTM katmanları, hareket kalıplarını “hatırlamayı” sağladı. CBAM dikkat mekanizması ise modelin önemli bölgelere odaklanmasını artırdı.