رؤية حاسوبية • تعلم عميق

تقسيم الأجسام في الفيديو

نظام مخصص للتجزئة في الوقت الحقيقي باستخدام مجموعة بيانات DAVIS 2017. يتضمن ResNet50 كأساس، ConvLSTM للنمذجة الزمنية، وCBAM للتركيز التكيفي.

نظرة عامة

هذا المشروع تناول مشكلة تقسيم الأجسام في الفيديو (VOS) حيث الهدف هو فصل وتتبع الأجسام عبر تسلسل الفيديو. الشبكات العصبية التقليدية (CNN) تتعامل مع كل إطار بشكل مستقل وتفشل في الحفاظ على التناسق الزمني، لذلك صممت هيكلية مخصصة تضم ResNet50، طبقات ConvLSTM، وCBAM.

النقاط التقنية

النتائج

حقق النظام تحسنًا في معدل التقاطع (IoU) بنسبة +12% مقارنة بالشبكات الأساسية. وأظهرت المقارنات البصرية تقليل الوميض والحصول على حدود أكثر اتساقًا.

التحديات والحلول

واجهت النماذج الأولى صعوبة في الحفاظ على استمرارية الأجسام مع الحركة السريعة. إضافة طبقات ConvLSTM مكنت النموذج من "تذكر" أنماط الحركة. دمج CBAM حسّن الأداء عبر التركيز على المناطق الأكثر أهمية.