نظام مخصص للتجزئة في الوقت الحقيقي باستخدام مجموعة بيانات DAVIS 2017. يتضمن ResNet50 كأساس، ConvLSTM للنمذجة الزمنية، وCBAM للتركيز التكيفي.
هذا المشروع تناول مشكلة تقسيم الأجسام في الفيديو (VOS) حيث الهدف هو فصل وتتبع الأجسام عبر تسلسل الفيديو. الشبكات العصبية التقليدية (CNN) تتعامل مع كل إطار بشكل مستقل وتفشل في الحفاظ على التناسق الزمني، لذلك صممت هيكلية مخصصة تضم ResNet50، طبقات ConvLSTM، وCBAM.
حقق النظام تحسنًا في معدل التقاطع (IoU) بنسبة +12% مقارنة بالشبكات الأساسية. وأظهرت المقارنات البصرية تقليل الوميض والحصول على حدود أكثر اتساقًا.
واجهت النماذج الأولى صعوبة في الحفاظ على استمرارية الأجسام مع الحركة السريعة. إضافة طبقات ConvLSTM مكنت النموذج من "تذكر" أنماط الحركة. دمج CBAM حسّن الأداء عبر التركيز على المناطق الأكثر أهمية.