رؤية حاسوبية • تعلم عميق

تقسيم الأجسام في الفيديو

نظام مخصص للتجزئة في الوقت الحقيقي باستخدام مجموعة بيانات DAVIS 2017. يتضمن ResNet50 كأساس، ConvLSTM للنمذجة الزمنية، وCBAM للتركيز التكيفي.

نظرة عامة

هذا المشروع تناول مشكلة تقسيم الأجسام في الفيديو (VOS) حيث الهدف هو فصل وتتبع الأجسام عبر تسلسل الفيديو. الشبكات العصبية التقليدية (CNN) تتعامل مع كل إطار بشكل مستقل وتفشل في الحفاظ على التناسق الزمني، لذلك صممت هيكلية مخصصة تضم ResNet50، طبقات ConvLSTM، وCBAM.

النقاط التقنية

البيانات: DAVIS 2017 (نصف مُشرف + مشرف)
الأساس: ResNet50 مدرب مسبقًا على ImageNet
النموذج الزمني: ConvLSTM للوعي بالحركة
آلية الانتباه: CBAM (وحدة انتباه الكتل الالتفافية)
الأطر: TensorFlow/Keras, OpenCV
التدريب: Adam optimizer، BCE loss، 50 حقبة
الأجهزة: بطاقة NVIDIA RTX 3060 (12GB)

النتائج

حقق النظام تحسنًا في معدل التقاطع (IoU) بنسبة +12% مقارنة بالشبكات الأساسية. وأظهرت المقارنات البصرية تقليل الوميض والحصول على حدود أكثر اتساقًا.

التحديات والحلول

واجهت النماذج الأولى صعوبة في الحفاظ على استمرارية الأجسام مع الحركة السريعة. إضافة طبقات ConvLSTM مكنت النموذج من "تذكر" أنماط الحركة. دمج CBAM حسّن الأداء عبر التركيز على المناطق الأكثر أهمية.