مروری کامل بر معماریهای اصلی تشخیص شیء در یادگیری عمیق به ویژه YOLO و RCNN
تشخیص شیء (Object Detection) با استفاده از یادگیری عمیق (Deep Learning) یکی از موضوعات مهم و کاربردی در حوزه پردازش تصویر و بینایی کامپیوتر است. در این فرآیند، هدف یافتن و تشخیص اشیاء خاص در یک تصویر یا ویدئو و مشخص کردن محل آنهاست. در اینجا، برخی از معماریهای مهم یادگیری عمیق که برای تشخیص اشیاء استفاده میشوند به همراه تفاوتهای آنها معرفی شده است:
1. R-CNN (Region-Based Convolutional Neural Network) – سال 2014
نحوه کار:
R-CNN اولین معماری موفق بر پایه یادگیری عمیق برای تشخیص شیء بود. این مدل در سه مرحله عمل میکند:
- انتخاب مناطق پیشنهادی (Region Proposals): از الگوریتم Selective Search برای شناسایی مناطق احتمالی که ممکن است حاوی اشیاء باشند استفاده میشود.
- استخراج ویژگیها: هر ناحیه پیشنهادی از طریق یک شبکه CNN (مانند AlexNet) عبور داده شده و ویژگیها استخراج میشوند.
- طبقهبندی: ویژگیهای استخراجشده به یک طبقهبند SVM برای تعیین کلاس اشیاء ارسال میشوند. همچنین برای پیشبینی مکان دقیق از رگرسیون خطی استفاده میشود.
ویژگیها:
- استفاده از شبکههای کانولوشنی برای استخراج ویژگیها و توانایی یادگیری ویژگیهای پیچیدهتر در مقایسه با روشهای کلاسیک.
مزایا:
- پیشرفت بزرگی در تشخیص شیء و دقت بالا نسبت به روشهای سنتی.
معایب:
- کندی: هر ناحیه پیشنهادی جداگانه پردازش میشود (حدود 2000 منطقه).
- حافظه بالا: ذخیره ویژگیهای تمام مناطق پیشنهادی زمانبر است.
2. Fast R-CNN – سال 2015
نحوه کار:
Fast R-CNN نسخه بهبود یافته R-CNN است. در این مدل:
- تصویر ورودی یکبار از طریق یک شبکه CNN عبور داده میشود و یک نقشه ویژگی (Feature Map) ایجاد میکند.
- مناطق پیشنهادی به نقشه ویژگی نگاشت میشوند و یک عملیات Region of Interest (RoI) Pooling انجام میشود تا اندازه مناطق ثابت شود.
- ویژگیهای مناطق پیشنهادی به طبقهبند ارسال میشوند.
ویژگیها:
- استفاده از یک عملیات یکباره برای استخراج ویژگی از کل تصویر و حذف نیاز به استخراج جداگانه ویژگی برای هر منطقه.
مزایا:
- سرعت پردازش بالاتر نسبت به R-CNN و کاهش نیاز به حافظه.
معایب:
- هنوز برای تولید مناطق پیشنهادی به الگوریتمهای خارجی (مانند Selective Search) وابسته است که زمانبر هستند.
3. Faster R-CNN – سال 2016
نحوه کار:
Faster R-CNN اولین معماری end-to-end واقعی برای تشخیص شیء است:
- Region Proposal Network (RPN): یک شبکه CNN که مستقیماً مناطق پیشنهادی را تولید میکند و نیازی به الگوریتمهای خارجی ندارد.
- مناطق پیشنهادی تولیدشده از طریق RPN به نقشه ویژگی نگاشت میشوند.
- طبقهبند و رگرسیون مکان دقیق روی این ویژگیها اعمال میشوند.
ویژگیها:
- معرفی RPN برای تولید خودکار مناطق پیشنهادی و استفاده بهینه از منابع محاسباتی.
مزایا:
- سرعت بیشتر نسبت به Fast R-CNN و دقت بالا در تشخیص اشیاء کوچک.
معایب:
- نسبت به YOLO یا SSD کندتر است.
4. YOLO (You Only Look Once) – سال 2016
نحوه کار:
YOLO کل تصویر را به یک شبکه CNN داده و به صورت همزمان مختصات جعبهها و برچسب کلاس را پیشبینی میکند. تصویر به یک شبکه گرید تقسیم شده و هر سلول مسئول پیشبینی اشیائی است که مرکز آنها در آن سلول قرار دارد.
ویژگیها:
- مدل end-to-end که کل تصویر را همزمان پردازش میکند و بسیار سریع و مناسب برای کاربردهای real-time.
مزایا:
- سرعت بسیار بالا و قابلیت استفاده روی دستگاههای کمتوان.
معایب:
- دقت پایینتر در تشخیص اشیاء کوچک یا متراکم.
5. SSD (Single Shot Multibox Detector) – سال 2016
نحوه کار:
SSD از چندین لایه CNN با اندازههای مختلف برای پیشبینی مختصات و برچسبهای کلاس استفاده میکند. این لایهها اشیاء در اندازههای مختلف را شناسایی میکنند.
ویژگیها:
- استفاده از Anchor Boxes برای پیشبینی چندین مکان و کلاس به صورت همزمان.
- انجام تمام محاسبات در یک مرحله.
مزایا:
- سرعت بالا مانند YOLO و تعادل بین دقت و سرعت.
معایب:
- عملکرد ضعیفتر در تشخیص اشیاء کوچک.
6. RetinaNet – سال 2017
نحوه کار:
RetinaNet یک مدل تکمرحلهای مانند YOLO و SSD است، اما از Focal Loss برای مقابله با عدم تعادل نمونههای مثبت و منفی استفاده میکند.
ویژگیها:
- طراحی شده برای حفظ دقت بالا در سناریوهای نامتعادل و مناسب برای تشخیص اشیاء کوچک.
مزایا:
- دقت بسیار بالا و کاهش تأثیر نمونههای ساده در آموزش.
معایب:
- هزینه محاسباتی بالاتر نسبت به YOLO.
7. EfficientDet – سال 2020
نحوه کار:
EfficientDet از معماری EfficientNet به عنوان backbone استفاده میکند و با بهرهگیری از ویژگیهای چندمقیاسی (BiFPN)، دقت را افزایش داده و مصرف منابع را کاهش میدهد.
ویژگیها:
- استفاده از یک ساختار سبک و کارآمد و مناسب برای دستگاههای محدود به منابع.
مزایا:
- دقت بالا با محاسبات کمتر و کارایی بالا در مقایسه با RetinaNet یا Faster R-CNN.
معایب:
- نیازمند تنظیم دقیق برای بهترین عملکرد.
تکامل YOLO تا سال 2024
مدلهای YOLO (You Only Look Once) بهعنوان معماریهای شناسایی اشیاء بلادرنگ طی سالها پیشرفتهای قابل توجهی داشتهاند. در زیر به بررسی نسخههای مختلف این معماری تا سال 2024 میپردازیم:
YOLOv1 (2016)
- معرفیشده توسط: جوزف ردمون.
- ویژگیها:
- استفاده از شبکههای کاملاً کانولوشنی.
- پردازش تصویر بهصورت کل و تنها در یک مرحله، که باعث سرعت بالا اما دقت کمتر روی اشیاء کوچک بود.
- کاربرد: مناسب برای وظایف ساده و بلادرنگ (Real-time).
YOLOv2 (2017)
- پیشرفتها:
- معرفی لایه passthrough برای شناسایی بهتر اشیاء کوچک.
- استفاده از k-means clustering برای تعیین بهتر anchor boxes.
- کاهش پارامترها با استفاده از مدل Darknet-19.
YOLOv3 (2018)
- ویژگیهای کلیدی:
- معرفی Darknet-53 بهعنوان backbone.
- پیشبینی اشیاء در مقیاسهای مختلف با ترکیب Feature Pyramid Networks (FPN).
- افزایش دقت در شناسایی اشیاء کوچک.
- کاربرد: یکی از محبوبترین نسخهها به دلیل تعادل بین دقت و سرعت.
YOLOv4 (2020)
- پیشرفتها:
- اضافهکردن CSPNet برای بهبود جریان داده.
- استفاده از روشهایی نظیر Self-Adversarial Training و Bag of Freebies برای بهبود عملکرد بدون افزایش هزینه محاسباتی.
- بهینهسازی برای سختافزارهای کمهزینه.
- کاربرد: مناسب برای پروژههای بزرگتر با نیاز به دقت بیشتر.
YOLOv5 (2020)
- نوآوریها:
- نسخههایی نظیر YOLOv5n و YOLOv5x برای تعادل بین سرعت و دقت.
- بهینهسازی برای inference روی CPU و GPU.
- پشتیبانی از anchor-free head در نسخههای جدیدتر.
- ویژگی: تبدیلشدن به نسخه مرجع برای بسیاری از برنامههای صنعتی و موبایل.
YOLOv6 و YOLOv7 (2022)
- ویژگیها:
- YOLOv6 بر کاهش پارامترها و افزایش سرعت تأکید داشت.
- YOLOv7 عملکرد بهتر در تشخیص و دقت بالاتر با استفاده از طراحیهای نوآورانه.
- کاربرد: مناسب برای وظایف سنگینتر مانند ویدئوهای بلادرنگ.
YOLOv8 (2023)
- ویژگیهای کلیدی:
- استفاده از backbone جدید CSPDarknet و PANet برای بهبود استخراج ویژگی.
- حذف anchor boxes و استفاده از مدل anchor-free برای سادگی بیشتر.
- افزایش دقت و کاهش پیچیدگی محاسباتی برای سیستمهای edge.
YOLOv9 و YOLOv10 (2024)
- YOLOv9:
- معرفی مکانیزم Programmable Gradient Information (PGI) برای بهبود جریان گرادیان و کاهش اتلاف اطلاعات.
- بهرهگیری از شبکه Generalized ELAN (GELAN) برای کاهش محاسبات و حفظ دقت.
- YOLOv10:
- معرفی در سال 2024 با بهبودهای بیشتر در سرعت و دقت، با تمرکز بر کاهش پیچیدگی محاسباتی و بهینهسازی inference برای سختافزارهای مدرن.
- کاربرد: شناسایی بلادرنگ اشیاء در برنامههایی نظیر شهرهای هوشمند و وسایل نقلیه خودران.
خلاصه
هر نسخه از YOLO تغییرات معماری و بهینهسازیهایی را برای افزایش دقت و سرعت معرفی کرده است. این پیشرفتها YOLO را به یکی از قدرتمندترین و پراستفادهترین ابزارهای شناسایی اشیاء تبدیل کردهاند.
نویسنده: حسن سعادتمند
- بیش از 250 دوره آموزشی در متلب (MATLAB) و پایتون (Python).
- بیش از 15 سال تجربه در زمینه یادگیری ماشین، الگوریتم های فراابتکاری، یادگیری عمیق، مهندسی کنترل.
- چاپ چندین مقاله Q1 در بهترین ژرنال های دنیا Google Scholar.
- مدرس فرادرس
- کانال یوتیوب، کانال اپارت، کانال تلگرام، کانال ایتا





نقد و بررسیها
هنوز بررسیای ثبت نشده است.