هوش مصنوعی VOGIC برای تحلیل بهتر ویدئوهای مداربسته
جستجو در فیلمهای دوربینهای مدار بسته (CCTV) برای یافتن اطلاعات خاص، نه تنها کاری دشوار بلکه بسیار زمانبر است. در حالی که این مسئله برای کاربران خانگی ممکن است قابل مدیریت باشد، برای سازمانها، شرکتها، نهادهای دولتی و مؤسسات عمومی/خصوصی یک چالش بزرگ محسوب میشود.
شرکت VOGIC AI که در گورگان (Gurugram) مستقر است، تصمیم گرفته است با استفاده از هوش مصنوعی (AI) این مشکل دنیای واقعی را حل کند.
چگونه VOGIC AI نظم را به آشفتگی فیلمهای CCTV میآورد؟
آریجیت بیسواس (Arijit Biswas)، مدیرعامل و یکی از بنیانگذاران VOGIC AI، توضیح میدهد که فیلمهای CCTV معمولاً غیرساختاریافته و حجیم هستند، چرا که این دوربینها بهصورت 24 ساعته و هفت روز هفته فعالاند. تحلیل این حجم از دادههای ویدیویی و تصویری بسیار سخت است.
بیسواس با اشاره به ابزارهای محبوب مانند Microsoft Power BI و Excel که برای دادههای عددی و متنی وجود دارند، تأکید کرد که ابزار قدرتمندی برای تحلیل دادههای ویدیویی در حال حاضر در دسترس نیست.
VOGIC AI سازمانها را با ابزارها و ماژولهای از پیش ساختهشده مجهز میکند تا بتوانند بر اساس زمینههای خاص اطلاعات را استخراج کنند؛ برای مثال:
- “فردی که نزدیک یک خودرو قدم میزند”
- “فردی که سعی در گرفتن عکس از خودرو دارد”
بیسواس اضافه کرد: “ارتش ممکن است به یک زمینه متفاوت نیاز داشته باشد، نیروهای انتظامی به زمینهای دیگر، و یک زنجیره فروشگاههای خردهفروشی نیز نیازهای متفاوتی دارند.”
به همین دلیل، دادههای ویدیویی دریافتی از پهپادها یا تصاویر ماهوارهای نیز از طریق VOGIC AI بهراحتی قابل تحلیل هستند.
تکنولوژی پشت VOGIC AI چیست؟
نام این شرکت ترکیبی از “ویدئو” و “منطق” (Logic) است. بیسواس توضیح داد که اکثر فروشندگان CCTV مانند CP Plus، Honeywell و Bosch از پروتکل استاندارد ONVIF (Open Network Video Interface Forum) پیروی میکنند. سیستم VOGIC AI با این پروتکل سازگار است، به همین دلیل میتواند با تمام دوربینهای مدار بسته OEM کار کند.
علاوه بر این، برخی شرکتها از سیستمهای مدیریت ویدیو (VMS) مانند Milestone استفاده میکنند و VOGIC AI راهحل خود را مستقیماً از طریق این سیستمها یا مستقیماً از طریق دوربینهای مدار بسته ادغام میکند.
استک فناوری VOGIC AI شامل ترکیبی از شبکههای عصبی سنتی (CNN) و مدلهای بزرگ بینایی و زبان (VLM) است که برای ویدئوهای CCTV بهینهسازی شدهاند.
VLM با جفت تصاویر و متن کار میکند و این به ایندکسگذاری دقیقتر ویدئوها کمک میکند.
در این سیستم:
- لایه اول ایندکسگذاری (که بار پردازشی بالایی دارد) توسط شبکههای عصبی انجام میشود.
- لایه دوم اطلاعات زمینهای توسط مدلهای VLM اضافه میشود.
مدل پایه VLM، مدل LLaVA است که با ویدئوهای مخصوص CCTV آموزش داده شده و به راهحل اختصاصی VOGIC AI تبدیل شده است.
چالشهای ساخت این سیستم چه بود؟
بیسواس اعلام کرد که بزرگترین چالش، جمعآوری دادههای ویدیویی آموزشی بود، زیرا این دادهها حساسیت بسیار بالایی دارند.
علاوه بر این، سیستمهای هوش مصنوعی موجود در استخراج اطلاعات معنادار از فیلمهای ویدیویی ضعف دارند و هشدارهای اشتباه زیادی ایجاد میکنند.
VLMها همچنین نیازمند توان پردازشی بالا هستند که استفاده از پردازندههای گرافیکی (GPU) گرانقیمت را اجتنابناپذیر میکند.
راهحل VOGIC AI برای این چالشها:
- ایجاد یک پلتفرم کراودسورسینگ برای جمعآوری دادههای ویدیویی از افراد مختلف
- بهینهسازی مدل VLM به نسخههای کوچکتر
- افزودن اطلاعات زمینهای به ویدئوها
VOGIC AI با این رویکرد نوآورانه، در حال حل چالشهای بزرگ تجزیه و تحلیل دادههای ویدیویی است و گامی مؤثر در مسیر هوش مصنوعی کاربردی برداشته است.
دیدگاهتان را بنویسید