Что, если бы камера видеонаблюдения могла не только записывать видео, но и понимать, что происходит, — различая рутинные действия и потенциально опасное поведение в реальном времени? Это будущее, которое формируют исследователи из Школы инженерии и прикладных наук Университета Вирджинии с их последним прорывом: интеллектуальным видеоанализатором на основе искусственного интеллекта, способным обнаруживать действия человека на видеоматериалах с беспрецедентной точностью и интеллектом.
Научная работа опубликована в журнале IEEE Transactions on Pattern Analysis and Machine Intelligence.
Система, получившая название «Семантическая и распознающая движение пространственно-временная сеть преобразователей» (SMAST), обещает широкий спектр общественных преимуществ: от совершенствования систем наблюдения и повышения общественной безопасности до обеспечения более совершенного отслеживания движения в здравоохранении и совершенствования навигации автономных транспортных средств в сложных условиях.
«Эта технология ИИ открывает двери для обнаружения действий в реальном времени в некоторых из самых сложных сред», — сказал профессор и заведующий кафедрой электротехники и вычислительной техники Скотт Т. Эктон, ведущий исследователь проекта. «Это своего рода прогресс, который может помочь предотвратить аварии, улучшить диагностику и даже спасти жизни».
Инновации на основе искусственного интеллекта для комплексного анализа видео
Итак, как это работает? В основе SMAST лежит искусственный интеллект. Система опирается на два ключевых компонента для обнаружения и понимания сложного человеческого поведения. Первый — это многофункциональная модель избирательного внимания, которая помогает ИИ сосредоточиться на самых важных частях сцены, например, на человеке или объекте, игнорируя ненужные детали. Это делает систему более точной при определении происходящего, например, распознавании того, что кто-то бросает мяч, а не просто двигает рукой.
Вторая ключевая функция — это алгоритм позиционного кодирования движения 2D, который помогает ИИ отслеживать, как вещи движутся с течением времени. Представьте себе просмотр видео, где люди постоянно меняют позы — этот инструмент помогает ИИ запомнить эти движения и понять, как они соотносятся друг с другом. Интегрируя эти функции, SMAST может точно распознавать сложные действия в реальном времени, что делает его более эффективным в сценариях с высокими ставками, таких как наблюдение, диагностика в сфере здравоохранения или автономное вождение.
SMAST переопределяет то, как машины обнаруживают и интерпретируют действия человека. Текущие системы борются с хаотичными, неотредактированными непрерывными видеоматериалами , часто упуская контекст событий. Но инновационный дизайн SMAST позволяет ему фиксировать динамические отношения между людьми и объектами с удивительной точностью, работая на тех самых компонентах ИИ, которые позволяют ему учиться и адаптироваться на основе данных.
Устанавливаем новые стандарты в технологии обнаружения действий
Этот технологический скачок означает, что система ИИ может распознавать такие действия, как бегун, переходящий улицу, врач, выполняющий точную процедуру, или даже угрозу безопасности в многолюдном месте. SMAST уже превзошел решения высшего уровня по ключевым академическим показателям, включая AVA, UCF101-24 и EPIC-Kitchens, установив новые стандарты точности и эффективности.
«Социальное влияние может быть огромным», — сказал Мэтью Корбан, научный сотрудник в лаборатории Эктона, работающий над проектом. «Мы с нетерпением ждём, как эта технология ИИ может преобразовать отрасли, сделав системы на основе видео более интеллектуальными и способными к пониманию в реальном времени».
Бессменный главный редактор, в незапамятные времена работал в издании РБК