Press "Enter" to skip to content

Обучение искусственного интеллекта предсказанию поведения пешеходов

Исследователи из Университета Мичигана обучают автономные автомобили распознавать и прогнозировать движения пешеходов с большей точностью, чем позволяют современные технологии, сосредоточив внимание на их походке, симметрии тела и расположении ног.

Данные, собранные транспортными средствами с помощью камер, LiDAR и GPS, позволяют исследователям снимать видео фрагменты поведения людей в движении, а затем воссоздавать их в трехмерном пространстве с помощью компьютерного моделирования. С этим они создали «рекуррентную нейронную сеть, вдохновленную биомеханикой», которая записывает движения человека.

Сеть позволяет автомобилям с искусственным интеллектом (ИИ) прогнозировать позы и будущие местоположения для одного или нескольких пешеходов на расстоянии до 50 ярдов (46 метров) от автомобиля. Это примерно размер перекрестка среднего города.

«В предыдущей работе в этой области, как правило, рассматривались только неподвижные изображения — это не было связано с тем, как люди двигаются в трехмерном пространстве», — говорит Рам Васудеван, доцент кафедры машиностроения в Университете США. «Но если автономные транспортные средства будут работать и взаимодействовать в реальном мире, мы должны убедиться, что наши прогнозы о том, куда движется пешеход, не совпадают с траекторией движения подключенного или автономного автомобиля».

Для оснащения транспортных средств необходимой «силой предсказаний» нужно, чтобы сеть погружалась в мелочи движения человека: скорость движения человека (периодичность), зеркальная симметрия конечностей и то, как положение ног влияет на устойчивость во время ходьбы.

Большая часть машинного обучения, используемого для доведения технологий автономного вождения до современного уровня, имела дело с двумерными изображениями — фотографиями. Компьютер, «увидевший» несколько миллионов фотографий знака «Стоп», в конечном итоге распознает знаки «Стоп» в реальном мире и в реальном времени.

Но использование видео, которое запускается в течение нескольких секунд, позволяет исследователям изучать первую половину фрагмента, чтобы делать прогнозы, а затем проверять точность во второй половине.

«Теперь мы обучаем систему распознавать движение и предсказывать не только одну вещь — будь то знак остановки или нет — но где тело этого пешехода будет на следующем шаге, на следующем и следующем», — говорит Мэтью Джонсон-Роберсон, доцент кафедры морской архитектуры и морской инженерии Мичиганского Университета.

Чтобы объяснить тип экстраполяций, которые может выполнять нейронная сеть, Васудеван описывает общее видение. «Если пешеход играет со своим телефоном, вы знаете, что он отвлекся», — объясняет он. «Его поза и то, куда он смотрит, многое говорит об уровне его внимательности. Она также много говорит вам о том, что он может сделать дальше».

Результаты показывают, что этот новый подход улучшает способность беспилотного транспортного средства прогнозировать, что наиболее вероятно произойдет дальше.

«Средняя ошибка перевода нашего прогноза составляла примерно 10 см через одну секунду и менее 80 см через шесть секунд», — говорит Джонсон-Роберсон. «Все остальные методы сравнения были на расстоянии до 7 метров… Мы лучше понимаем, где будет человек».

Чтобы «обуздать» количество вариантов для предсказания следующего движения, исследователи применили физические ограничения человеческого тела, такие как неспособность летать или максимально возможная скорость при движении пешком.

Чтобы создать набор данных, используемый для обучения нейронной сети единой системы обмена сообщениями, исследователи припарковали транспортное средство уровня автономности 4 на нескольких перекрестках Энн-Арбор. С камерами автомобиля и LiDAR, обращенными к перекрестку, автомобиль записывал данные несколько дней. Исследователи подкрепили эти реальные данные «в дикой природе» традиционными наборами данных поз, собранными в лаборатории.

Оставьте комментарий

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *