МЕТОД АДАПТИВНОГО ФОРМУВАННЯ ВИНАГОРОДИ ЗА УМОВ НЕВИЗНАЧЕНОСТІ ДИНАМІЧНИХ ОБ’ЄКТІВ

Людмила Дмитрівна Ганенко

Ганенко Людмила Дмитрівна (Hanenko Liudmyla) Державний університет інформаційно-комунікаційних технологій, Київ, Україна https://orcid.org/0000-0003-2219-8196

Анотація

У дослідженні обґрунтовано метод адаптивного формування винагороди для навігації автономних мобільних роботів у динамічних соціальних середовищах. Запропонований підхід дозволяє ефективно моделювати поведінку робота в умовах високої невизначеності, створеної непередбачуваним рухом агентів-людей. Актуальність дослідження зумовлена необхідністю безпечної інтеграції автономних мобільних роботів у людський простір. В таких середовищах робот повинен діяти не лише ефективно, а й соціально прийнятно.

Обмеженням існуючих підходів на основі глибокого навчання з підкріпленням (DRL), є використання функцій винагороди з фіксованими ваговими коефіцієнтами. Такий підхід не дозволяє роботу гнучко адаптуватися до змін середовища. Налаштування на досягнення цілі призводить до підвищеного ризику зіткнень, тоді як пріоритет безпеки часто спричиняє проблему «замороженого робота» та поведінку, яка знижує загальну ефективність системи.

Запропонований підхід розв’язує зазначену проблему шляхом інтеграції архітектури проксимальної оптимізації політики (PPO) з модулем імовірнісного прогнозування. Модуль імовірнісного прогнозування побудовано на основі рекурентної нейронної мережі LSTM, яка кодує часові залежності руху агентів, та мережі суміші густин (MDN), яка дозволяє моделювати мультимодальність людської поведінки. Вихідний шар MDN генерує параметри суміші нормальних розподілів.

Запропоновано механізм динамічно-адаптивного зважування компонентів функції винагороди. Система автоматично регулює баланс між конкурентними цілями. У ситуаціях з високою невизначеністю прогнозу поведінки агентів-людей вагові коефіцієнти безпеки та соціального комфорту нелінійно зростають, змушуючи агента діяти обережніше. І навпаки, коли наміри агентів-людей є більш передбачуваними, система підвищує пріоритет ефективності руху.

Експериментальні дослідження методу підтвердили ефективність запропонованої архітектури.

Ключові слова: інформаційні технології, моделювання, методи машинного навчання, методи навчання з підкріпленням, автономні мобільні роботи, навігація мобільних роботів.

МЕТОД АДАПТИВНОГО ФОРМУВАННЯ ВИНАГОРОДИ ЗА УМОВ НЕВИЗНАЧЕНОСТІ ДИНАМІЧНИХ ОБ’ЄКТІВ

DOI: 10.31673/2412-4338.2026.019003

Анотація