Dalle simulazioni alla realtà: la nuova frontiera della locomozione quadrupede

Far camminare un robot quadrupede non è solo una questione di movimento, ma di equilibrio dinamico. La sfida per i ricercatori del DII è stata addestrare il robot Unitree Aliengo a muoversi in modo fluido, rispettando rigorosi vincoli fisici e cinematici. Per farlo, il team ha utilizzato il Reinforcement Learning (RL), ma con un tocco innovativo: invece di limitarsi agli algoritmi standard, hanno sviluppato una variante “custom” capace di dare priorità alla sicurezza del sistema. Il cuore tecnologico del progetto risiede nell’ottimizzazione dell’algoritmo Proximal Policy Optimization (PPO). Mentre i metodi tradizionali penalizzano gli errori (come una caduta o un urto) semplicemente sottraendo punti al punteggio del robot, la soluzione utilizzata introduce un discount factor γ adattivo (Fig.1).

Come funziona?

PPO è un algoritmo di Reinforcement Learning appartenente alla famiglia dei metodi policy gradient, che ottimizza iterativamente la policy πθ limitando la differenza tra policy successiva e precedente tramite un meccanismo di clipping, questo per migliorare la stabilità dell’addestramento. Nel caso dei robot quadrupedi, le principali violazioni dei vincoli possono riguardare superamento dei limiti cinematici, velocità o accelerazioni al di fuori dei limiti operativi, contatti non corretti con il terreno, perdita di equilibrio o cadute, e deviazioni rispetto allo stile di camminata desiderato (Fig.2).

Nei metodi tradizionali di RL, queste violazioni vengono gestite tramite penalizzazioni direttamente nel reward. La nostra variante, basata sul progetto Constraints as Terminations, introduce invece un discount factor adattivo, modulato in funzione della gravità della violazione. In questo modo, quando il comportamento del robot si discosta in modo significativo dai vincoli imposti, il peso delle ricompense future viene ridotto, favorendo l’apprendimento di camminate più sicure, stabili ed energeticamente efficienti. Questo è il Constrained Reinforcement Learning.

Il percorso in tre fasi: dal software al metallo

Il successo del trasferimento della “mente” digitale del robot sul corpo fisico è stato garantito da un rigoroso processo di validazione:

High-Fidelity Simulation (IsaacGym): Addestramento massivo in ambienti virtuali paralleli per modellare attriti e dinamiche complesse.
Validazione Sim-to-Sim (MuJoCo): La policy è stata testata su un secondo motore fisico per assicurarne la robustezza e la capacità di generalizzazione.
Sim-to-Real Transfer: Il momento della verità. Grazie alla randomizzazione degli ambienti virtuali, il robot ha camminato nel mondo reale con una stabilità sorprendente.

Verso il futuro: oltre la semplice camminata

I risultati ottenuti a Trento non sono che l’inizio (Fig.3). Il futuro della ricerca si sposterà su terreni ancora più impervi e verso la loco-manipolazione: l’integrazione di bracci robotici sui quadrupedi per permettere loro non solo di esplorare, ma di interagire attivamente con l’ambiente in scenari di logistica e soccorso.

Fig. 1: modello Mujoco Unitree Aliengo
Fig.2: schema di controllo Policy RL
Fig. 3: robot Unitree Aliengo

Ricerca di:

Andrea Del Prete, Pietro Noah Crestaz

Automatica

Dalle simulazioni alla realtà: la nuova frontiera della locomozione quadrupede

Come funziona?

Il percorso in tre fasi: dal software al metallo

Verso il futuro: oltre la semplice camminata

Ricerca di:

Iscriviti alla newsletter di DII News