Reinforcement Learning per il Controllo di Sistemi Dinamici Reali: Applicazioni e Limitazioni

Salvato, Erica

Reinforcement learning (RL) offers the chance to make a system learn control policies to successfully and autonomously perform specific tasks. It is often applied to classical and fairly simple artificial domains. Recently, the introduction of new deep learning tools, in combination with the development of more powerful hardware, has made it possible to apply it to real-world tasks as well. Despite the inherent potential of RL as a control technique, however, it still has some limitations that affect its effectiveness on real-world dynamic systems. These limitations become more evident as the complexity of the problems increases. In the present work, we focus on the applications of RL to real-world control problems, both in simulation and in reality. We first present a formalism that will be useful throughout the work. We show two possible applications of RL to the control of real dynamic systems, such as a signalized traffic intersection developed in a simulated environment, and the real Free Electron Laser (FEL) of the FERMI at Elettra Sincrotrone Trieste. Subsequently, we analyze RL as a robotics control tool with a primary focus on the reality gap (RG), i.e., the phenomenon, triggered by the difference between simulator and real system, which leads to the degradation of the controller performance, learned on a simulator, when used on the real system. In particular, we are interested in finding a way to characterize and quantify the gap. Therefore, we propose a new index that can grasp and quantify the proneness of a controller to exhibit RG. Finally, we characterize some modeling errors, affecting an open-source simulated robotic platform, that lead to a reduction in controller performance during real-world applications. We use the proposed index to capture the resulting controller performance.

Il Reinforcement Learning (RL) è una branca del Machine Learning (ML) che permette di rendere i sistemi autonomi nell'apprendimento di leggi di controllo per l'esecuzione di specifici task. Sebbene sia spesso studiato su sistemi artificiali e caratterizzati da un comportamento dinamico semplice, recentemente l'introduzione dei nuovi strumenti di deep learning, insieme allo sviluppo di hardware sempre più prestante, ha favorito l'uso dell'RL nel controllo di sistemi dinamici reali. Tuttavia, nonostante il suo potenziale, l'RL presenta ancora alcune limitazioni e non garantisce prestazioni efficaci quando coinvolto nel controllo di tali sistemi. Tali limitazioni diventano più evidenti all'aumentare della complessità dei problemi trattati. Nel presente lavoro, focalizziamo la nostra attenzione sulle applicazioni di RL a problemi di controllo del mondo reale, anche simulati. Per prima cosa presentiamo un formalismo utile per il seguito del lavoro. Mostriamo due possibili applicazioni di RL al controllo di sistemi dinamici reali: un incrocio semaforico, sviluppato in un ambiente simulato, e il Free Electron Laser (FEL) del FERMI di Elettra Sincrotrone Trieste. Successivamente, analizziamo l'RL come tecnica di controllo di robot, concentrandoci in particolare sul problema del reality gap (RG): quel fenomeno, causato dalla differenza tra simulatore e sistema reale, che porta al degrado delle prestazioni di un controllore appreso sul simulatore e testato sul sistema reale. In particolare, siamo interessati a trovare un modo per caratterizzare questo gap. Pertanto, proponiamo un nuovo indice in grado di cogliere e quantificare la propensione di un controllore ad esibire un RG. Infine caratterizziamo alcuni errori di modellazione, relativi ad una piattaforma robotica simulata open-source, che portano a una riduzione delle prestazioni del controllore nel trasferimento da sistema simulato a sistema reale. Applichiamo in tale esempio l'indice proposto per valutare le prestazioni del controllore ottenuto.

Reinforcement Learning per il Controllo di Sistemi Dinamici Reali: Applicazioni e Limitazioni / Salvato, Erica. - (2022 Feb 15).