Hands-On Reinforcement Learning
Introduction
Dans ce projet pratique, nous allons d'abord implémenter un algorithme simple de RL et l'appliquer pour résoudre l'environnement CartPole-v1. Une fois que nous aurons pris connaissance du flux de travail de base, nous apprendrons à utiliser divers outils pour l'entraînement, la surveillance et le partage de modèles d'apprentissage automatique, en appliquant ces outils pour entraîner un bras robotique.
Structure du Repository
Ce repository contient les fichiers suivants :
-
reinforce_cartpole.py
: Implémentation de l'algorithme REINFORCE pour résoudre l'environnement CartPole-v1. -
a2c_sb3_cartpole.py
: Utilisation de l'algorithme Advantage Actor-Critic (A2C) pour résoudre l'environnement CartPole-v1 avec Stable-Baselines3. -
a2c_sb3_panda_reach.py
: Entraînement d'un modèle A2C sur l'environnement PandaReachJointsDense-v2 avec Stable-Baselines3. -
README.md
: Ce fichier, fournissant des instructions sur le projet et les fichiers inclus.
Prérequis
Avant de commencer, assurez-vous d'avoir installé les bibliothèques nécessaires. Vous pouvez les installer en utilisant pip
:
pip install stable-baselines3
pip install huggingface-sb3==2.3.1
pip install panda-gym==3.0.7
pip install wandb tensorboard
Instructions
-
CartPole Environment avec REINFORCE:
- Exécutez le script
reinforce_cartpole.py
pour entraîner et résoudre l'environnement CartPole-v1 avec l'algorithme REINFORCE. - Visualisez les performances de l'agent en utilisant les graphiques affichés par l'algorithme.
- Exécutez le script
-
CartPole Environment avec A2C:
- Exécutez le script
a2c_sb3_cartpole.py
pour entraîner et résoudre l'environnement CartPole-v1 avec l'algorithme Advantage Actor-Critic (A2C) de Stable-Baselines3. Voici le lien du résultat: https://wandb.ai/emilien-paga23/sb3/runs/9lgngdjl https://huggingface.co/emipaga/A2C_cartpole
- Exécutez le script
-
PandaReachJointsDense-v2 Environment avec A2C:
- Exécutez le script
a2c_sb3_panda_reach.py
pour entraîner un modèle A2C sur l'environnement PandaReach-v3 avec Stable-Baselines3. - Assurez-vous que les résultats de l'entraînement sont partagés dans "Weights & Biases" et que le lien est inclus dans ce fichier README.md. https://huggingface.co/emipaga/A2C_panda_reach/ https://wandb.ai/emilien-paga23/panda-gym-training/runs/swh626ru
- Exécutez le script
Author
Emilien PAGENLLI
License
MIT