From d1fd9406d3d9b43d523a735ac20519faf89b9e0d Mon Sep 17 00:00:00 2001 From: Ghelfi Manon <manon.ghelfi@ecl19.ec-lyon.fr> Date: Wed, 8 Feb 2023 14:32:40 +0000 Subject: [PATCH] Update README.md --- README.md | 28 ++++++++++++++++++---------- 1 file changed, 18 insertions(+), 10 deletions(-) diff --git a/README.md b/README.md index 3944626..d5b8193 100644 --- a/README.md +++ b/README.md @@ -12,7 +12,6 @@ Le graphique de l'évolution des recompenses totales aux cours des épisodes est Le fichier a2c_sb3_cartpole.py comporte un model pour resoudre le problème du CartPole en utilisant un algorithme Advantage Actor-Critic (A2C) grace à la bilbiothèque Stable-Baselines3. ## Hugging Face Hub -**(TODO: verifier pour avoir plus de trucs)** https://huggingface.co/manonghelfi/a2c_cartpole/tree/main J'ai téléchargé mon model sur huggingface avec les commandes python suivantes : @@ -31,22 +30,31 @@ push_to_hub( Aprés mettre identifié grace à la commande : `huggingface-cli login` ## Weights & Biases -**(TODO: trouver comment mettre des données utiles)** +Le run du model est présent ici : https://wandb.ai/ghelfi/cartpole-training/runs/06exlpbm +Réalisé grace au code ci dessous : ``` import wandb +wandb.init(project='cartpole-training') import gym + from stable_baselines3 import A2C +import numpy as np +env = gym.make("CartPole-v1") -wandb.init(project='a2c_CartPole') -env = gym.make('CartPole-v1') model = A2C("MlpPolicy", env, verbose=1) -model.learn(total_timesteps=500000) -observations = [env.reset() for _ in range(100)] -actions, _states = model.predict(observations) -accuracy = sum([a == env.action_space.label[i] for i, a in enumerate(actions)]) / len(actions) -wandb.log({"model": model, 'accuracy':accuracy}) -model.save("a2c_CartPole") +model.learn(total_timesteps=10000) +rewards = [] +obs = env.reset() +while True: + action, _states = model.predict(obs) + obs, reward, done, info = env.step(action) + rewards.append(reward) + if done: + break + +print("Mean Reward: ", np.mean(rewards)) +wandb.log({'reward_mean': np.mean(rewards)}) ``` -- GitLab