From d1fd9406d3d9b43d523a735ac20519faf89b9e0d Mon Sep 17 00:00:00 2001
From: Ghelfi Manon <manon.ghelfi@ecl19.ec-lyon.fr>
Date: Wed, 8 Feb 2023 14:32:40 +0000
Subject: [PATCH] Update README.md

---
 README.md | 28 ++++++++++++++++++----------
 1 file changed, 18 insertions(+), 10 deletions(-)

diff --git a/README.md b/README.md
index 3944626..d5b8193 100644
--- a/README.md
+++ b/README.md
@@ -12,7 +12,6 @@ Le graphique de l'évolution des recompenses totales aux cours des épisodes est
 Le fichier a2c_sb3_cartpole.py comporte un model pour resoudre le problème du CartPole en utilisant un algorithme Advantage Actor-Critic (A2C) grace à la bilbiothèque Stable-Baselines3.
 
 ## Hugging Face Hub
-**(TODO: verifier pour avoir plus de trucs)**
 https://huggingface.co/manonghelfi/a2c_cartpole/tree/main
 
 J'ai téléchargé mon model sur huggingface avec les commandes python suivantes : 
@@ -31,22 +30,31 @@ push_to_hub(
 Aprés mettre identifié grace à la commande : `huggingface-cli login`
 
 ## Weights & Biases
-**(TODO: trouver comment mettre des données utiles)**
+Le run du model est présent ici : https://wandb.ai/ghelfi/cartpole-training/runs/06exlpbm
 
+Réalisé grace au code ci dessous : 
 ```
 import wandb
+wandb.init(project='cartpole-training')
 import gym
+
 from stable_baselines3 import A2C
+import numpy as np
+env = gym.make("CartPole-v1")
 
-wandb.init(project='a2c_CartPole')
-env = gym.make('CartPole-v1')
 model = A2C("MlpPolicy", env, verbose=1)
-model.learn(total_timesteps=500000)
-observations = [env.reset() for _ in range(100)]
-actions, _states = model.predict(observations)
-accuracy = sum([a == env.action_space.label[i] for i, a in enumerate(actions)]) / len(actions)
-wandb.log({"model": model, 'accuracy':accuracy})
-model.save("a2c_CartPole")
+model.learn(total_timesteps=10000)
+rewards = []
+obs = env.reset()
+while True:
+    action, _states = model.predict(obs)
+    obs, reward, done, info = env.step(action)
+    rewards.append(reward)
+    if done:
+        break
+
+print("Mean Reward: ", np.mean(rewards))
+wandb.log({'reward_mean': np.mean(rewards)})
 ```
 
 
-- 
GitLab