diff --git a/src/tests/flop20_water_quality.py b/src/tests/flop20_water_quality.py index 59655bc2a7526e94fc1db1863f22ea3fae4eb7f7..17a5e9e60cac6689c95b25efb9f73c48f0235498 100644 --- a/src/tests/flop20_water_quality.py +++ b/src/tests/flop20_water_quality.py @@ -1,19 +1,18 @@ +# Fonction d'exploration de nos premiers résultats : donne les 20 scores les plus faibles pour un score choisi et une année choisie +# Nous a servi pour analyser nos résultats de score et leur cohérence par rapport à ce qu'on pouvait +# trouver en ligne concernant des zones où l'eau est reconnue comme de mauvaise qualité +# (ex : Marne reconnue comme mauvaise à cause d'énormes quantités de pesticides, Cf. présentation et article de presse) +# Nous a également servi à améliorer et affiner notre calcul du score + + import pandas as pd -# Charger le fichier des scores fichier_scores = "data/processed/water_scores_2021.csv" df = pd.read_csv(fichier_scores) - -# Vérifier si la colonne "score_global" existe -if "score_global" not in df.columns: - raise ValueError("La colonne 'score_global' est absente. Vérifiez que le score global est bien calculé.") - -# Trier par score global croissant et sélectionner les 20 plus faibles -df_lowest = df.nsmallest(20, "score_global") - -# Afficher le résultat +df_lowest = df.nsmallest(20, "score_global") # à modifier en fonction du score que l'on veut étudier print(df_lowest) -# Enregistrer le résultat dans un fichier CSV -df_lowest.to_csv("data/processed/water_20_lowest_scores.csv", index=False) -print("Les 20 lignes avec les plus faibles scores ont été enregistrées dans 'data/processed/water_20_lowest_scores.csv'.") +# -- code ci dessous à décommenter si on veut enregistrer le résultats dans un csv (plus simple à lire) -- + +#df_lowest.to_csv("data/processed/water_2021_flop_20.csv", index=False) +#print("Fichier enregistré.")