# Fonction d'exploration des données : compte le nombre d'un panel de paramètres sélectionnés suite à nos recherches (ARS, OMS, ...) 
# i.e. combien de prélèvements comportent ces paramètres : est-ce qu'ils sont beaucoup testés
# ici dans la Table des résultats de l'année 2024 (1ère année que nous avons exploré)
# nous a servi pour choisir notre panel de paramètres pour notre étude et notre calcul de scores

import pandas as pd

parametres_a_filtrer = {
    '1302.0', # pH
    '1382.0', # plomb
    '1386.0', # nickel
    '1387.0', # mercure
    '1388.0', # cadmium
    '1369.0', # arsenic
    '1339.0', # nitrites
    '1340.0', # nitrates
    '1399.0', # chlore
    '1314.0', # DCO
    '1313.0', # DBO5
    '7009.0', # indice hydrocarbures
    '6275.0', # trihalométhanes
    '6276.0', # pesticides
    '1059.0'  # bactériophages fécaux
} 

def count_filtered_occurrences(csv_file):
    df = pd.read_csv(csv_file)
    occurrences = df['cdparametre'].value_counts()
    occurrences = occurrences.reindex(parametres_a_filtrer, fill_value=0)
    return occurrences

if __name__ == "__main__":
    csv_file = "data/processed/Table2024_normalized.csv"
    occurrences = count_filtered_occurrences(csv_file)
    print("Occurrences des paramètres sélectionnés :")
    for param, count in occurrences.items():
        print(f"{param} : {count}")