Première visualisation - histogramme de rsana

5b5f3a83 · lucasbsn · 0241c93d · 5b5f3a83 · 5b5f3a83 · 5b5f3a83
Commit 5b5f3a83 authored 6 months ago by lucasbsn
--- a/.gitignore
+++ b/.gitignore
+/data/raw/*.txt
--- a/data/processed/UDI_RES_202411.csv
+++ b/data/processed/UDI_RES_202411.csv
--- a/results/histogram_rsana.png
+++ b/results/histogram_rsana.png
--- a/src/first_graph.py
+++ b/src/first_graph.py
+import pandas as pd
+import matplotlib.pyplot as plt
+import seaborn as sns
+# Charger les données
+data = pd.read_csv("data/processed/UDI_RES_202411.csv")
+# Assurez-vous que rsana est numérique et gérez les valeurs manquantes
+data['rsana'] = pd.to_numeric(data['rsana'], errors='coerce')
+data_cleaned = data.dropna(subset=['rsana'])
+# Créer un histogramme pour la distribution de rsana
+plt.figure(figsize=(8, 6))
+sns.histplot(data_cleaned['rsana'], bins=30, kde=True, color='blue')
+# Ajouter des titres et des labels
+plt.title('Distribution de la colonne rsana', fontsize=14)
+plt.xlabel('Valeur de rsana', fontsize=12)
+plt.ylabel('Fréquence', fontsize=12)
+plt.savefig("results/histogram_rsana.png")
+# Afficher le graphique
+plt.show()
--- a/src/processing.py
+++ b/src/processing.py
+import pandas as pd
+# Charger les données
+file_path = "data/raw/UDI_RES_202411.txt"
+# Colonnes à garder
+columns = [
+    "cddept", "referenceprel", "cdparametre", "rsana", "cdunitereference", 
+    "analysedate", "cdtypeanalyse", "representativite"
+]
+# Charger le fichier avec pandas
+data = pd.read_csv(file_path, sep=",", header=0, dtype=str)
+# Garder uniquement les colonnes importantes
+filtered_data = data[columns]
+# Sauvegarder les données filtrées dans un nouveau fichier
+output_path = "data/processed/UDI_RES_202411.csv"
+filtered_data.to_csv(output_path, index=False)
\ No newline at end of file