@@ -5,23 +5,31 @@ Ce projet vise à **analyser la qualité de l'eau courante en France et son évo
L'analyse est réalisée à l'**échelle départementale** pour fournir une évaluation complète et détaillée de la qualité de l'eau au fil du temps afin d'identifier les tendances et les zones nécessitant une attention particulière pour garantir la sécurité sanitaire des populations locales.
Une attention particulière a été portée à l'éloboration d'un **score de qualité de l'eau**.
[🎥 Regarder la vidéo de démonstration de l'application sur YouTube](https://www.youtube.com/watch?v=WMNTjgHbWVc)
Les slides de la présentation de notre projet sont disponible dans le directory `slides présentation projet`.
# 0. Sommaire des directory
# 1. Etat de l'art des visualisations
*`backend` : code du backend et la data finale (fichiers csv `score_sigmoid`).
*`data` : directory vide, nous servait à accueillir les fichiers intermédiaires pendant le traitement, pour la plupart inscrits dans le gitignore car très volumineux.
*`frontend` : code du frontend.
*`slides présentation projet` : slides de présentation.
*`src` : code de traitement des données, calcul des scores, tests et explorations.
Lors de la phase de réflexion et de choix du sujet, nous sommes tombés sur plusieurs sites et visualisations de données liées à l'eau intéressantes, dont 2 en particulier qui étaient liées à la qualité de l'eau potable en France et qui nous ont inspiré pour notre projet.
# 1. Etat de l'art des visualisations
* Une **carte intéractive qualité de l'eau proposée** par [**UFC que choisir**](https://www.quechoisir.org/carte-interactive-qualite-eau-n21241/#), qui permet de voir la qualité de l'eau selon plusieurs critères pour une **ville sélectionnée** via une barre de recherche le tout à l'échelle des **points de surveillance**. \
Cependant cette visualisation ne permet l'étude qu'à l'échelle communale, ne permet pas la comparaison directe entre 2 zones (ex : villes, départements, régions) en France hormis à l'échelle d'une même ville entre ses différents points de surveillance et n'indique pas l'évolution de la qualité de l'eau.
* Plusieurs **cartes** proposées par [**Lyzo**](https://lyzo.fr/Carte/), en particulier [**celle ci**](https://app.ou-vivre.fr/map/?x=177265&y=5867207&z=6.24591730563298&l=admin%2Cpollu_lyzo_tx_nc&lb=positron&config=apps/explore.fr.xml&mode=d#), qui propose une étude de la **qualité de l'eau à l'échelle communale** (uniquement). \
Cette visualisation n'indique pas non plus l'évolution de la qualité de l'eau.
Ces 2 visualisations proposent donc une étude de la qualité de l'eau à l'échelle communale se basant sur le taux de prélèvements non conformes (et/ou le taux de prélèvements conformes pour certains paramètres) et donc **ne proposent pas de score** à proprement parlé. Elles **ne proposent pas non plus d'étude de l'évolution** de cette qualité.
Nous allons donc dans ce projet nous pencher particulièrement sur l'**élaboration d'un modèle de calcul de scores**, plus parlant dans un but de sensibilisation des populations, tout en permettant une **analyse départementale, comparative temporellement et géographiquement**, et avec la possibilité de se concentrer sur certains paramètres, pour une analyse et une comparaison plus approfondies.
# 2. D’où vient la data ?
Les données utilisées pour ce projet proviennent du site [**data.gouv.fr**](https://www.data.gouv.fr/fr/datasets/resultats-du-controle-sanitaire-de-leau-du-robinet/), la plateforme des données publiques françaises, qui fournit les résultats du contrôle sanitaire de l'eau du robinet. Ces données incluent divers indicateurs de qualité de l'eau, permettant une analyse approfondie de son évolution entre 2018 et 2024.
Les données principales utilisées pour ce projet proviennent du site [**data.gouv.fr**](https://www.data.gouv.fr/fr/datasets/resultats-du-controle-sanitaire-de-leau-du-robinet/), la plateforme des données publiques françaises, qui fournit les résultats du contrôle sanitaire de l'eau du robinet. Ces données incluent divers indicateurs de qualité de l'eau, permettant une analyse approfondie de son évolution entre 2018 et 2024.
D'autres données de la [Sandre](https://www.sandre.eaufrance.fr/v2/) et de [data.gouv.fr](https://www.data.gouv.fr/fr/datasets/communes-de-france-base-des-codes-postaux/) nous serviront à compléter ces données. (voir ci-après)
# 3. Prétraitement de la data
...
...
@@ -36,11 +44,13 @@ Il nous manquait alors une **table des correspondances** entre les paramètres e
Nous nous sommes aussi aperçu que les coordonnées des lieux étant encodées en **Lambert 93** et non en GPS, que certaines lignes n'avaient pas de coordonnées et même que d'autres avaient leurs coordonnées inversées.\
Pour les lignes sans coordonnées, nous nous sommes servis d'une base de données des communes françaises trouvée sur [data.gouv.fr](https://www.data.gouv.fr/fr/datasets/communes-de-france-base-des-codes-postaux/) pour compléter la data en ajoutant pour ces lignes les coordonnées GPS de la commune correspondante (à défaut de celles du point de prélèvement).
## Preprocessing et choix des indicateurs
## Prétraitement et choix des indicateurs
Vous trouverez le code que nous avons utilisé pour prétraiter les données dans le directory `src`.
Pour chaque année, les fichiers de données **UDI_RES** et **UDI_PLV** ont donc été chargés et nettoyés, avec normalisation des formats et conversion des valeurs numériques et des coordonnées.
Une jointure a été effectuée sur ces fichiers en utilisant la référence commune `referenceprel`. Les doublons ont été suppriméses puis les lignes ont été filtrées selon les paramètres/indicateurs qui nous intéressaient. Enfin, les coordonnées GPS inversées ont été corrigées et les valeurs manquantes complétées en fusionnant avec les coordonnées des communes.
Une jointure a été effectuée sur ces fichiers en utilisant la référence commune `referenceprel`. Les doublons ont été supprimés puis les lignes ont été filtrées selon les paramètres/indicateurs qui nous intéressaient. Enfin, les coordonnées GPS inversées ont été corrigées et les valeurs manquantes complétées en fusionnant avec les coordonnées des communes.
Grâce à une analyse de la littérature mais également de la densité nos données, nous avons choisi de concentrer notre étude sur les paramètres/indicateurs suivants :
...
...
@@ -57,9 +67,9 @@ Grâce à une analyse de la littérature mais également de la densité nos donn
***Arsenic**
## Table obtenue
## Tables obtenues
Les tables obtenues (une par année) à la suite de ce prétraitement contiennent alors **une ligne par paramètre (sélectionnées selon notre intérêt) par prélèvement**, avec, entre autres, la date et la référence du prélèvement, le lieu (département, ville, point de surveillance, coordonnées gps) et la valeur du paramètre ainsi que son unité et son seuil.
Les tables obtenues (une par année) **à la suite de ce prétraitement** contiennent alors **une ligne par paramètre (sélectionnées selon notre intérêt) par prélèvement**, avec, entre autres, la date et la référence du prélèvement, le lieu (département, ville, point de surveillance, coordonnées gps) et la valeur du paramètre ainsi que son unité et son seuil.
PS : Les attributs de cette table ne seront finalement pas tous utilsés dans l'application finale. En effet, nous avons préparé le terrain pour pouvoir mener des analyses plus poussées (Cf. **6. Rendu final et ambition future**).
...
...
@@ -187,3 +197,12 @@ Vous arriverez alors sur notre **application**, vous n'aurez plus qu'à choisir
Comme évoqué dans la partie **3. Prétraitement de la data**, nous avons pris soin de préparé la data pour pouvoir mener des analyses plus poussées, que nous n'avons pas eu le temps d'implémenter dans le temps imparti de ce projet. Les prochaines étapes consisteraient alors en l'étude la qualité de l'eau à l'échelle communale voire même directement à celle du point de surveillance et sa zone d'influence, le tout mensuellement et plus simplement annuellement, avec par exemple des informations supplémentaires sur les 3 derniers prélèvements en date de la commune. Une barre de recherche à la maille de la commune pourrait également être envisageable, avec plus tard des systèmes d'alerte en fonction des résultats des prélèvements.
# 7. Sommaire des directory
*`backend` : code du backend et la data finale (fichiers csv `score_sigmoid`).
*`data` : directory vide, nous servait à accueillir les fichiers intermédiaires pendant le traitement, pour la plupart inscrits dans le gitignore car très volumineux.
*`frontend` : code du frontend.
*`slides présentation projet` : slides de présentation.
*`src` : code de traitement des données, calcul des scores, tests et explorations.