NAME:

# INF TC1 - TD2 (2h) - Structures de données

---

### IMPORTANT A LIRE (SUR L'UTILISATION DE CE NOTEBOOK)

Le but de votre travail est de répondre aux questions des exercices en **remplissant certaines cellules de ce notebook avec votre solution**. Ces cellules, une foit remplies et lancées au fur et à mesure de vos avancées, permettront de valider des tests écrits dans d'autres cellules de ce notebook. **Il est donc important de bien suivre les instructions et répondre aux questions dans l'ordre**, et ne pas changer le nom des fonctions et/ou des cellules. En particulier :
    
1) Répondez aux questions dans les cellules en dessous des questions.

2) Votre code devra remplacer le texte suivant (que vous pouvez effacer) : 

```python
# YOUR CODE HERE
raise NotImplementedError()
```

3) Exécutez enfin les cellules dans leur ordre d'apparition, de haut en bas et si votre code est correct. Ainsi les tests (sous forme d'`assert` seront validés et ne lanceront pas d'exception du type `AssertionError`. Vous pouvez lancer plusieurs fois la même cellule, cela ne pose pas de soucis.
    
4) Vous pouvez créer de nouvelles cellules comme bon vous semble.

**En cas de problème, une solution est de relancer les cellules depuis le début du notebook une par une.** Pensez à bien sauvegarder ce notebook et ne pas le remplacer par un notebook qui a le même nom.


## Objectif du TD

Ce TD vous fera manipuler plusieurs structures de données standard en Python (listes `list`, dictionnaires `dict`) mais également des structures avancées (piles, files, tas) que vous allez créer au moyen de classes. Au final nous allons créer une méthode de tri efficace (tri par tas) et la comparer avec d'autres méthodes de tri de Python.

## Exercice 1 - Chargement et tri d'une liste

Le but de cet exercice est de charger une liste de dictionnaires et réaliser des méthodes de tri. Vous disposez pour cela d'un fichier appelé [`etudiants.txt`](etudiants.txt) où chaque ligne contient des informations sur des étudiants d'un cour. Pour commencer nous allons réaliser des tris simples et les rendre de plus en plus complexes.

### Rappel : Tri de listes

Avant de commencer quelques rappels sur les structures de données de listes et leurs tris. Voici une liste en Python :

In [None]:
L1 = [3, 2 , 4]

Pour la trier vous pouvez utiliser ```.sort()``` [(doc)](https://docs.python.org/3/howto/sorting.html) qui modifie la liste actuelle :

In [None]:
L1 = [3, 2 , 4]
L1.sort()
L1

Soit vous créez une nouvelle liste triée qui ne modifie pas la liste actuelle en utilisant ```sorted``` [(doc)](https://docs.python.org/3/howto/sorting.html) :

In [None]:
L2 = [3, 2 , 4]
L2 = sorted(L2)
L2

..Et les deux tris sont identiques :

In [None]:
L1 == L2

Enfin les fonctions de tri peuvent prendre un [paramètre nommé](https://docs.python.org/3/glossary.html#term-parameter) `key` afin d'indiquer sur quel attribut de la liste réaliser le tri. Ci-dessous le tri sera appliqué sur le premier élément d'une liste de listes à trier :

In [None]:
L = [[3, "C"], [1, "A"], [2, "B"]]
L.sort(key=lambda x: x[0])
L

### Chargement d'un fichier en dictionnaire

Le code ci-dessous permet de charger ce fichier dans la variable `students_list`.

In [None]:
students_list = []

with open("etudiants.txt") as f:
    keys = None
    for line in f:
        l = [w.strip() for w in line.split(';')]
        if keys is None:
            keys = l
        else:
            students_list.append({k:v for k, v in zip(keys, l)})

Un échantillon du jeu de données vous est donné comme suit, il s'agit une liste de dictionnaires [(doc)](https://docs.python.org/3/tutorial/datastructures.html#dictionaries) :

In [None]:
students_list[0:2]

**Question 1.1 -** Calculez la moyenne des dans la liste `students_list`. Vous nommerez votre fonction `average_grade` et lui donnerez en paramètre la variable `L` qui contient la liste d'étudiant. Conseil : pensez à convertir les variables au bon type de données (par ex. en utilisant `int()`ou `float()`).

In [None]:
def average_grade(L: list)-> int:
    # YOUR CODE HERE
    raise NotImplementedError()

La moyenne attendue de votre fonction est :

In [None]:
average_grade(students_list)

Le test ci-dessous doit donc être validé (autrement dit aucune `Exception` ne doit être lancée) :

In [None]:
assert average_grade(students_list) == 16.6

**Question 1.2 -** Trouvez la note maximale de manière _récursive_ et comparez avec la fonction `max` (qui peut prendre un argument `key` afin de trier par note) donnée ci-dessous. Attention encore au type des données.

In [None]:
def find_maximum_recursive(L: list)-> int:
    # YOUR CODE HERE
    raise NotImplementedError()

In [None]:
find_maximum_recursive(students_list)

In [None]:
assert find_maximum_recursive(students_list) == int(max(students_list, key=lambda x: int(x["note"]))["note"])

**Question 1.3 -** Ecrivez une fonction de recherche d'une pair d'étudiants qui ont la même note, et renvoyez leurs noms sous forme de `Tuple`. Conseil : 

- parcourez la liste et mémoriser les notes que vous parcourrez;
- si une note a déjà été visitée alors renvoyer l'indice du dictionnaire;
- enfin renvoyez les noms des étudiants.

In [None]:
def find_same_grade(L: list)-> tuple:
    # YOUR CODE HERE
    raise NotImplementedError()

In [None]:
find_same_grade(students_list)

In [None]:
assert find_same_grade(students_list) == ('Dupond', 'Dupont')

**Question 1.4 (BONUS si vous avez du temps) -** Triez la liste d'étudiants par ordre croissant en implémentant un _tri par sélection_ fourni dans le pseudo-code ci-dessous (issu de [cette page](https://fr.wikipedia.org/wiki/Tri_par_s%C3%A9lection)). L'argument `key` permettra d'indiquer sur quel attribut réaliser le tri (par exemple la note). Voir l'usage de cet attribut dans la cellule de test suivante.

```
   procédure tri_selection(tableau t)
       n ← longueur(t) 
       pour i de 0 à n - 2
           min ← i       
           pour j de i + 1 à n - 1
               si t[j] < t[min], alors min ← j
           fin pour
           si min ≠ i, alors échanger t[i] et t[min]
       fin pour
   fin procédure
```

In [None]:
def sort_selection(L: list, key=lambda x: x) -> list:
    # YOUR CODE HERE
    raise NotImplementedError()

Comparer votre tri avec la méthode `sorted` de Python.

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

## Exercice 2 : Piles et files

Désormais nous allons implémenter de nouvelles structures de manipulation de listes : les Piles et les Files. Et à terme réaliser un tri de plus en plus efficace (avec un Tas). Nous allons commencer avec la Pile dont nous vous fournissons la structure de données, nommée `Stack` et disponible ci-desous:

In [None]:
class Stack:
    def __init__(self):
        self.items = []

    def push(self, item):
        self.items.append(item)

    def pop(self):
        if not self.is_empty():
            return self.items.pop()

    def peek(self):
        if not self.is_empty():
            return self.items[-1]

    def is_empty(self):
        return len(self.items) == 0

La Pile ci-dessus a son équivalent avec la méthode `LifoQueue` du module `queue` de Python défini ci-dessous [(doc)](https://docs.python.org/3/library/queue.html). Nous voyons bien que le dépilement renvoie les données dans l'ordre inverse de leur empilement.

In [None]:
import queue
pile = queue.LifoQueue()
for i in range (5): 
    pile.put(i)
while not pile.empty():
    print(pile.get(), end=" ")

**Question 2.1 -** Utilisez la Pile `Stack` afin d'empiler les données de la liste `students_list`. Maintenant dépilez cette Pile et comparer les résultats avec la méthode `LifoQueue` (avec le `while` fourni dans le code ci-dessous) :

In [None]:
pile = queue.LifoQueue()
s = Stack()
# YOUR CODE HERE
raise NotImplementedError()

while not s.is_empty() and not pile.empty():
    assert s.pop() == pile.get()

**Question 2.2 -** Transformer la structure de Pile `Stack` en une **File** (que vous nommerez `File`) et vérifiez que vous obtenez les mêmes résultats en récupérant les données qu'avec le module `Queue()` de Python.

In [None]:
class File():
    # YOUR CODE HERE
    raise NotImplementedError()

In [None]:
file = queue.Queue()
f = File()
# YOUR CODE HERE
raise NotImplementedError()

while not f.is_empty() and not file.empty():
    assert f.pop() == file.get()

Nous voyons bien que le dé-filement renvoie les données dans l'ordre de leur empillement afin de respecter le principe de File.

**Question 2.3** - Mettez à jour votre File afin de ne pas générer d'[exception](https://docs.python.org/3/tutorial/errors.html) `IndexError`. On peut par exemple renvoyer une valeur de type `None` si aucune valeur n'est disponible. Ci-dessous un exemple de capture d'exception en Python sur lequel vous pouvez vous baser :

In [None]:
file = File()
try:
    assert file.pop() == None # si on renvoie None pour une file vide, pas d'Exception !
except IndexError:
    print("On ne doit pas générer d'exception IndexError !")

**Question 2.4** - Enfin, transformez la File (classe `Queue`) pour en faire une file de Priorité nommée `FilePriorite`. Pour rappel, une File de Priorité renvoie les éléments selon un critère particulier (par exemple la note minimale des valeurs contenues dans la file). 

Conseils :

- garderzla liste des valeurs internes constamment triée lors de l'ajout de nouvelles valeurs;
- pour cela inclure la nouvelle valeur avec la méthode `ajoute()` à la bonne place (en conservant l'ordre de la liste interne) avec `.insert(index, valeur)`

Nous vous fournissons aussi le module `PriorityQueue` qui est une file de priorité existante [(doc)](https://docs.python.org/3/library/queue.html) afin de comparer le comportement de votre code.

In [None]:
from queue import PriorityQueue 
import random
    
filep = PriorityQueue()
list_random = [random.randint(1, 10) for _ in range(5)] # Liste aléatoire

for i in list_random: filep.put(i)

while not filep.empty(): 
  print(filep.get(), end=" ")

Remplir le code ci-dessous basé sur la File afin d'en faire une File de Priorité. 

In [None]:
class FilePriorite():
    # YOUR CODE HERE
    raise NotImplementedError()

In [None]:
filep = PriorityQueue()
f = FilePriorite()

note_list = [student["note"] for student in students_list]
# YOUR CODE HERE
raise NotImplementedError()

while not f.is_empty() and not filep.empty():
    assert f.pop() == filep.get()

La complexité de la structure de données de file de priorité est $O(n)$ en ajout et de $O(1)$ en lecture.

## Exercice 3 : Arbre binaire complet sous forme de liste

Nous allons maintenant implémenter un **arbre binaire complet**. Cet arbre sera utile pour l'exercice suivant et la création d'une nouvelle structure de données : le Tas. Cet arbre binaire sera implémenté en utilisant un tableau (car il s'agit d'un arbre _complet_ où tous les niveaux sont remplis, sauf éventuellement le dernier). L'arbre binaire possède des noeuds ayant un index $i$, avec un fils gauche et un fils droit. Le tableau et l'arbre sont reliés de la façon suivante : 

- La racine a la position $i = 0$ (cette valeur sera renvoyée par la fonction `get_racine`)
- Le parent a la position $\lfloor (i - 1)/ 2 \rfloor$ (fonction `get_parent`)
- Le fils gauche a la position $2 \times i + 1$ (fonction `get_fils_gauche`)
- Le fils droit a la position  $2 \times i + 2$ (fonction `get_fils_droit`)

```
        1
       / \
      2   5
     / \  /
    3  4 6 
          

La liste correspondante :
[1, 2, 5, 3, 4, 6]
```


**Exercice 3.1** - Implémentez un arbre binaire sous forme de classe appellée `BinaryTree` (vous pouvez vous inspirer de la classe de File de Priorité). En particulier les méthodes `get_parent`, `get_fils_gauche`, `get_fils_droit` renvoient un `Tuple` (valeur, indice). Vous rajouterez une méthode `taille`qui renvoie la taille de l'arbre binaire (longueur de la liste interne).

In [None]:
class BinaryTree():
    # YOUR CODE HERE
    raise NotImplementedError()

**Exercice 3.2** - Assurez vous que tous les tests ci-dessous sont validés.

In [None]:
# test arbre vide
tree_empty = BinaryTree()
assert tree_empty.taille() == 0
assert tree_empty.get_racine() == None
assert tree_empty.get_parent()[0] == None
assert tree_empty.get_fils_gauche(0)[0] == None  
assert tree_empty.get_fils_droit(0)[0] == None  

In [None]:
L = [1, 2, 5, 3, 4, 6]
tree_values = BinaryTree(L)
assert tree_values.taille() == len(L) # 6
assert tree_values.get_racine() == L[0] # 3
assert tree_values.get_fils_gauche(0)[0] == L[2*0+1] # 2
assert tree_values.get_fils_droit(0)[0] == L[2*0+2] # 5
assert tree_values.get_parent(1)[0] == L[0] # 5

Cette structure de donnée sera utile pour la question suivante afin de créer un tas.

**Exercice 3.3** - Ecrivez une fonction de parcours de l'arbre qui renvoie `True` si un noeud est inférieur à ses enfants, sinon `False`. Conseil : 

1. Proposez une approche récursive
2. Le cas d'arrêt est un noeud vide
3. L'appel récursif est déclanché en fonction de la valeur du noeud en cours et celle de ses enfants
4. Au final renvoyer `True` si aucune condition ne renvoie `False`

In [None]:
def check_min_tree(T, i=0):
    # YOUR CODE HERE
    raise NotImplementedError()

In [None]:
check_min_tree(tree_values)

In [None]:
assert check_min_tree(BinaryTree([1])) == True
assert check_min_tree(BinaryTree([1, 2])) == True
assert check_min_tree(BinaryTree([1, 2, 3])) == True
assert check_min_tree(BinaryTree([1, 2, 3, 4])) == True
assert check_min_tree(BinaryTree([5, 6, 4])) == False

## Exercice 4 (Bonus) : Création d'un tas et tri par tas

Nous allons désormais créer une nouvelle structure de donnée : le `Tas`. Celle-ci permettra à termes de réduire la complexité de manipulation d'une file de priorité, en répartissant le coût de la recherche du plus petit élément (qui sera renvoyé) entre l'ajout et la suppression. Pour rappel la file créée précédemment avant une complexité de $O(n)$ en ajout et de $O(1)$ en lecture. 
 
Nous nous baserons pour cela sur l'arbre binaire de la question précédente, qui est dit dans une configuration [min-heap](https://en.wikipedia.org/wiki/Min-max_heaphttps://en.wikipedia.org/wiki/Min-max_heap), où les données sont renvoyées par ordre croissant. Cette structure de données sera plus efficace en $O(log(n)$ pour l'ajout d'une nouvelle valeur (mais aussi pour le retrait).

**Question 4.1 -** Implémentez une structure de `Tas`comme suit :

1. Créez une structure de données de `Tas` similaire au `BinaryTree`
 
2. Créez une méthode `inserer`, que l'on utilisera à la place d'`ajoute`, dont le principe est le suivant :

    - Chaque nouveau noeud est rajouté comme dernier élément du tableau (à la fin donc)
    - Comparez ce noeud à son parent et si il est plus grand que ce parent inversez-le
    - Répétez tant que la condition ci-dessus est vraie et que la racine n'est pas atteinte

3. Créez une méthode `enlever` dont le principe est le suivant :

    - Enlever l'élément racine de l'arbre (premier élément du tableau)
    - Déplacer le dernier noeud de l'arbre (dernier élément du tableau) à la place de la racine de l'arbre
    - Vérifier que la racine conserve la propriété de Tas (qu'elle est inférieur à ses enfants); si ce n'est pas le cas alors implémenter une méthode `descendre` définie par la suite.

4. Créez une méthode `descendre` qui : 

    - Prend le plus petit des enfants
    - Echange sa place avec lui si il est plus petit
    - Répéte cela tant qu'il existe des enfants
    
Attention : pensez à tester si il existe un fils droit et un fils gauche lors des opération de descente lors de l'insertion.

In [None]:
class Tas():
    # YOUR CODE HERE
    raise NotImplementedError()

Votre tas doit valider les tests suivants :

In [None]:
# test tas vide
tas_vide = Tas()
assert tas_vide.taille() == 0
assert tas_vide.get_racine() == None
assert tas_vide.get_fils_droit()[0] == None  
assert tas_vide.get_fils_droit()[0] == None  

# test tas simple
tas_simple = Tas()
tas_simple.inserer(1)
tas_simple.inserer(2)
assert tas_simple.taille() == 2

# test tas un peu plus complexe
tas = Tas()
liste = [1, 4, 10000, 2, 29, .2, 13, .5, 14, .1, 100]
liste_triee = sorted(liste)
for l in liste:
    tas.inserer(l)

assert tas.taille() == len(liste)    
assert tas.get_racine() == liste_triee[0]
assert tas.get_fils_gauche(0) == (liste_triee[1], 1)
assert tas.get_fils_droit(0) == (liste_triee[2], 2)

while not tas.est_vide():
    assert tas.enlever(0) == liste_triee.pop(0)
    assert tas.taille() == len(liste_triee)

**Question 4.2 -** Implémentez un tri par tas en utilisant la structure de données de `Tas` que vous avez réalisé précédemment.

In [None]:
def triTas(l: list = []) -> list:
    t = Tas()
    # YOUR CODE HERE
    raise NotImplementedError()

Comparez à la méthode de tri `sorted`.

In [None]:
liste = [54,26,93,17,77,31,44,55,20]
l2 = triTas(liste.copy())

assert(l2 == sorted(liste))
assert([] == triTas([]))
assert([1] == triTas([1]))
assert([1, 1] == triTas([1, 1]))

Pour information, le module `heapq` contient l'implémentation d'un tas en Python et s'utilise comme les Piles, Files, etc.

In [None]:
import heapq
tas = []

for i in range(5): heapq.heappush(tas, i)

while not len(tas) == 0: 
  print(heapq.heappop(tas), end=" ")

# 0 1 2 3 4

**Question 4.2 -** Comparez la performance (en temps) des méthodes de tri que vous avez implémenté dans les questions précentes.

In [None]:
import time
import random
import matplotlib.pyplot as plt

nvalues = [100, 500, 1500, 2000, 2500, 3000]

timesSorted = []
timesSort = []
timesSelection = []
timesHeap = []

for i in nvalues:

    random.seed()
    p = 12**2
    liste = []
    
    for x in range(i): liste.append(random.randint(0, p))

    # tri sorted
    c = liste.copy()
    a=time.perf_counter()
    triSorted = sorted(c)
    b=time.perf_counter()
    timesSorted.append(b-a)

    # tri .sort()
    c = liste.copy()
    a=time.perf_counter()
    triSort = c
    triSort.sort()
    b=time.perf_counter()
    timesSort.append(b-a)

    # YOUR CODE HERE
    raise NotImplementedError()
    
plt.plot(nvalues, timesSorted, "g-", label="Tri Sorted")
plt.plot(nvalues, timesSort, "b-", label="Tri .sort()")
plt.plot(nvalues, timesSelection, "r-", label="Tri Selection")
plt.plot(nvalues, timesHeap, "r-", label="Tri Heap")
plt.xlabel("Taille du jeu de données")
plt.ylabel("Temps")
plt.legend(loc="upper left")
plt.title("Comparaison des performances des algorithmes de tri")
plt.show()

Pour en savoir plus comment Python réalise le tri, lire la documentation du `TimSort` (doc)[https://en.wikipedia.org/wiki/Timsort] qui est l'algorithme de tri utilisé.

## Pour aller plus loin

- Mettez à jour votre file afin de renvoyer [une exception](https://docs.python.org/3/tutorial/errors.html) si on demande une valeur qui n'est pas dans la structure de données (pile, file, etc.)

In [None]:
def popx(self):
    if not self.is_empty():
        return self.items.pop(0)
    else:
        raise IndexError("Le tas est vide")
Stack.popx = popx
s = Stack()
try:
    s.popx()
except IndexError as e:
    print(e)

- Utilisez un [grand jeu de donnée](https://generatedata.com/) d'étudiants pour les premières questions. Réaliser une analyse de complexité avec ce jeu de données.