# Exercice 1 - Itérations asynchrones pour le labyrinthe

Cet exercice reprend le problème du labyrinthe. On copie-collera tout le code nécessaire, ou alternativement, on continuera sur le notebook précédent. On travaillera avec un labyrinthe tiré une fois pour toutes.

**Question 1**: Reprendre l'itération état-valeur synchrone pour le contrôle et déterminer une politique optimale (avec un grand nombre d'itérations). Déterminer également le nombre de mises à jour au bout duquel cette politique optimale est obtenue pour la première fois (une itération de l'opérateur $B_*$ correspond à $\mathcal{S}$ mises à jour).

**Question 2**: Écrire une fonction `update_state` qui effectue une mise à jour d'itération état-valeur pour le contrôle seulement pour l'état donné en argument. La mise à jour sera faite sur une variable globale `v` qui sera définie plus tard.

In [1]:
def update_state(s):
    global v

    # compléter

    v[s] = #compléter

    return None

**Question 3**: Effectuer une itération état-valeur asynchrone qui met à jour un état par itération, et qui parcourt les états de façon cyclique. Combien de mises à jour sont-elles nécessaires pour obtenir une politique optimale ? Essayer différents ordres de parcours des états.

In [None]:
v = np.random.random(maze.shape)

# compléter

On souhaite à présent utiliser la structure du problème pour parcourir les états de façon plus efficace et diminuer le nombre de mises à jour permettant d'obtenir une politique optimale.

Pour un labyrinthe donné, il existe certains états $s$ pour lesquels on connaît immédiatement la valeur optimale $v_*(s)$.

**Question 4**: Écrire une fonction qui prend en argument une function état-valeur, et qui en renvoie une modifiée, où les valeurs optimales connues a priori ont été renseignées.

In [None]:
def set_known_values(v):
    # compléter
    return v

Un autre idée importante est que la valeur avec laquelle un état $s$ est mis à jour ne dépend que d'un petit nombre d'autres états, appelés "sucesseurs", c'est-à-dire ceux vers lesquels il existe une transition avec probabilité non-nulle. Autrement dit, les $s'$ tels qu'il existe une action $a$ telle que $p(r,s'|s,a)>0$. On dit alors également que $s$ est un prédecesseur de $s'$.

De plus, la valeur d'un état, après une première mise à jour, n'a besoin d'être à nouveau mise à jour que si la valeur d'un sucesseur a été modifiée.

**Question 5**: Écrire une fonction `predecessors` qui renvoie sous la forme d'une liste l'ensemble des prédecesseurs d'un état $s$ donné en argument. Ne pas oublier qu'un état peut être un prédecesseur pour lui-même.

In [None]:
def predecessors(s):
    # compléter

On souhaite effectuer des mises à jour sucessives, divisées en phases (ou "époques"), mettant en oeuvre les idées suivantes:
- chaque état sera mis à jour au plus une fois pendant une époque;
- à chaque fois que la valeur d'un état est mis à jour (et que la mise à jour a entraîné une modification de la valeur), on considère chacun de ses prédecesseurs: s'il n'a pas encore été mis à jour lors de cette époque, il est ajouté à une liste d'états à mettre à jour lors de l'époque courante; s'il a déjà été mis à jour lors de cette époque, il est ajouté à une liste d'états à mettre à jour lors de l'époque suivante;
- les listes d'état à mettre à jour seront utilisées en FIFO (first in, first out): on ajoute un nouvel élement en fin de liste avec `.append()`, et on retire un élément en début de liste avec `.pop()`;
- on commence la première époque par les prédecesseurs de l'état "d'arrivée".

**Question 6**: Modifier la fonction `update_state` afin de mettre en oeuvre ces idées. La fonction interagira avec les variables globales `updated_states`, `states_to_update`, `states_to_update_next_epoch`, `epoch`.

In [None]:
def update_state(s):
    global v, updated_states, states_to_update, states_to_update_next_epoch, epoch

    # compléter

**Question 7**: Mettre en oeuvre la démarche décrite ci-dessus et observer le nombre de mises à jour nécessaires pour obtenir une politique optimale.

In [None]:
nb_epochs = 100
v = np.random.random(maze.shape)
v = set_known_values(v)

# compléter

for epoch in range(nb_epochs):
    #compléter

**Question 8**: Mettre en oeuvre une variante où les mises à jour ne sont pas divisées en époques, et où les prédécesseurs à mettre à jour sont tous ajoutés à la même liste, et comparer le nombre de mises à jour nécessaires pour obtenir une politique optimale. Expliquer la différence.

# Exercice 2 - Itérations asynchrones pour le plus grand nombre à 5 chiffres

On reprend le problème du plus grand nombre à 5 chiffres. On prendra toujours pour fonction valeur initiale un vecteur nul.

In [3]:
import random
import math
import numpy as np

def sigma(s,a):
    number = list(s[:5])
    number[a-1] = 0
    return number

S = [(i1,i2,i3,i4,i5,i6) for i1 in [1,0] for i2 in [1,0] for i3 in [1,0] for i4 in [1,0] for i5 in [1,0] for i6 in range(10)]

def B_star(v):
    v_ = v.copy()
    for s in S:
        values = [0]
        for a in [1,2,3,4,5]:
            if s[a-1] == 1:
                number = sigma(s,a)
                values.append(10**(a-1)*s[5] + sum([v[tuple(number+[i])] for i in range(10)])/10)
        v_[s] = max(values)
    return v_

**Question 1**: Combien de mises à jours sont nécessaires à une itération état-valeur synchrone pour atteindre une fonction valeur optimale ?

In [4]:
v = dict()
for s in S:
    v[s] = 0.
n=0

# compléter

Fixed point obtained after 1600 updates


**Question 2**: Implémenter une itération état-valeur asynchrone qui met à jour les valeurs des états de façon cyclique. Trouver un ordre de mise à jour d'états minimisant le nombre de mises à jour nécessaires pour atteindre une fonction valeur optimale.

In [5]:
v = dict()
for s in S:
    v[s] = 0.
n=0
nb_updates = 0

# compléter

Fixed point obtained after 320 updates
