Différences

Ci-dessous, les différences entre deux révisions de la page.

--- groupe-dfo-bbo:projets:nni [2020/11/12 19:34]
tribchri [Paralléliser une évaluation sur plusieurs GPUs]
+++ groupe-dfo-bbo:projets:nni [2021/05/19 15:39] (Version actuelle)
rochvivi [Tester NNI]
@@ Ligne 7: / Ligne 7: @@
 Cette page Wiki regroupe nos expériences sur l'installation (NNI, Pytorch, Anaconda) et l'exécution (GPU, ssh, interface Web usager) de NNI.
-Une [[[[https://youtu.be/nm7v5Bgx164|vidéo du mini-tutoriel]] est disponible.
+**N'HÉSITEZ PAS À COLLABORER AVEC VOS PROPRES EXPÉRIENCES**
+Une [[[[https://youtu.be/nm7v5Bgx164|vidéo d'un mini-tutoriel]] basé sur un premier essai est disponible.
 ==== L'installation est facile ====
 * [[https://nni.readthedocs.io/en/latest/Tutorial/InstallationLinux.html#installation|L'installation]] requiert Python>=3.6. Il est possible de faire l'installation directement avec git en utilisant le code source de NNI sur [[https://github.com/Microsoft/nni.git|Github]] et en lançant le script d'installation :
-''git clone -b v1.9 https://github.com/Microsoft/nni.git''
+    git clone -b v1.9 https://github.com/Microsoft/nni.git
+    cd nni
-''cd nni''
+    ./install.sh
-''./install.sh''
 ==== Quelques trucs en vrac pour commencer ====
@@ Ligne 33: / Ligne 33: @@
   * Avant de lancer l'optimisation des hyperparamètres, on doit disposer de pytorch. Le plus simple est de procéder avec anaconda. Au GERAD, on peut charger anaconda sur nos machines. Par la suite on active l'environnement conda pytorch-1.6.0 qui est disponible au GERAD:
-'' module load anaconda ''
+    module load anaconda
+    conda activate pytorch-1.6.0
-'' conda activate pytorch-1.6.0''
   * Avant de lancer l'optimisation, on peut tester une évaluation simple. On se place dans le répertoire ''nni/examples/trials/cifar10-pytorch''. On doit modifier le fichier ''main.py'' pour spécifier des valeurs des hyperparamètres. Créons un fichier ''main_test.py'' à partir de ''main.py'' et faisons quelques modifications. On trouve dans le fichier les lignes suivantes :
-'' RCV_CONFIG = nni.get_next_parameter() ''
+    RCV_CONFIG = nni.get_next_parameter()
+    #RCV_CONFIG = {'lr': 0.1, 'optimizer': 'Adam', 'model':'senet18'}
-''#RCV_CONFIG = {'lr': 0.1, 'optimizer': 'Adam', 'model':'senet18'}''
 On doit commenter (#) la première ligne et dé-commenter la deuxième. Je recommande aussi de faire un premier test avec un nombre réduit d'epochs. Dans la partie 'main' du script python on remplace le défaut de 200 epochs par 5.
-''parser.add_argument("--epochs", type=int, default=200)'' ==> ''parser.add_argument("--epochs", type=int, default=5)''
+    parser.add_argument("--epochs", type=int, default=200)'' ==> ''parser.add_argument("--epochs", type=int, default=5)
   * Lorsque l'on lance la commande ''python3 main_test.py'' on obtient :
-''==> Preparing data..''
+    ==> Preparing data..
+    .. ..
-'' .. .. ''
+    ==> Building model..
+    Epoch: 0
-'' ==> Building model.. ''
-'' Epoch: 0 ''
 Le script ne fait pas utilisation de GPU (sinon on aurait une mention de CUDA) et on remarque que c'est très long car on utilise le CPU! Nous devons faire 2 commandes supplémentaires pour pouvoir utiliser les GPU avant de relancer le script :
@@ Ligne 72: / Ligne 67: @@
 ''searchSpacePath: search_space.json ''
   * Le fichier json précise le nom, le type et les valeurs possibles pour les variables.
-''
-{
-    "lr":{"_type":"choice", "_value":[0.1, 0.01, 0.001, 0.0001]}, ''
+    {
+    "lr":{"_type":"choice", "_value":[0.1, 0.01, 0.001, 0.0001]},
-''    "optimizer":{"_type":"choice", "_value":["SGD", "Adadelta", "Adagrad", "Adam", "Adamax"]}, ''
+    "optimizer":{"_type":"choice", "_value":["SGD", "Adadelta", "Adagrad", "Adam", "Adamax"]},
+    "model":{"_type":"choice", "_value":["vgg", "resnet18", "googlenet", "densenet121", "mobilenet", "dpn92", "senet18"]}
-''    "model":{"_type":"choice", "_value":["vgg", "resnet18", "googlenet", "densenet121", "mobilenet", "dpn92", "senet18"]}
+    }
-}''
-  * Dans cet exemple, on a choix de modèles de réseaux de neurones qui sont prédéfinis, ce qui permet d'avoir des performances très élevées.
+  * Dans cet exemple, on a choix de modèles de réseaux de neurones qui sont prédéfinis, ce qui permet d'avoir des performances très élevées.
   * Dans NNI, l'optimiseur des hyperparamètres est appelé "tuner" (j'imagine que c'est pour ne pas confondre avec l'optimiseur qui modifie les poids du réseau de neurones). Le choix se fait dans le fichier de configuration. Plusieurs tuners sont disponibles : [[https://nni.readthedocs.io/en/v1.6/Tuner/BuiltinTuner.html]].
   * Le fichier de configuration doit aussi préciser comment effectuer les évaluations (l'équivalent de notre BB_EXE). Il faut fournir la commande pour lancer le script python : ''python3 main.py''
@@ Ligne 96: / Ligne 87: @@
   * Au début d'une expérience, NNI va créer un répertoire contenant tous les logs du tuner et les fichiers produits par les évaluations. Par défaut, ce répertoire se trouve dans ''~/nni-experiments'' et porte comme nom l'identifiant de l'expérience (id). Cet identifiant est donné lorsque l'on créé un expérience. On peut modifier ce répertoire en rajoutant la ligne suivante dans le fichier ''config.yml'' :
-'' logDir: /home/username/mon_repertoire_adore/NNI/nni-experiments ''
+    logDir: /home/username/mon_repertoire_adore/NNI/nni-experiments
   * Une fois qu'une expérience est lancée sur une machine distante on peut visualiser ce qui se passe à partir de notre machine locale. Si ce n'est pas déjà fait, on se connecte par ssh et on créé un tunnel entre les ports 8080 (par défaut) de la machine locale et la machine distante (voir plus haut). On démarre notre fureteur préféré sur la machine locale et on entre l'adresse ''localhost:8080''. Magie, magie, normalement on devrait voir une page Web avec ce qui se passe dans notre expérience.