diff --git a/TraiNMT.ipynb b/TraiNMT.ipynb
new file mode 100644
index 0000000000000000000000000000000000000000..dde7cb898cc568c5c6f82ee0c6097d6dd4f5dce0
--- /dev/null
+++ b/TraiNMT.ipynb
@@ -0,0 +1,1348 @@
+{
+  "cells": [
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "vw-zMj1bEbmE"
+      },
+      "source": [
+        "# Entraîner son propre programme de traduction automatique neuronale\n",
+        "\n",
+        "## Ou, comment contraindre un outil de TA au romanesque\n",
+        "\n",
+        "<br>\n",
+        "\n",
+        "Cahier d'exercices préparé à l'occasion du colloque&nbsp;:\n",
+        "\n",
+        "*Traduction littéraire et intelligence artificielle&nbsp;: théorie, pratique, création*\n",
+        "\n",
+        "21 octobre 2022 &mdash; Paris, France\n",
+        "\n",
+        "<br>\n",
+        "\n",
+        "Damien Hansen\n",
+        "\n",
+        "Centre Interdisciplinaire de Recherche en Traduction et en Interprétation (Université de Liège, Belgique)\n",
+        "\n",
+        "Laboratoire d'Informatique de Grenoble (Université Grenoble Alpes, France)\n",
+        "\n",
+        "<br>\n",
+        "\n",
+        "Ce contenu est diffusé sous la licence CC BY-SA 4.0.\n",
+        "\n",
+        "Du moment que l'œuvre originale est dûment créditée et que l'œuvre partagée est diffusée avec la même licence, vous êtes libres de&nbsp;:\n",
+        "- partager &mdash; copier, distribuer et communiquer le matériel par tous moyens et sous tous formats&nbsp;;\n",
+        "- adapter &mdash; remixer, transformer et créer à partir du matériel\n",
+        "pour toute utilisation, y compris commerciale."
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "kz0N8YVk5sVa"
+      },
+      "source": [
+        "## Étape 0 &mdash; Initialisation"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "### Colab, kézako&nbsp;?"
+      ],
+      "metadata": {
+        "id": "BslB9R6LzSer"
+      }
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "Le format du cahier d'exercices (ici, un notebook Jupyter) est très pratique, car il permet de combiner du texte et du code au sein d'un même environnement interactif.\n",
+        "\n",
+        "Son hébergement sur Colaboratory permet de le partager facilement, de suivre et lancer les commandes sans avoir à configurer quoi que ce soit, mais aussi et surtout d'avoir accès à des ressources (GPU, espace disque), limitées, certes, mais suffisantes pour ce qui est proposé ici."
+      ],
+      "metadata": {
+        "id": "fu5dth3NzmEM"
+      }
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "### Prise en main"
+      ],
+      "metadata": {
+        "id": "fE-1hTxGziKA"
+      }
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "ZKp5RjmXFNaY"
+      },
+      "source": [
+        "Avant toute chose, aller dans le menu horizontal (en haut à gauche) et sélectionner&nbsp;:\n",
+        "\n",
+        "    Exécution > Modifier le type d'exécution > Accélérateur matériel > GPU\n",
+        "\n",
+        "Si l'environnement est en anglais&nbsp;:\n",
+        "\n",
+        "    Runtime > Change Runtime Type > Hardware Accelerator > GPU\n",
+        "\n",
+        "Un avertissement apparaîtra inévitablement après quelques minutes indiquant que le GPU n'est pas utilisé, mais la manipulation est nécessaire. Sans cela, nous ne pourrons pas lancer l'entraînement du système plus loin dans le notebook et il nous faudra tout reprendre depuis le début."
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "jXqomm_zmlTW"
+      },
+      "source": [
+        "![exécution notebook.png]() &emsp; ![paramètres notebook]()"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "GiA5YukAiMyF"
+      },
+      "source": [
+        "Lançons ensuite cette petite commande pour enlever le dossier par défaut de Colab et créer les nôtres. Cette manipulation fera office d'exemple&nbsp;: elle nous permettra de voir comment fonctionne Colab et comment l'on peut interagir avec cet environnement.\n",
+        "\n",
+        "Pour lancer une commande, cliquer simplement sur la flèche qui apparaîtra entre les crochets en survolant la zone de code avec le curseur. Pour la suite du parcours, laissez-vous simplement guider par les explications et lancez une à une les commandes proposées. Si une erreur survient, il est fort probable qu'elle soit liée à l'échec ou à l'oubli d'une commande précédente (chaque étape est importante)."
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "id": "ktPVIvC37KcM"
+      },
+      "outputs": [],
+      "source": [
+        "!rm -rf sample_data                                                               # Supprimer un dossier et son contenu\n",
+        "!mkdir datasets subword output output/{log,models,tensor,translations,vocab}      # Créer de nouveaux dossiers"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "Commençons aussi par télécharger quelques fichiers qui nous serviront plus tard. Nous verrons ainsi comment afficher et garder un &oelig;il sur les fichiers utilisés tout au long de l'exercice.\n",
+        "\n",
+        "Vous remarquerez que l'on voit déjà le résultat de certaines commandes sous la zone de code. Il s'agit du résultat attendu et obtenu lors de la mise au point du notebook, mais cela ne signifie pas pour autant que la commande a été exécutée dans votre environnement. Certaines étapes prennent un peu plus de temps que d'autres pour aboutir et il n'est possible de n'en lancer qu'une seule à la fois, mais vous pouvez vérifier la bonne exécution du code de votre côté grâce au symbole ✔️ qui apparaîtra à gauche de la cellule, accompagné du temps d'exécution."
+      ],
+      "metadata": {
+        "id": "qXm4N5rxkQXj"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "!wget https://gitlab.uliege.be/dhansen/tutorielmt/-/raw/main/subword_models/unigram_en.{model,vocab} -P subword\n",
+        "!wget https://gitlab.uliege.be/dhansen/tutorielmt/-/raw/main/subword_models/unigram_fr.{model,vocab} -P subword"
+      ],
+      "metadata": {
+        "id": "n9iSh66QdUE0"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "Pour afficher la liste des fichiers, cliquer sur l'icône représentant un dossier dans le menu vertical de gauche.\n",
+        "\n",
+        "Lorsque nous téléchargeons des fichiers sur Colab et que nous les modifions avec des commandes, il est possible que les changements ne soient pas immédiatement visibles, car la liste n'est pas automatiquement rafraîchie. Pour contourner ce problème, il suffit de l'actualiser en cliquant sur l'icône correspondante."
+      ],
+      "metadata": {
+        "id": "ZZ5dZcPLCxDt"
+      }
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "![fichiers notebook.png]() &emsp; ![actualiser notebook.png]()"
+      ],
+      "metadata": {
+        "id": "51uvJS22FWOK"
+      }
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "Les téléchargements et les installations se font sur un serveur Google. Rien ne sera installé sur votre machine.\n",
+        "\n",
+        "Cependant, à moins de souscrire un abonnement, l'accès au serveur se coupera automatiquement après une période d'inactivité de 90 minutes, après quoi tous les fichiers téléchargés seront supprimés."
+      ],
+      "metadata": {
+        "id": "VWXEdwe90_VT"
+      }
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "PVTgrS_egRGm"
+      },
+      "source": [
+        "## Étape 1 &mdash; Installation"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "QGuB-yta57qQ"
+      },
+      "source": [
+        "Tout d'abord, nous allons avoir besoin d'installer les outils suivants&nbsp;:\n",
+        "- `OpusFilter` (pour télécharger nos corpus)&nbsp;;\n",
+        "- `mosestokenizer` et `SentencePiece` (pour tokeniser nos textes)&nbsp;;\n",
+        "- `OpenNMT-py` (pour entraîner notre système)&nbsp;;\n",
+        "- `sacreBLEU` (pour évaluer les textes de sortie).\n",
+        "\n",
+        "Le tokeniseur Moses est l'un des plus fréquemment utilisés en TAL. Nous utiliserons ici un module qui nous permettra aussi de nettoyer légèrement nos textes, mais il est un peu lent. Il existe aussi un module `fast-mosestokenizer`, qui est beaucoup plus rapide et qui facilite le traitement de corpus plus larges.\n",
+        "\n",
+        "(SentencePiece et sacreBLEU sont quant à eux installés par défaut avec OpenNMT.)"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "id": "syYQkz7KGQOI"
+      },
+      "outputs": [],
+      "source": [
+        "!pip install opusfilter opennmt-py==2.3.0 mosestokenizer"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "MWqCleaBLGwF"
+      },
+      "source": [
+        "Commençons par télécharger des corpus parallèles bilingues couramment utilisés pour mettre au point des systèmes de TA anglais-français. Tous sont librement disponibles sur le site https://opus.nlpl.eu/, mais nous allons nous concentrer tout d'abord sur l'un de ces jeux de données, le corpus [Books](https://opus.nlpl.eu/Books.php), que nous allons télécharger directement&nbsp;:"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "id": "2cQOxbvqVb5i"
+      },
+      "outputs": [],
+      "source": [
+        "!wget https://opus.nlpl.eu/download.php?f=Books/v1/moses/en-fr.txt.zip -O books.zip # Télécharger le corpus sous un nom donné\n",
+        "!unzip books.zip Books.en-fr.{en,fr}                                                # Décompresser les fichiers en et fr de l'archive\n",
+        "!mv Books.en-fr.en books_raw.en ; mv Books.en-fr.fr books_raw.fr                    # Commande optionnelle pour renommer ces fichiers"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "1j_Kkk3dcPWR"
+      },
+      "source": [
+        "Voyons à quoi ressemblent nos fichiers&nbsp;:"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "XSyIa-jWcZHN",
+        "outputId": "1e50176e-7e73-4b1c-a09b-951f0ba9c817"
+      },
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "    1\tThe Wanderer\t\t\t\t\t\t \t Le grand Meaulnes\n",
+            "    2\tAlain-Fournier\t\t\t\t\t\t \t Alain-Fournier\n",
+            "    3\tFirst Part\t\t\t\t\t\t \t PREMIÈRE PARTIE\n",
+            "    4\tI\t\t\t\t\t\t\t \t CHAPITRE PREMIER\n",
+            "    5\tTHE BOARDER\t\t\t\t\t\t \t LE PENSIONNAIRE\n",
+            "    6\tHe arrived at our home on a Sunday of November, 189-.\t \t Il arriva chez nous un dimanche de novembre 189-…\n",
+            "    7\tI still say 'our home,' although the house no longer belo\t Je continue à dire « chez nous », bien que la maison ne nous\n",
+            "    8\tWe left that part of the country nearly fifteen years ago\t Nous avons quitté le pays depuis bientôt quinze ans et nous\n",
+            "    9\tWe were living in the building of the Higher Elementary C\t Nous habitions les bâtiments du Cours Supérieur de Sainte-A\n",
+            "   10\tMy father, whom I used to call M. Seurel as did other pup\t Mon père, que j’appelais M. Seurel, comme les autres élèves,\n",
+            "----------------------------------------------------------------------------------------------------------------------------------\n",
+            "76891\tDans ce magnifique que palais de Vignano, que le comte lu\t In this magnificent palace of Vignano, which the Conte ha\n",
+            "76892\tFabrice n’eût pas manqué un jour de venir à Vignano.\t \t Fabrizio had never missed a day in going to Vignano.\n",
+            "76893\tLa comtesse en un mot réunissait toutes les apparences du \t The Contessa, in a word, combined all the outward appeara\n",
+            "76894\tLes prisons de Parme étaient vides, le comte immensément ri\t The prisons of Parma were empty, the Conte immensely rich\n",
+            "76895\tThe Red and The Black\t\t\t\t\t \t Le Rouge et le Noir\n",
+            "76896\tStendhal\t\t\t\t\t\t \t Stendhal\n",
+            "76897\tBOOK ONE\t\t\t\t\t\t \t Livre Premier\n",
+            "76898\tThe truth, the harsh truth\t\t\t\t \t La vérité, l’âpre vérité.\n",
+            "76899\tDANTON\t\t\t\t\t\t\t \t DANTON.\n",
+            "76900\tCHAPTER 1 A Small Town\t\t\t\t\t \t Chapitre premier. Une petite ville\n",
+            "----------------------------------------------------------------------------------------------------------------------------------\n",
+            "19581\t“Well, go,” said I: so the boy jumped into the water and ta\t Aussitôt ce garçon sauta à l'eau, et tenant un petit mousque\n",
+            "19582\tThis was game indeed to us, but this was no food; and I w\t C'était véritablement une chasse pour nous, mais ce n'était\n",
+            "19583\tHowever, Xury said he would have some of him; so he comes\t Xury, néanmoins, voulait en emporter quelque chose. Il vin\n",
+            "19584\t“For what, Xury?” said I. “Me cut off his head,” said he.\t \t --«Pourquoi faire, Xury? lui dis-je.» --«Moi trancher sa tête\n",
+            "19585\tHowever, Xury could not cut off his head, but he cut off \t Toutefois Xury ne put pas la lui trancher, mais il lui co\n",
+            "19586\tI bethought myself, however, that, perhaps the skin of hi\t Cependant je réfléchis que sa peau pourrait sans doute, d'u\n",
+            "19587\tSo Xury and I went to work with him; but Xury was much th\t Xury et moi allâmes donc nous mettre à l'œuvre; mais à cette\n",
+            "19588\tIndeed, it took us both up the whole day, but at last we \t Au fait, cela nous occupa tout deux durant la journée entiè\n",
+            "19589\tAfter this stop, we made on to the southward continually \t Après cette halte, nous naviguâmes continuellement vers le\n",
+            "19590\tMy design in this was to make the river Gambia or Senegal\t Mon dessein était alors d'atteindre le fleuve de Gambie ou\n",
+            "19591\tWhen I had pursued this resolution about ten days longer,\t ROBINSON ET XURY VAINQUEURS D'UN LION Je savais que touts\n",
+            "19592\tI was once inclined to have gone on shore to them; but Xu\t J'eus une fois l'envie de descendre à terre vers eux; mais\n",
+            "19593\tHowever, I hauled in nearer the shore that I might talk t\t Je remarquai qu'ils n'avaient point d'armes à la main, un\n",
+            "19594\tI observed they had no weapons in their hand, except one,\t Sur ce, j'abaissai le haut de ma voile; je m'arrêtai proch\n",
+            "19595\tUpon this I lowered the top of my sail and lay by, and tw\t Je n'osais pas aller à terre vers eux, qui n'étaient pas mo\n",
+            "19596\tWe made signs of thanks to them, for we had nothing to ma\t Toutefois, je pencherais plutôt pour le dernier, parce que\n",
+            "19597\tThe man that had the lance or dart did not fly from them,\t Néanmoins, ces deux créatures coururent droit à la mer, et,\n",
+            "19598\tAs soon as he came fairly within my reach, I fired, and s\t Dès qu'il fut à ma portée, je fis feu, et je le frappai droi\n",
+            "19599\tIt is impossible to express the astonishment of these poo\t Quelques-uns d'entre eux faillirent à en mourir d'effroi,\n",
+            "19600\tI found him by his blood staining the water; and by the h\t Son sang, qui teignait l'eau, me le fit découvrir; et, à l'\n"
+          ]
+        }
+      ],
+      "source": [
+        "!pr --pages 1:1 -m -n -l 10 -w 125 -s$'\\t ' books_raw.{en,fr}\n",
+        "print(\"-\"*130)\n",
+        "!pr --pages 7690:7690 -m -n -l 10 -w 125 -s$'\\t ' books_raw.{en,fr}\n",
+        "print(\"-\"*130)\n",
+        "!pr --pages 980:980 -T -m -n -l 20 -w 125 -s$'\\t ' books_raw.{en,fr}"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "haifLILtq5gI"
+      },
+      "source": [
+        "Comme on le voit, ces fichiers (souvent très longs) posent plusieurs problèmes de qualité&nbsp;:\n",
+        "- les conventions typographiques ne sont pas les mêmes tout au long du fichier&nbsp;;\n",
+        "- les langues sont parfois inversées (lignes 76891-76900)&nbsp;;\n",
+        "- des informations sont parfois présentes dans une langue et pas dans l'autre (ligne 19594)&nbsp;;\n",
+        "- l'alignement n'est pas toujours correct (lignes 19593-19594)&nbsp;;\n",
+        "- ..."
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "EcAr2LbC6Lxo"
+      },
+      "source": [
+        "## Étape 2 &mdash; Préparation"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "C-WUOl2H6ReX"
+      },
+      "source": [
+        "On peut régler une petite partie des problèmes typographiques en tokenisant notre texte et en normalisant la ponctuation. La démarche est d'ailleurs nécessaire pour la bonne prise en charge des textes par la machine.\n",
+        "\n",
+        "L'étape de normalisation permet à la fois d'harmoniser la ponctuation et de s'assurer qu'aucun caractère spécial ne vienne perturber le bon traitement du texte (par exemple, l'apostrophe dactylographique droite et l'apostrophe typographique courbe ne sont pas traitées de la même manière).\n",
+        "\n",
+        "La tokenisation quant à elle permet de séparer les mots et la ponctuation (pour la plupart des applications en traitement automatique des langues, on considère généralement que chaque suite de caractères séparée par une espace est un mot différent)."
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "id": "7Y1SyquPlRIJ"
+      },
+      "outputs": [],
+      "source": [
+        "from mosestokenizer import *                                      # Importer les fonctions requises\n",
+        "\n",
+        "tokenize = MosesTokenizer('en')                                   # Définir la langue pour la tokenisation\n",
+        "normalize = MosesPunctuationNormalizer('en')                      # Définir la langue pour la normalisation\n",
+        "with open('books_raw.en', 'r', encoding='utf-8') as input:        # Ouvrir le fichier d'origine\n",
+        "  output = open('books_tok.en', 'w', encoding='utf-8')            # Ouvrir le fichier de sortie\n",
+        "  for line in input:                                              # Lire les lignes une à une\n",
+        "    print(*[l for l in tokenize(normalize(line))], file=output)   # Normaliser, tokeniser et reporter la ligne dans le nouveau fichier\n",
+        "output.close()                                                    # Fermer le fichier de sortie\n",
+        "\n",
+        "tokenize = MosesTokenizer('fr')                                   # Même démarche pour le français\n",
+        "normalize = MosesPunctuationNormalizer('fr')\n",
+        "with open('books_raw.fr', 'r', encoding='utf-8') as input:\n",
+        "  output = open('books_tok.fr', 'w', encoding='utf-8')\n",
+        "  for line in input:\n",
+        "    print(*[l for l in tokenize(normalize(line))], file=output)\n",
+        "output.close()"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "WRtimmfJw4KQ"
+      },
+      "source": [
+        "Comme le montrent les deux commandes qui suivent, le nombre total de mots (ou tokens) n'est pas le même dans les fichiers avant et après la tokenisation, car la machine compte des occurrences telles que «&nbsp;j'appelais&nbsp;» comme un seul token. Cela signifie que les occurrences telles que «&nbsp;et&nbsp;» / «&nbsp;et,&nbsp;» / «&nbsp;et.&nbsp;» seront comptées comme trois mots différents. La tokenisation réduit ainsi considérablement le nombre d'occurrences différentes et facilite formidablement la lecture informatique du texte."
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "MLELmAZUw-z3",
+        "outputId": "bc9e8b12-943d-40d7-b3ec-79bac1325ffa"
+      },
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "2715071 books_raw.en\n",
+            "3267447 books_tok.en\n"
+          ]
+        }
+      ],
+      "source": [
+        "!wc -w books_raw.en # Compter le nombre de \"mots\" dans le fichier non tokenisé\n",
+        "!wc -w books_tok.en # Compter le nombre de \"mots\" dans le fichier tokenisé"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "xRlWw5UsjDrO"
+      },
+      "source": [
+        "Voyons maintenant à quoi ressemble notre texte."
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "VUXjQB9ujHsa",
+        "outputId": "cf3fc5cf-1158-4c20-8cde-2a81b2b53aaa"
+      },
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            " 1\tThe Wanderer\t\t\t\t\t\t \t Le grand Meaulnes\n",
+            " 2\tAlain @-@ Fournier\t\t\t\t\t \t Alain @-@ Fournier\n",
+            " 3\tFirst Part\t\t\t\t\t\t \t PREMIÈRE PARTIE\n",
+            " 4\tI\t\t\t\t\t\t\t \t CHAPITRE PREMIER\n",
+            " 5\tTHE BOARDER\t\t\t\t\t\t \t LE PENSIONNAIRE\n",
+            " 6\tHe arrived at our home on a Sunday of November , 189- .\t \t Il arriva chez nous un dimanche de novembre 189- ...\n",
+            " 7\tI still say &apos; our home , &apos; although the house n\t Je continue à dire &quot; chez nous &quot; , bien que la m\n",
+            " 8\tWe left that part of the country nearly fifteen years ago\t Nous avons quitté le pays depuis bientôt quinze ans et nous\n",
+            " 9\tWe were living in the building of the Higher Elementary C\t Nous habitions les bâtiments du Cours Supérieur de Sainte @\n",
+            "10\tMy father , whom I used to call M. Seurel as did other pu\t Mon père , que j&apos; appelais M. Seurel , comme les autr\n",
+            "11\tMy mother taught the infants .\t\t\t\t \t Ma mère faisait la petite classe .\n",
+            "12\tAt the extreme end of the small town , a long red house w\t Une longue maison rouge , avec cinq portes vitrées , sous\n",
+            "13\tAt the time of some new &apos; appointments , &apos; a wh\t Le hasard des &quot; changements &quot; , une décision d&a\n",
+            "14\tTowards the end of the summer holidays , a long time ago \t Vers la fin des vacances , il y a bien longtemps , une vo\n",
+            "15\tUrchins who were stealing peaches in the garden silently \t Des gamins qui volaient des pêches dans le jardin s &quot;\n",
+            "16\tShe had come out to impart her trouble to me . While spea\t Tout en me parlant , elle avait essuyé doucement avec son\n",
+            "17\tThen she had gone back to consider what doors and windows\t Puis elle était rentrée faire le compte de toutes les ouver\n",
+            "18\tThus to @-@ day I picture our arrival .\t\t\t \t C&apos; est ainsi , du moins , que j&apos; imagine aujour\n",
+            "19\tFor as soon as I wish to bring back the distant memory of\t Car aussitôt que je veux retrouver le lointain souvenir de\n",
+            "20\tIf I try to imagine that first night which I must have sp\t Et si j&apos; essaie d&apos; imaginer la première nuit que\n",
+            "21\tAnd that quiet countryside - the school , old Father Mart\t Tout ce paysage paisible - l &quot; école , le champ du pèr\n",
+            "22\tYet we had already been ten years in that district when M\t Nous étions pourtant depuis dix ans dans ce pays lorsque M\n",
+            "23\tI was fifteen .\t\t\t\t\t\t \t J&apos; avais quinze ans .\n",
+            "24\tIt was a cold Sunday of November , the first day of autum\t C &quot; était un froid dimanche de novembre , le premier\n",
+            "25\tAll day Millie had waited for the station omnibus to brin\t Toute la journée , Millie avait attendu une voiture de La\n"
+          ]
+        }
+      ],
+      "source": [
+        "!pr --pages 1:1 -T -m -n2 -l 25 -w 125 -s$'\\t ' books_tok.{en,fr}"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "24Gw8RjMf8-c"
+      },
+      "source": [
+        "La majeure partie de notre texte est maintenant correctement tokenisée&nbsp;: la ponctuation est séparée des mots, excepté pour les formes élidées (voir les apostrophes gérées différemment en français et en anglais), et les abréviations sont conservées telles quelles.\n",
+        "\n",
+        "Néanmoins, nous pouvons voir une fois encore que ce traitement entièrement automatique n'est pas parfait (c'est la contrepartie négative du traitement automatique qui permet de prendre en charge un large volume de données textuelles). Regardons, par exemple, les lignes 18 et 24&nbsp;: la première occurrence «&nbsp;C'est&nbsp;» est traitée correctement, mais l'apostrophe est espacée et convertie en guillemet dans le cas de «&nbsp;C'était&nbsp;» (l'étape de normalisation semble poser problème lorsque des caractères spéciaux suivent la ponctuation). Ce genre de problème montre bien l'importance de toujours retourner jeter un &oelig;il aux textes pour repérer les éventuelles fautes ou erreurs liées au traitement des données.\n",
+        "\n",
+        "(La méthode utilisée ici existe aussi sous forme de scripts ou de modules qui ont été mis à jour pour éviter certains problèmes, dont celui évoqué ci-dessus. L'un de ceux-ci est utilisé dans [la version abrégée du cahier d'exercices](https://colab.research.google.com/drive/1aozKjHWeWMsJJ007Vd7p50I_jHqjIn5D?usp=sharing).)"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "qo379aNF0nTc"
+      },
+      "source": [
+        "Récemment, les recherches en TAL ont été plus loin encore et ont montré que l'on pouvait atteindre de meilleures performances en découpant le texte à un niveau inférieur au mot (ou token). On peut utiliser pour cela un autre type de tokeniseur tel que [SentencePiece](https://github.com/google/sentencepiece).\n",
+        "\n",
+        "Cette segmentation en sous-mots permet aussi à la machine de gérer des mots non vus. Par exemple, si les occurrences «&nbsp;terriblement&nbsp;» (découpé en «&nbsp;terrible - ment&nbsp;») et «&nbsp;incroyable&nbsp;» ont été vues, «&nbsp;incroyablement&nbsp;» ne sera pas considéré comme un mot nouveau.\n",
+        "\n",
+        "Ce type de découpage a poussé des chercheurs et chercheuses à dire que la machine pouvait ainsi acquérir des compétences linguistiques, mais la segmentation opère parfois à un niveau très abstrait pour l'humain. Regardons comment cela modifie notre texte&nbsp;:"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "YSe-492g2hwZ",
+        "outputId": "71ed07c9-03f1-418b-e851-70a303d648bb"
+      },
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            " 1\t▁Le ▁grand ▁Mea ulnes\n",
+            " 2\t▁Al ain ▁ @ - @ ▁F our nier\n",
+            " 3\t▁P RE MI È RE ▁ PA RT IE\n",
+            " 4\t▁CHAP ITRE ▁P RE MI ER\n",
+            " 5\t▁ LE ▁P EN SI ON NA I RE\n",
+            " 6\t▁Il ▁arriva ▁chez ▁nous ▁un ▁dimanche ▁de ▁novembre ▁18 9 - ▁...\n",
+            " 7\t▁Je ▁continue ▁à ▁dire ▁& quot ; ▁chez ▁nous ▁& quot ; ▁, ▁bien ▁que ▁la ▁maison ▁ne ▁nous ▁appartien ne ▁plus\n",
+            " 8\t▁Nous ▁avons ▁quitté ▁le ▁pays ▁depuis ▁bientôt ▁qui nze ▁ans ▁et ▁nous ▁n & apos ; ▁y ▁reviendrons ▁certaine\n",
+            " 9\t▁Nous ▁habit ions ▁les ▁bâtiment s ▁du ▁Cour s ▁Su péri eur ▁de ▁Saint e ▁ @ - @ ▁Ag ath e ▁.\n",
+            "10\t▁Mon ▁père ▁, ▁que ▁j & apos ; ▁appel ais ▁M . ▁S eur el ▁, ▁comme ▁les ▁autres ▁élèves ▁, ▁y ▁dirige ait ▁à ▁la ▁f\n",
+            "11\t▁Ma ▁mère ▁faisait ▁la ▁petite ▁classe ▁.\n",
+            "12\t▁Une ▁longue ▁maison ▁rouge ▁, ▁avec ▁cinq ▁portes ▁vit r ées ▁, ▁sous ▁des ▁vigne s ▁vierge s ▁, ▁à ▁l & apos \n",
+            "13\t▁Le ▁hasard ▁des ▁& quot ; ▁changements ▁& quot ; ▁, ▁une ▁décision ▁d & apos ; ▁in spect eur ▁ou ▁de ▁pré f\n",
+            "14\t▁Ver s ▁la ▁fin ▁des ▁vacances ▁, ▁il ▁y ▁a ▁bien ▁longtemps ▁, ▁une ▁voiture ▁de ▁pays an ▁, ▁qui ▁précéd ait ▁no\n",
+            "15\t▁Des ▁gamin s ▁qui ▁vol aient ▁des ▁pêche s ▁dans ▁le ▁jardin ▁s ▁& quot ; ▁étaient ▁enfui s ▁silencieuse me\n"
+          ]
+        }
+      ],
+      "source": [
+        "# Les modèles utilisés pour la segmentation doivent être entraîné sur l'ensemble des corpus qui seront utilisés pour notre tâche.\n",
+        "# Cela peut prendre un certain temps, nous utiliserons donc des modèles pré-entraînés que nous avons téléchargés plus haut.\n",
+        "\n",
+        "import sentencepiece as spm\n",
+        "\n",
+        "#spm.SentencePieceTrainer.train(input='books_tok.en', model_prefix='unigram_en', vocab_size=16000, character_coverage=1.0)\n",
+        "#spm.SentencePieceTrainer.train(input='books_tok.fr', model_prefix='unigram_fr', vocab_size=16000, character_coverage=1.0)\n",
+        "\n",
+        "sp = spm.SentencePieceProcessor(model_file='subword/unigram_en.model')\n",
+        "with open('books_tok.en', 'r', encoding='utf-8') as input, open('books_sub.en', 'w', encoding='utf-8') as output:\n",
+        "    for line in input:\n",
+        "        print(*[l for l in sp.encode(line, out_type=str)], file=output)\n",
+        "\n",
+        "sp = spm.SentencePieceProcessor(model_file='subword/unigram_fr.model')\n",
+        "with open('books_tok.fr', 'r', encoding='utf-8') as input, open('books_sub.fr', 'w', encoding='utf-8') as output:\n",
+        "    for line in input:\n",
+        "        print(*[l for l in sp.encode(line, out_type=str)], file=output)\n",
+        "\n",
+        "!pr --pages 1:1 -T -m -n2 -l 15 -w 100 books_sub.fr"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "zkfcpPwnxbaI"
+      },
+      "source": [
+        "Ce découpage est opéré de manière purement statistique. Cela signifie que certaines divisions peuvent faire sens pour nous, humains francophones (p. ex. «&nbsp;gamin-s&nbsp;», «&nbsp;vol-aient&nbsp;», «&nbsp;pêche-s&nbsp;», «&nbsp;enfui-s&nbsp;»...), tandis que d'autres divisions nous sembleront beaucoup plus abstraites (p. ex. pourquoi «&nbsp;Mea-ulnes&nbsp;» ou «&nbsp;vit-r-ées&nbsp;»&nbsp;?). Toutefois, le découpage en sous-mots fonctionne très bien en pratique et améliore véritablement le résultat.\n",
+        "\n",
+        "L'avantage principal de cette étape est qu'elle permet de fixer la taille de notre vocabulaire à un nombre donné (ici, 16 000 tokens), où tout ce qui apparaît dans notre corpus est représenté d'une manière ou d'une autre. Sans cela, il aurait fallu définir une taille de vocabulaire beaucoup plus élevée (p. ex. les 50&nbsp;000 tokens les plus fréquents du corpus) et laisser irrévocablement de côté tout ce qui n'apparaît pas dans cette liste.\n",
+        "\n",
+        "Passons à présent à l'entraînement de notre système, en espérant que nous ayons suffisamment de données pour que les quelques problèmes soulevés jusqu'ici n'influent pas (trop) sur la suite du processus."
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "yFWx-E1h6gkS"
+      },
+      "source": [
+        "## Étape 3 &mdash; Entraînement"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "Le corpus Books n'est évidemment pas suffisant pour entraîner à lui seul un système de TA neuronale (plus gourmande en données que les paradigmes précédents). Idéalement, plus d'un ou deux millions de phrases alignées dans les deux langues sont nécessaires ; en pratique, plusieurs dizaines de millions sont utilisées.\n",
+        "\n",
+        "Le code ci-dessous permet de télécharger d'un seul coup plusieurs corpus et de pré-traiter automatiquement ces données grâce à un fichier de configuration, mais le téléchargement de tous ces fichiers serait excessivement long (~ 40 minutes). Regardons donc simplement à quoi ressemble ce fichier et téléchargeons à la place une version pré-traitée de ces 4 corpus, ainsi qu'une version corrigée du corpus Books, mises à disposition sur le dépôt de ce projet."
+      ],
+      "metadata": {
+        "id": "w0HKlqYBzHAa"
+      }
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "id": "h0ujhKYxwqQD"
+      },
+      "outputs": [],
+      "source": [
+        "with open('corpus.yaml', 'w', encoding='utf-8') as config:\n",
+        "  config.write('''common:\n",
+        "\n",
+        "  output_directory: datasets\n",
+        "\n",
+        "steps:\n",
+        "\n",
+        "  - type: opus_read\n",
+        "    parameters:\n",
+        "      corpus_name: Europarl\n",
+        "      source_language: en\n",
+        "      target_language: fr\n",
+        "      release: v8\n",
+        "      preprocessing: raw\n",
+        "      src_output: europarl.en\n",
+        "      tgt_output: europarl.fr\n",
+        "      suppress_prompts: true\n",
+        "\n",
+        "  - type: opus_read\n",
+        "    parameters:\n",
+        "      corpus_name: GlobalVoices\n",
+        "      source_language: en\n",
+        "      target_language: fr\n",
+        "      release: v2018q4\n",
+        "      preprocessing: raw\n",
+        "      src_output: globalvoices.en\n",
+        "      tgt_output: globalvoices.fr\n",
+        "      suppress_prompts: true\n",
+        "\n",
+        "  - type: opus_read\n",
+        "    parameters:\n",
+        "      corpus_name: News-Commentary\n",
+        "      source_language: en\n",
+        "      target_language: fr\n",
+        "      release: v16\n",
+        "      preprocessing: raw\n",
+        "      src_output: news.en\n",
+        "      tgt_output: news.fr\n",
+        "      suppress_prompts: true\n",
+        "\n",
+        "  - type: opus_read\n",
+        "    parameters:\n",
+        "      corpus_name: TED2020\n",
+        "      source_language: en\n",
+        "      target_language: fr\n",
+        "      release: v1\n",
+        "      preprocessing: raw\n",
+        "      src_output: ted.en\n",
+        "      tgt_output: ted.fr\n",
+        "      suppress_prompts: true\n",
+        "\n",
+        "  - type: subset\n",
+        "    parameters:\n",
+        "      inputs: [europarl.en, globalvoices.en, news.en, ted.en]\n",
+        "      outputs: [europarl_small.en, globalvoices_small.en, news_small.en, ted_small.en]\n",
+        "      seed: 123\n",
+        "      size: 40000\n",
+        "\n",
+        "  - type: subset\n",
+        "    parameters:\n",
+        "      inputs: [europarl.fr, globalvoices.fr, news.fr, ted.fr]\n",
+        "      outputs: [europarl_small.fr, globalvoices_small.fr, news_small.fr, ted_small.fr]\n",
+        "      seed: 123\n",
+        "      size: 40000\n",
+        "\n",
+        "  - type: preprocess\n",
+        "    parameters:\n",
+        "      inputs: [europarl_small.en, globalvoices_small.en, news_small.en, ted_small.en]\n",
+        "      outputs: [europarl_tok.en, globalvoices_tok.en, news_tok.en, ted_tok.en]\n",
+        "      preprocessors:\n",
+        "        - Tokenizer:\n",
+        "            tokenizer: moses\n",
+        "            languages: [en, en, en, en]\n",
+        "\n",
+        "  - type: preprocess\n",
+        "    parameters:\n",
+        "      inputs: [europarl_small.fr, globalvoices_small.fr, news_small.fr, ted_small.fr]\n",
+        "      outputs: [europarl_tok.fr, globalvoices_tok.fr, news_tok.fr, ted_tok.fr]\n",
+        "      preprocessors:\n",
+        "        - Tokenizer:\n",
+        "            tokenizer: moses\n",
+        "            languages: [fr, fr, fr, fr]''')\n",
+        "config.close()\n",
+        "\n",
+        "#!opusfilter corpus.yaml\n",
+        "#!rm ./data/*.{gz,zip}\n",
+        "#!rm ./data/*_small.{en,fr}"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "Nous ne téléchargerons que les 10 000 premières lignes de chaque document pour éviter de gaspiller du temps et des ressources&nbsp;:"
+      ],
+      "metadata": {
+        "id": "N96pmR_9uijk"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "# Corpus génériques\n",
+        "\n",
+        "!curl -r0-1 \"https://gitlab.uliege.be/dhansen/tutorielmt/-/raw/main/datasets/globalvoices.en\" -s | head -10000 > datasets/globalvoices.en\n",
+        "!curl -r0-1 \"https://gitlab.uliege.be/dhansen/tutorielmt/-/raw/main/datasets/globalvoices.fr\" -s | head -10000 > datasets/globalvoices.fr\n",
+        "\n",
+        "!curl -r0-1 \"https://gitlab.uliege.be/dhansen/tutorielmt/-/raw/main/datasets/europarl.en\" -s | head -10000 > datasets/europarl.en\n",
+        "!curl -r0-1 \"https://gitlab.uliege.be/dhansen/tutorielmt/-/raw/main/datasets/europarl.fr\" -s | head -10000 > datasets/europarl.fr\n",
+        "\n",
+        "!curl -r0-1 \"https://gitlab.uliege.be/dhansen/tutorielmt/-/raw/main/datasets/news.en\" -s | head -10000 > datasets/news.en\n",
+        "!curl -r0-1 \"https://gitlab.uliege.be/dhansen/tutorielmt/-/raw/main/datasets/news.fr\" -s | head -10000 > datasets/news.fr\n",
+        "\n",
+        "!curl -r0-1 \"https://gitlab.uliege.be/dhansen/tutorielmt/-/raw/main/datasets/ted.en\" -s | head -10000 > datasets/ted.en\n",
+        "!curl -r0-1 \"https://gitlab.uliege.be/dhansen/tutorielmt/-/raw/main/datasets/ted.fr\" -s | head -10000 > datasets/ted.fr\n",
+        "\n",
+        "# Corpus spécialisé\n",
+        "\n",
+        "!wget https://gitlab.uliege.be/dhansen/tutorielmt/-/raw/main/datasets/books.{en,fr} -P datasets"
+      ],
+      "metadata": {
+        "id": "fUq6bEH1vDvl"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "Ces corpus divers nous serviront à entraîner un système (ou modèle) dit «&nbsp;générique&nbsp;». En effet, la taille de nos corpus est aussi importante que leur qualité et leur pertinence par rapport au domaine traité&nbsp;:\n",
+        "\n",
+        "- le volume des données permet de mettre au point un système robuste, qui produira des phrases grammaticalement correctes&nbsp;;\n",
+        "- les données spécialisées permettront à ce même système de s'adapter à une terminologie et à un style donnés.\n",
+        "\n",
+        "Toutefois, comme notre but est d'adapter un de ces modèles au domaine littéraire, nous l'affinerons sur notre corpus Books préalablement traité. La dernière chose à faire est de séparer ce corpus d'entraînement en trois jeux distincts&nbsp;:\n",
+        "\n",
+        "- un jeu d'entraînement (la majeure partie du corpus)&nbsp;;\n",
+        "- un jeu de validation (utilisé durant l'entraînement pour en suivre l'évolution)&nbsp;;\n",
+        "- un jeu de test (pour évaluer notre système sur des données non vues).\n",
+        "\n",
+        "Il est extrêmement important que ces deux derniers jeux de données ne fassent pas partie des données d'entraînement, car le système doit être testé sur des phrases auxquelles il n'a pas été confronté durant sa mise au point."
+      ],
+      "metadata": {
+        "id": "XQNHuksbJmFi"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "# Pour notre cas, créons un jeu de test à partir de 2 chapitres (~150 lignes) d'un même livre.\n",
+        "\n",
+        "!sed -n '112551,112705p;112706q' datasets/books.en > datasets/tra.en ; truncate -s -1 datasets/tra.en\n",
+        "!sed -n '112551,112705p;112706q' datasets/books.fr > datasets/tra.fr ; truncate -s -1 datasets/tra.fr\n",
+        "\n",
+        "# Enlevons maintenant du jeu d'entraînement les phrases utilisées pour le jeu de test :\n",
+        "\n",
+        "!sed '112551,112705d' datasets/books.en > temp.txt ; mv temp.txt datasets/books.en\n",
+        "!sed '112551,112705d' datasets/books.fr > temp.txt ; mv temp.txt datasets/books.fr\n",
+        "\n",
+        "# Passons ensuite au corpus de validation et extrayons les 9 chapitres qui précèdent notre jeu de test :\n",
+        "\n",
+        "!sed -n '111671,112550p;112551q' datasets/books.en > datasets/val.en ; truncate -s -1 datasets/val.en\n",
+        "!sed -n '111671,112550p;112551q' datasets/books.fr > datasets/val.fr ; truncate -s -1 datasets/val.fr\n",
+        "\n",
+        "# Supprimons à nouveau les lignes utilisées pour le jeu de validation :\n",
+        "\n",
+        "!sed '111671,112550d' datasets/books.en > temp.txt ; mv temp.txt datasets/books.en\n",
+        "!sed '111671,112550d' datasets/books.fr > temp.txt ; mv temp.txt datasets/books.fr\n",
+        "\n",
+        "# Supprimons enfin les fichiers qui ne nous serviront plus :\n",
+        "\n",
+        "!rm ./*_{raw,tok,sub}.en ; rm ./*_{raw,tok,sub}.fr ; rm ./books.zip"
+      ],
+      "metadata": {
+        "id": "rmDC_55Pykjn"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "9AMicn9V8ATl"
+      },
+      "source": [
+        "Dans un cas réel, il nous faudrait environ 10x plus d'exemples pour le test et la validation, mais ceci nous servira pour l'exercice. Nous pouvons à présent passer à l'entraînement.\n",
+        "\n",
+        "Tous les paramètres et les fichiers liés à l'entraînement de notre système sont repris dans un fichier de configuration que nous allons créer immédiatement. Il faut y spécifier le chemin vers les fichiers de vocabulaire, vers les corpus d'entraînement (ici, uniquement nos corpus réduits et notre sous-corpus de validation&nbsp;; idéalement, plusieurs corpus auxquels on donne un poids différent), mais aussi le chemin vers le modèle de segmentation et enfin les dossiers de sortie et les paramètres (nous utilisons ici le modèle Transformer basique, avec les paramètres recommandés dans la documentation d'[OpenNMT](https://opennmt.net/OpenNMT-py/FAQ.html#how-do-i-use-the-transformer-model))."
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "id": "rd4eo4ZY2vnZ"
+      },
+      "outputs": [],
+      "source": [
+        "with open('config_train.yaml', 'w', encoding='utf-8') as config:\n",
+        "  config.write('''# Data output:\n",
+        "overwrite: false\n",
+        "save_data: ./output/vocab/voc\n",
+        "src_vocab: ./output/vocab/voc.vocab.src\n",
+        "tgt_vocab: ./output/vocab/voc.vocab.tgt\n",
+        "\n",
+        "# Training corpora:\n",
+        "data:\n",
+        "    europarl:\n",
+        "        path_src: ./datasets/europarl.en\n",
+        "        path_tgt: ./datasets/europarl.fr\n",
+        "        transforms: [filtertoolong, sentencepiece]\n",
+        "        weight: 1\n",
+        "    globalvoices:\n",
+        "        path_src: ./datasets/globalvoices.en\n",
+        "        path_tgt: ./datasets/globalvoices.fr\n",
+        "        transforms: [filtertoolong, sentencepiece]\n",
+        "        weight: 1\n",
+        "    news:\n",
+        "        path_src: ./datasets/news.en\n",
+        "        path_tgt: ./datasets/news.fr\n",
+        "        transforms: [filtertoolong, sentencepiece]\n",
+        "        weight: 1\n",
+        "    ted:\n",
+        "        path_src: ./datasets/ted.en\n",
+        "        path_tgt: ./datasets/ted.fr\n",
+        "        transforms: [filtertoolong, sentencepiece]\n",
+        "        weight: 1\n",
+        "    valid:\n",
+        "        path_src: ./datasets/val.en\n",
+        "        path_tgt: ./datasets/val.fr\n",
+        "        transforms: [filtertoolong, sentencepiece]\n",
+        "src_seq_length: 200\n",
+        "tgt_seq_length: 200\n",
+        "skip_empty_level: silent\n",
+        "src_subword_model: ./subword/unigram_en.model\n",
+        "tgt_subword_model: ./subword/unigram_fr.model\n",
+        "src_subword_vocab: ./subword/unigram_en.vocab\n",
+        "tgt_subword_vocab: ./subword/unigram_fr.vocab\n",
+        "src_subword_alpha: 0.5\n",
+        "tgt_subword_alpha: 0.5\n",
+        "\n",
+        "# Training parameters:\n",
+        "batch_type: \"tokens\"\n",
+        "batch_size: 4096\n",
+        "valid_batch_size: 16\n",
+        "batch_size_multiple: 1\n",
+        "max_generator_batches: 0\n",
+        "accum_count: [3]\n",
+        "accum_steps: [0]\n",
+        "train_steps: 100            # Fortement réduit pour les besoins de l'exercice. Habituellement en dizaines ou centaines de milliers.\n",
+        "valid_steps: 100            # Fortement réduit pour les besoins de l'exercice. Habituellement 5 ou 10 000.\n",
+        "report_every: 10            # Fortement réduit pour les besoins de l'exercice. Habituellement autour de 100.\n",
+        "save_checkpoint_steps: 100  # Fortement réduit pour les besoins de l'exercice. Habituellement autour de 10 000.\n",
+        "queue_size: 10000\n",
+        "bucket_size: 32768\n",
+        "\n",
+        "# Optimization\n",
+        "model_dtype: \"fp32\"\n",
+        "optim: \"adam\"\n",
+        "learning_rate: 2\n",
+        "warmup_steps: 8000\n",
+        "decay_method: \"noam\"\n",
+        "average_decay: 0.0005\n",
+        "adam_beta2: 0.998\n",
+        "max_grad_norm: 0\n",
+        "label_smoothing: 0.1\n",
+        "param_init: 0\n",
+        "param_init_glorot: true\n",
+        "normalization: \"tokens\"\n",
+        "\n",
+        "# Model\n",
+        "encoder_type: transformer\n",
+        "decoder_type: transformer\n",
+        "enc_layers: 6\n",
+        "dec_layers: 6\n",
+        "heads: 8\n",
+        "rnn_size: 512\n",
+        "word_vec_size: 512\n",
+        "transformer_ff: 2048\n",
+        "dropout_steps: [0]\n",
+        "dropout: [0.1]\n",
+        "attention_dropout: [0.1]\n",
+        "position_encoding: true\n",
+        "\n",
+        "# Model output:\n",
+        "save_model: ./output/models/train\n",
+        "\n",
+        "# Logs:\n",
+        "log_file: ./output/log/train\n",
+        "tensorboard: true\n",
+        "tensorboard_log_dir: ./output/tensor/train\n",
+        "\n",
+        "# GPU settings:\n",
+        "world_size: 1\n",
+        "gpu_ranks: [0]\n",
+        "\n",
+        "# Reproducibility:\n",
+        "seed: 123''')\n",
+        "config.close()"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "Il nous faut maintenant créer des fichiers de vocabulaire qui seront utilisés par OpenNMT.\n",
+        "\n",
+        "(Normalement, nous devrions utiliser le fichier de configuration utilisé pour l'affinage (*fine-tuning*) du système, car vous aurez remarqué que le corpus Books ne fait pas encore partie des données d'entraînement. Pour l'exercice, cependant, nous aborderons cette étape juste après.)"
+      ],
+      "metadata": {
+        "id": "cJrh9tQwVxFE"
+      }
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "id": "RqVYEHDaDdry"
+      },
+      "outputs": [],
+      "source": [
+        "!onmt_build_vocab --config config_train.yaml --n_sample 5000 # Réduit pour les besoins de l'exercice (normalement paramétré à -1)."
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "lwPQFT1REnyq"
+      },
+      "source": [
+        "Enfin, tout est prêt&nbsp;! Nous pouvons lancer l'entraînement de notre système générique.\n",
+        "\n",
+        "(Nous ne laisserons tourner notre modèle que très brièvement, car cela prendrait des jours autrement.)"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": null,
+      "metadata": {
+        "id": "pbByrJ8uEK95"
+      },
+      "outputs": [],
+      "source": [
+        "!onmt_train --config config_train.yaml"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "Nous avons à présent un modèle générique, certes prématuré, mais qui peut être utilisé pour traduire de l'anglais vers le français. Ce modèle est sauvegardé sous la forme d'un fichier PT («&nbsp;checkpoint&nbsp;»). Au terme d'un processus d'entraînement complet, plusieurs modèles sont créés. Il faut alors les tester pour vérifier lequel est le plus performant (c'est dans ce contexte que les métriques d'évaluation automatiques se révèlent les plus utiles).\n",
+        "\n",
+        "Mais à ce stade, nous n'avons pas encore fourni de données littéraires à notre système. Il nous faut donc relancer le processus, en y ajoutant cette fois le corpus Books. Pour ce faire, nous créons à nouveau un fichier de configuration, dans lequel nous allons simplement indiquer où trouver le modèle générique précédent, augmenter le nombre d'étapes et changer le nom des fichiers de sortie. Il nous faut aussi ajouter les données spécialisées dans la liste des corpus.\n",
+        "\n",
+        "(Il est important de conserver ici les corpus génériques, sans quoi notre système oublierait en quelque sorte ce qu'il a appris auparavant. Néanmoins, là où, dans un processus d'apprentissage normal, ces corpus se seraient vus assigner un poids variable supérieur à 1, il faudra ici réduire ce score de manière à ce que les données spécialisées soient surreprésentées.)"
+      ],
+      "metadata": {
+        "id": "27Lp42b6ZLaO"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "with open('config_tuned.yaml', 'w', encoding='utf-8') as config:\n",
+        "  config.write('''# Data output:\n",
+        "overwrite: false\n",
+        "save_data: ./output/vocab/voc\n",
+        "src_vocab: ./output/vocab/voc.vocab.src\n",
+        "tgt_vocab: ./output/vocab/voc.vocab.tgt\n",
+        "\n",
+        "# Training corpora:\n",
+        "data:\n",
+        "    europarl:\n",
+        "        path_src: ./datasets/europarl.en\n",
+        "        path_tgt: ./datasets/europarl.fr\n",
+        "        transforms: [filtertoolong, sentencepiece]\n",
+        "        weight: 1\n",
+        "    globalvoices:\n",
+        "        path_src: ./datasets/globalvoices.en\n",
+        "        path_tgt: ./datasets/globalvoices.fr\n",
+        "        transforms: [filtertoolong, sentencepiece]\n",
+        "        weight: 1\n",
+        "    news:\n",
+        "        path_src: ./datasets/news.en\n",
+        "        path_tgt: ./datasets/news.fr\n",
+        "        transforms: [filtertoolong, sentencepiece]\n",
+        "        weight: 1\n",
+        "    ted:\n",
+        "        path_src: ./datasets/ted.en\n",
+        "        path_tgt: ./datasets/ted.fr\n",
+        "        transforms: [filtertoolong, sentencepiece]\n",
+        "        weight: 1\n",
+        "    books:\n",
+        "        path_src: ./datasets/books.en\n",
+        "        path_tgt: ./datasets/books.fr\n",
+        "        transforms: [filtertoolong, sentencepiece]\n",
+        "        weight: 5\n",
+        "    valid:\n",
+        "        path_src: ./datasets/val.en\n",
+        "        path_tgt: ./datasets/val.fr\n",
+        "        transforms: [filtertoolong, sentencepiece]\n",
+        "src_seq_length: 200\n",
+        "tgt_seq_length: 200\n",
+        "skip_empty_level: silent\n",
+        "src_subword_model: ./subword/unigram_en.model\n",
+        "tgt_subword_model: ./subword/unigram_fr.model\n",
+        "src_subword_vocab: ./subword/unigram_en.vocab\n",
+        "tgt_subword_vocab: ./subword/unigram_fr.vocab\n",
+        "src_subword_alpha: 0.5\n",
+        "tgt_subword_alpha: 0.5\n",
+        "\n",
+        "# Training parameters:\n",
+        "batch_type: \"tokens\"\n",
+        "batch_size: 4096\n",
+        "valid_batch_size: 16\n",
+        "batch_size_multiple: 1\n",
+        "max_generator_batches: 0\n",
+        "accum_count: [3]\n",
+        "accum_steps: [0]\n",
+        "train_steps: 200            # Fortement réduit pour les besoins de l'exercice. Habituellement en dizaines ou centaines de milliers.\n",
+        "valid_steps: 100            # Fortement réduit pour les besoins de l'exercice. Habituellement 5 ou 10 000.\n",
+        "report_every: 10            # Fortement réduit pour les besoins de l'exercice. Habituellement autour de 100.\n",
+        "save_checkpoint_steps: 100  # Fortement réduit pour les besoins de l'exercice. Habituellement autour de 10 000.\n",
+        "queue_size: 10000\n",
+        "bucket_size: 32768\n",
+        "train_from: ./output/models/train_step_100.pt\n",
+        "\n",
+        "# Optimization\n",
+        "model_dtype: \"fp32\"\n",
+        "optim: \"adam\"\n",
+        "learning_rate: 2\n",
+        "warmup_steps: 8000\n",
+        "decay_method: \"noam\"\n",
+        "average_decay: 0.0005\n",
+        "adam_beta2: 0.998\n",
+        "max_grad_norm: 0\n",
+        "label_smoothing: 0.1\n",
+        "param_init: 0\n",
+        "param_init_glorot: true\n",
+        "normalization: \"tokens\"\n",
+        "\n",
+        "# Model\n",
+        "encoder_type: transformer\n",
+        "decoder_type: transformer\n",
+        "enc_layers: 6\n",
+        "dec_layers: 6\n",
+        "heads: 8\n",
+        "rnn_size: 512\n",
+        "word_vec_size: 512\n",
+        "transformer_ff: 2048\n",
+        "dropout_steps: [0]\n",
+        "dropout: [0.1]\n",
+        "attention_dropout: [0.1]\n",
+        "position_encoding: true\n",
+        "\n",
+        "# Model output:\n",
+        "save_model: ./output/models/tuned\n",
+        "\n",
+        "# Logs:\n",
+        "log_file: ./output/log/tuned\n",
+        "tensorboard: true\n",
+        "tensorboard_log_dir: ./output/tensor/tuned\n",
+        "\n",
+        "# GPU settings:\n",
+        "world_size: 1\n",
+        "gpu_ranks: [0]\n",
+        "\n",
+        "# Reproducibility:\n",
+        "seed: 123''')\n",
+        "config.close()\n",
+        "\n",
+        "!onmt_train --config config_tuned.yaml"
+      ],
+      "metadata": {
+        "id": "N1FtMObzZLy9"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "metadata": {
+        "id": "Df6-Izu9gCZs"
+      },
+      "source": [
+        "## Étape 4 &mdash; Traduction et évaluation"
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "OpenNMT segmente les phrases à la volée pendant l'entraînement, il n'y a donc pas besoin de lui soumettre des corpus segmentés (si vous jetez un &oelig;il aux corpus utilisés, vous remarquerez qu'ils sont simplement tokenisés).\n",
+        "\n",
+        "Notre fichier de test, en revanche, doit être segmenté (puisque notre système aura été entraîné sur des données similaires). À l'inverse, la référence qui nous servira pour l'évaluation doit toujours être détokenisée et non segmentée.\n",
+        "\n",
+        "Faisons cela rapidement&nbsp;:"
+      ],
+      "metadata": {
+        "id": "7EpXsYMy5zhy"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "# Segmenter le jeu de test\n",
+        "\n",
+        "sp = spm.SentencePieceProcessor(model_file='subword/unigram_en.model')\n",
+        "with open('datasets/tra.en', 'r', encoding='utf-8') as input, open('datasets/tra_sub.en', 'w', encoding='utf-8') as output:\n",
+        "    for line in input:\n",
+        "        print(*[l for l in sp.encode(line, out_type=str)], file=output)\n",
+        "\n",
+        "!rm datasets/tra.en ; mv datasets/tra_sub.en datasets/tra.en ; truncate -s -1 datasets/tra.en\n",
+        "\n",
+        "# Détokeniser la référence\n",
+        "\n",
+        "tk = MosesDetokenizer('fr')\n",
+        "with open('datasets/tra.fr', 'r') as input, open('datasets/tra_detok.fr', 'w') as output:\n",
+        "  for line in input:\n",
+        "    print(tk(line.split()), file=output)\n",
+        "\n",
+        "!rm datasets/tra.fr ; mv datasets/tra_detok.fr datasets/tra.fr ; truncate -s -1 datasets/tra.fr"
+      ],
+      "metadata": {
+        "id": "q2Heb8De86hK"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "Si nous lancions une traduction avec le modèle affiné obtenu à ce stade, nous pourrions prédire avec certitude que le résultat sera catastrophique au vu du temps d'entraînement (un essai durant le colloque a d'ailleurs montré que celui-ci ne produisait que des espaces).\n",
+        "\n",
+        "Téléchargeons donc deux modèles (générique et affiné) qui ont été entraînés un peu plus longtemps pour être mis à disposition sur le dépôt&nbsp;:"
+      ],
+      "metadata": {
+        "id": "VruWUmoDHe5n"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "!wget https://gitlab.uliege.be/dhansen/tutorielmt/-/raw/main/translation_models/{train,tuned}.pt -P output/models"
+      ],
+      "metadata": {
+        "id": "aSMpRfwQ_h9q"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "Et lançons la traduction&nbsp;:"
+      ],
+      "metadata": {
+        "id": "z6Mvjk8F5iLt"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "!onmt_translate \\\n",
+        "  --verbose \\\n",
+        "  --model ./output/models/train.pt \\\n",
+        "  --src ./datasets/tra.en \\\n",
+        "  --output ./output/translations/train_sub.fr\n",
+        "\n",
+        "!onmt_translate \\\n",
+        "  --verbose \\\n",
+        "  --model ./output/models/tuned.pt \\\n",
+        "  --src ./datasets/tra.en \\\n",
+        "  --output ./output/translations/tuned_sub.fr"
+      ],
+      "metadata": {
+        "id": "in94msdUJq4N"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "Il faut à présent prendre le chemin inverse de l'étape de préparation des données&nbsp;: défaire la segmentation en sous-mots et détokeniser le fichier de sortie.\n",
+        "\n",
+        "(Notre système a été entraîné sur des fichiers segmentés et tokenisés, il retourne donc des sorties similaires. Or, l'évaluation doit toujours se faire sur un fichier détokenisé.)"
+      ],
+      "metadata": {
+        "id": "qdmPa1kZZl2-"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "tk = MosesDetokenizer('fr') \n",
+        "sp = spm.SentencePieceProcessor(model_file='subword/unigram_fr.model')\n",
+        "\n",
+        "with open('output/translations/train_sub.fr', 'r') as input, open('output/translations/train.fr', 'w') as output:\n",
+        "  for line in input:\n",
+        "    segment = sp.decode(line.split())\n",
+        "    print(tk(segment.split()), file=output)\n",
+        "\n",
+        "with open('output/translations/tuned_sub.fr', 'r') as input, open('output/translations/tuned.fr', 'w') as output:\n",
+        "  for line in input:\n",
+        "    segment = sp.decode(line.split())\n",
+        "    print(tk(segment.split()), file=output)"
+      ],
+      "metadata": {
+        "id": "RLpYxpA-bmtl"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "Pour l'évaluation, nous pouvons utiliser [sacreBLEU](https://github.com/mjpost/sacrebleu), qui nous donnera trois métriques différentes&nbsp;:\n",
+        "\n",
+        "- BLEU, qui compare des suites de mots (ou n-grammes) pour estimer la ressemblance par rapport à une référence&nbsp;;\n",
+        "\n",
+        "- chrF2++, qui fait de même en comparant des suites de caractères à la place des mots&nbsp;; et\n",
+        "\n",
+        "- TER, qui calcule de nombre d'opérations à produire sur la sortie de TA pour qu'elle soit identique à la référence donnée."
+      ],
+      "metadata": {
+        "id": "YJheULW70C-o"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "!sacrebleu ./datasets/tra.fr \\\n",
+        "\t--input ./output/translations/{train,tuned}.fr \\\n",
+        "\t--language-pair en-fr \\\n",
+        "\t--metrics bleu chrf ter \\\n",
+        "\t--chrf-word-order 2 \\\n",
+        "\t--tokenize 13a \\\n",
+        "\t--width 2 \\\n",
+        "\t--format text"
+      ],
+      "metadata": {
+        "id": "nJX6Dj-bY6ZW",
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "outputId": "29a174d2-6437-41c1-85f0-2beb56f98ab9"
+      },
+      "execution_count": null,
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "sacreBLEU: Found 2 systems.\n",
+            "╒════════════════════════════════╤════════╤═══════════╤═══════╕\n",
+            "│                         System │  BLEU  │  chrF2++  │  TER  │\n",
+            "╞════════════════════════════════╪════════╪═══════════╪═══════╡\n",
+            "│ ./output/translations/train.fr │ 14.49  │   41.79   │ 83.81 │\n",
+            "├────────────────────────────────┼────────┼───────────┼───────┤\n",
+            "│ ./output/translations/tuned.fr │ 17.34  │   42.52   │ 79.74 │\n",
+            "╘════════════════════════════════╧════════╧═══════════╧═══════╛\n",
+            "\n",
+            "-----------------\n",
+            "Metric signatures\n",
+            "-----------------\n",
+            " - BLEU       nrefs:1|case:mixed|eff:no|tok:13a|smooth:exp|version:2.3.1\n",
+            " - chrF2++    nrefs:1|case:mixed|eff:yes|nc:6|nw:2|space:no|version:2.3.1\n",
+            " - TER        nrefs:1|case:lc|tok:tercom|norm:no|punct:yes|asian:no|version:2.3.1\n",
+            "\u001b[0m"
+          ]
+        }
+      ]
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "Malgré le temps d'entraînement réduit de ces deux systèmes et la petite taille de notre corpus spécialisé, nous pouvons voir que l'affinage apporte déjà une amélioration. Ceci est évidemment prévisible, car plus les données sont pertinentes et cohérentes (p. ex. même domaine, même genre littéraire, même auteur·trice, même traducteur·trice&hellip;), plus les traductions seront pertinentes elles aussi.\n",
+        "\n",
+        "Pour terminer, voici quelques traductions d'autres modèles entraînés rapidement et affinés sur une saga en particulier. Quelles différences notez-vous entre le système générique et le système affiné (gardez à l'esprit qu'il s'agit de modèles peu robustes)&nbsp;?"
+      ],
+      "metadata": {
+        "id": "WbsleCkRfZJE"
+      }
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "!wget -q https://gitlab.uliege.be/dhansen/tutorielmt/-/raw/main/translation_examples.csv\n",
+        "\n",
+        "import pandas\n",
+        "from google.colab import data_table\n",
+        "data_table.enable_dataframe_formatter()\n",
+        "df = pandas.read_csv('translation_examples.csv', sep='\\t', on_bad_lines='skip')\n",
+        "df"
+      ],
+      "metadata": {
+        "id": "bfkwatPOMaYd"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "Quelques exemples plus précis&nbsp;:"
+      ],
+      "metadata": {
+        "id": "rMRjpZvb-cFb"
+      }
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "|Source|Générique|Affiné|Référence|\n",
+        "|:---|:---|:---|:---|\n",
+        "|Temps&nbsp;: plutôt ✅<br><br>(Pas systématiquement&nbsp;!)|\n",
+        "|Rincewind grabbed Twoflower's arm,<br>kicked the nearest guard in the groin,<br>and dragged the startled tourist into the corridor.|Garhartra a pris le bras, a botté le garde<br>le plus proche dans l'entrejambe et a traîné le touriste<br>surpris dans le couloir.|Rincevent <u>empoigna</u> le bras de Deuxfleurs,<br><u>flanqua</u> un coup de pied dans l'entrejambe du garde<br>le plus proche et <u>entraîna</u> le touriste ahuri dans le couloir.|Rincevent attrapa le bras de Deuxfleurs,<br>flanqua un coup de pied dans l'entrejambe du garde<br>le plus proche et entraîna le touriste ahuri dans le couloir.|\n",
+        "|Choix lexicaux&nbsp;: généralement ✅<br><br>Parfois toujours très ❌|\n",
+        "|Close into the lip of the Rimfall were the<br>seven lesser colors, sparkling and dancing<br>in the spray of the dying seas.<br><br>A double rainbow corruscated into being.|Près de la lèvre de la cascade se trouvaient<br>les sept couleurs inférieures, étincelantes et dansantes<br>dans l'eau des mers mourantes.<br><br>Un double arc-en-ciel s'assembla.|<u>Au bord de</u> la Grande Cataracte se trouvaient<br>les sept couleurs inférieures qui scintillaient et dansaient<br>dans les <u>embruns</u> des mers mourantes.<br><br>Un double arc-en-ciel <u>se mit en branle</u>.|Près du bord de la Cataracte,<br>les sept couleurs mineures étincelaient et dansaient<br>dans les embruns des mers expirantes.<br><br>Un double arc-en-ciel irisé se formait.|\n",
+        "|Termes de l'univers fictionnel&nbsp;: plutôt ✅<br><br>(Quelques incohérences)|\n",
+        "|“Yes,” said the Lady. “The Krullians intend to<br>launch a bronze vessel over the edge of the Disc.<br>Their prime purpose is to learn the sex of A'Tuin<br>the World Turtle.”|« Oui », dit la Dame, « les Krolliens ont l'intention de lancer<br>un navire en bronze au-dessus du bord de la Discussion.<br>Leur objectif premier est d'apprendre le sexe d'A'Suin<br>la Tourelle du Monde. »|— Oui, fit la Dame. Les <u>Krulliens</u> ont l'intention de lancer<br>un bateau de bronze au-dessus du bord du <u>Disque</u>.<br>Leur objectif premier est d'apprendre le sexe d'<u>A'Tuin</u><br><u>la Tortue du Monde</u>.|— Si, fit la Dame. Les Krulliens ont l'intention de lancer<br>un vaisseau de bronze par-dessus le bord du Disque.<br>Leur principal objectif est de connaître le sexe d'A'Tuin,<br>la Tortue du Monde.|\n",
+        "|Texte en majuscules&nbsp;: plutôt ❌<br><br>(Nécessite un traitement particulier)|\n",
+        "|I DID INDEED CHASE THEM MIGHTILY, ONCE,<br>he said, BUT AT LAST THE THOUGHT CAME TO<br>ME THAT SOONER OR LATER ALL MEN MUST DIE.<br>EVERYTHING DIES IN THE END.|J'AI DANS LE CHASE D'AUTRE, a-t-il dit,<br>MAIS AVEC LE THOUGHT ME CAME POUR MOI QUE<br>CHOSE OU LA TOUS LES MENS DOIT MOURIR. TOUS<br>LES CHOSES DANS L'ET.|« J'AI FAIT MIEUX QU'ELLES M'ATTENDENT À LA FOIS,<br>MAIS ENFIN DERNIÈRE LE CHAME À MOI QUE TOUS<br>LES HOMMES DOIVENT MOURIR. TOUS LES HOMMES<br>DONT MOURIR.|« JE LEUR AI DONNE LA CHASSE IL Y A QUELQUE TEMPS,<br>C'EST VRAI, FIT-IL, MAIS J'AI FINI PAR ME DIRE QUE TÔT<br>OU TARD TOUS LES HOMMES DOIVENT MOURIR.<br>TOUTE CHOSE MEURT UN JOUR.|\n",
+        "|Ponctuation&nbsp;: plutôt ✅<br><br>(Pas systématiquement&nbsp;!)|\n",
+        "|“Twoflower?” he said.<br><br>“Yes?”<br><br>“If I turn around, what will I see?”<br><br>“His name is Tethis. He says he's a sea troll.<br>This is his boat.<br>He rescued us,” explained Twoflower.<br>“Will you look around now?”<br><br>“Not just at the moment, thank you.<br>So why aren't we going over the Edge, then?”<br>asked Rincewind with glassy calmness.<br><br>“Because your boat hit the Circumfence,”<br>said the voice behind him (in tones that made<br>Rincewind imagine submarine chasms and<br>lurking Things in coral reefs).|« & # 160 ; ?<br><br>“Oui ? ”<br><br>“Si je me retourne, que verrai-je ? ”<br><br>“Il s'appelle Téthis. Il dit qu'il s'agit d'un troll des mers.<br>C'est son bateau.<br>Il nous a sauvés, ” explique-t-il autour de lui :“<br>Allez-vous regarder maintenant ? ”<br><br>“Pas seulement pour l'instant, merci.<br>Alors pourquoi ne passons-nous pas à l'Avantage ? ”<br>a demandé avec un calme vitreux.<br><br>“Parce que votre bateau a heurté le Circumfence, ”<br>a dit la voix derrière lui<br>(d'un ton qui faisait croire à des gouffres sous-marins et<br>qui rôdaient dans les récifs coralliens).|« Deuxfleurs ? fit-il.<br><br>— Oui ?<br><br>— Si je me retourne, qu'est-ce que je vais voir ?<br><br>— Il s'appelle Téthis. Il dit que c'est un troll des mers.<br>C'est son bateau.<br>Il nous a sauvés, expliqua Deuxfleurs.<br>Tu veux bien regarder autour de toi, maintenant ?<br><br>— Pas pour l'instant, merci.<br>Alors pourquoi est-ce qu'on ne passe pas par-dessus le Bord ?<br>demanda Rincevent avec un calme vitreux.<br><br>— Parce que votre bateau a percuté le Périfilet,<br>répondit la voix derrière lui<br>(d'un ton qui donna à Rincevent l'image de gouffres sous-marins et<br>de créatures tapies dans les récifs coralliens).|« Deuxfleurs ? fit-il.<br><br>— Oui ?<br><br>— Si je me retourne, je vais voir quoi ?<br><br>— Il s'appelle Téthis. Il dit qu'il est un troll marin.<br>Ça, c'est son bateau.<br>Il nous a sauvés, expliqua Deuxfleurs. Tu veux te retourner, maintenant ?<br><br>— Pas pour l'instant, merci.<br>Alors, pourquoi on ne passe pas par-dessus Bord ?<br>demanda le mage avec un calme vitreux.<br><br>— Parce que votre bateau a heurté le Périfilet,<br>répondit la voix dans son dos<br>(rien qu'à l'entendre, Rincevent imaginait déjà des abîmes sous-marins et<br>des Choses à l'affût dans des récifs de corail).|\n",
+        "|Longs segments&nbsp;: plutôt ❌<br><br>(le système peut être paramétré en ce sens)|\n",
+        "|The captain, a thickset man who wore the<br>elbow-turbans typical of a Great Nef tribesman,<br>was much traveled and had seen many strange<br>peoples and curious things, many of which he<br>had subsequently enslaved or stolen. He had<br>begun his career as a sailor on the Dehydrated<br>Ocean in the heart of the Disc's driest desert.<br>(Water on the Disc has an uncommon fourth<br>state, caused by intense heat combined with<br>the strange dessicating effects of octarine<br>light; it dehydrates, leaving a silvery residue<br>like free-flowing sand through which a<br>well-designed hull can glide with ease.<br>The Dehydrated Ocean is a strange place,<br>but not so strange as its fish.)|Le capitaine, un homme d'épaisseur qui portait les<br>turbans du coude typiques d'un grand nef, voyageait<br>beaucoup et avait vu des gens étranges et des choses<br>étranges, dont beaucoup avaient ensuite été asservis<br>ou volés. Il avait commencé sa carrière de marin sur<br>l'Océan déshydraté au cœur du désert le plus sec du Disc.<br>(L'eau sur le Disque|Le capitaine, un costaud qui portait les<br>turbans à coude typique d'un membre de la tribu du Grand Nef,<br>voyageait beaucoup et avait vu beaucoup de peuples<br>étranges et de phénomènes curieux, dont beaucoup avaient<br>été ensuite réduits en esclavage ou volés.<br>Il avait commencé sa carrière de marin sur<br>l'océan Déshydraté au cœur du désert le plus sec du Disque.<br><u>(L'eau sur le Disque</u>|Le capitaine, un costaud qui portait les<br>turbans de coude propres aux tribus du Grand Nef,<br>avait beaucoup bourlingué, beaucoup vu de choses étranges et<br>de gens bizarres, qu'il avait ensuite pour la plupart volées ou réduits<br>en esclavage. Il avait commencé sa carrière comme marin sur l'océan<br>Déshydraté au cœur du désert le plus aride du Disque.<br>(Sur le Disque, l'eau se présente sous un quatrième état inhabituel,<br>dû à la chaleur intense combinée aux curieux effets dessiccatifs de la<br>lumière octarine ; elle se déshydrate en laissant un résidu argenté,<br>comme du sable fluide, dans lequel une coque bien conçue peut<br>évoluer sans peine. L'océan Déshydraté est une région qui sort<br>de l'ordinaire, quoique moins que les poissons qu'il contient.)|"
+      ],
+      "metadata": {
+        "id": "eYhky6qW2caU"
+      }
+    },
+    {
+      "cell_type": "markdown",
+      "source": [
+        "Et voilà, nous venons de voir un exemple de bout en bout !\n",
+        "\n",
+        "N'hésitez pas à partager ce cahier, à le modifier et à expérimenter pour mieux comprendre l'importance et le déroulement de chaque étape."
+      ],
+      "metadata": {
+        "id": "ofyz6B5fd_Nd"
+      }
+    }
+  ],
+  "metadata": {
+    "colab": {
+      "provenance": []
+    },
+    "kernelspec": {
+      "display_name": "Python 3",
+      "name": "python3"
+    },
+    "language_info": {
+      "name": "python"
+    },
+    "gpuClass": "standard",
+    "accelerator": "GPU"
+  },
+  "nbformat": 4,
+  "nbformat_minor": 0
+}
\ No newline at end of file