Add readme

54c72692 · Damien Hansen · f2235efb · 54c72692
Commit 54c72692 authored 2 years ago by Damien Hansen
--- a/datasets/README.md
+++ b/datasets/README.md
+## Jeux de données
+
+Quelques jeux de données permettant d'entraîner un petit modèle de traduction automatique anglais-français. Tous ces corpus proviennent du projet [OPUS](https://opus.nlpl.eu/) et ont été prétraités avec le tokeniseur [Moses](https://github.com/moses-smt/mosesdecoder/tree/master/scripts/tokenizer).
+
+Le corpus Books a également été modifié de manière à ce que les langues ne soient plus inversées.