Quelques jeux de données permettant d'entraîner un petit modèle de traduction automatique anglais-français. Tous ces corpus proviennent du projet [OPUS](https://opus.nlpl.eu/) et ont été prétraités avec le tokeniseur [Moses](https://github.com/moses-smt/mosesdecoder/tree/master/scripts/tokenizer).
Le corpus Books a également été modifié de manière à ce que les langues ne soient plus inversées.