diff --git a/datasets/README.md b/datasets/README.md new file mode 100644 index 0000000000000000000000000000000000000000..d97eec9b99967238313c17476fb43e7d5112106a --- /dev/null +++ b/datasets/README.md @@ -0,0 +1,5 @@ +## Jeux de données + +Quelques jeux de données permettant d'entraîner un petit modèle de traduction automatique anglais-français. Tous ces corpus proviennent du projet [OPUS](https://opus.nlpl.eu/) et ont été prétraités avec le tokeniseur [Moses](https://github.com/moses-smt/mosesdecoder/tree/master/scripts/tokenizer). + +Le corpus Books a également été modifié de manière à ce que les langues ne soient plus inversées.