From 54c726922e19d43f57936ad3e6bfe02f6ea74828 Mon Sep 17 00:00:00 2001 From: Damien Hansen <damien.hansen@uliege.be> Date: Fri, 10 Feb 2023 12:31:00 +0000 Subject: [PATCH] Add readme --- datasets/README.md | 5 +++++ 1 file changed, 5 insertions(+) create mode 100644 datasets/README.md diff --git a/datasets/README.md b/datasets/README.md new file mode 100644 index 0000000..d97eec9 --- /dev/null +++ b/datasets/README.md @@ -0,0 +1,5 @@ +## Jeux de données + +Quelques jeux de données permettant d'entraîner un petit modèle de traduction automatique anglais-français. Tous ces corpus proviennent du projet [OPUS](https://opus.nlpl.eu/) et ont été prétraités avec le tokeniseur [Moses](https://github.com/moses-smt/mosesdecoder/tree/master/scripts/tokenizer). + +Le corpus Books a également été modifié de manière à ce que les langues ne soient plus inversées. -- GitLab