From 54c726922e19d43f57936ad3e6bfe02f6ea74828 Mon Sep 17 00:00:00 2001
From: Damien Hansen <damien.hansen@uliege.be>
Date: Fri, 10 Feb 2023 12:31:00 +0000
Subject: [PATCH] Add readme

---
 datasets/README.md | 5 +++++
 1 file changed, 5 insertions(+)
 create mode 100644 datasets/README.md

diff --git a/datasets/README.md b/datasets/README.md
new file mode 100644
index 0000000..d97eec9
--- /dev/null
+++ b/datasets/README.md
@@ -0,0 +1,5 @@
+## Jeux de données
+
+Quelques jeux de données permettant d'entraîner un petit modèle de traduction automatique anglais-français. Tous ces corpus proviennent du projet [OPUS](https://opus.nlpl.eu/) et ont été prétraités avec le tokeniseur [Moses](https://github.com/moses-smt/mosesdecoder/tree/master/scripts/tokenizer).
+
+Le corpus Books a également été modifié de manière à ce que les langues ne soient plus inversées.
-- 
GitLab