diff --git a/datasets/README.md b/datasets/README.md
new file mode 100644
index 0000000000000000000000000000000000000000..d97eec9b99967238313c17476fb43e7d5112106a
--- /dev/null
+++ b/datasets/README.md
@@ -0,0 +1,5 @@
+## Jeux de données
+
+Quelques jeux de données permettant d'entraîner un petit modèle de traduction automatique anglais-français. Tous ces corpus proviennent du projet [OPUS](https://opus.nlpl.eu/) et ont été prétraités avec le tokeniseur [Moses](https://github.com/moses-smt/mosesdecoder/tree/master/scripts/tokenizer).
+
+Le corpus Books a également été modifié de manière à ce que les langues ne soient plus inversées.