diff --git a/README.md b/README.md new file mode 100644 index 0000000..bd67099 --- /dev/null +++ b/README.md @@ -0,0 +1,10 @@ +# Corpus web + +## POC pour l'exploration d'archives du web de l'INA au format DAFF : +Plugin SPIP (cf https://spip.net) pour réaliser les opérations suivantes : +- décompaction des archives et stockage des fichiers NDJSON obtenus (format = JSONL cf http://ndjson.org/) +- affichage en boucle DATA (cf https://www.spip.net/fr_article5444.html#BOUCLE-DATA-) des premières et dernières lignes des fichiers JSONL stockés +- on fait tout un tas de traitements en fonction du type de donnée par champ pour essayer d'afficher qq chose de "lisible par un humain" +- synthèse des contenus récupérés sous forme d'un tableau en VueJS pour permettre les tris/filtrages dynamiques + + diff --git a/formulaires/configurer_corpus_web.html b/formulaires/configurer_corpus_web.html index 1307e6c..a1acf31 100644 --- a/formulaires/configurer_corpus_web.html +++ b/formulaires/configurer_corpus_web.html @@ -10,7 +10,7 @@ #ACTION_FORMULAIRE