diff --git a/README.md b/README.md new file mode 100644 index 0000000..bd67099 --- /dev/null +++ b/README.md @@ -0,0 +1,10 @@ +# Corpus web + +## POC pour l'exploration d'archives du web de l'INA au format DAFF : +Plugin SPIP (cf https://spip.net) pour réaliser les opérations suivantes : +- décompaction des archives et stockage des fichiers NDJSON obtenus (format = JSONL cf http://ndjson.org/) +- affichage en boucle DATA (cf https://www.spip.net/fr_article5444.html#BOUCLE-DATA-) des premières et dernières lignes des fichiers JSONL stockés +- on fait tout un tas de traitements en fonction du type de donnée par champ pour essayer d'afficher qq chose de "lisible par un humain" +- synthèse des contenus récupérés sous forme d'un tableau en VueJS pour permettre les tris/filtrages dynamiques + + diff --git a/formulaires/configurer_corpus_web.html b/formulaires/configurer_corpus_web.html index 1307e6c..a1acf31 100644 --- a/formulaires/configurer_corpus_web.html +++ b/formulaires/configurer_corpus_web.html @@ -10,7 +10,7 @@ #ACTION_FORMULAIRE
- Configuration traitement JSONL + Configuration traitements JSONL #SAISIE{input, repertoire_apercu, label=repertoire_apercu, explication=nom du répertoire des fichiers JSONL pour l'aperçu (dans tmp/) } #SAISIE{input, repertoire_corpus, label=repertoire_corpus, explication=nom du répertoire des fichiers JSONL pour le corpus (dans tmp/) } #SAISIE{input, pas_corpus, label=pas_corpus, explication=pour le corpus "pas" de l'itération dans les pages
(1 = toutes les pages, 10 = 1 page sur 10) } @@ -18,7 +18,7 @@
- Configuration traitement CSV vidéos + Configuration traitements CSV vidéos #SAISIE{input, repertoire_transcriptions, label=repertoire_transcriptions, explication=nom du répertoire des transcriptions (dans tmp/). Doit contenir un dossier readable (transcriptions txt) et un dossier detailed (transcriptions XML) } #SAISIE{textarea, stop_words, label=stop_words, explication=liste des stop words (séparés par une virgule) }