Feat: ajout d'un README

This commit is contained in:
cy_altern 2023-09-12 18:12:05 +02:00
parent fc4035b8df
commit a82986b5cb
2 changed files with 12 additions and 2 deletions

10
README.md Normal file
View file

@ -0,0 +1,10 @@
# Corpus web
## POC pour l'exploration d'archives du web de l'INA au format DAFF :
Plugin SPIP (cf https://spip.net) pour réaliser les opérations suivantes :
- décompaction des archives et stockage des fichiers NDJSON obtenus (format = JSONL cf http://ndjson.org/)
- affichage en boucle DATA (cf https://www.spip.net/fr_article5444.html#BOUCLE-DATA-) des premières et dernières lignes des fichiers JSONL stockés
- on fait tout un tas de traitements en fonction du type de donnée par champ pour essayer d'afficher qq chose de "lisible par un humain"
- synthèse des contenus récupérés sous forme d'un tableau en VueJS pour permettre les tris/filtrages dynamiques

View file

@ -10,7 +10,7 @@
#ACTION_FORMULAIRE
<fieldset>
<legend>Configuration traitement JSONL</legend>
<legend>Configuration traitements JSONL</legend>
#SAISIE{input, repertoire_apercu, label=repertoire_apercu, explication=nom du répertoire des fichiers JSONL pour l'aperçu (dans tmp/) }
#SAISIE{input, repertoire_corpus, label=repertoire_corpus, explication=nom du répertoire des fichiers JSONL pour le corpus (dans tmp/) }
#SAISIE{input, pas_corpus, label=pas_corpus, explication=pour le corpus "pas" de l'itération dans les pages <br><small>(1 = toutes les pages, 10 = 1 page sur 10)</small> }
@ -18,7 +18,7 @@
</fieldset>
<fieldset>
<legend>Configuration traitement CSV vidéos</legend>
<legend>Configuration traitements CSV vidéos</legend>
#SAISIE{input, repertoire_transcriptions, label=repertoire_transcriptions, explication=nom du répertoire des transcriptions (dans tmp/). Doit contenir un dossier <strong>readable</strong> (transcriptions txt) et un dossier <strong>detailed</strong> (transcriptions XML) }
#SAISIE{textarea, stop_words, label=stop_words, explication=liste des stop words (séparés par une virgule) }
</fieldset>