Feat: ajout d'un README
This commit is contained in:
parent
fc4035b8df
commit
a82986b5cb
2 changed files with 12 additions and 2 deletions
10
README.md
Normal file
10
README.md
Normal file
|
@ -0,0 +1,10 @@
|
||||||
|
# Corpus web
|
||||||
|
|
||||||
|
## POC pour l'exploration d'archives du web de l'INA au format DAFF :
|
||||||
|
Plugin SPIP (cf https://spip.net) pour réaliser les opérations suivantes :
|
||||||
|
- décompaction des archives et stockage des fichiers NDJSON obtenus (format = JSONL cf http://ndjson.org/)
|
||||||
|
- affichage en boucle DATA (cf https://www.spip.net/fr_article5444.html#BOUCLE-DATA-) des premières et dernières lignes des fichiers JSONL stockés
|
||||||
|
- on fait tout un tas de traitements en fonction du type de donnée par champ pour essayer d'afficher qq chose de "lisible par un humain"
|
||||||
|
- synthèse des contenus récupérés sous forme d'un tableau en VueJS pour permettre les tris/filtrages dynamiques
|
||||||
|
|
||||||
|
|
|
@ -10,7 +10,7 @@
|
||||||
#ACTION_FORMULAIRE
|
#ACTION_FORMULAIRE
|
||||||
|
|
||||||
<fieldset>
|
<fieldset>
|
||||||
<legend>Configuration traitement JSONL</legend>
|
<legend>Configuration traitements JSONL</legend>
|
||||||
#SAISIE{input, repertoire_apercu, label=repertoire_apercu, explication=nom du répertoire des fichiers JSONL pour l'aperçu (dans tmp/) }
|
#SAISIE{input, repertoire_apercu, label=repertoire_apercu, explication=nom du répertoire des fichiers JSONL pour l'aperçu (dans tmp/) }
|
||||||
#SAISIE{input, repertoire_corpus, label=repertoire_corpus, explication=nom du répertoire des fichiers JSONL pour le corpus (dans tmp/) }
|
#SAISIE{input, repertoire_corpus, label=repertoire_corpus, explication=nom du répertoire des fichiers JSONL pour le corpus (dans tmp/) }
|
||||||
#SAISIE{input, pas_corpus, label=pas_corpus, explication=pour le corpus "pas" de l'itération dans les pages <br><small>(1 = toutes les pages, 10 = 1 page sur 10)</small> }
|
#SAISIE{input, pas_corpus, label=pas_corpus, explication=pour le corpus "pas" de l'itération dans les pages <br><small>(1 = toutes les pages, 10 = 1 page sur 10)</small> }
|
||||||
|
@ -18,7 +18,7 @@
|
||||||
</fieldset>
|
</fieldset>
|
||||||
|
|
||||||
<fieldset>
|
<fieldset>
|
||||||
<legend>Configuration traitement CSV vidéos</legend>
|
<legend>Configuration traitements CSV vidéos</legend>
|
||||||
#SAISIE{input, repertoire_transcriptions, label=repertoire_transcriptions, explication=nom du répertoire des transcriptions (dans tmp/). Doit contenir un dossier <strong>readable</strong> (transcriptions txt) et un dossier <strong>detailed</strong> (transcriptions XML) }
|
#SAISIE{input, repertoire_transcriptions, label=repertoire_transcriptions, explication=nom du répertoire des transcriptions (dans tmp/). Doit contenir un dossier <strong>readable</strong> (transcriptions txt) et un dossier <strong>detailed</strong> (transcriptions XML) }
|
||||||
#SAISIE{textarea, stop_words, label=stop_words, explication=liste des stop words (séparés par une virgule) }
|
#SAISIE{textarea, stop_words, label=stop_words, explication=liste des stop words (séparés par une virgule) }
|
||||||
</fieldset>
|
</fieldset>
|
||||||
|
|
Loading…
Add table
Reference in a new issue