Outil de traitement d'un corpus web
base | ||
content | ||
footer | ||
formulaires | ||
lang | ||
prive | ||
stocks | ||
corpus_web_administrations.php | ||
corpus_web_autorisations.php | ||
corpus_web_fonctions.php | ||
corpus_web_options.php | ||
corpus_web_pipelines.php | ||
json_affiche_corpus.json.html | ||
json_affiche_videos.json.html | ||
paquet.xml | ||
README.md |
Corpus web
POC pour l'exploration d'archives du web de l'INA au format DAFF :
Plugin SPIP (cf https://spip.net) pour réaliser les opérations suivantes :
- décompaction des archives et stockage des fichiers NDJSON obtenus (format = JSONL cf http://ndjson.org/)
- affichage en boucle DATA (cf https://www.spip.net/fr_article5444.html#BOUCLE-DATA-) des premières et dernières lignes des fichiers JSONL stockés
- on fait tout un tas de traitements en fonction du type de donnée par champ pour essayer d'afficher qq chose de "lisible par un humain"
- synthèse des contenus récupérés sous forme d'un tableau en VueJS pour permettre les tris/filtrages dynamiques