10 lines
675 B
Markdown
10 lines
675 B
Markdown
# Corpus web
|
|
|
|
## POC pour l'exploration d'archives du web de l'INA au format DAFF :
|
|
Plugin SPIP (cf https://spip.net) pour réaliser les opérations suivantes :
|
|
- décompaction des archives et stockage des fichiers NDJSON obtenus (format = JSONL cf http://ndjson.org/)
|
|
- affichage en boucle DATA (cf https://www.spip.net/fr_article5444.html#BOUCLE-DATA-) des premières et dernières lignes des fichiers JSONL stockés
|
|
- on fait tout un tas de traitements en fonction du type de donnée par champ pour essayer d'afficher qq chose de "lisible par un humain"
|
|
- synthèse des contenus récupérés sous forme d'un tableau en VueJS pour permettre les tris/filtrages dynamiques
|
|
|
|
|