corpus_web/README.md
2023-09-12 18:12:05 +02:00

675 B

Corpus web

POC pour l'exploration d'archives du web de l'INA au format DAFF :

Plugin SPIP (cf https://spip.net) pour réaliser les opérations suivantes :

  • décompaction des archives et stockage des fichiers NDJSON obtenus (format = JSONL cf http://ndjson.org/)
  • affichage en boucle DATA (cf https://www.spip.net/fr_article5444.html#BOUCLE-DATA-) des premières et dernières lignes des fichiers JSONL stockés
  • on fait tout un tas de traitements en fonction du type de donnée par champ pour essayer d'afficher qq chose de "lisible par un humain"
  • synthèse des contenus récupérés sous forme d'un tableau en VueJS pour permettre les tris/filtrages dynamiques