Outil de traitement d'un corpus web
Find a file
2024-05-31 01:29:44 +02:00
base ajout de la table pour le corpus des vidéos 2021-01-25 14:05:32 +01:00
content Fix: vu la quantité de données potentielles il faut être en indexdb 2023-05-29 18:52:55 +02:00
footer Feat : renommage des pages pour meilleure compréhension. Ajout de la page d'exploration d'un corpus complet (toutes les lignes des fichiers JSONL soumis) 2023-05-12 17:00:49 +02:00
formulaires Feat: ajout d'un README 2023-09-12 18:12:05 +02:00
lang sortie de la Fabrique 2021-01-24 22:07:41 +01:00
prive ajout d'une option de config pour la taille max des fichiers 2021-01-25 03:15:03 +01:00
stocks création de la moulinette de remplissage des champs contenus de transcription TXT et XML du corpus de vidéos importés à partir d'un CSV 2021-01-25 22:41:04 +01:00
corpus_web_administrations.php ajout de la table pour le corpus des vidéos 2021-01-25 14:05:32 +01:00
corpus_web_autorisations.php sortie de la Fabrique 2021-01-24 22:07:41 +01:00
corpus_web_fonctions.php Feat: ajout des title des liens internes lorsqu'ils existent 2023-05-29 20:46:49 +02:00
corpus_web_options.php création de la moulinette de remplissage des champs contenus de transcription TXT et XML du corpus de vidéos importés à partir d'un CSV 2021-01-25 22:41:04 +01:00
corpus_web_pipelines.php sortie de la Fabrique 2021-01-24 22:07:41 +01:00
json_affiche_corpus.json.html Feat: ajout des title des liens internes lorsqu'ils existent 2023-05-29 20:46:49 +02:00
json_affiche_videos.json.html ajout de la recherche sur le champ URL 2021-11-10 11:54:56 +01:00
paquet.xml Fix correction necessite pour passage au squelette cl_basique 2024-05-31 01:29:44 +02:00
README.md Feat: ajout d'un README 2023-09-12 18:12:05 +02:00

Corpus web

POC pour l'exploration d'archives du web de l'INA au format DAFF :

Plugin SPIP (cf https://spip.net) pour réaliser les opérations suivantes :

  • décompaction des archives et stockage des fichiers NDJSON obtenus (format = JSONL cf http://ndjson.org/)
  • affichage en boucle DATA (cf https://www.spip.net/fr_article5444.html#BOUCLE-DATA-) des premières et dernières lignes des fichiers JSONL stockés
  • on fait tout un tas de traitements en fonction du type de donnée par champ pour essayer d'afficher qq chose de "lisible par un humain"
  • synthèse des contenus récupérés sous forme d'un tableau en VueJS pour permettre les tris/filtrages dynamiques