Chargement des fichiers Jsonl après leur décompaction et affichage du contenu de toutes leurs lignes
pour mémoire : 1 ligne du fichier JSONL = 1 page HTML du site aspiré/archivé

#SET{liste_lignes,#LISTE{1}} #SET{trop_gros,#CONFIG{corpus_web/taille_max}|mult{1000000}} [(#REM) trop gros = 100Mo ] #SET{nb_lignes, #FILE|nombre_ligne} [(#GET{nb_lignes}|!={1}|oui) #SET{liste_lignes,#LISTE{1,#GET{nb_lignes}}}]

[(#FILE|basename)] : [(#GET{nb_lignes}) [(#GET{nb_lignes}|singulier_ou_pluriel{page,pages})]] ([(#SIZE|human_filesize)o]) [ (#SIZE|>{#GET{trop_gros}}|oui)
fichier trop gros pour traitement basique
]

[(#REM) {liste #GET{liste_lignes}} ] [(#SET{num_ligne,[(#COMPTEUR_BOUCLE|=={1}|?{1,#GET{nb_lignes}})]})]

Page #VALEUR :

[(#SET{content,[(#FILE|affiche_ligne{#GET{num_ligne}}|json_decode{true})]})]

Contenu brut :
[(#FILE|affiche_ligne{#GET{num_ligne}})]

[(#CLE|=={htmlBytes}|oui)

Title : [(#VALEUR|base64_decode|affiche_title)]

[(#CLE)] = HTML de la page :

Titraille :

] [(#CLE|=={htmlBytes}|non)

[(#CLE)] :

[(#CLE|=={htmlmeta:html:head}|oui) ] [(#CLE|=={htmlmeta:html:head}|non) [(#VALEUR|print|replace{
,§§}|replace{<,<}|replace{>,>}|replace{§§,
})] ]

]

Contenus d'un lot de fichiers JSONL

[(#FILE|basename)] : [(#GET{nb_lignes}) [(#GET{nb_lignes}|singulier_ou_pluriel{page,pages})]] ([(#SIZE|human_filesize)o]) [ (#SIZE|>{#GET{trop_gros}}|oui)fichier trop gros pour traitement basique]

Page #VALEUR :

[(#FILE|basename)] : [(#GET{nb_lignes}) [(#GET{nb_lignes}|singulier_ou_pluriel{page,pages})]] ([(#SIZE|human_filesize)o]) [ (#SIZE|>{#GET{trop_gros}}|oui)
fichier trop gros pour traitement basique
]