diff --git a/content/mouline_corpus.html b/content/apercu_jsonl.html
similarity index 84%
rename from content/mouline_corpus.html
rename to content/apercu_jsonl.html
index f6e3541..998b1f1 100644
--- a/content/mouline_corpus.html
+++ b/content/apercu_jsonl.html
@@ -1,10 +1,15 @@
-
Traitement fichiers JSONL
-
Chargement des fichiers Jsonl après leur décompaction et affichage du contenu de leur 1ère et denière ligne
+[(#REM)
+ affichage en boucle DATA des premières et dernières lignes des fichiers JSONL stockés dans un répertoire corpus
+ on fait tout un tas de traitements en fonction du type de donnée par champ pour essayer d'afficher qq chose de "lisible par un humain"
+
+]
+
Aperçu d'un lot de fichiers JSONL
+
Chargement des fichiers Jsonl après leur décompaction et affichage du contenu de leur 1ère et dernière ligne
]
-
diff --git a/content/explo_jsonl.html b/content/explo_jsonl.html
new file mode 100644
index 0000000..d602457
--- /dev/null
+++ b/content/explo_jsonl.html
@@ -0,0 +1,114 @@
+[(#REM)
+ affichage en boucle DATA des premières et dernières lignes des fichiers JSONL stockés dans un répertoire corpus
+ on fait tout un tas de traitements en fonction du type de donnée par champ pour essayer d'afficher qq chose de "lisible par un humain"
+
+]
+
Contenus d'un lot de fichiers JSONL
+
Chargement des fichiers Jsonl après leur décompaction et affichage du contenu de toutes leurs lignes
+ pour mémoire : 1 ligne du fichier JSONL = 1 page HTML du site aspiré/archivé
+
+
+
+
+
\ No newline at end of file
diff --git a/content/mouline_videos.html b/content/mouline_videos.html
index c9356e5..c66323a 100644
--- a/content/mouline_videos.html
+++ b/content/mouline_videos.html
@@ -7,7 +7,7 @@
On part d'une table remplie par un import CSV
]
-
Traitement CSV des vidéos : TXT
+
Import CSV des vidéos : TXT
Intégration des contenus textuels des vidéos dans la table spip_corpus_videos
@@ -25,7 +25,7 @@
-
Traitement CSV des vidéos : XML
+
Import CSV des vidéos : XML
Intégration des contenus XML des vidéos dans la table spip_corpus_videos
@@ -43,7 +43,7 @@
-
Traitement CSV des vidéos : titres
+
Import CSV des vidéos : titres
Création d'un titre à partir de la description si absent
diff --git a/corpus_web_fonctions.php b/corpus_web_fonctions.php
index 7ba9e36..3d2a385 100644
--- a/corpus_web_fonctions.php
+++ b/corpus_web_fonctions.php
@@ -134,14 +134,15 @@ function affiche_ligne($fichier, $num) {
return 'Erreur : nombre de lignes du fichier '.$fichier.' inférieur à '.$num;
}
+// TO DO : corriger la récup du contenu des titres (cf site brezhoweb.com)
function affiche_titraille($html) {
$niv_h = [1,2,3,4,5,6];
$titraille = [];
foreach($niv_h as $h) {
- preg_match_all('/(.*)?<\/h'.$h.'>/si', $html, $match, PREG_SET_ORDER);
+ preg_match_all('/(.*)?<\/h'.$h.'>/si', $html, $match, PREG_SET_ORDER);
if ($match) {
foreach($match as $m) {
- $titraille[] = ''.$m[1].'';
+ $titraille[] = ''.$m[2].'';
}
}
@@ -150,6 +151,16 @@ function affiche_titraille($html) {
return join("\r\n", $titraille);
}
+function affiche_title($html) {
+ preg_match_all('/(.*)?<\/title>/si', $html, $match, PREG_SET_ORDER);
+ if ($match) {
+ foreach($match as $m) {
+ $titles[] = $m[1];
+ }
+ }
+ return join("\r\n", $titles);
+}
+
function human_filesize($bytes, $decimals = 2) {
$sz = 'BKMGTP';
$factor = floor((strlen($bytes) - 1) / 3);
diff --git a/footer/dist.html b/footer/dist.html
new file mode 100644
index 0000000..bdc4c57
--- /dev/null
+++ b/footer/dist.html
@@ -0,0 +1,90 @@
+
+