From 00e23e4f26cb34571c01d799db47fb10b7d4c741 Mon Sep 17 00:00:00 2001 From: cy_altern Date: Mon, 25 Jan 2021 22:41:04 +0100 Subject: [PATCH] =?UTF-8?q?cr=C3=A9ation=20de=20la=20moulinette=20de=20rem?= =?UTF-8?q?plissage=20des=20champs=20contenus=20de=20transcription=20TXT?= =?UTF-8?q?=20et=20XML=20du=20corpus=20de=20vid=C3=A9os=20import=C3=A9s=20?= =?UTF-8?q?=C3=A0=20partir=20d'un=20CSV?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- content/mouline_corpus.html | 5 +- content/mouline_videos.html | 95 ++++++++++++++++++++++++++ corpus_web_fonctions.php | 84 +++++++++++++++++++++++ corpus_web_options.php | 13 ++++ formulaires/configurer_corpus_web.html | 11 ++- stocks/stop_words_french.csv | 1 + 6 files changed, 205 insertions(+), 4 deletions(-) create mode 100644 content/mouline_videos.html create mode 100644 stocks/stop_words_french.csv diff --git a/content/mouline_corpus.html b/content/mouline_corpus.html index 75ee3fd..f6e3541 100644 --- a/content/mouline_corpus.html +++ b/content/mouline_corpus.html @@ -1,7 +1,8 @@ -

Traitement basique pour échantillonnage

+

Traitement fichiers JSONL

+

Chargement des fichiers Jsonl après leur décompaction et affichage du contenu de leur 1ère et denière ligne