Le champ compteRenduRef
n’est pas documenté.
On peut supposer que c’est l’identifiant unique d’un compte rendu de réunion (par exemple CRCANR5L15S2017PO419865N014).
La structure de l’identifiant est documentée.
En cherchant l’objet de la réunion sur internet, on trouve le compte rendu correspondant.
On peut tenter de décomposer CRCANR5L15S2017PO419865N014 pour construire /15/cr-dvp/16-17/c1617014.asp. Il manque cependant la correspondance entre le code de l’organe
CRCANR5L15S2017PO419865N014 qui correspond à la Commission du développement durable et de l’aménagement du territoire et /15/cr-dvp/16-17/c1617014.asp qui est peut être un numéro désignant la commission.
En observant ces les compte rendus:
De la commission des affaires culturelles, on devine que le découpage de l’URL est:
http://www.assemblee-nationale.fr/**legislature**/**abreviation de la commission**/année-année+1/cannée année+1 numéro de séquence du compte rendu
Le libellé abrégé de la commission (cr-edu) ne se trouve pas dans la description des organes:
find ../data/assemblee-nettoye/AMO30_tous_acteurs_tous_mandats_tous_organes_historique_nettoye/organes -name '*.json' | xargs jq '.libelleAbrev' | sort -u | grep -i cr-cedu
A défaut d’une table de correspondance entre l’organe et le libellé abrégé qui permet de construire l’URL, il n’est pas possible de déduire l’URL du texte du compte rendu à partir de l’identifiant qui se trouve dans l’agenda.
Une idée sera d’exploiter les éléments meta de la page. Mais aucun d’entre eux ne contient cr-edu donc ce n’est pas la solution.
Les comptes rendus de la séance publique pour la XVe législature sont disponibles et correspondent au champ compteRenduRef des réunions dont xsiType est seance_type et dont lieu.code est AN.
diff -u <(find ~/software/tricoteuses/data.tricoteuses.fr/Agenda_XV/ -name '*.json' | xargs jq --raw-output 'select(.xsiType == "seance_type" and .lieu.code == "AN" and .compteRenduRef != null) | .compteRenduRef' | sort -u) <(( cd xml/compteRendu ; ls | sed -e 's/.xml$//' ) | sort)
--- /dev/fd/63 2020-02-23 18:19:12.815857285 +0100
+++ /dev/fd/62 2020-02-23 18:19:12.819857292 +0100
@@ -39,8 +39,7 @@
CRSANR5L15S2017E2N006
CRSANR5L15S2017E2N007
CRSANR5L15S2017E2N008
-CRSANR5L15S2017O1N124
-CRSANR5L15S2017O1N125
+CRSANR5L15S2017O1N001
CRSANR5L15S2018E1N001
CRSANR5L15S2018E1N002
CRSANR5L15S2018E1N003
@@ -418,7 +417,6 @@
CRSANR5L15S2019E1N019
CRSANR5L15S2019E1N020
CRSANR5L15S2019E1N021
-CRSANR5L15S2019E1N022
CRSANR5L15S2019E2N001
CRSANR5L15S2019E2N002
CRSANR5L15S2019E2N003
@@ -733,7 +731,6 @@
CRSANR5L15S2019O1N294
CRSANR5L15S2019O1N295
CRSANR5L15S2019O1N296
-CRSANR5L15S2019O1N297
CRSANR5L15S2020O1N001
CRSANR5L15S2020O1N002
CRSANR5L15S2020O1N003
@@ -764,8 +761,6 @@
CRSANR5L15S2020O1N028
CRSANR5L15S2020O1N029
CRSANR5L15S2020O1N030
-CRSANR5L15S2020O1N031
-CRSANR5L15S2020O1N032
CRSANR5L15S2020O1N033
CRSANR5L15S2020O1N034
CRSANR5L15S2020O1N035
@@ -825,6 +820,7 @@
CRSANR5L15S2020O1N089
CRSANR5L15S2020O1N090
CRSANR5L15S2020O1N091
+CRSANR5L15S2020O1N092
CRSANR5L15S2020O1N093
CRSANR5L15S2020O1N094
CRSANR5L15S2020O1N095
@@ -849,6 +845,9 @@
CRSANR5L15S2020O1N114
CRSANR5L15S2020O1N115
CRSANR5L15S2020O1N116
+CRSANR5L15S2020O1N117
+CRSANR5L15S2020O1N118
+CRSANR5L15S2020O1N119
CRSANR5L15S2020O1N120
CRSANR5L15S2020O1N121
CRSANR5L15S2020O1N122
@@ -863,13 +862,18 @@
CRSANR5L15S2020O1N131
CRSANR5L15S2020O1N132
CRSANR5L15S2020O1N133
+CRSANR5L15S2020O1N134
CRSANR5L15S2020O1N135
+CRSANR5L15S2020O1N136
+CRSANR5L15S2020O1N137
+CRSANR5L15S2020O1N138
CRSANR5L15S2020O1N139
CRSANR5L15S2020O1N140
CRSANR5L15S2020O1N141
CRSANR5L15S2020O1N142
CRSANR5L15S2020O1N143
CRSANR5L15S2020O1N144
+CRSANR5L15S2020O1N145
CRSANR5L15S2020O1N146
CRSANR5L15S2020O1N147
CRSANR5L15S2020O1N148
@@ -881,3 +885,4 @@
CRSANR5L15S2020O1N154
CRSANR5L15S2020O1N155
CRSANR5L15S2020O1N156
+CRSANR5L15S2020O1N157
Il faudrait examiner de plus près les différences (+ pour les compte rendus qui sont dans l’Agenda mais pour lesquels aucun compte rendu n’est trouvé et - pour les compte rendus qui existent mais qui ne correspondent pas à une réunion dans l’Agenda).
Un dépôt avec le contenu des pages du site de l’Assemblée Nationale tel que téléchargé par un script est désormais maintenu quotidiennement. Il est probablement redondant avec le jeu de donné disponible sur data.assemblee-nationale.fr mais il faudrait le vérifier. Ce dépôt est en particulier utilisé pour détecter des erreurs dans le champ JO.