Dépots pour les documents associés aux dossiers législatifs

L’absence de documentation sur la construction des URLs des documents associés à un dossier pose problème et des URLs que l’on croyait valides peuvent s’avérer fausses (cas 1, cas 2). Il se trouve aussi qu’il n’est pas suffisant d’interpréter l’uid, il semble aussi nécessaire de prendre en compte d’autres champs dans le document, probablement la classification qui, elle non plus, n’est pas documentée.

Les développeurs/ses venant chercher des données sur https://data.tricoteuses.fr devront comprendre cette conversion et l’implémenter. La documentation devra aussi l’expliquer avec un code exemple. Pour s’assurer que la documentation est à jour, le code exemple devra être vérifié sur tout les documents:

  • Création de l’URL
  • Vérification que l’URL mène à un document valide (texte et PDF)

Cette vérification pourrait être faite dans une CI qui ajoute les documents trouvés dans un dépôt au lieu de simplement vérifier leur existence, en utilisant une structure identique à celle des meta informations des documents.

Ce dépôt pourrait être publié sur https://data.tricoteuses.fr et les URLs pour trouver un document auraient une forme trivialement déduite de l’uid du document. Par exemple le document correspondant à

https://git.en-root.org/tricoteuses/data/assemblee-nettoye/Dossiers_Legislatifs_XV_nettoye/blob/master/documents/RINF/AN/R5/15/B/001/RINFANR5L15B1241.json

serait:

https://git.en-root.org/tricoteuses/data/assemblee-nettoye/Documents_XV/blob/master/documents/RINF/AN/R5/15/B/001/RINFANR5L15B1241.pdf
et
https://git.en-root.org/tricoteuses/data/assemblee-nettoye/Documents_XV/blob/master/documents/RINF/AN/R5/15/B/001/RINFANR5L15B1241.txt

Qu’en dites-vous ?

1 « J'aime »

Cela me paraît être une très bonne idée !

1 « J'aime »

Cela pourrait ne pas être nécessaire s’il se confirme qu’un mapping plus simple peut être trouvé.

C’est en fait nécessaire parce que le mapping plus simple n’est pas 100% régulier et doit être complété par une logique non triviale. Le dépôt a été créé: https://git.en-root.org/tricoteuses/data/assemblee-textes