Le champ texteAssocie est documenté. Il commence par un identifiant uniqe (uid) de Document qui correspond aussi au nom du fichier (uid.json). L’identifiant complet permet de retrouver la division à l’interieur de ce document (une division est un document, la seule différence étant qu’il n’est pas dans un fichier séparé mais inclus dans un document).
La documentation explique que le PLF a plusieurs parties et que les uid correspondant se terminent par PN. Les uid sont cependant structurés différement:
$ jq --raw-output 'select(.plf != null) | .plf[] | .texteAssocie' $(find ../data/assemblee-nettoye/Dossiers_Legislatifs_{XIV,XV}_nettoye/dossiers -name '*.json') RAPPANR5L14B0251-tIII-a1 RAPPANR5L14B0251-tIII-a2 ... RAPPANR5L14B0251-tIII-a47 RAPPANR5L14B0251-tIII-a48 AVISANR5L14B0255-tI AVISANR5L14B0255-tII ... AVISANR5L14B0257-tIX AVISANR5L14B0257-tX RAPPANR5L14B1428-tIII-a1 RAPPANR5L14B1428-tIII-a2 ... RAPPANR5L14B1428-tIII-a46 RAPPANR5L14B1428-tIII-a47 AVISANR5L14B1432-tI AVISANR5L14B1432-tII ... AVISANR5L14B1434-tIX AVISANR5L14B1434-tX RAPPANR5L14B2260-tIII-a1 RAPPANR5L14B2260-tIII-a2 ... RAPPANR5L14B2260-tIII-a47 RAPPANR5L14B2260-tIII-a48 AVISANR5L14B2264-tI AVISANR5L14B2264-tII ... AVISANR5L14B2266-tIX AVISANR5L14B2266-tX RAPPANR5L14B4125-tIII-a1 RAPPANR5L14B4125-tIII-a2 ... RAPPANR5L14B4125-tIII-a47 RAPPANR5L14B4125-tIII-a48 AVISANR5L14B4129-tI AVISANR5L14B4129-tII ... AVISANR5L14B4131-tX AVISANR5L14B4131-tXI RAPPANR5L14B3110-tIII-a1 RAPPANR5L14B3110-tIII-a2 ... RAPPANR5L14B3110-tIII-a47 RAPPANR5L14B3110-tIII-a48 AVISANR5L14B3114-tI AVISANR5L14B3114-tII ... AVISANR5L14B3116-tX AVISANR5L14B3116-tXI RAPPANR5L15B2301-tIII-a1 RAPPANR5L15B2301-tIII-a2 ... RAPPANR5L15B2301-tIII-a44 RAPPANR5L15B2301-tIII-a45 AVISANR5L15B2304-tI AVISANR5L15B2304-tII .. AVISANR5L15B2306-tVIII AVISANR5L15B2306-tIX AVISANR5L15B2292-tI AVISANR5L15B2292-tII ... RAPPANR5L15B1302-tIII-a44 RAPPANR5L15B1302-tIII-a45 AVISANR5L15B1305-tI AVISANR5L15B1305-tII ... AVISANR5L15B1285-tIX AVISANR5L15B1285-tX RAPPANR5L15B0273-tIII-a1 RAPPANR5L15B0273-tIII-a2 ... RAPPANR5L15B0273-tIII-a43 RAPPANR5L15B0273-tIII-a44 AVISANR5L15B0276-tI AVISANR5L15B0276-tII ... AVISANR5L15B0266-tIX AVISANR5L15B0266-tX
C’est donc finalement un identifiant unique qui permet de retrouver le document avec un xpath (ou son equivalent json) tel que //uid sans risquer de doublons.
Le fait que le document en question soit une division d’un document devrait être expliqué dans la documentation mais pas dans la documentation du champ texteAssocie.