Noms de gares dupliqués #5

Open
opened 2023-11-12 10:23:27 +00:00 by Barbagus · 1 comment
Owner

La copie du mail envoyé aux administrateurs du dataset:

Bonjour,

Nous travaillons avec votre dataset sncf-ter-gtfs@datasncf depuis quelques temps et nous avons constaté ceci:

Il y a des noms (stop_name) dupliqués pour 8 gares (location_type = 1 ou indifféremment parent_station IS NULL).

L'unicité des noms n'est certes pas une contrainte du standard GTFS, mais il serait sans doute plus facile pour les utilisateurs du dataset de l’implémenter. Rechercher une gare par son nom est une requête somme toute légitime. Une telle requête, qui retourne deux résultats que rien a priori ne permet de distinguer, n'est pas désirable.

Nous avons observé géographiquement qu'il s'agit de situations où il y a une gare "ferroviaire" et une gare "routière" dans la même commune. Les gares concernées sont:

  • Albias
  • Bourgneuf-en-Retz
  • Hundling Hôtel de Ville
  • Luzy
  • Lérouville
  • Pouzauges
  • Sisteron
  • Grenoble

Dans les 7 premiers cas de figure, les "deux gares" ne se trouvent pas au même endroit et les données du dataset nous permettent clairement d'identifier qu'une ne reçoit que des autocars et l'autre des trains (et éventuellement des autocars). Il semblerait donc assez pratique de renommer la première "Sisteron (gare routière)" par exemple.

Le cas de Grenoble est plus gênant. Les "deux gares" sont géographiquement proches (l'une est localisée sur les quais de train, l'autre sur le parking au niveau des places d'autocars). Cependant, contrairement aux cas précédents, le dataset ne nous permet pas de clairement arbitrer entre un terminal purement routier d'un côté et un terminal mixte de l'autre.
Si tous les autocars passent bien par la seconde (le parking) en revanche les trains eux passent indifféremment par l'une ou l'autre et ceci même au sein d'une meme route... déroutant.

Un exemple avec la route:

    route_id: FR:Line::05C666F4-3B26-4DB6-A4A8-F3C6D6150B76:
    route_long_name: Grenoble - Chambery
    route_type: 2 (train !)
    ...

Dans un cas:

trip:
    route_id: FR:Line::05C666F4-3B26-4DB6-A4A8-F3C6D6150B76:
    trip_id: OCESN39535R2717215:2023-11-11T00:36:34Z
    ...
stop_time:
    trip_id: OCESN39535R2717215:2023-11-11T00:36:34Z
    stop_id: StopPoint:OCECar TER-87335521 (Grenoble)

Dans un autre:

trip:
    route_id: FR:Line::05C666F4-3B26-4DB6-A4A8-F3C6D6150B76:
    trip_id: OCESN883761F2474384:2023-11-11T00:36:34Z
    ...
stop_time:
    trip_id: OCESN883761F2474384:2023-11-11T00:36:34Z
    stop_id: StopPoint:OCETrain TER-87747006 (Grenoble)
    ...

Bref, au niveau applicatif, afin de pouvoir exploiter ce dataset nous avons fait le choix de distinguer les activités routières et ferroviaires/mixtes pour les 7 premières et de regrouper tous ce qui se passe à Grenoble dans une seule et même gare.

Sur 3900 gares, devoir implementer une gestion exceptionnelle pour 8 d'entre elles est regrettable. Je serais ravi si vous considériez notre désarroi et s'il vous était techniquement possible d'y remédier.

Merci pour votre attention,
[...]

La copie du mail envoyé aux administrateurs du dataset: > Bonjour, > > Nous travaillons avec votre dataset sncf-ter-gtfs@datasncf depuis quelques temps et nous avons constaté ceci: > > Il y a des noms (stop_name) dupliqués pour 8 gares (location_type = 1 ou indifféremment parent_station IS NULL). > > L'unicité des noms n'est certes pas une contrainte du standard GTFS, mais il serait sans doute plus facile pour les utilisateurs du dataset de l’implémenter. Rechercher une gare par son nom est une requête somme toute légitime. Une telle requête, qui retourne deux résultats que rien a priori ne permet de distinguer, n'est pas désirable. > > Nous avons observé géographiquement qu'il s'agit de situations où il y a une gare "ferroviaire" et une gare "routière" dans la même commune. Les gares concernées sont: > > - Albias > - Bourgneuf-en-Retz > - Hundling Hôtel de Ville > - Luzy > - Lérouville > - Pouzauges > - Sisteron > - Grenoble > > > Dans les 7 premiers cas de figure, les "deux gares" ne se trouvent pas au même endroit et les données du dataset nous permettent clairement d'identifier qu'une ne reçoit que des autocars et l'autre des trains (et éventuellement des autocars). Il semblerait donc assez pratique de renommer la première "Sisteron (gare routière)" par exemple. > > Le cas de Grenoble est plus gênant. Les "deux gares" sont géographiquement proches (l'une est localisée sur les quais de train, l'autre sur le parking au niveau des places d'autocars). Cependant, contrairement aux cas précédents, le dataset ne nous permet pas de clairement arbitrer entre un terminal purement routier d'un côté et un terminal mixte de l'autre. > Si tous les autocars passent bien par la seconde (le parking) en revanche les trains eux passent indifféremment par l'une ou l'autre et ceci même au sein d'une meme route... déroutant. > > Un exemple avec la route: > > route_id: FR:Line::05C666F4-3B26-4DB6-A4A8-F3C6D6150B76: > route_long_name: Grenoble - Chambery > route_type: 2 (train !) > ... > > > Dans un cas: > > trip: > route_id: FR:Line::05C666F4-3B26-4DB6-A4A8-F3C6D6150B76: > trip_id: OCESN39535R2717215:2023-11-11T00:36:34Z > ... > stop_time: > trip_id: OCESN39535R2717215:2023-11-11T00:36:34Z > stop_id: StopPoint:OCECar TER-87335521 (Grenoble) > > > Dans un autre: > > trip: > route_id: FR:Line::05C666F4-3B26-4DB6-A4A8-F3C6D6150B76: > trip_id: OCESN883761F2474384:2023-11-11T00:36:34Z > ... > stop_time: > trip_id: OCESN883761F2474384:2023-11-11T00:36:34Z > stop_id: StopPoint:OCETrain TER-87747006 (Grenoble) > ... > > > Bref, au niveau applicatif, afin de pouvoir exploiter ce dataset nous avons fait le choix de distinguer les activités routières et ferroviaires/mixtes pour les 7 premières et de regrouper tous ce qui se passe à Grenoble dans une seule et même gare. > > Sur 3900 gares, devoir implementer une gestion exceptionnelle pour 8 d'entre elles est regrettable. Je serais ravi si vous considériez notre désarroi et s'il vous était techniquement possible d'y remédier. > > Merci pour votre attention, > [...]
Barbagus changed title from Noms de gares dupliqué to Noms de gares dupliqués 2023-11-12 10:23:39 +00:00
Author
Owner

Il faut rajouter trois faux-négatifs. Des gares qui n'ont pas été orthographiée uniformément:

  • "Saint-Hilaire-De-Riez" & "Saint-Hilaire-de-Riez"
  • "Montlucon" et "Montluçon"
  • "Tarascon-Sur-Ariège" et "Tarascon-sur-Ariège"
Il faut rajouter trois faux-négatifs. Des gares qui n'ont pas été orthographiée uniformément: - "Saint-Hilaire-De-Riez" & "Saint-Hilaire-de-Riez" - "Montlucon" et "Montluçon" - "Tarascon-Sur-Ariège" et "Tarascon-sur-Ariège"
Sign in to join this conversation.
No Label
No Milestone
No project
No Assignees
1 Participants
Notifications
Due Date
The due date is invalid or out of range. Please use the format 'yyyy-mm-dd'.

No due date set.

Dependencies

No dependencies set.

Reference: Barbagus/TER#5
No description provided.