Re: [OSM-talk-be] import AGIV CRAB-data

Thomas Fri, 17 Oct 2014 14:28:44 -0700

Bedankt voor alle informatie! Ik kom nog maar net kijken bij OSM en hadde import-list nog niet gezien. Inmiddels heb ik alle relevanteberichten van vorig jaar even doorgenomen. Ik begrijp, samen met jullieinformatie, nu een stuk beter waar het geheel op hapert.

Zoals ik het nu begrijp zijn er een viertal discussiepunten (los van hetmeningsverschil over het al dan niet uitvoeren van de “import” met eendedicated user-account):1) De conceptuele aanpak van de data: wat willen we op welke manier inOSM hebben?2) De beoordeling van de kwaliteit van de data: hoe betrouwbaar zijn degegevens?

3) De methode van de initiële import.
4) De methode om de dataset up-to-date te houden

Uit wat ik allemaal gelezen heb leid ik af dat er al heel veelinspanningen geleverd zijn. Binnen de BE-community was er enigszinsovereenstemming, maar op de import-lijst was die er niet.

Het eerste discussiepunt lijkt altijd voor- en tegenstanders te hebbenvan een bepaalde visie. Naar mijn mening is overeenstemming lastig tebereiken omdat de achterliggende problematiek niet uitgeklaard is danwel kan worden. Het belangrijkste punt lijkt te zijn of adresgegevens ineen punt of als polygoon (de woning) moeten worden geïmporteerd. Feitlijkt me dat gewoon niet helder is wat een adres nu juist is. Verwijsteen adres naar een kadastraal perceel, een fysiek gebouw, eenwoon-eenheid binnen een gebouw, een toegangspunt tot een privaat domein,een fysieke voordeur, een brievenbus, etc. Eigenlijk enkel die eerstedurf ik echt te ontkennen (daar dienen kadastrale nummers immers voor).Voor de rest is het begrip “adres” volgens mij gewoon niet naderomschreven. Adressen werken omdat iedereen voor elk individueel gevalopnieuw beoordeelt waar in dat specifieke geval het adres naar verwijst.Dat in een objectief, wereldwijd systeem te vatten is zeer ambitieus.

Dat neemt natuurlijk niet weg dat de discussie wel gevoerd moet worden(en dat is hij eigenlijk al, tot in den treure). Niemand zal ontkennendat beide systemen (nog los van de vele variaties op deze systemen,verweven met meer of minder zaken koppelen in relaties) voor- en nadelenhebben. Mijn gevoel zegt me dat een pragmatische aanpak de enige manieris om vooruit te geraken. Ik denk dat feitelijke omstandigheden (dewijze om de dataset up-to-date te houden, de afwezigheid vangebouw-polygonen in een groot deel van Vlaanderen) eigenlijk maken dathet héél lastig wordt om enkel adresgegevens op polygonen teregistreren. Ik denk dat je niet ontsnapt om in sommige gevallenadresgegevens op een punt te zetten. In het licht van consequent zakenop dezelfde manier te doen lijken mij de punten dan het meest aangewezen.

Een ander argument is meer uit de praktijk. Ik heb op een aantalplaatsen gekeken waar gebouw-polygonen ingetekend zijn en waar deadres-punten uit het CRAB niet op het overeenkomstige polygoon vallen.Naar mijn idee staat het punt precies in het centroid van het polygoonvan het gebouw zoals dat bij AGIV gekend is. Daar waar gebouw-polygonenbeschikbaar zijn, zijn ze vaak ingetekend op basis van een luchtfoto(die op die schaal toch een aanzienlijke vertekening heeft). In vrijwelalle gevallen die ik bekeken heb is het CRAB-adrespunt nauwkeurigergepositioneerd dan de polygoon die in OSM aanwezig is. Dat neemtnatuurlijk niet weg dat er ook fouten in het CRAB zitten.

Ik wil hiermee geen oude koeien uit de gracht halen. Ik weet dat hetuitvoerig blijven discussiëren de community niet verder richtingconsensus schuift en dat het zeer frustrerend is voor de leden die hierheel veel moeite in stoppen om het te laten werken.

Los van deze conceptuele keuze zijn de andere drie aspecten eerdertechnisch/praktisch van aard. Wanneer de methodologie gekozen is, zaleen initiële test om de kwaliteit van de data te beoordelen niet zo'nprobleem zijn denk ik. Zoals ik het nu begrijp is het belangrijkstestruikelblok het “updateable” maken van de gegevens. Sander legt metzijn bericht een hele hoop inhoudelijke zaken op tafel. Hoewel ik nieuwben bij OSM heb ik wel enige affiniteit met GIS en ga ik me hier verderin verdiepen om misschien zelf ook bij te kunnen dragen aan detechnische aspecten.

Volgens mij schetst Sander terecht dat de originele piste niet zo handigis met zicht op het onderhouden van de gegevens. Ik heb beide anderemethoden even uitgeprobeerd. Via http://sanderd17.github.io/8840.htmllijken de punten steeds in een perfecte verticale lijn te liggen.Volgens mij gaat daar nog iets verkeerd in het script dat deOSM-bestanden opstelt. Maar misschien doe ik ook wel iets verkeerdhoor... De wiki pagina lijkt dan weer prima te functioneren.

Persoonlijk vind ik het om het even op welke manier de taken beheerdworden. Naar mijn mening zullen de “imports” toch eerder door ervarenleden gebeuren. Het hebben van een flashy interface met mooie kaart diede status netjes weergeeft vind ik dan niet belangrijk.

Belangrijker is de opzet om het geheel te kunnen updaten in de toekomst.Hoewel ik me nog in de technische aspecten moet verdiepen, lijkt het meessentieel om een tool te hebben die een soort van diff kan maken tusseneen (geupdate) CRAB-dataset en de OSM-situatie. Die gegevens moeten dusgematcht worden met elkaar. In de situatie dat een adrespunt boven eenniet-overeenkomstig gebouw-polygoon (met eigen adres-gegevens) komt teliggen, lijkt het me heel lastig die situatie goed op te lossen. Op heteerste zicht is dat ook een probleem dat zich best vaak zal voordoen.Bij de initiële import gebouw-polygonen verplaatsen naar waar ze horenlijkt me lastig, omdat we geen dataset hebben waarmee we dat nauwkeurigkunnen doen. Overtekenen van een luchtfoto is toch echt behelpen.Daarentegen zal in veruit de meeste gevallen het adres-punt vanuit hetCRAB wel op een “juiste” locatie liggen (het centroïd van hetgebouw-polygoon). In zo'n situatie de locatie van het punt weggooien ende adresgegevens mergen met het polygoon dat kennelijk daarmeeovereenstemt lijkt mij echt knoeien. Daarnaast zal ter plaatse gaankijken ook weinig oplossen. De precieze vormen van een gebouw op enkelemeters nauwkeurig bepalen zonder professionele apparatuur lijkt mij zeerlastig.

Ik zeg dit niet om mijn eerdere standpunt over het al dan niet in standhouden van de adressen als punten te herhalen. Ik wil enkel aangeven dathet volgens mij heel lastig wordt als die adrespunten niet gehandhaafdworden. Ik kan me geen algoritme voorstellen dat in zo'n situatie depunten aan de polygonen weet te matchen, wanneer zo'n polygoon nietprecies onder zo'n punt ligt. Een soort van afstand-algoritme zal niethelpen omdat er in veel gevallen een naburig gebouw dichter bij hetadrespunt ligt dan het daadwerkelijk overeenkomstige gebouw-polygoon.

Omgekeerd denk ik persoonlijk dat de adres-punten zouden kunnen helpenbij het corrigeren van de locatie van gebouwen. De vorm van een gebouwis doorgaans rechthoekig. De oriëntatie is doorgaans loodrecht

Volgens mij komt het er eigenlijk op neer dat het veel eenvoudiger zouzijn als we ook alle gebouw-contouren zouden hebben. Maar daar zaliedereen het wel mee eens zijn. Mijn mening op dit moment is dus dat hetin deze realiteit heel erg lastig wordt om het te doen met enkeladresgegevens op gebouwen. Daarnaast zie ik weinig grote bezwaren tegenhet in stand houden van de adrespunten. Naar mijn mening is de meestpragmatische keuze dus het importeren van de adresgegevens als punt enhet updaten van die punten. Dat kan volgens mij het eenvoudigst gedaanworden door een CRAB-id mee te importeren (ik besef dat dit vloeken inde kerk is...). Echter, ook met afstands-algoritmen moet er een en andermogelijk zijn.

Daarnaast lijkt het mij belangrijk dat het hele proces goedgeautomatiseerd kan verlopen. Aan een initiële import die niet teonderhouden valt heeft niemand wat. Integendeel; het eventueel moetenmergen van zo'n hoop data in OSM met een geüpdatet CRAB lijkt mij echteen nachtmerrie. In dit licht lijkt de derde optie van Sander mijzondermeer de meest interessante.

Ik kom nog terug op een aantal technische punten die Sander aanhaalt.Complimenten voor iedereen die hier al zo hard aan gewerkt heeft!


Vriendelijke groeten,
Thomas

Sander Deryckere schreef op 17-10-2014 12:03:

Ik ben idd bezig met het onderzoeken welke tools we kunnen gebruikenom de adressen te importeren, en nog belangrijker, te onderhouden.Gebaseerd op scripts van Ben.
Momenteel zijn er drie pistes open.
*1.* De originele piste is gebruik maken vanhttp://addr.openstreetmap.fr/vlaanderen/. Deze tool kan éénmalig dataals CSV importeren. Daarna moeten mappers aanduiden welke stratencompleet zijn en welke niet. Het is hier onmogelijk om data te updatenzonder de commentaren of classificatie te verliezen. Dus is deze toolenkel goed voor de initiële import, en zijn er problemen voor hetonderhoud.
Er is een script om de CRAB data naar een grote CSV te brengen, voorde initialisatie. Verder zijn er geen scripts meer nodig en werkt detool volledig crowd-sourced.
*2.* Het genereren van wiki pagina's zoals:http://wiki.osm.org/wiki/User:Sanderd17/AddrImport8840 (opmerking:momenteel worden hier rechtstreeks CSV bestanden aangeboden, dus moetje de open-data plugin van JOSM installeren om de wiki pagina tegebruiken).
Het doel bij deze is om éénmalig wiki pagina's te maken die verwijzennaar automatisch gegenereerde CSV bestanden. Het update proces ziet erals volgt uit:
  * Download 1.6 GB data van AGIV, en pak het uit
  * Download en run een python script om nieuwe CSV bestanden te maken
    (tijd onbekend, genereren van 1 gemeente kost iets minder dan 1
    uur, maar door de DB structuur moet voor 1 gemeente ook de
    volledige DB gelezen woden. Dus voor een volledig extract zou het
    lezen van de DB niet veel langer duren)
  * Upload de nieuwe CSV bestanden naar een git repo en bekijk de diff
    t.o.v. de vorige versie
  * Ga manueel alle wijzigingen van de diff gaan toepassen op de wiki
    pagina's (de CSVs zijn per straat, dus kan je eenvoudig zien welke
    bestanden nieuw, verwijderd of gewijzigd zijn om de correcte wiki
    lijnen aan te passen).
Mappers moeten hier dus hun opmerkingen en status info ingeven op dewiki pagina. Deze is zo gegenereerd dat het edits makkelijk maakt(geen tabellen gebruikt b.v.). Updates zijn nu mogelijk, maar vereisenmanuele tussenkomst om de status ingegeven door mappers niet teverwijderen (ttz: enkel de statusen te wijzigen van de straten diegewijzigd zijn).
Aangezien het runnen van het script tamelijk lang duurt denk ik nietdat we kandidaten zullen hebben om het iedere week te runnen (tochniet voor jaren aan een stuk). Ik heb er geen idee van hoe veelstraten gewijzigde adressen zullen hebben na een maand of twee, dushoe zwaar het manuele onderhoudswerk zal zijn.
Een ander nadeel is dat de aangeboden CSV diff files (die het verschiltussen OSM en CRAB tonen) ook maar gegenereerd worden tijdens deupdate (dus waarschijnlijk 1 keer per maand of 2). Dus als je in eengemeente aan het mappen bent zijn de diffs op het einde van de maandniets meer waard, en kan je ze niet gebruiken om je fouten op tesporen. Een spellingsfout in de straatnaam maakt hier veel kans omongezien te passeren.
*3.* On-th-fly vergelijking tussen OSM en CRAB:sanderd17.github.io/8840.html <http://sanderd17.github.io/8840.html>.(Opmerking1: De pagina is enkel getest met de meest recente versie vanFirefox, en ik verwacht niet dat de pagina nu al werkt op anderebrowsers. Opmerking2: ik heb de pagina nog niet werkende gekregen metjosm remotecontrol, dus momenteel kan je enkel .osm bestandendownloaden).
Hier wordt de CRAB database omgevormd tot JSON bestanden per straat.De webpagina gaat dan die JSON bestanden lezen, en vergelijken metdata die rechtstreeks van OSM komt via de overpass API (je moet duseven wachten tot alle data gelezen is voor de pagina tevoorschijnkomt). Voor een kleine gemeente is de pagina verrassend snel. Dusverwacht ik niet dat het veel problemen zal geven voor een stad.
Het update proces ziet er als volgt uit:

  * Download 1.6 GB data van AGIV, en pak het uit
  * Download en run een python script om nieuwe CSV bestanden te maken
    (runtime is iets korter dan optie 2, omdat de OSM data nu niet
    moet gelezen en vergeleken worden)
  * Upload de nieuwe CSV bestanden naar een git repo of site
De voordelen van deze werkwijze zijn dat er geen manuele tussenkomstis om de bestanden te updaten. Je moet geen diffs lezen, en het iszelfs niet belangrijk dat de CRAB data onder versiecontrole staat. Hetnadeel is dat mappers ook geen manuele status kunnen toewijzen, en dusook geen opmerkingen kunnen geven.
*OPMERKINGEN:*

  * De CRAB database bevat sommige adressen zonder coördinaten.
    Meestal is dit omdat een bedrijf en een privé woning op hetzelfde
    perceel staan (soms zelfs hetzelfde gebouw), maar een
    verschillende brievenbus hebben. Vaak, maar niet altijd, zijn die
    alternatieve nummers zichtbaar op de brievenbus, dus kunnen ze in
    OSM wel een positie krijgen als node. De tools behandelen die
    adressen nog inconsistent. Zo zie je bijvoorbeeld bij de derde
    tool, in de 14e Linistraat, dat er 1 missing adres is. Maar als je
    het OSM bestand opent, dan zie je een leeg bestand. Dat is net
    omdat het ene missing adres een adres zonder positie is in CRAB.
  * Staar je niet blind op het kaartje van de eerste tool. Een kaartje
    geeft een mooi overzicht, maar IMO werkt een lijst even goed. Het
    zou ook mogelijk moeten zijn om een kaartje te hebben in de derde
    tool. Een kaartje in een wiki pagina is iets moeilijker, maar een
    link naar umap is nog altijd mogelijk.
  * De automatische vergelijking (van tools 2 en 3) maakt nog geen
    gebruik van afstanden. Het vergelijkt enkel welke objecten er met
    een bepaalde straat en huisnummer getagged zijn in OSM, en welke
    er in CRAB zitten. Controle op basis van afstand is moeilijk,
    omdat de CRAB positie vaak het centrum van het perceel is, wat bij
    grote percelen (zoals bedrijven) wel eens heel ver van het
    hoofdgebouw of de ingang kan liggen.
  * CRAB data bevat niet altijd de officiële spelling van straatnamen.
    Zo zijn er enkel straten met afkortingen (Zie G. Gezellestraat in
    CRAB, and Guido Gezellestraat in OSM). Momenteel houdt de derde
    tool rekening met afkortingen (en dit naar de tweede tool porten
    is niet moeilijk), maar rekening houden met arbitraire
    spellingsverschillen is natuurlijk onmogelijk. Dus zullen deze
    straten altijd als incompleet gemarkeerd worden door de tools, tot
    iemand AGIV contacteert om de fout te melden (let op, de versie op
    de straatnaamborden is ook niet de officiële spelling, de
    officiële spelling kan enkel gevonden worden in gemeentedecreten).
We kunnen je natuurlijk niet weigeren om feiten te mappen. Toch nietals je die feiten afkomstig zijn van een compatibele bron en ingegevenmet een correcte bronvermelding. Maar hou er rekening mee dat de datain de eerste tool ondertussen wat verouderd is, en de andere toolsvolop in ontwikkeling zijn, waardoor ik enkel mijn eigen gemeentegeëxporteerd heb. Dus probeer je edits lokaal te houden, en telkenseen survey aan een import te koppelen.
Door een import aan een survey te koppelen krijg je ook een beter ideevan de kwaliteit van de CRAB data (op vlak van spelling en positieb.v.). Als je probeert verschillende omgevingen in je buurt te mappen(platteland, wijken, rijhuizen, appartementen, industrie, winkels,...) dan zal je ook een beter idee krijgen over dergelijke objectenhet best getagged worden, en waar CRAB data goed of slecht is.
Momenteel denk ik dat de derde werkwijze het meest succesvol zal zijn(als dat importprobleem met JOSM opgelost wordt). Het is volledigonafhankelijk van één persoon. Iedereen kan het script en de CRAB datadownloaden en de nodige bestanden genereren. De webpagina zelf bestaatuit pure JavaScript, dus kan die op eender welke server (of zelfslokaal) geïnstalleerd worden. Buiten CRAB en OSM is er ook geenexterne database nodig die moet onderhouden worden.
Ik zou graag de mening hebben van andere mappers, over hoe automatischof manueel het onderhoud zou moeten gebeuren. En als iemand graag CSSschrijft, dan is dat ook altijd welkom.
Groeten,
Sander
2014-10-17 6:43 GMT+02:00 Marc Gemis <marc.ge...@gmail.com<mailto:marc.ge...@gmail.com>>:
    Hallo Thomas,

    We hadden een volledig voorstel geschreven hoe we met de import
    zouden omgaan. De pagina's  op de wiki en de site waarnaar je
    verwijst zijn daar een deel van. Jammer genoeg werd dit voorstel
    niet goedgekeurd op de import-mailing list (en dus ook niet door
    DWG). Het ging daarbij vooral over de updates en de controle van
    de correctheid van de gegevens. (die inderdaad meer dan eens te
    wensen overlaat).
    Momenteel wordt er achter de schermen weer druk gewerkt aan een
    verbeterde versie. Ben Abelshausen en Sander Derycke weten daar
    alles van.

    Dus met andere woorden: het mag nu niet.

    Wat ik wel doe is als ik twijfel aan mijn eigen nota's even
    controleren op de AGIV website of ik het bij het rechte eind heb.

    met vriendelijke groeten

    m

    On Thu, Oct 16, 2014 at 11:53 PM, Thomas <o...@aptum.nl
    <mailto:o...@aptum.nl>> wrote:

        Hi,

        Beginners question: what's the current state of affairs
        concerning the import of the AGIV-CRAB-data?

        At http://wiki.openstreetmap.org/wiki/AGIV_CRAB_Import I read
        that there will be a Team Approach. How I understand it, there
        is a consensus about how to deal with the data. The page
        http://addr.openstreetmap.fr/vlaanderen/ looks to be up and
        running. On a very small scale imports seem to have started,
        but not by {username}_crab-accounts, as is prescribed by the wiki.

        At
        
http://wiki.openstreetmap.org/wiki/WikiProject_Belgium/Using_AGIV_Crab_data
        is explicedly stated: “Please do not use this procedure to
        upload data to OSM until the Data Working Group (DWG) has
        approved it.”. Has this already happened? The page hasn't been
        edited since November 2013.

        Eager to get started but apprehensive about the correct M.O. I
        thus wonder how things are going.

        Thomas

        p.s. 't mag ook in 't Vlaams hoor; ik ben nog niet helemaal op
        de hoogte van de etiquette op dit gebied... / Not sure about
        whether to write English or Flemish...

        _______________________________________________
        Talk-be mailing list
        Talk-be@openstreetmap.org <mailto:Talk-be@openstreetmap.org>
        https://lists.openstreetmap.org/listinfo/talk-be



    _______________________________________________
    Talk-be mailing list
    Talk-be@openstreetmap.org <mailto:Talk-be@openstreetmap.org>
    https://lists.openstreetmap.org/listinfo/talk-be




_______________________________________________
Talk-be mailing list
Talk-be@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-be

_______________________________________________
Talk-be mailing list
Talk-be@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-be

Re: [OSM-talk-be] import AGIV CRAB-data

Reply via email to