Perl diff revisions.pl: verschil tussen versies

Uit wiki.openbomenkaart.org
Naar navigatie springen Naar zoeken springen
(Nieuwe pagina aangemaakt met '==ook:verschillenlijsten== ===csv_match_revisions.pl=== Perl script '''[https://openbomenkaart.org/scripts/perl/csv_match_revisions.pl csv_match_revisions.pl]''' ka...')
 
Regel 1: Regel 1:
==ook:verschillenlijsten==
Script naam is eigenlijk '''diff_revisions.pl''' (incl underscore)
===csv_match_revisions.pl===
Perl script '''[https://openbomenkaart.org/scripts/perl/csv_match_revisions.pl csv_match_revisions.pl]''' kan twee CSV bestanden met gemeentelijke data vergelijken en daaruit een aantal verschillenlijsten produceren. Er zijn verschillende bestandsformaten voor gemeentelijke bomenbestanden. Het eenvoudigste voor ons doel is een
'''csv bestand ''' (Comma Separated Values)


Separated Values) of XLS(X) bestand (Excel spreadsheet). Een Excel bestand kan je heel eenvoudig exportereen naar een CSV bestand. Het script verwacht dat de invoerbestanden al (oplopend) zijn gesorteerd op het eerste veld Id (dit kan in Excel).
===Doel van het script===
Dit perl script kan twee bestanden met verschillende revisies voor gemeentelijke data vergelijken, en daaruit verschillenlijsten produceren.
<br>Er zijn verschillende bestandsformaten voor gemeentelijke bomenbestanden. Dit script verwacht altijd input in csv formaat (Comma Separated Values).
<br>Een Excel bestand (*.xlsx) kan je heel eenvoudig converteren (opslaan) als een csv bestand. Met QGIS kun je een shapefile converteren.


(''Terzijde: de naam Comma Separated Values kan misleidend zijn. Excel hanteert verschillende scheidingstekens in verschillende landen. In de Nederlandse versie van Excel is het een punt-komma. Dit script verwacht echt komma's als scheidingstekens.'')
<small>''Terzijde: de naam '''Comma Separated Values kan misleidend zijn'''. Excel hanteert verschillende scheidingstekens in verschillende landen. In de Nederlandse versie van Excel is het een punt-komma. Dit script verwacht echt komma's als scheidingstekens.''). <br>Oplossing is simpel: voeg als eerste lijn van het csv bestand (dus nog voor de headers) 'sep=;' toe. Voor verdere verwerking van het bestand met perl scripts is het raadzaam het bestand opnieuw op te slaan als een csv file. Die zal nu komma's bevatten,  in plaats van punt-komma's</small>
 
Het script verwacht dat de invoerbestanden al (oplopend) zijn gesorteerd op het eerste veld Id (dit kan in Excel).


===taxonnamen===
===taxonnamen===

Versie van 28 feb 2023 17:59

Script naam is eigenlijk diff_revisions.pl (incl underscore)

Doel van het script

Dit perl script kan twee bestanden met verschillende revisies voor gemeentelijke data vergelijken, en daaruit verschillenlijsten produceren.
Er zijn verschillende bestandsformaten voor gemeentelijke bomenbestanden. Dit script verwacht altijd input in csv formaat (Comma Separated Values).
Een Excel bestand (*.xlsx) kan je heel eenvoudig converteren (opslaan) als een csv bestand. Met QGIS kun je een shapefile converteren.

Terzijde: de naam Comma Separated Values kan misleidend zijn. Excel hanteert verschillende scheidingstekens in verschillende landen. In de Nederlandse versie van Excel is het een punt-komma. Dit script verwacht echt komma's als scheidingstekens.).
Oplossing is simpel: voeg als eerste lijn van het csv bestand (dus nog voor de headers) 'sep=;' toe. Voor verdere verwerking van het bestand met perl scripts is het raadzaam het bestand opnieuw op te slaan als een csv file. Die zal nu komma's bevatten, in plaats van punt-komma's

Het script verwacht dat de invoerbestanden al (oplopend) zijn gesorteerd op het eerste veld Id (dit kan in Excel).

taxonnamen

Twee van de verschillenlijsten gaan over taxonnamen:

  • een tekst bestand Leiden Matched Revisions Diff Species.txt, bedoeld als leesbaar overzicht
  • een csv bestand Leiden Matched Revisions Diff Taxon.csv, bedoeld om verder te verwerken met csv2json.pl. Dat script voegt in het json bestand extra tags toe waarmee je verschillen tussen gemeentelijke soortnamen in oude en nieuw bestand op een kaart kan markeren tijdens nalopen kan registreren wat de juiste naam is (de oude, of de nieuwe, of toch weer iets anders). Als je zo'n json bestand hebt met deze extra tags kun je die op de kaart zichtbaar maken door een extra parameter aan de url toe te voegen: checktaxon. Zie voor waarom dit er is en hoe het te gebruiken Veranderingen_in_taxonnamen_nalopen