Am 14.09.2011 17:18, schrieb Volker Grabsch:
Christian Kalkhoff schrieb:
ich habe gerade auf heise.de [1] gelesen, dass es in Berlin seit heute ein Datenportal [2] gibt.
Vielen Dank für den Hinweis! Das war mir noch gar nicht aufgefallen.
Kann jemand die Macher bitte auf freie Formate wie ODS oder ODT hinweisen?
Wie gesagt, die Idee finde ich super, nur in der Umsetzung sollten die Daten auch frei sein.
Hier sollten wir vorsichtig sein mit dem was wir fordern. Einerseits wollen wir offene Formate, klar. Aber andererseits wollen wir auch Rohdaten.
Im Zweifel würde ich immer die Rohdaten vorziehen, weil das ein Arbeitssschritt weniger ist, der möglicherweise fehlerbehaftet ist oder gar zur Manipulation einlädt.
Wenn zum Beispiel die Forderung nach ODS-Dateien dazu führt, dass die XLS-Dateien vor der Veröffentlichung einfach nochmal durch OpenOffice gejagt werden, dann haben wir nichts gewonnen. Das können wir auch selbst. Und wenn beim Export was schief geht, haben wir am Ende sogar weniger als vorher.
Beispiele:
Die Daten wurden direkt in Excel eingetippt. Wir erhalten also genau die Excel-Datei, die in der Verwaltung auch intern verwendet wird. In dem Fall hätte ich lieber genau diese XLS(X)-Datei anstelle irgendeinen Exportes.
Die Daten kommen aus einer SQL-Datenbank (z.B. PostgreSQL oder Orcale). In dem Fall wäre natürlich ein SQL-Dump oder CSV-Export deutlich sinnvoller. Da könnte man den Leuten in der Tat sagen, dass sie uns nichts Gutes tun, wenn sie das alles extra nochmal durch Excel durchjagen.
Die Daten kommen aus einer proprietären Applikation, die einen Excel-Export anbietet. In dem Fall kommen die Leute vielleicht kaum an die Rohdaten heran. Da könnte man höchstens fragen, ob die Applikation auch bessere Export-Formate anbietet. Falls nicht, wäre XLS immer noch die beste Option, da alles andere sowieso aus dieser XLS-Datei generiert werden würde.
Meiner Ansicht nach sollten wir grundsätzlich erst einmal in Erfahrung bringen, wie die Daten intern vorliegen. Erst dann können wir eine irgendeine Bewertung des Ausgabe-Formates vornehmen.
Ach ja, und das allerwichtigste ist erst einmal die Lizenz, unter der die Daten veröffentlicht sind (CC? gemeinfrei? OpenData? ...). Das Dateiformat halte ich für drittrangig. Meine Rangliste wäre also ganz klar:
- möglichst freie Lizenz
- möglichst nah an den Rohdaten
- möglichst freie Formate
CSV sollte für die machbar sein. Das kann sogar E. (fast jedenfalls)
re, wh