Skip to content

Einführung Cube Creator mit Beispiel

tboeni edited this page Aug 9, 2023 · 3 revisions

Einführung in Cube Creator

Getting Started

Neues Projekt erstellen

new_proj

Project name:

Hier kommt der Name des Projekts unter welchem es abgespeichert und in deiner "Cube projects" Liste angezeigt werden soll.

Publishing profile:

Abhängig vom Amt welches den Auftrag für die Datenintegration erteilt hat (für uns in der Regel BAFU / FOEN)

Start project from:

Definiere die Grundlage des Projekts (CSV File, eine Kopie eines bestehenden Projekts erstellen oder von einem bereits existierenden Cube ausgehend). In diesem Beispiel wählen wir die Option CSV File(s)

Cube identifier:

Der Cube identifier bestimmt den URI (Link) welcher eindeutig auf dein Projekt zeigt. Entsprechend muss der Identifier eindeutig sein!

❗ Am besten verwendet man hier nur Kleinbuchstaben und den Namen des Projekts (z.B. mpx_test_karte_mustermax) ❗

Input CSVs

Via das ➕ oder den "upload one"-Link können CSV vom Rechner via browse files oder drag-and-drop in den Cube Creator geladen werden.

upload_csv_1

Mit dem "Upload"-Button bestätigen und falls dieser erfolgreich war, schliesst sich das Fenster selbstständig.

1. CSV mapping

In diesem Schritt werden sämtliche Spalten ausgewählt, welche relevant sind und entsprechend in LINDAS gewerden sollen. Hier sind es alle Spalten, welche benötigt werden. Mit dem Button Create table from selected columns erstellen wir nun eine Tabelle mit unseren Spalten.

mapping

Source CSV file ist für unser Beispiel nicht relevant, da wir nun ein CSV-File benutzen.

Cube table? muss in diesem Fall einen Haken kriegen. Die Cube Tabelle ist die Haupttablle (Faustregel: Die Tabelle, welche die Messdaten enthalt. Hier die Inzidenz_pro_100000).

Table name ist selbsterklärend der Name der zu erstellenden Tabelle.

⚠️ Identifier template Einer der wichtigsten Schritte. Hier wird bestimmt, welche Kombination von Spalten eindeutig auf einen Messwert verweisen. Hier ist es nur der Kanton, da Inzidenz und Anzahl beides Messwerte und von einander abhängig sind! ⚠️

Display color bestimmt lediglich die Farbe des Tabellenreiters im Cube Creator (keine Relevanz für die Integration in LINDAS)

Edit column mapping

Für jede ausgewählte Spalte muss nun das mapping auf das ursprüngliche CSV gemacht werden. Hier passiert der erste Teil der Transformation vom CSV zu RDF. Den Daten werden hier nämlich erstmals Eigenschaften / Properties zugewiesen.

Source Column:

Zeigt an um welche Spalte es sich im CSV handelt

Target Property:

Gibt den Namen der Spalte an auf welche das Ursprungs-CSV zeigt. Da dieser Name ein Teil eines Links wird keine Umlaute, Sonderzeichen oder Leerschläge verwenden, falls der Namen vom Vorgechlagenen geändert werden soll.

Data type:

Bestimmen, welchem Datentyp der Inhalt der Spalte entspricht. Eine Erklärung der Datentypen findet man hier

Language:

In welcher Sprache die Spalte ist falls diese vom Datentyp "String" ist.

Default value:

Selten gebraucht, aber falls die Spalte leere Zeilen hat und diese statt keinem Wert (cube:undefined) stattdessen einen Standardwert haben soll.

2. Transformation

Nachdem sämtliche Spalten mit Metadaten versorgt worden sind auf den Reiter 2. Transformation wechseln und die Transformation starten.

3. Cube Designer

Edit metadata (Cube Metadata)

Um die allgemeinen Metadaten des Cubes zu bearbeiten auf das Stiftsymbol neben dem Titel "Missing cube title" klicken.

edit_cube_metadata_1 edit_cube_metadata_2

In diesem Dokument wird nur auf die wichtigsten Angaben eingegangen, welche gängigerweise in den meisten Cubes verwendet werden.

Title

Der Titel / Name des Cubes welcher angezeigt werden soll in Visualize (oder via SPARQL als schema:name). Wird in mindestens einer Sprache benötigt und soll für alle vorhandenen Sprachen im Datenset erfasst werden.

Description

Wie beim Titel (falls vorhanden) sollte die Beschreibung des Datensatzes in allen vorhandenen Sprachen erfasst werden.

Status

Gibt an ob es sich bei diesem Cube um einen Entwurf oder um eine fertige Version des Cubes handelt. Beim Integrieren ohne das Bestätigen der Datenbesitzenden wird der Status auf Draft bleiben.

Publish to

Bestimmt wo der Datensatz publiziert werden soll. Für experimentelle Integrationen reicht "visualize.admin.ch ansonsten bei einer Publikation sollte auch opendata.swiss ausgewählt werden.

Contact Point

  • Name: Die Anlaufstelle / Ansprechperson im Bundc

  • Email: Email-Adresse des Kontakts

Category

Unter welcher Kategorie der Datensatz fällt beziehungsweise um welches Thema sich die Daten drehen.

Edit metadata (Opendata.swiss)

Nur relevant, falls der Datensatz auf opendata.swiss publiziert werden soll (was jedoch bei einer finalisierten Publikation meistens der falls sein wird)

edit_cube_metadata_3 edit_cube_metadata_4

License

Generell wird hier immer "opendata.swiss - OPEN" sein (im Blick auf das EMBAG und die Philosophie von Linked Data sowieso)

Data refresh interval

Selbsterklärend, bei Nicht-wissen unknown anwählen. Sollte aber den Datenbesitzenden bekannt sein.

Data period

Die Zeitperiode welche das Datenset überspannt

Publisher

Welches Amt oder Sektion das Datensetz publiziert

Organisation

Wie bereits am Anfang ausgewählt noch einmal die Organisation angeben

Landing Page

In der Regel wird dort der genaue Link zum Datenset / Publikation angegeben, oder zumindest die Website der Publizierenden

Edit dimension metadata

edit_dimension_property_1 edit_dimension_property_2

Name

Name der Spalte in allen im Datensatz vorhandenen Sprachen

Description

Falls vorhanden in allen im Datensatz vorhandenen Sprachen die Dimension beschreiben (besonders bei "nicht-typischen" Dimensionen wie hier z.B. Inzidenz pro 100'000)

Dimension type

  • Key dimension: Beschreibt den Datensatz und hat keine Messwerte z.B. Kanton
  • Measure dimension: Spalte mit Messwerten
  • Keine Angabe: Muss nicht in Visualize als Auswahl- oder Anzeigemöglichkeit bestehen, aber ist trotzdem in LINDAS gewünscht (z.B. Spalte "Bemerkung")

Scale of measure

Falls die Spalte entweder eine Key - oder Measure Dimension ist die Scale of measure angeben. Eine Dokumentation dazu findest du hier

Unit

Nur bei der Measure dimension

Data Kind

Nur bei Koordinaten, Flächen oder Zeitangaben notwendig. Bei Zeitangaben noch zusätzlich die Genauigkeit der Zeitmessung angeben

Shared Dimensions

Um eine einer Spalte eine Shared Dimension hinzuzufügen auf das Kettensymbol klicken neben dem Spalten Namen und Bearbeitungssymbol

shared_dimensions_1

shared_dimensions_2

Auto-fill from Shared Dimension

Einfachste Methode eine Shared Dimension hinzuzufügen. Gewünschte Shared Dimension im Dropdownmenü suchen und auswählen.

Shared dimensions

Hier bestimmen welche Shared Dimension in dieser Spalte angewendet werden soll. ⚠️ Auch wenn schon ein Auto-fill gemacht wurde, muss hier die vorher ausgewählte Shared Dimension erneut selektiert werden ⚠️

Mappings

Hier werden sämtliche Werte angezeigt welche gemappt werden können oder bereits gemappt wurden auf die ausgewählte Shared Dimension. Manuell kann hier noch noch gewechselt werden. Via All, Mapped und Unmapped kann man selektieren welche Werte man sehen möchte.