Mit OGD Daten arbeiten
In dieser Zusatzaufgabe geht es darum einen Datensatz selbst zu identifizieren und zu bearbeiten. Für die Daten nutzen wir den OGD (Open Government Data - offene Behördendaten) Datenkatalog des Statistischen Amts des Kantons Zürich. Das Repository wird von euch selbst auf GitHub erstellt und wir bereiten den Datenimport vor, ein Thema womit wir uns in Modul 4 intensiver beschäftigen.
Schritt 1: Daten herunterladen
Öffne: https://www.zh.ch/de/politik-staat/statistik-daten/datenkatalog.html#/
Unter der Eingabemaske “Thema auswählen” klicke die Auswahl “Daten”. Dies wird nur Datensätze welche als CSV of XLSX abgelegt sind anzeigen.
Durchsuche nun den Katalog, entweder nach einem Thema in den du auf “Thema auswählen” klickst oder nach einem bestimmten Suchkriterium im Suchfeld “Suchen”.
Klicke auf einen Datensatz der dich interessiert um weitere Informationen zu erhalten. Stelle sicher, dass der Datensatz als CSV verfügbar ist.
- Lade die CSV Datei herunter und speicher diese an einem von dir gewählten Ort auf deinem Arbeitsgerät.
- Öffne die Daten NICHT mit MS Excel. Dies kann zu Problemen führen, da Excel die Daten automatisch formatiert und somit die Daten verfälscht.
Schritt 2: Erstelle ein neues Repository auf GitHub & clone es in die Posit Cloud
- Öffne die GitHub Organisation für den Kurs https://github.com/rstatszh-k009
- Rechts neben dem Feld “Find a repository” klicke auf den grünen “New” Button.
- Im Feld “Repository name” schreibe
ogd-daten-USERNAME
. Ersetze USERNAME durch deinen GitHub Benutzernamen. Vermeide Leerzeichen.
- Skrolle auf der gleichen Seite nach unten und klicke auf “Create repository”.
- Im Feld “Quick setup” klicke auf das Clipboard neben der HTTPs URL.
Öffne den rstatszh-k009 Arbeitsbereich (Workspace) auf posit.cloud
Klicke auf “New Project” > “New Project from Git Repository”
Füge die HTTPS-URL von GitHub in das Feld “URL of your Git Repository” ein. Beachte: Stelle sicher, dass die Box unter Packages ein Häkchen gesetzt hat.
Warte, bis das Projekt bereitgestellt wurde.
Schritt 3: Lade die Daten in das Projekt auf Posit Cloud
- Im Datei Manager im Fenster unten rechts, klicke auf “Folder” um einen neuen Ordner zu erstellen.
- Benenne den Ordner “daten”.
- Klicke auf den Ordner “daten” im Datei Manager im Fenster unten rechts.
- Innerhalb des Ordners “daten”, klicke auf “Upload” um die CSV Datei hochzuladen.
- Im Dialogfenster unter “File to upload:” klicke auf “Choose file” und navigiere zu der CSV Datei aus Schritt 1. Klicke auf OK.
Schaue im Fenster unten rechts nach, ob die Datei erfolgreich hochgeladen wurde.
Mache einen Commit für alle Dateien indem du im Git Fenster oben rechts neben allen Dateien das Kontrollkästchen anwählst und dann auf “Commit” klickst. Verwende die Commit-Nachricht “Projekt aufsetzen”.
Schritt 4: Erstelle eine Quarto Datei für die Datenimportierung
In deinem ogd-daten-USERNAME Projekt in RStudio auf Posit Cloud, gehe in der Menüleiste zu [File > New File > Quarto document] um ein Quarto Dokument mit HTML Output zu erstellen. Render das Dokument, welches dich nach einem Namen fragt - du kannst ogd-daten-analyse.qmd
verwenden und die Datei im Stammordner speichern.
Füge einen Titel und deinen Namen als Autor in die YAML Metadaten am Anfang des Dokuments ein.
Lösche den Text und Code-Blöcke unterhalb der YAML Metadaten.
Füge eine Sektion formatiert als Heading 2 und Titel: “R Pakete laden” hinzu.
Unterhalb der Sektion füge einen Code-Block hinzu.
Innerhalb des Code-Blocks, lade die R-Pakete:
readr
,dplyr
,ggplot2
.Unterhalb des Code-Blocks, füge eine weitere Sektion formatiert als Heading 2 und Titel: “Daten importieren” hinzu.
Unterhalb der Sektion füge einen Code-Block hinzu.
- Mache einen Commit für alle Dateien und verwende die Commit-Nachricht “Quarto Dokument für Datenimport erstellen”.
Schritt 5: Übertrage deine Änderungen auf GitHub
Navigiere zum Git-Bereich im Fenster oben rechts und stelle sicher, dass dieses leer ist. Sollte es leer sein, dann überspringe 2. bis 5. und mache bei Unterschritt 6. weiter.
Aktiviere die Kontrollkästchen neben allen Dateien, um sie für den Commit vorzubereiten.
Klicke auf die Schaltfläche “Commit”.
Gib eine Commit-Nachricht in das Feld “Commit Message” ein (z.B. ODG Daten Modul 3 abgeschlossen).
Klicke auf die Schaltfläche “Commit”. Das Fenster, welches sich daraufhin öffnet kann geschlossen werden.
Es ist möglich, dass Git dich erneut darauf hinweist, dass es nicht weiss, wer du bist. Diese Einstellung haben wir in Modul 1 zwar gemacht, jedoch habe ich in der Vergangenheit beobachtet, dass es bei einigen Teilnehmer:innen erneut zu dieser Meldung kommt. In diesem Fall musst du erneut folgenden Schritt ausführen, um deinen Namen und deine E-Mail-Adresse zu konfigurieren.
Klicke auf die Schaltfläche “Push”.
Gib deinen GitHub-Benutzernamen im Feld Username an.
Gib deinen GitHub Personal Access Token (PAT) im Feld “Password” ein.
Das Fenster kann geschlossen werden.
Du musst GitHub Personal Access Token (PAT) eingeben, den du in der Vorbereitung auf den Kurs erstellt hast um deine Änderungen zurück an GitHub zu übertragen.
Schritt 6: Eröffne ein Issue auf GitHub
Öffne github.com in deinem Browser.
Navigiere zur GitHub-Organisation für den Kurs: github.com/rstatszh-k009
Finde das Repository ogd-daten-USERNAME, das mit deinem GitHub-Benutzernamen endet.
Klicke auf die Schaltfläche “Issues”.
Klicke auf die grüne Schaltfläche “New issue”.
Schreibe in das Feld “Title”: “Zusatzaufgaben abgeschlossen”.
Markiere im Feld “Leave a comment” den Kursleiter mit @larnsce und hinterlasse eine Nachricht oder offene Frage.