n8n erstellt professionellen Datenqualitätsbericht aus jeder CSV-URL in 30 Sekunden

Ein Team erhält soeben ein neues Datenset. Bevor mit der Analyse begonnen werden kann, stehen Fragen im Raum: Wie viele fehlende Werte existieren? Welche Spalten stellen Probleme dar? Welcher allgemeine Datenqualitätswert ergibt sich? Gewöhnlich investieren Data Scientists 15 bis 30 Minuten, um ein CSV manuell zu prüfen – mit pandas .info(), .describe() und .isnull().sum(), ergänzt durch Visualisierungen.

Was wäre, wenn sich jeder beliebige CSV-Link einfügen ließe und innerhalb von 30 Sekunden ein professioneller Datenqualitätsbericht zur Analyse bereitsteht? Kein Python-Umfeld erforderlich, keine manuelle Programmierung und kein Wechsel zwischen verschiedenen Tools. Der Zeitaufwand schrumpft damit von mehreren Minuten auf Sekunden.

n8n (ausgesprochen „n-acht-n“) ist eine quelloffene Plattform zur Automatisierung von Workflows. Mit einer visuellen Drag-&-Drop-Oberfläche verbindet sie Dienste, APIs und Tools. Typische Anwendungsfälle wie E-Mail-Marketing oder Kundenservice sind weit verbreitet. Alle Abläufe sind grafisch dargestellt, wiederverwendbar und lassen sich leicht anpassen. So können Datenquellen verknüpft, Transformationsschritte ausgeführt, Analysen gestartet und Ergebnisse bereitgestellt werden – ohne Toolwechsel.

Im Gegensatz zu herkömmlichen Python-Skripten entfallen Installationen und Umgebungswechsel. n8n-Workflows bestehen aus sogenannten Nodes. Jeder Node repräsentiert einen einzelnen Schritt, von Datenabruf über Bereinigung bis hin zur Ergebnispräsentation. Diese visuelle Umsetzung erleichtert das Anpassen bestehender Pipelines und beschleunigt die Einarbeitung für neue Teammitglieder.

Der vorgefertigte Datenqualitäts-Analyzer umfasst vier miteinander verbundene Nodes:

Manual Trigger: startet den Workflow per Mausklick.
HTTP Request: lädt jede CSV-Datei von einer URL.
Code Node: wertet die Daten aus und erstellt Qualitätskennzahlen.
HTML Node: formatiert die Ergebnisse zu einem ansprechenden Bericht.

Der Einstieg gelingt über eine vorgefertigte Workflow-Vorlage. Im Interface von n8n die Option „Import from File“ wählen und die heruntergeladene JSON-Datei öffnen. Alle vier Nodes erscheinen automatisch. Danach Workflow benennen und speichern. Der komplexe Analyse-Code ist bereits integriert und einsatzbereit.

Manual Trigger: Löst die Ausführung per Klick auf „Execute Workflow“ aus – ideal für Ad-hoc-Checks.
HTTP Request: Ruft beliebige öffentliche CSV-Links ab und liefert den Rohtext.
Code Node: Beinhaltet eine robuste CSV-Parsing-Logik, die gängige Abweichungen bei Trennzeichen und Anführungen berücksichtigt. Fehlende Werte im Format null, leer oder „N/A“ werden erkannt. Der Node berechnet Qualitätsscores, erstellt Schweregrade und formuliert konkrete Empfehlungen.
HTML Node: Wandelt die Analyseergebnisse in einen übersichtlichen, farbkodierten Bericht um.

Zur Ausführung im oberen Menü „Execute Workflow“ anklicken. Jeder Node zeigt anschließend einen grünen Haken, sobald er fertig ist. Im Anschluss am HTML Node den Reiter „HTML“ öffnen und den Bericht direkt im Browser betrachten. Resultat lässt sich per Copy & Paste weitergeben oder per Screenshot dokumentieren. Ein Lauf dauert in der Regel unter 30 Sekunden.

Der farbig hinterlegte Quality Score liefert eine Soforteinschätzung:
• 95–100 %: nahezu perfekte Datenqualität, sofortig bereit für die Analyse
• 85–94 %: exzellente Qualität, nur minimale Nachbearbeitung nötig
• 75–84 %: gute Qualität mit moderatem Preprocessing-Aufwand
• 60–74 %: akzeptabel, gezielte Bereinigung in mehreren Spalten erforderlich
• unter 60 %: unzureichend, umfassende Datenaufbereitung dringend empfohlen

Das hier gezeigte Scoring basiert auf dem Anteil fehlender Werte. Zukünftige Varianten könnten Konsistenz, Ausreißererkennung oder Schema-Validierung berücksichtigen.

Ein Beispielbericht weist einen Quality Score von 99,42 % aus – das Datenset ist somit weitgehend vollständig.
Insgesamt 173 Datensätze: Mustergröße für erste Exploration
21 Spalten: überschaubare Feature-Anzahl
4 Spalten mit fehlenden Werten: gezielte Aufmerksamkeit erforderlich
17 vollständig ausgefüllte Spalten: Mehrheit der Daten ist lückenlos präsent

Diese Zahlen zeigen, wie die Analyse rasch Klarheit über Stärken und Verbesserungspotenzial liefert.

Als Testdatensätze eignen sich bekannte CSV-Quellen:
• Iris-Datensatz (https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv) erzielt meist 100 %
• Titanic-Datensatz (https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv) landet um 67,6 % wegen fehlender Alters- und Kabinendaten
• Eigene Daten lassen sich über GitHub Raw oder jede andere öffentliche URL einbinden

Je nach Quality Score können unterschiedliche Maßnahmen folgen. Über 95 %: direkt zur Exploratory Data Analysis übergehen. 85–94 %: nur leichte Nachbearbeitung problematischer Spalten einplanen. 75–84 %: moderate Datenbereinigung vorab durchführen. 60–74 %: gezielte Strategien für mehrere Spalten entwickeln. Unter 60 %: prüfen, ob das Datenset für das geplante Vorhaben geeignet ist oder ob tiefgreifende Aufbereitung nötig wird.

Organisationen können den Workflow um weitere Nodes erweitern. Ein Send Email Node nach dem HTML Node sorgt dafür, dass Berichte automatisch an Stakeholder wie Projektleiter oder Data Engineers verschickt werden. E-Mail-Vorlagen lassen sich so anpassen, dass sie Executive Summaries oder individuelle Empfehlungen auf Basis des Quality Scores enthalten. Statt des manuellen Starts kann ein Schedule Trigger Node integriert werden, um automatisierte Analysen in täglichen, wöchentlichen oder monatlichen Abständen durchzuführen.

Wer mehrere Datensets in einem Durchgang überprüfen möchte, kann den Workflow so anpassen, dass er eine Liste von CSV-URLs verarbeitet und einen vergleichenden Qualitätsbericht erstellt. Diese Batch-Verarbeitung unterstützt regelmäßige Audits und Priorisierung von Datenquellen. Außerdem lässt sich die Code-Logik im Code Node erweitern, um JSON-Strukturen oder Excel-Dateien (XLSX) zu parsen und vorab in CSV umzuwandeln. Damit wird der Analyzer zu einem universellen Tool für alle Datenformate im Unternehmen.

n8n erstellt professionellen Datenqualitätsbericht aus jeder CSV-URL in 30 Sekunden

Leave a Reply Cancel reply

Quick Links