DatabricksSFTPDatenpipelineAutomatisierung

SFTP-Daten automatisch in Databricks importieren – sicher, dedupliziert, vollautomatisch

Wie Unternehmen CSV-Dateien vom SFTP-Server automatisch in Databricks Delta Lake importieren – mit Duplikatschutz, Fehler-Routing und Notebook-Steuerung.

1

SFTP überwacht

Neue Dateien erkannt

2

Duplikat-Prüfung

MD5-Hash

3

Notebook-Routing

Automatisch zugeordnet

4

Delta Lake Import

Bronze Layer

5

Tracking-Tabelle

Status & Zeitstempel

SFTP-Daten automatisch in Databricks importieren

Viele Unternehmen liefern Daten noch per SFTP. CSV-Dateien, regelmäßig abgelegt, nach einem festen Schema. Das Problem: Databricks kann SFTP nicht nativ beobachten. Ohne Automatisierung sitzt jemand täglich am Schreibtisch und importiert manuell.

Das geht besser.

Das Problem vorher

Ein Betrieb bekam täglich Datendateien von externen Partnern per SFTP geliefert. Verschiedene Dateiarten, verschiedene Zuständigkeiten, verschiedene Notebooks in Databricks. Importiert wurde manuell – mit allen Risiken: vergessene Dateien, doppelte Importe, falsch zugeordnete Datensätze.

Der automatisierte Prozessablauf

Schritt 1 – SFTP-Überwachung Ein automatisierter Job überwacht den SFTP-Server und erkennt neue Dateien zuverlässig.

Schritt 2 – Duplikat-Schutz via Hash Jede Datei bekommt einen eindeutigen Fingerabdruck. Bereits verarbeitete Dateien werden übersprungen – auch wenn der Dateiname identisch ist, der Inhalt aber geändert wurde.

Schritt 3 – Automatisches Notebook-Routing Anhand des Dateinamens oder Dateityps wird automatisch das richtige Databricks-Notebook ausgewählt. Jede Datei landet genau dort, wo sie hingehört.

Schritt 4 – Import in Delta Lake Die Daten werden in die Bronze-Schicht importiert und von dort weiterverarbeitet. Vollständige Nachvollziehbarkeit, keine Datenverluste.

Schritt 5 – Tracking-Tabelle Jeder Import wird protokolliert: Dateiname, Zeitstempel, Status, verarbeitende Einheit. Fehler sind sofort sichtbar.

Das Ergebnis

Der manuelle SFTP-Import ist Geschichte. Neue Dateien werden automatisch erkannt, geprüft, zugeordnet und importiert. Das Team arbeitet morgens mit frischen Daten – ohne einen Handgriff.

Eingesetzt: n8n, Databricks, Delta Lake, Python, MD5-Hashing, Bronze-Silver-Gold-Architektur.


Du bekommst regelmäßig Dateien, die irgendwie in dein System müssen? Ich baue die Pipeline.

Kostenloses Erstgespräch buchen


Verwandte Themen: Legacy-Systeme anbinden · Datenpipeline für den Mittelstand · Fehler-Monitoring für Workflows

Klingt nach deinem Problem?

Kurze Nachricht genügt – ich melde mich innerhalb von 24 Stunden.

Mit dem Absenden stimmst du der Verarbeitung deiner Angaben zur Bearbeitung der Anfrage zu. Datenschutzerklärung

Kein Spam. Kein Verkaufsdruck. Nur ehrliche Einschätzung.

Direkt Termin buchen

Verwandte Themen