Fehler, Verbesserungen oder Anmerkungen können mir gern per Email geschickt werden.

Was ist das eigentlich: Datenintegrität, Datenschutz, Datensicherheit und Datenqualität? Wofür braucht man das und wie stellt man es her?

Regulation

Für eine gute Datenverarbeitung existieren, je nach Anwendungsgebiet verschiedene Vorgaben:

Datenintegrität

Datenintegrität bildet die Grundlage für zuverlässige und vertrauensvolle Datenverarbeitung (von der Erstellung über alle Änderungen bis zur Löschung). Es existieren viele verschiedene Definitionen für Datenintegrität. Meiner Meinung nach unterscheiden diese sich nur in Feinheiten. Greifbar, weil man sie schön abhaken kann sind die ALCOA+-Kriterien:

  • A … Attributable (zuordenbar)
  • L … Legible (lesbar)
  • C … Contemporaneous (zeitnah, zeitgenau)
  • O … Original (originär, oder echte Kopie)
  • A … Accurate (korrekt)
  • + … Complete (vollständig)
  • + … Consistent (konsistent)
  • + … Enduring (langlebig)
  • + … Available (verfügbae)

Diese Kriterien können nicht eins-zu-eins auf jedes IT-System oder jeden Fall angewendet werden. Hierfür ist eine gewisse exigenese notwendig. So sind die einzelnen Kriterien für Archive, Fachanwendungen, Cloud-Anwendungen oder den heimischen Computer verschieden gewichtet und teilweise auch verschieden Umsetzbar. Nachfolgend werden die Kriterien für eine Datei-Verschlüsselung mit anschließendem Backup bei einem Cloud-Anbieter beschrieben:

    Kriterium   Beschreibung   Umsetzung für Dateiverschlüsseung
A   Attributable (zuordenbar)   Wer hat die Daten erzeugt. Hier ist damit gemeint, dass man selbst der Autor der Daten ist und niemand anderes sich unerkannt dafür ausgeben kann.   Stellt lokal das Betriebssystem sicher. Man muss also ein vertrauenswürdiges Betriebssystem wählen, welches die Dateiattribute richtig setzt. Für Daten beim Cloudanbieter heißt es das gleiche wie für das Betriebssystem. Man muss nachvollziehen können, dass man selbst diese Änderung herbei geführt hat.
L   Legible (lesbar)   Ursprünglich als Kriterium gegen schlechte Handschriften aufgenommen, bedeutet es für diesen Fall, dass man die Daten auch wieder entschlüsseln kann.   Das ist für eine Synchronisation von verschlüsselten Dateien nicht trivial. Im Fall eines Desasters muss man die Daten auf einem frisch installierten System wieder herunterladen und entschlüsseln können.
C   Contemporaneous (zeitnah, zeitgenau)   Informationen (wie eine Änderung an einer Datei) sollen zeitnah und wirksam gespeichert werden.   Wird eine Datei erstellt oder verändert soll der schreibvorgang dazu zeitnah aus dem Arbeitsspeicher auf das Speichermedium (in verschlüsselter Form) geschehen und ebenso zeitnah als Update zum Cloud-Anbieter hochgeladen werden. Während eine lokale Speicherung direkt oder innerhalb weniger Sekunden geschehen sollte, kann es ausreichend sein Updates nur zwei mal am Tag in die Cloud zu synchronisieren. Wenn häufig Änderungen getätigt werden, möglicherweise eine Versionierung nachgehalten werden soll oder ein Verlust kritisch wäre, kann es notwendig sein auch diese Änderungen sofort in die Cloud zu laden.
O   Original (originär, oder echte Kopie)   Bei den zu verarbeitenden Daten handelt es sich entweder um das Original oder eine echte Kopie. Also den unveränderten Zustand der Daten.   Es durchaus üblich, dass Cloud-Anbieter die Daten mit eigenen Zeitstempeln versehen. Das kann u.a. Einfluss auf die Synchronisation verschiedener Dateiversionen haben. Auch besteht durch die Verwendung bestimmter, automatisch ablaufender Optimierungsprozesse die Möglichkeit, dass das Orinal irreversibel verändert wird. Das wäre z.B. der Fall, wenn eine Fotoverwaltungssoftware automatisch Kompressionsverfahren anwendet.
A   Accurate (korrekt, unversehrt)   Die Daten sind wirklich so und tun nicht nur so. Oft wird hier richtig, vollständig, gültig und zuverlässlig genannt. Nicht zuverwechseln mit der Korrektheit aus der Datenqualität im Sinne von Richtig oder Falsch.   Eine unvollständige oder unrichtige Verschlüsselung wäre Katastrophal. So könnte Klartext durch den Cloudanbieter gelesen werden oder es würden beschädigte Dateien in der Cloud gespeichert werden.
+   Complete (vollständig)   Es gibt keine Auslassungen oder Ergänzungen. Man möchte ggf. feststellen ob etwas untergeschoben wird oder durch eine Auslassung ein anderer Eindruck entsteht. Für unseren Fall sind vor allem die Ergänzungen relevant.   Da man dem Cloud-Anbieter nicht vertrauen sollte, wäre es gut festzustellen, wenn es Lücken oder Ergänzungen gibt. So könnte eine Version einer verschlüsselten Datei später eine andere Version ersetzen. Dazu muss man den Inhalt nicht kennen, sondern nur Zugriff auf die Daten haben. Auch wäre es wichtig in hinblick auf das Ziel eines Backups, dass keine Dateien bei der Synchronisation mit der Cloud ausgelassen werden.
+   Consistent (konsistent, sinnhaft)   Es ist ersichtlich was wann wie von wem gemacht wurde.   Dies betrifft vor allem die Metadaten, wann welche Datei mit der Cloud synchronisiert wurde, so dass alle teilnehmenden Geräte den aktuellesten Zustand vorliegen haben.
+   Enduring (langlebig)   Auch in ferner Zukunft sind die Daten noch lesbar.   Das Verfahren zur Ver- und Entschlüsselung sollte auch in der Zukunft zur Verfügung stehen. Nicht, dass man zwar sein Backup aus der Cloud herunterladen kann, dieses aber nicht mehr entschlüsseln kann.
+   Available (verfügbar)   Alle Daten sind auch in ferner Zukunft noch da.   Der Cloud-Anbieter ermöglicht auch nocht in der Zukunft, dass man die Daten herunter laden kann. Das kann z.B. bei einer geänderten API schon nicht mehr ohne weiteres möglich sein.

Es ist also eine gute Abwägung zu treffen, was mögliche Angriffs- oder Schadensszenarien sind. Habe ich Angst vor Verlust, Manipulation oder Veröffentlichung der Daten in der Cloud oder möchte ich nur die Verfügbarkeit über mehrere Standorte erhöhen? Für besonders sensible Daten kann es daher sinnvoll sein zusätzliche Maßnahmen neben Verschlüsselung auf Datei-Ebene anzuwenden. Es kann z.B. schon ausreichend sein, die Detail-Ebene zu verschieben und auf verschlüsselte Container zu setzten (kein ZIP mit Passwort - ein echter verschlüsselter Container). Das Home-Verzeichnis wäre eine gute Stelle dafür. Aus den darin befindlichen Strukturen kann z.B. erkannt werden, welche Software eingesetzt wird (Config-Folder und -Files).

Wenn es zu heikel ist, rate ich grundsätzlich von der Speicherung in einer Cloud ab. Vielleicht kann man eine verschlüsselte, externe Festplatte an anderen Orten hinterlegen?

Datenschutz

… ist der Schutz vor ungewollter und unrechtmäßiger Datenverarbeitung. Insbesondere die Wahrung vom Recht auf informationelle Selbstbestimmung und der Schutz personenbezogener Daten sind wichtige Bestandteile dessen.

Datensicherheit

Ergänzend zur Datenintegrität geht es bei der Datensicherheit um den Schutz vor unberechtigten Zugriffen oder Veränderungen und im Falle das diese geschehen sind um deren Erkennung. Hat jemand unberechtigtes meine Daten gelesen? Hat jemand Ergänzungen, Veränderungen oder Löschungen vorgenommen?

Datenqualität

Dafür sind die Urheber/Autoren von Inhalten verantwortlich und in diesem Anwendungsfall nicht relevant.