Titel des Blogbeitrags, mehrfach untereinander daneben zwei Stifte

Alles, was kopiert werden kann, wird kopiert?

F√ľr das Magazin Computer + Unterricht habe ich einen Artikel zur Kopierbarkeit von Daten und m√∂glichen ethischen Auswirkungen bzw. Perspektiven verfasst. Das Manuskript (Rohfassung) habe ich auf Zenodo als Open-Access-Werk unter CC0/Public-Domain-Freigabe ver√∂ffentlicht (weiter unten auf dieser Seite kann der Text direkt online gelesen werden):

Andrasch, Matthias (2017). Alles, was kopiert werden kann, wird kopiert?. Zenodo. https://doi.org/10.5281/zenodo.1117317

Update 18. Dezember 2017: Der Beitrag wurde – zu meiner unglaublich gro√üen Freude – von Benedikt Geyer (Podcaster) eingesprochen und ist auf Soundcloud sowie YouTube frei verf√ľgbar (CC BY-ShareAlike 3.0 US) zu h√∂ren:

Die lektorierte und gefeedbackte Version (nicht unter freier Lizenz) erschien in der Ausgabe ‚ÄěMedienethik‚Äú (Computer + Unterricht Nr. 108/2017) und kann beim Friedrich Verlag als Printausgabe bestellt werden. Als gro√ües Learning nehme ich f√ľr mich mit, dass die lektorierte Version deutlich pr√§gnanter und somit qualitativ hochwertiger geworden ist. Da es sich um meinen ersten eigenen Beitrag zu einer Fachzeitschrift handelt, war dies meine erste Lektoratserfahrung. Ein solches Lektorat h√§tte ich wirklich sehr gerne f√ľr jeden meiner Blogbeitr√§ge! ūüôā Vielen Dank an Alexander K√∂nig, die Herausgeber*innen von Computer+Unterricht sowie die Redaktion vom Friedrich Verlag.
Hier die Online-Version f√ľr direktes Lesen ohne Umwege:


Alles, was kopiert werden kann, wird kopiert?

Wie bewegen wir uns durch die Welt? Jugendliche wachsen in eine Welt hinein, in welcher Datenerhebungen allgegenw√§rtig sind und sie potenziell auf Schritt und Tritt begleiten. Werden die gef√ľhrten Debatten um Jugend, Bildung und Digitalisierung der technischen und gesellschaftlichen Gesamtsituation gerecht?
Im London Science Museum ist derzeit eine Schwarz-Wei√ü-Fotografie von jungen Frauen ausgestellt, welche Berge von kleinen Papierzetteln sortieren, die sich auf ihren Schreibtischen t√ľrmen. Die kleinen Papierzettel sind die 4 Millionen Tickets, die von Bahn- und Busfahrg√§sten in London im Jahr 1939 eingesammelt und ausgewertet wurden. Die Betreiber wollten u.a. herausfinden, welche Streckenabschnitte wie h√§ufig genutzt werden. Die Sortierung per Hand dauerte laut Bildunterschrift etwa sechs Monate. ¬†

>> Foto auf gettyimages.com ansehen (neuer Tab, leider nicht unter freier Lizenz)


Im Jahr 2017 sind die U-Bahneing√§nge in London mit elektronischen Schranken ausger√ľstet. An diesen k√∂nnen Fahrg√§ste einen Papierfahrschein mit Magnetstreifen einschieben oder eine Kundenkarte, die sogenannte Oystercard, auf ein Kontaktfeld legen. Ist der Fahrschein nicht mehr g√ľltig oder auf der Oystercard nicht genug Geld vorhanden, leuchtet eine rote Lampe auf und die Schranke ¬†bleibt verschlossen. Ist alles in Ordnung, leuchtet eine gr√ľne Lampe auf und die Schranke √∂ffnet sich. Mit jedem Leuchten wird ein neuer Eintrag in der Fahrgast-Datenbank gespeichert: Art des Fahrscheins, Station, Datum, Uhrzeit. Beim Verlassen werden diese Daten ebenfalls mittels Schrankensystem erhoben, und die Kosten f√ľr die Fahrt von der Oystercard abgezogen. Um seine Privatsph√§re muss man sich hierbei, abgesehen von den vielen √úberwachungskameras in London, eigentlich keine Sorgen machen: Die Oystercard kann ebenso am Automaten mit Bargeld gekauft und aufgeladen werden, ohne die Angabe pers√∂nlicher Informationen.
Mit Hilfe dieser erfassten Daten kann man auf www.tubeheartbeat.com/london/ das Fahrgastaufkommen des Jahres 2015 grafisch eindrucksvoll miterleben. M√∂glich ist dies, weil die Datens√§tze aus der Fahrgast-Datenbank kopiert, von personenbezogenen Informationen befreit und als offene Daten (Open Data) zur Verf√ľgung gestellt wurden. Was fr√ľher ein langwieriges Projekt war, sind heute wenige Klicks und ein paar Sekunden Rechenzeit.

Die Kopierbarkeit von Daten als Kernelement des Digitalen

Die Computertechnologie brachte etwas radikal Neues in das Leben der Menschen: Die Kopierbarkeit ohne Qualit√§tsverlust. Da bei Daten alles auf Abfolgen von Einsen und Nullen zur√ľckzuf√ľhren ist, k√∂nnen diese Abfolgen beliebig vervielf√§ltigt werden: Pl√∂tzlich gibt es kein Original mehr? Eine Originaldatei und Kopie lassen sich nur durch Metadaten wie dem Dateinamen oder √Ąnderungsdatum unterscheiden – der Inhalt ist absolut identisch. Die massenhafte Produktion identischer G√ľter, welche in Manufakturen oder Fabriken √ľber Jahrhunderte von Menschen angestrebt wurde, ist nun in der Computertechnologie m√∂glich. Alles, was wir im Internet tun, ist auf Kopien zur√ľckzuf√ľhren: Kopierte Datenpakete, die durch die Welt geschickt werden.
Dennoch wird viel √ľber den Besitz, den Verkauf sowie den Diebstahl von Daten und Datens√§tzen gesprochen. Selten wird meiner Erfahrung nach die Kerneigenschaft der Datens√§tze thematisiert, welche sich in Datenbanken von gro√üen oder kleinen Unternehmen, Verwaltungen oder Bildungseinrichtungen befinden: Sie sind einfach und schnell kopierbar. Alle diese Daten lassen sich durch Personen mit den n√∂tigen Zugriffsberechtigungen ganz einfach kopieren und auf andere Rechner oder Speichermedien kopieren. Die Originaldatei bleibt davon unber√ľhrt. Und so passt auch der Begriff des Verkaufens nicht recht in die heutige Realit√§t, weil meist nicht die Originaldaten verkauft werden und den Besitzer wechseln, sondern nur Kopien der Daten bereitgestellt werden. Daten sind keine klassischen Sachg√ľter, diese Unterscheidung ist zentral. Ein Unternehmen verkauft nicht Daten aus seinem Besitz an andere Unternehmen oder Forschungseinrichtungen, sondern es verkauft Kopien bzw. den Zugang zu diesen Daten, die dem Unternehmen erhalten bleiben.
Insofern ist also eigentlich die Frage relevant, wer wann welche Daten mit welcher Erlaubnis kopiert – und wie das nachvollzogen werden kann. In Organisationen kann das Datenkopieren durch die Protokollierung von Benutzeraktivit√§ten nachvollzogen oder durch Sicherheitsvorkehrungen verhindert werden. Werden Zugriffsberechtigungen oder Sicherheitsma√ünahmen umgangen, dann ist die Konsequenz oft unklar. Zu beobachten ist dies bei Sicherheitsl√ľcken oder Hackerangriffen: Oft kann nur gemutma√üt werden, ob und in welchem Umfang Daten aus Kundendatenbanken entwendet wurden. Die Daten sind ja noch in der Kundendatenbank vorhanden. Manchmal tauchen illegal kopierte Daten wieder im Netz auf: Auf www.haveibeenpwned.com k√∂nnen Nutzer*innen pr√ľfen, ob ihre Daten bei solchen F√§llen betroffen waren, beispielsweise bei den F√§llen der kopierten Kundendaten der gro√üen Unternehmen Adobe oder Sony. Andere F√§lle bleiben hingegen jahrelang unentdeckt. ¬†Wieder andere F√§lle ereignen sich, wenn die eigentliche Online-Plattform schon gar nicht mehr existiert: Die Nutzerdaten des Portals Mitfahrgelegenheit.de gelangten im Herbst 2016 in die H√§nde von Hacker*innen, weil eine archivierte Version der Datenbank unzureichend abgesichert wurde durch das neue Unternehmen, welches das Portal √ľbernommen hatte.
Eine weitere Problematik der einfachen Kopierbarkeit sind untergeschobene Beweismittel: Findet man ein gestohlenes Auto bei einer Person in der Garage, dann kann dies ein stark belastender Beweis f√ľr einen Diebstahl sein. ¬†Eine Datei mit illegalem Inhalt auf das Smartphone einer Person zu kopieren, ist eine vergleichsweise leichte √úbung und kann unter Umst√§nden ohne das Hinterlassen einer nachweisbaren Spur geschehen. ¬†Ein Virenscanner oder eine Firewall kann vielleicht einige oder viele Angriffe abwehren, aber nur ein einziger erfolgreicher Versuch reicht, um kompromittierendes Material auf entfernte Rechner zu kopieren oder Daten unbefugt zu kopieren (umgangssprachlich: zu entwenden). Manchmal verschlimmern Schutzma√ünahmen sogar die Situation: Das eigentlich gutgemeinte Browser-Plugin Web of Trust, welches besuchte Webseiten und personenebezogene Daten offenlegte,¬†ist nur ein Beispiel hierf√ľr. L√§ngst kann man sich bei Apps nicht mehr sicher sein – eine App bzw. ein kleines App-Update reicht aus und der Kommunikationsverkehr auf dem Smartphone wird unter Umst√§nden kopiert und an Dritte verschickt. Die Liste m√∂glicher Szenarien ist lang, bei welchen Daten – befugt oder unbefugt – kopiert und weitergesendet werden.
Ein m√∂glicher Schutz ist die kryptographische Verschl√ľsselung von Daten. Verschl√ľsselte Daten k√∂nnen nur durch ein zus√§tzliches Passwort (Privatschl√ľssel) entschl√ľsselt werden, welches nicht auf dem Server des Plattformbetreibers gespeichert ist. Auf politischer Ebene wird eine vollumf√§ngliche Verschl√ľsselung aber von einigen Akteuren z.B. bei Messengern abgelehnt, weil Onlinekommunikation dadurch nicht mehr staatlich √ľberwacht werden kann – schlichtweg, weil der Plattformbetreiber selber nicht die verschl√ľsselten Nutzerinhalte einsehen und an Beh√∂rden weitergeben kann. Hinzu kommt, dass im viel zitierten Darknet ein Markt f√ľr sogenannte ‚ÄěZero-Day-Exploits‚Äú existiert. Dies sind leicht auszunutzende Sicherheitsl√ľcken, von denen die Software-Hersteller noch keine Kenntnis haben. Einige staatliche Geheimdienste kaufen selber diese Sicherheitsl√ľcken ein, um sie f√ľr eigene Aktionen zu nutzen. Sie setzen somit die B√ľrger*innen oder Institutionen ihres eigenen Staates einer potenziellen Gefahr aus, da sie die Hersteller nicht auf die L√ľcken aufmerksam machen. Hier werden die politischen Rahmenbedingungen bei der Debatte um Daten und Sicherheit deutlich. √úber die Entwicklungen in diesem Bereich wird u.a. auf dem spendenfinanzierten Blog netzpolitik.org berichtet.

Der Realität ins Auge blicken?

Wie geht man mit dieser, derzeitig diffusen und wenig komfortable erscheinenden Gesamtlage um, in welcher selbst Facebook-Chef Mark Zuckerberg die Webcamlinse seines Laptops abklebt oder der deutsche Bundestag erfolgreich √ľber das Internet angegriffen wird? Eine spontane, nur allzu menschliche Reaktion ist es wohl, an dieser Stelle mehr Kontrolle und Sicherheit einzufordern. Zum Beispiel hohe Strafzahlungen f√ľr Unternehmen, die Kopien ihrer Daten unerlaubt weiterverkaufen oder unzureichend absichern. Oder man setzt bei der Verantwortung des Einzelnen an: Nur vertrauensw√ľrdigen Unternehmen Daten anvertrauen, vorsichtig sein, m√∂glichst datensparsam agieren! Das Beispiel des Portals Mitfahrgelegenheit.de sollte aber gezeigt haben, dass selbst bei vermeintlich vertrauensw√ľrdigen Unternehmen die Daten trotzdem irgendwann illegal kopiert werden k√∂nnen – nur wegen einer kleinen Unachtsamkeit von Mitarbeiter*innen oder wegen einer Sicherheitsl√ľcke.
Eine andere, f√ľr einige vermutlich eher befremdliche Reaktion: Das Akzeptieren der Kopierbarkeit als Kernelement des Digitalen. Was, wenn das Denkmuster der sogenannten analogen Welt in vielerlei Hinsicht nicht zu den technischen Realit√§ten passen? Treten wir einen Schritt zur√ľck: Wem geh√∂ren Daten eigentlich? Haben die Betreiber des Londoner U-Bahnnetzes nicht auch das Recht oder sogar in gewisser Weise die Pflicht, zeitgem√§√üe Datenanalysen zu nutzen, um das Fahrerlebnis zu optimieren? Also auch meine Fahrtstrecken zu erheben und zu speichern? Was habe ich dadurch eigentlich zu verlieren, wenn nur Art des Fahrscheins, Station, Datum und Uhrzeit erhoben wird und sowieso keine personenbezogenen Daten enthalten sind, wenn ich mit Bargeld bezahle? Sollten nicht sowohl der Betreiber als auch ich selbst diesen Datensatz behalten d√ľrfen? Und was ist so schlimm daran, wenn auch Dritte diese Daten in vollem Umfang nutzen d√ľrfen, um Erkenntnisse zu produzieren? Wieso √ľberhaupt Daten sch√ľtzen? Alles, was kopiert werden kann, wird ja sowieso kopiert?

Die Verkn√ľpfbarkeit von Daten

Die aufgeworfenen Fragen f√ľhren allerdings deutlich tiefer in eine verfahrene Situation hinein: Durch Analysemethoden wie Big Data ist es inzwischen m√∂glich geworden, gro√üe Massen an Datens√§tzen zielgenau auszuwerten. Somit k√∂nnen auch Datens√§tze aus verschiedenen Datenbanken analysiert und in Verbindung gesetzt werden. Die vermeintlich anonymen Fahrtstrecken der U-Bahn k√∂nnten beispielsweise durch die GPS-Datenauswertung von Social Media Postings doch wieder einzelnen Personen zugeordnet werden, d.h. deanonymisiert werden (Beispiel Deanonymisierung von Marketingdaten auf wired.com). Es ist schwer bis unm√∂glich abzusch√§tzen, welche Daten aus welchen Quellen mit welchen Methoden sp√§ter einmal verkn√ľpft werden k√∂nnen. Klar ist nur: Derzeit werden in sehr vielen Bereichen des Alltags Daten erhoben sowie Datenanalysen f√ľr Entscheidungen eingesetzt – mal eher √∂ffentlich wie im Fall der Londoner U-Bahn, manchmal aber kaum wahrnehmbar. J√ľngstes Beispiel ist das Tracking von Kunden mit Hilfe von ausgesendeten Ultraschallsignalen an Ladeneing√§ngen (Beacons), welche von Smartphone-Apps unter Einwillung der Nutzer*innen oder auch heimlich registriert werden k√∂nnen. Somit ist der Ladenbesuch direkt mit einem Kundenprofil verkn√ľpfbar. Wenn dieser Artikel erscheint, ist dieses Beispiel unter Umst√§nden schon durch neuere, raffinierte Trackingmethoden im Marketing ersetzt worden.

Ein zeitgemäßer Umgang?

F√ľr einen zeitgem√§√üen Umgang mit der Kopierbarkeit m√ľssen nicht die historisch gewachsene Errungeschaften wie Rechtsstaat, Privatsph√§re oder die freiheitlich-demokratische Grundordnung √ľber den Haufen geworfen werden, sondern sie m√ľssen in Verbindung gebracht werden mit den Ph√§nomenen und Bedingungen, die die beschriebene Kopierbarkeit mit sich bringt. Die medienethische Dimension spannt sich f√ľr mich hierbei nicht grundlegend bei der Programmierung der viel diskutierten Algorithmen auf, sondern ebenso wichtig ist doch die Frage, wer Zugang zu welchen Daten hat und somit erst die M√∂glichkeit zur Analyse oder Verkn√ľpfung von Daten durch Algorithmen erh√§lt (siehe ‚ÄěDer Flaschenhals sind die Daten‚Äú). Im Fall von Big Data ist z.B. zentral, wie die dahinterliegenden Statistikmodelle funktionieren und welche Aussagen damit getroffen werden k√∂nnen. Bei Big Data Methoden ist die Kausalit√§t der Korrelation gewichen – ein Punkt, der in der √∂ffentlichen Diskussion leider oft zu kurz kommt. Mit Machine Learning Methoden sowie den Entwicklung rund um das Thema K√ľnstliche Intelligenz werden sich mit hoher Wahrscheinlichkeit in n√§chster Zeit hier weitere Verschiebungen ergeben. Forscher*innen berichten bereits, dass manche der produzierten Resultate f√ľr Menschen nur noch sehr schwer nachvollziehbar sind. Illustrieren k√∂nnte man diese Entwicklung durch den Komplexit√§tssprung, der zwischen IBMs Schachcomputerprogramm Deep Blue und der K√ľnstlichen Intelligenzl√∂sung Watson liegt. Ein weiteres Beispiel f√ľr diesen Sprung ist Googles AlphaGo. Das Ende der Fahnenstange ist hierbei technisch l√§ngst nicht erreicht: Das Unternehmen Adobe zeigte mit einer Demonstration der Software VoCo auf, dass inzwischen auch Sprache mittels neuer Methoden leicht bearbeitbar bzw. manipulierbar ist.

Im Videobereich gibt es √§hnliche Forschungsprojekte, die einen Vorgeschmack auf die zuk√ľnftigen Medienwelten geben:

Nicht zuletzt sollten die soziokulturellen Effekte, die sich ergeben, immer wieder Anlass zur Diskussion und Anpassung von Strategien sein. Dies wird angesichts der technischen Entwicklungsspr√ľnge und massenhaften Internetnutzung wohl deutlich √∂fter und schneller n√∂tig sein. Danah Boyd, Wissenschaftlerin f√ľr Technolgie und Gesellschaft, legte erst k√ľrzlich in einem Blogbeitrag eindr√ľcklich dar, wie selbst offene Daten zu einer h√∂hereren sozialen Ungleichheit f√ľhren k√∂nnen. Offene Daten also, die eigentlich alle B√ľrger*innen positiv erm√§chtigen sollen. In ihrem Beitrag ‚ÄěToward Accountability. Data, Fairness, Algorithms, Consequences.‚Äú werden sozikulturelle Effekte der Selbst-Segregation angef√ľhrt: Eltern, die auf Grund offen einsehbarer Qualit√§tsdaten von Schulen in New York (School Performance Dashboard), ihre Kinder auf vornehmlich ‚Äěwei√üe‚Äú oder ‚Äěschwarze‚Äú Schulen schickten. Diese Selbst-Segregation gab es schon vorher, aber laut Boyd wurde dieser Effekt noch erheblich verst√§rkt durch die Verf√ľgbarkeit des Datenwerkzeugs. Weder die Daten allein, noch der der Mensch stehen bei diesem Beispiel im Mittelpunkt, sondern das Zusammenwirken ist entscheidend.
Kulturwissenschaftler Michael Seemann stellte in seinem Buch ‚ÄěDas neue Spiel‚Äú (WTFPDL-Lizenz)¬†vor drei Jahren die folgende These auf: ‚ÄěWenn deine Strategie voraussetzt, dass du Datenstr√∂me kontrollieren kannst, hast du keine Strategie.‚Äú. Man muss Seemanns These nicht zwangsl√§ufig zustimmen. Dennoch kann die These als kritische √úberpr√ľfung dienen, um Debatten zu identifizieren, welche die digitale Kopierbarkeit als wichtige Rahmenbedingung der heutigen Welt nicht ausreichend ber√ľcksichtigen.


Kritisches Feedback ist wie immer sehr gerne gesehen!
Weiterlesen: