❯ ZUM LEXIKON

1. Defini­tion

Was ist Big Data? Big Data  (von englisch big „groß“ und data „Daten“) bezeich­net Daten­men­gen, die

  • zu groß oder
  • zu komplex sind oder
  • sich zu schnell ändern oder
  • zu schwach struk­tu­riert

sind, um sie mit manuel­len und klassi­schen Metho­den der Daten­ver­ar­bei­tung auszu­wer­ten. Der tradi­tio­nel­lere Begriff im Deutschen ist Massen­da­ten. Big Data ist häufig der Sammel­be­griff für digitale Techno­lo­gien, die in techni­scher Hinsicht für die neue Ära digita­ler Kommu­ni­ka­tion und Verar­bei­tung und in sozia­ler Hinsicht für den gesell­schaft­li­chen Umbruch verant­wort­lich gemacht werden. Big Data steht grund­sätz­lich für große digitale Daten­men­gen, aber auch für die Analyse und Auswer­tung.

2. Die 5 V’s im Big Data

2.1 In der Erklä­rung von Big Data bezieht sich das “Big” auf die drei Dimen­sio­nen:

  • Volume: Umfang, Daten­vo­lu­men
  • Velocity: Die Geschwin­dig­keit, mit der die Daten­men­gen generiert und trans­fe­riert werden
  • Variety: Bandbreite der Daten­ty­pen und ‑quellen

Erwei­tert wird diese Defini­tion um die zwei Vs:

  • Value: Poten­tial von Big Data für die sozio­öko­no­mi­sche Entwick­lung
  • Veracity: Inkosis­tente und unvoll­stän­dige Daten, Latenz und Mehrdeu­tig­keit

Hierbei stehen die Erwei­te­run­gen für den unter­neh­me­ri­schen Mehrwert und die Sicher­stel­lung der Daten­qua­li­tät stehen.

Big Data - 5V Modell

Der Begriff „Big Data“ unter­liegt als Schlag­wort einem konti­nu­ier­li­chen Wandel; so wird mit Big Data ergän­zend auch oft der Komplex der Techno­lo­gien beschrie­ben, die zum Sammeln und Auswer­ten dieser Daten­men­gen verwen­det werden.

2.2 Daten­her­kunft

Die gesam­mel­ten Daten können aus verschie­dens­ten Quellen stammen:

  • angefan­gen bei jegli­cher elektro­ni­scher Kommu­ni­ka­tion,
  • über von Behör­den und Firmen gesam­melte Daten,
  • bis hin zu den Aufzeich­nun­gen verschie­dens­ter Überwa­chungs­sys­teme.

3. Berei­che und Anwen­der von Big Data

Big Data kann auch Berei­che umfas­sen, die bisher als privat galten. Der Wunsch der Indus­trie und bestimm­ter Behör­den, möglichst freien Zugriff auf diese Daten zu erhal­ten, sie besser analy­sie­ren zu können und die gewon­ne­nen Erkennt­nisse zu nutzen, gerät dabei unwei­ger­lich in Konflikt mit geschütz­ten Persön­lich­keits­rech­ten des Einzel­nen. Ein Ausweg ist allein durch

  • Anony­mi­sie­ren vor dem Ausbeu­ten, wenn nicht schon durch
  • Anony­mi­sie­ren vor dem Auswer­ten

zu errei­chen. Klassi­sche Anwen­der von Metho­den des Big Data sind die Provi­der sozia­ler Netzwerke und von Suchma­schi­nen. Die Analyse, Erfas­sung und Verar­bei­tung von großen Daten­men­gen ist heute in vielen Berei­chen alltäg­lich. Daten­men­gen dienen im Allge­mei­nen der Umset­zung von Unter­neh­mens­zie­len oder zur staat­li­chen Sicher­heit. Bisher haben vor allem große Branchen, Unter­neh­men und Anwen­dungs­be­rei­che der Wirtschaft, Markt­for­schung, Vertriebs- und Service­steue­rung, Medizin, Verwal­tung und Nachrich­ten­dienste die digita­len Metho­den der Daten­samm­lung für sich genutzt. Die erfass­ten Daten sollen weiter­ent­wi­ckelt und nutzen­brin­gend einge­setzt werden. Die Erhebung der Daten dient meistens für konzern­ori­en­tierte Geschäfts­mo­delle, sowie Trend­for­schung in den sozia­len Medien und Werbe­ana­ly­sen, um zukunfts­wei­sende und gewinn­brin­gende Entwick­lun­gen zu erken­nen und in diese Progno­sen zu inves­tie­ren.

4. Hinter­grund

Mengen von Massen­da­ten wachsen typischer­weise exponen­ti­ell. Berech­nun­gen aus dem Jahr 2011 zufolge verdop­pelt sich das weltweite erzeugte Daten­vo­lu­men alle 2 Jahre. Diese Entwick­lung wird vor allem getrie­ben durch die zuneh­mende maschi­nelle Erzeu­gung von Daten z. B. über Proto­kolle von Telekom­mu­ni­ka­ti­ons­ver­bin­dun­gen (Call Detail Record, CDR) und Webzu­grif­fen (Logda­teien), automa­ti­sche Erfas­sun­gen von RFID-Lesern, Kameras, Mikro­fo­nen und sonsti­gen Senso­ren. Big Data fallen auch in der Finanz­in­dus­trie an (Finanz­trans­ak­tio­nen, Börsen­da­ten) sowie im Energie­sek­tor (Verbrauchs­da­ten) und im Gesund­heits­we­sen (Verschrei­bun­gen). In der Wissen­schaft fallen ebenfalls große Daten­men­gen an, z. B. in der Geolo­gie, Genetik, Klima­for­schung und Kernphy­sik. Der IT-Branchen­ver­band Bitkom hat Big Data als einen Trend im Jahr 2012 bezeich­net. Bei großen Daten­kom­ple­xen verbie­tet sich der unwirt­schaft­li­che Aufwand für ein Speichern auf Vorrat. Dann werden ledig­lich Metada­ten gespei­chert oder das Auswer­ten setzt mitlau­fend oder mindes­tens gering zeitver­setzt mit dem Entste­hen der Daten auf.

5. Weitere Bedeu­tun­gen von Big Data

Big Data bezeich­net primär die Verar­bei­tung von großen, komple­xen und sich schnell ändern­den Daten­men­gen. Als Buzzword wird der Begriff in den Massen­me­dien aber auch verwen­det für

  • die zuneh­mende Überwa­chung der Menschen durch Geheim­dienste auch in westli­chen Staaten bspw. durch Vorrats­da­ten­spei­che­rung
  • die Verlet­zung von Persön­lich­keits­rech­ten von Kunden durch Unter­neh­men
  • die zuneh­mende Intrans­pa­renz der Daten­spei­che­rung durch Deloka­li­sie­rung (Cloud Compu­ting)
  • der Wunsch der Indus­trie aus den vorhan­de­nen Daten einen Wettbe­werbs­vor­teil erlan­gen zu können
  • die Automa­ti­sie­rung von Produk­ti­ons­pro­zes­sen (Indus­trie 4.0, Inter­net der Dinge)
  • die intrans­pa­rente Automa­ti­sie­rung von Entschei­dungs­pro­zes­sen in Software
  • der Einsatz neuer Techno­lo­gien statt Standard­soft­ware (insbe­son­dere in Unter­neh­men mit einer konser­va­ti­ven IT oft durch Verwen­dung von Software as a Service um firmen­in­terne IT-Einschrän­kun­gen zu umgehen)
  • die Entwick­lung von eigenen Software­lö­sun­gen („inhouse IT“) statt dem Einsatz von „off-the-shelf“ Software durch Fremd­un­ter­neh­men
  • Werbung, basie­rend auf Daten über die Inter­net- und Handy­nut­zung
  • die Organi­sa­tion von Zusam­men­ar­beit im Rahmen von People Analy­tics Projek­ten

selbst wenn in diesem Zuge teilweise weder große noch komplexe Daten­men­gen anfal­len.

6. Beispiele zu Big Data

In der Forschung können durch Verknüp­fung großer Daten­men­gen und statis­ti­sche Auswer­tun­gen neue Erkennt­nisse gewon­nen werden, insbe­son­dere in Diszi­pli­nen, in denen bisher viele Daten noch von Hand ausge­wer­tet wurden. Unter­neh­men erhof­fen sich von der Analyse von Big Data Möglich­kei­ten zur Erlan­gung von Wettbe­werbs­vor­tei­len, zur Generie­rung von Einspa­rungs­po­ten­tia­len und zur Schaf­fung von neuen Geschäfts­fel­dern. Staat­li­che Stellen erhof­fen sich bessere Ergeb­nisse in der Krimi­na­lis­tik und Terro­ris­mus­be­kämp­fung. Beispiele, in denen man Vorteile erwar­tet, sind:

  • Zeitnahe Auswer­tung von Websta­tis­ti­ken und Anpas­sung von Online­wer­be­maß­nah­men (wird aber bereits seit Jahren gemacht)
  • Bessere, schnel­lere Markt­for­schung
  • Entde­ckung von Unregel­mä­ßig­kei­ten bei Finanz­trans­ak­tio­nen (Fraud-Detec­tion)
  • Einfüh­rung und Optimie­rung einer intel­li­gen­ten Energie­ver­brauchs­steue­rung (Smart Metering)
  • Erken­nen von Zusam­men­hän­gen in der medizi­ni­schen Diagnos­tik
  • Echtzeit-Cross- und Upsel­ling im E‑Commerce und statio­nä­ren Vertrieb
  • Aufbau flexi­bler Billing­sys­teme in der Telekom­mu­ni­ka­tion
  • Geheim­dienst­li­ches Erstel­len von Bewegungs­pro­fi­len mit Program­men wie Bound­less Infor­mant
  • Daten­zu­griff und ‑analyse auf raumzeit­li­che Raster­da­ten in Wissen­schaft und Indus­trie, beispiels­weise nach dem Open-Geospa­tial-Consor­tium-Standard Web Coverage Service
  • Vorher­sage von Epide­mien
  • Verbes­se­run­gen der Arbeits­be­din­gun­gen für Mitar­bei­ter, etwa die Reduzie­rung von Burnout Raten, durch daten­ba­sierte Change Projekte
  • Auffin­den von Fachkräf­ten durch daten­ge­stützte Webana­ly­sen
  • Verar­bei­tung von Daten aus Wetter­sa­tel­li­ten und anderen natur­wis­sen­schaft­lich einge­setz­ten Senso­ren

Die reine Analyse von Kunden­da­ten ist jedoch noch nicht automa­tisch Big Data – oft handelt es sich bei vielen Anwen­dun­gen aus dem Marke­ting viel mehr um „Small-Data“-Analytics.

7. Verar­bei­tung von Big Data

Klassi­sche relatio­nale Daten­bank­sys­teme sowie Statis­tik- und Visua­li­sie­rungs­pro­gramme sind oft nicht in der Lage, derart große Daten­men­gen zu verar­bei­ten. Für Big Data kommen daher neue Arten von Daten­spei­cher- und Analyse-Syste­men zum Einsatz, die paral­lel auf bis zu Hunder­ten oder Tausen­den von Prozes­so­ren bzw. Servern arbei­ten. Dabei gibt es u.a. folgende Heraus­for­de­run­gen:

  • Verar­bei­tung vieler Daten­sätze
  • Verar­bei­tung vieler Spalten inner­halb eines Daten­sat­zes
  • Schnel­ler Import großer Daten­men­gen
  • Sofor­tige Abfrage impor­tier­ter Daten (Realtime Proces­sing)
  • Kurze Antwort­zei­ten (Latenz und Verar­bei­tungs­dauer) auch bei komple­xen Abfra­gen
  • Möglich­keit zur Verar­bei­tung vieler gleich­zei­ti­ger Abfra­gen (Concur­rent Queries)
  • Analyse verschie­den­ar­ti­ger Infor­ma­ti­ons­ty­pen (Zahlen, Texte, Bilder, …)

Die Entwick­lung von Software für die Verar­bei­tung von Big Data befin­det sich noch in einer frühen Phase. Bekannt ist der MapRe­duce-Ansatz, der bei Open-Source-Software (Apache Hadoop und MongoDB) sowie bei einigen kommer­zi­el­len Produk­ten (Aster Data, Green­plum, u. a.) zum Einsatz kommt.

8. Kritik an Big Data

8.1 Schwam­mi­ger Begriff und Hype

Der Begriff „Big Data“ wird für jegli­che Art der Daten­ver­ar­bei­tung verwen­det, selbst wenn die Daten weder groß, noch komplex sind oder sich schnell ändern; und mit herkömm­li­chen Techni­ken problem­los verar­bei­tet werden können. Die zuneh­mende Aufwei­chung des Begriffs führt dazu, dass er zuneh­mend ein aussa­ge­lo­ser Marke­ting­be­griff wird und vielen Progno­sen zufolge inner­halb der nächs­ten Jahre eine starke Abwer­tung erfah­ren wird („Tal der Enttäu­schun­gen“ im Hypezy­klus).

8.2 Fehlende Normen

Kritik gibt es an „Big Data“ vor allem dahin­ge­hend, dass die Daten­er­he­bung und ‑auswer­tung oft nach techni­schen Aspek­ten erfolgt, also dass beispiels­weise der technisch einfachste Weg gewählt wird, die Daten zu erheben und die Auswer­tung von den Möglich­kei­ten, diese Daten zu verar­bei­ten, begrenzt wird. Statis­ti­sche Grund­prin­zi­pien wie das einer reprä­sen­ta­ti­ven Stich­probe werden oft vernach­läs­sigt. So kriti­sierte die Sozial­for­sche­rin Danah Boyd:

  • Größere Daten­men­gen müssten nicht quali­ta­tiv bessere Daten sein
  • Nicht alle Daten seien gleicher­ma­ßen wertvoll
  • „Was“ und „Warum“ seien zwei unter­schied­li­che Fragen
  • Bei Inter­pre­ta­tio­nen sei Vorsicht geboten
  • Nur weil es verfüg­bar ist, sei es nicht ethisch

So ermit­telte ein Forscher beispiels­weise, dass Menschen nicht mehr als 150 Freund­schaf­ten pflegen (Dunbar-Zahl), was sodann als techni­sche Begren­zung in sozia­len Netzwer­ken einge­führt wurde – in der falschen Annahme, als „Freunde“ bezeich­nete Bekannt­schaf­ten würden echte Freund­schaf­ten wider­spie­geln. Sicher­lich würde nicht jeder alle seine Facebook-Freunde in einem Inter­view als Freunde benen­nen – der Begriff eines „Freun­des“ signa­li­siert bei Facebook ledig­lich eine Kommu­ni­ka­ti­ons­be­reit­schaft.

8.3 Fehlende Substanz der Auswer­tun­gen

Ein anderer kriti­scher Ansatz setzt sich mit der Frage ausein­an­der, ob Big Data das Ende aller Theorie bedeu­tet. Chris Ander­son, Chefre­dak­teur beim Magazin Wired beschrieb 2008 das Glaub­wür­dig­keits­pro­blem jeder wissen­schaft­li­chen Hypothese und jedes Modells bei gleich­zei­ti­ger Echtzeit­ana­lyse leben­der und nicht leben­der Systeme. Korre­la­tio­nen werden wichti­ger als kausale Erklä­rungs­an­sätze, die sich oft erst später bewahr­hei­ten oder falsi­fi­zie­ren lassen.

8.4 Fehlende Regulie­rung

Der schles­wig-holstei­ni­sche Daten­schutz­be­auf­tragte Thilo Weichert warnt: „Big Data eröff­net Möglich­kei­ten des infor­ma­tio­nel­len Macht­miss­brauchs durch Manipu­la­tion, Diskri­mi­nie­rung und infor­ma­tio­nelle ökono­mi­sche Ausbeu­tung – verbun­den mit der Verlet­zung der Grund­rechte der Menschen.“