Big Data Erschwingliche Business Intelligence

In-Memory-Technologie wird für kleinere Unternehmen in der Business Intelligence erschwinglich.
In-Memory-Technologie wird für kleinere Unternehmen in der Business Intelligence erschwinglich.

Business Intelligence (BI) war bisher die Champions League der IT, da die hierfür erforderlichen Investitionen häufig im Millionenbereich lagen. Mit In-Memory-Technologie wird BI auch für kleine und mittlere Unternehmen erschwinglich.

Der Erfolg vieler Unternehmen ist inzwischen abhängig von Kenntnis und Auswertung aktueller Kennzahlen. In globalen Märkten muss oft innerhalb von Stunden oder Tagen entschieden werden. Eine bekannter Markenhersteller hochwertiger Textilien hat z.B. Hunderte Verkaufspunkte in Europa und wertet täglich die Verkaufsstatistiken aus (Bild 1). Basiserend auf diese Zahlen werden Artikel zwischen den Verkaufspunkten umgelistet: Was in Köln läuft, ist in München vielleicht ein Ladenhüter. Da jeder Regalmeter bares Geld kostet, muss hier sofort reagiert werden. Die schnelle Sortimentssteuerung ist ein großer Erfolgsfaktor für diese Firma. Dazu unterhält das Unternehmen ein großes Data Warehouse und ein ausgefeiltes Berichtswesen.

Datenschätze heben

Business Intelligence (BI) teilt sich auf in das normale Berichtswesen, also Listen, Rechnungen usw., und strategisches Controlling. Letzteres umfasst vor allem strategische Kennzahlen wie Umsatz, Roherlös, Cash Flow und Liquidität. Häufig werden Entscheidungen erst nach Analyse solcher Kennzahlen getroffen. Für einen Blick in die Zukunft werden Simulationen (was wäre wenn) und Data Mining genutzt. Beim Data Mining wird versucht, Auffälligkeiten und Gemeinsamkeiten zu finden, die auf den ersten Blick nicht ins Auge stechen. Versicherer können so zum Beispiel neue Tarife anhand des Kundenbestandes durchrechnen und so die Kostenstruktur besser abschätzen (wie es z.B. mit Einführung der Unisex-Tarife passierte).

Grundlage für BI sind konsolidierte, normalisierte Daten, wie sie üblicherweise in einem Data Warehouse abgelegt werden. Hier werden oft Daten aus mehreren Systemen zusammengeführt und in eine fachliche, nichtflüchtige und historisierte Darstellungsform gebracht. Fachlich heißt, dass die Daten die fachliche Sicht widerspiegeln und nicht die technische Sicht, die in einem Online-Transaktionssystem evtl. notwendig ist. Nichtflüchtig bedeutet, die Daten ändern sich nicht mehr laufend. Historisiert bedeutet, dass die Daten über einen Zeitverlauf miteinander vergleichbar sind (z.B. Vorjahresvergleich Umsatz). Üblicherweise werden die Daten im Data Warehouse nicht mehr verändert, sondern nur fortlaufend ergänzt. Ein Data Warehouse ist aber nichts anderes als ein gesondertes Schema in einem Datenbanksystem (z.B. Oracle oder MySQL). Heutige Standard-Server-Systeme sind leistungsfähig genug, um mit geringen Kosten ein Data Warehouse zu implementieren. Bei Aufbau des Schemas muss einmalig Aufwand in die Konzeption der Metadaten und die Definition der Ladeprozesse (ETL) gesteckt werden.

Ein Data Warehouse gleicht einem riesigen Supermarkt. Im Prinzip ist alles verfügbar, was man sich nur wünscht, nur braucht man einen Einkaufszettel und einen Plan, um am Ende mit dem richtig gefüllten Einkaufswagen wieder herauszukommen. Dieser Vergleich kann als Analogie zu OLAP (Online Analytical Processing) dienen. Mit einem OLAP-System kann der Benutzer schnell die Daten aus dem Data Warehouse abfragen, die ihn interessieren. Dabei hat der Einkäufer ein ganz anderes Interesse als der Vertriebsleiter. Ersterer möchte die Umsatzentwicklung der Lieferanten in den letzten vier Quartalen sehen, letzterer die Absatzzahlen nach Regionen und Produkten. All diese Daten sind im Data Warehouse verfügbar, aber meist viel zu feingranular. Aus diesem Grund bieten OLAP-Systeme die Möglichkeit, benutzerspezifische, mehrdimensionale Sichten zu definieren und zu befüllen, die sogenannten Würfel (Cubes). Man kann sich z.B. einen Würfel vorstellen mit den Kanten (Dimensionen) Zeit, Region und Produkt. Jede Dimension kann dabei unterschiedliche Granularitäten haben (z.B. bei der Zeit: Jahr, Quartal, Monat, Woche, Tag). An jedem Schnittpunkt kann sich eine Zelle mit aggregierten Daten befinden, z.B. Umsatz für dieses Produkt (Tennisschuh „Denise“) in der Region EMEA am 11.11.2013). Jede Zelle kann aber nicht nur einen Aggregatwert enthalten, sondern ggf. mehrere (Anzahl, Gewicht, Kosten usw.). Allerdings werden sicher nicht alle Produkte in allen Regionen an jedem Tag verkauft, sondern es wird auch leere Zellen geben und in der Praxis überwiegen diese sogar. Deshalb muss die Speicherung eines solchen Würfels optimiert werden, man spricht vom Sparse Data Problem. Dies ist technisch anspruchsvoll und deshalb sind OLAP-Systeme meist auch relativ teuer.