Nachdem die große Menge an unstrukturierten Daten ‚in Form‘ gebracht wurde, kommen Graphen-Analysen ins Spiel. Sie sind eine besondere Stärke der neuen Plattform. Graphen sind nach wie vor der am schnellsten wachsende Datenbanktyp. Ein Grund für deren steigende Popularität ist die Erkenntnis, dass sie Beziehungen zwischen Entitäten wesentlich besser abbilden können als relationale Datenbanken. Graph-Datenbanken können eingesetzt werden, um gewisse Muster und Beziehungen zwischen einzelnen Größen zu erkennen – mit relationalen Datenbanken ist dies oft nur sehr schwer oder gar nicht möglich.
Während Graphen-Analysen im Hinblick auf Skalierung und Performance in der Vergangenheit lange Zeit als eine der schwierigsten Aufgabenstellungen für moderne Analytics-Systeme galten, können diese heute dank modernster Technologie bis zu 100-mal schneller durchgeführt werden. Im hier beschriebenen Fall übernimmt die ‚Cray Graph Engine‘ die Berechnungen und ermöglicht die dafür nötige schnelle und komplexe iterative Tiefensuche. Wichtig in diesem Umfeld ist, dass jedes Szenario – vom Einzelprozessor bis hin zu Tausenden von Prozessoren – unterstützt wird, ohne dass es zu Einbußen bei der Leistungsfähigkeit kommt. Ein weiterer wichtiger Faktor ist die Fähigkeit, auch mehrere Terabyte große Datensätze verarbeiten zu können, ohne unnötige Datenverschiebungen zu verursachen.
Mit der ‚Graph-Engine‘ lassen sich neue Muster innerhalb von Daten erkennen, Korrelationen zwischen Datenpunkten anstellen und anschließend entsprechende Hypothesen aufstellen. Und die Analytics-Workflows, auf denen diese Hypothesen basieren, lassen sich parallel fahren, um Ergebnisse in Echtzeit vergleichen und die Arbeitsabläufe abhängig vom Ergebnis flexibel anpassen zu können.
Der Unterschied zu herkömmlichen Cluster-Architekturen ist, dass sich die darauf durchgeführten Berechnungen nicht verlangsamen, sobald die Graphen größer werden. Bei traditionellen Clustern kann das sogar der Fall sein, wenn zusätzliche Rechenknoten hinzufügt werden, die in der Regel ohnehin keine zusätzlichen Performance-Vorteile mit sich bringen.
Autor:
Dominik Ulmer ist Vice President EMEA Business Operations bei Cray.