Neuigkeiten vom Spark AI Summit 2020

Mario Schnalzenberger
Freitag, 10. Juli 2020

Heuer fand auch der Spark AI Summit im Juni ausnahmsweise (so wie vieles leider coronabedingt) virtuell statt. Das ermöglichte es mir aber auch, den Summit aktiv zu begleiten, obwohl er auf der anderen Seite der Welt stattfindet. So bekomme ich die tollsten Neuigkeiten zu Spark, Databricks, Delta, mlflow und vieles mehr ganz frisch auf den Tisch.

Also kurz die (meiner Meinung nach) tollsten Nachrichten bisher:

Spark 3.0 (wird wohl ab databricks 7.0 dabei sein) wird echt viel schneller
(2x schneller nur durch upgrade) und einfacher
  • Apache hat dabei das Backend (SQL API die für etwa 70-80% der Aufrufe auch aus PySpark zuständig ist) extrem beschleunigt
  • Adaptive Query Execution, ein weniger sensationeller Name, aber extrem cool, weil das bedeutet, dass Execution Plans während der Ausführung von Abfragen aufgrund der tatsächlichen Statistiken der Daten geändert werden (skewness, Häufigkeiten, Joins etc).
    Siehe dazu auch das JIRA Ticket: https://issues.apache.org/jira/browse/SPARK-31412
  • Sie haben mehr auf das „Zen“ in Python gehört und damit bspw. im Rahmen von „Redesigned pandas UDF API with type hints“ die Typdeklarationen im Python vereinfacht und in die UDFs übernommen
  • Sie haben (was mir als Datenbanklehrer gefällt) vieles aus ANSI SQL wieder aufgenommen – zurück zu den Standards.

 

Databricks hat mit DELTA und Photon echt neues geschaffen.

Sie haben dabei eine „Native Execution Engine“ (names Photon) entwickelt und dabei zwei wesentlich Stränge in der Optimierung verfolgt:

  • Computational optimization (parallelism of instructions)
  • Data optimizations (vectorization of data => columnar data)

Die Ergebnisse sehen vielversprechend (18x Geschwindigkeitsgewinn möglich) aus. Ich bin schon gespannt, wie sich das auf unsere großartigen und anspruchsvollen IoT- und Data Science Projekte auswirken wird.

Und am Ende des ganzen steht auch noch die neue Idee des Lakehouse-Standards. Eine konsequente Weiterentwicklung des Konzepts von Data Lake, Delta Lake und Data Warehouse. Durch die Erweiterungen im DELTA-Format haben sie damit wohl wieder einen wichtigen Schritt für viele in die Richtung eines Quasi-Standard für IOT-Architekturen gemacht (AWS, Azure und viele andere setzen auf Apache Spark oder Databricks... kann also gar nicht so schlecht sein).

2007_SparkAISummit_Lakehouse

Wen die Details dazu interessieren, hier der Link zur „Story“:
https://databricks.com/de/blog/2020/01/30/what-is-a-data-lakehouse.html

Weitere Blogbeiträge

zum Thema Events

Updates for innovators: Abonnieren Sie unseren Blog