Heuer fand auch der Spark AI Summit im Juni ausnahmsweise (so wie vieles leider coronabedingt) virtuell statt. Das ermöglichte es mir aber auch, den Summit aktiv zu begleiten, obwohl er auf der anderen Seite der Welt stattfindet. So bekomme ich die tollsten Neuigkeiten zu Spark, Databricks, Delta, mlflow und vieles mehr ganz frisch auf den Tisch.
Also kurz die (meiner Meinung nach) tollsten Nachrichten bisher:
Sie haben dabei eine „Native Execution Engine“ (names Photon) entwickelt und dabei zwei wesentlich Stränge in der Optimierung verfolgt:
Die Ergebnisse sehen vielversprechend (18x Geschwindigkeitsgewinn möglich) aus. Ich bin schon gespannt, wie sich das auf unsere großartigen und anspruchsvollen IoT- und Data Science Projekte auswirken wird.
Und am Ende des ganzen steht auch noch die neue Idee des Lakehouse-Standards. Eine konsequente Weiterentwicklung des Konzepts von Data Lake, Delta Lake und Data Warehouse. Durch die Erweiterungen im DELTA-Format haben sie damit wohl wieder einen wichtigen Schritt für viele in die Richtung eines Quasi-Standard für IOT-Architekturen gemacht (AWS, Azure und viele andere setzen auf Apache Spark oder Databricks... kann also gar nicht so schlecht sein).
Wen die Details dazu interessieren, hier der Link zur „Story“:
https://databricks.com/de/blog/2020/01/30/what-is-a-data-lakehouse.html
zum Thema Events