AI

News aus dem Databricks Universum

1 Min. Lesezeit
Montag, 17. Juni 2024

Letzte Woche war der Data and AI Summit in San Francisco und es gab wirklich viele sensationelle Neuigkeiten. Eines der tollsten Events war die Umstellung des GIT-Repos von Unity Catalog auf "PUBLIC" live in der Session. So etwas habe ich noch nicht gesehen, beeindruckend.

Aber das war eigentlich nicht das Wichtigste. Die Neuigkeiten in Kürze:

  1. Auch Databricks bringen LLMs in ihre Produkte. Insbesondere im Databricks SQL hat sich mit AI/BI Genie ein wirklich interessantes Tool ergeben. Ein LLM zum Sprechen mit deinen Daten. Metrics on the Fly definieren. Daten und Insights durch Beschreibungen erzeugen. So stelle ich mir Company (Huge) Data GPT vor.
    Hier findet ihr mehr dazu: https://www.databricks.com/product/ai-bi/genie

    Die Präsentation war vielversprechend, ich werde die Entwicklung weiter verfolgen, aber die eigentliche Sensation ergibt sich in Kombination mit der zweiten Erneuerung, die genau die Basis für AI/BI Genie betrifft:

  2. Databricks hat den Unity Catalog massiv erweitert. Er umfasst jetzt nicht nur Datenartefakte aus und im Datalake, sondern auch
    • Metriken (also Berechnungen daraus, so etwas wie ein Semantisches Modell über den Daten)
    • Eigene Modelle (provisioniert mit Databricks und MLFLOW)
    • Andere Datenquellen (also SQL, Synapse, Snowflake, uvm.) die über einen Link angebunden werden und dann über Databricks und Databricks SQL zur Verfügung stehen
    • APIs auf andere Services (insbesondere LLMs von externen Anbietern)

Damit wird der Unity Catalog zur Datenquelle für jeden Fall und ein single Point of Data Availability. Die Daten können dort auch beschrieben werden, was dann bspw. AI/BI Genie hilft, diese zu verstehen. Die Daten können feingranular gesichert werden und diese Zugriffe werden bis an die Modelle in der Modellprovisionierung weitergegeben.

Damit das Ganze auch wirklich Sinn macht, hat sich Databricks auch über die zeitliche Verfügbarkeit der Daten Gedanken gemacht und die Anbindung über Serverless Resourcen erweitert. Diese sind besser und schneller geworden damit ist die Kosteneffizienz von Serverless noch höher und interessanter.

Als Ergänzung ausserhalb der Konferenz kann ich sagen, dass durch laufende Erweiterungen in Azure viele Sicherheitseinschränkungen von Databricks im Laufe der letzten Monate gefallen sind und damit Databricks auf demselben sehr hohen Sicherheitsstand wie Azure Synapse, Azure SQL und Co ist.