Data Governance Framework

Was ist Data Governance?

 

"Data Governance ist eine Sammlung von Methoden und Prozessen, die dazu beitragen, die formale Verwaltung von Datenbeständen innerhalb eines Unternehmens sicherzustellen.
Data Governance formalisiert die Definition, Produktion und Verwendung von Daten, um Risiken zu verwalten und die Qualität und Verwendbarkeit ausgewählter Daten zu verbessern."

Ein zentrales Ziel von Data Governance ist die Verbesserung der Datenqualität. Dazu ist vieles notwendig: von Data Stewardship über Data Discovery bis hin zu Data Security. Alle Bestandteile und Initiativen haben gemeinsam, dass sie die Entwicklung der Daten als wichtiges Ziel und als strategisches Mittel für die Zukunft sehen. Es braucht eine koordinierte Steuerung über den gesamten Daten-Lebenszyklus.

Der Satz "Data is the new oil" von Clive Humby aus dem Jahr 2006 ist vielen bekannt. Einen anderen Vergleich von Dan Vasset finden wir in Bezug auf Data Governance noch passender:

"Like water, data needs to be accessible, it needs to be clean und it is needed to survive."

Daten müssen grundsätzlich einmal verfügbar und auffindbar sein. Darüber hinaus muss auch die Qualität der Daten passen, um sie nutzen zu können. Denn: Unternehmen brauchen qualitative Daten um in Zukunft überleben zu können.

Wozu braucht man Data Governance?

 

Einfach gesagt: Um seine Datenlandschaft im Griff zu behalten.
Die gängigsten Fragestellungen, die sich rund um Daten stellen, sind unter anderem:

  • Welche Daten habe ich zur Verfügung und wo finde ich Sie?
  • Wer darf welche Daten nutzen/ändern/löschen?
  • Sind meine Daten noch aktuell? Wie lange muss ich sie aufbewahren?
  • Wann müssen welche Art von Daten wie gelöscht werden?
  • Entsprechen meine Daten der geforderten Qualität?
  • Weiß ich, welche Daten personenbezogen sind, wenn der Kunde Auskunft darüber haben möchte?

Wir brauchen Data Governance also um

  • die Datenqualität kontrollieren und verbessern,
  • die Daten angemessen schützen,
  • die bestehende Daten-Landschaft katalogisieren und
  • den gesamten Lebenszyklus von der Erstellung bis zur Archivierung der Daten steuern zu können.

Wir brauchen Data Governance außerdem, um Rollen und Verantwortlichkeiten über Datenobjekte klar festzulegen. Oft werden Data Governance-Aufgaben schon implizit von jemanden erledigt, ohne dass er oder sie dazu eine bestimmte Rolle trägt.

Durch die klare Definition von Rollen werden solche implizite Verantwortlichkeiten manifestiert und Mandate vergeben. Damit schafft man Wertschätzung und hoffentlich auch die benötigten Ressourcen.

Warum ist Data Governance wichtig?

 

Zahlreiche Umfragen und Studien zeigen die Einschätzung von Führungskräften, dass es einen direkten Zusammenhang zwischen effektiver Nutzung von Daten und besseren Unternehmensergebnissen gibt. Beispielsweise glauben 77% der befragten Führungskräfte vom Harvard Business Review , dass eine erfolgreiche Datenstrategie entscheidend für den Geschäftserfolg ist.

Dabei ist es völlig egal, ob Sie das Wissen aus Ihren Daten für eine personalisierte Begeisterung ihrer Kunden einsetzen, daraus neuartige Produkt- oder Geschäftsideen entwickeln oder die Qualität Ihrer Produkte verbessern. Es ist auch weniger relevant, um welche Daten es sich handelt, Buchhaltungsdaten, IoT-Daten oder Daten aus Ihrer Produktion.

Wichtig ist, dass Ihre Basis immer hochwertige Daten sind. In der richtigen Qualität und Granularität. Data Governance setzt genau hier an. Damit haben Sie Ihre Daten im Griff und können das unglaubliche Potential heben, das bereits jetzt in Ihren Daten schlummert.

Ohne dass Unternehmen ihre Daten im Griff haben, also ohne Data Governance, wird es zukünftig sehr schwer sein, den Erfolg aufrecht zu erhalten oder auszubauen.

Machen Sie schon Data Governance?

 

Wenn wir mit unseren Projektpartnern das Thema Data Governance erarbeiten, wird eines sehr oft früh ersichtlich: Einige der betroffenen Aufgaben werden ohnehin bereits erledigt und gehören mehr oder weniger zum Tagesgeschäft.

So weiß man z.B. meist wer im Unternehmen zuständig ist, wenn

  • die Daten eines Berichts nicht zusammenpassen,
  • sich Fehler in den Stammdaten zeigen, oder
  • man Zugriff auf bestimmte Daten benötigt.

Aus Sicht von Data Governance werden diese Aufgaben der Rolle des "Data Steward" zugeordnet.

Auch wenn diese Rolle oft nicht offiziell besetzt wurde: Meist weiß man in diesem Fall, wen man fragen muss und wer über diese eine Datenquelle üblicherweise Bescheid weiß. Oft sind diese Aufgaben nicht formalisiert, sind aber aus der betrieblichen Realität nicht wegzudenken.

Es handelt sich dabei um implizite Verantwortlichkeiten. Oft haben die betroffenen Personen jahrelang Wissen und Erfahrung in ihrer täglichen Arbeit aufgebaut und sind dadurch in diese Rolle "hineingerutscht". Sie kümmern sich (neben ihren täglichen Aufgaben) um einen bestimmten Datenbereich.

Mit Data Governance werden solche Verantwortlichkeiten in eine Struktur gebracht und Verbindlichkeit geschaffen. Auch die dafür notwendigen Ressourcen werden so sichtbarer. Nur so kann sichergestellt werden, dass für jede Datenquelle eine Ansprechperson definiert wurde und jeder nachsehen kann, wie diese eine Kennzahl denn nun berechnet wird. Und dass dieses Wissen auch langfristig in Ihrem Unternehmen bleibt.

Was ist Data Governance NICHT?

Data Governance umfasst viele verschiedene Begriffe und Definitionen. Wenn man sich damit beschäftigt, ist es wichtig sich über mögliche Irrtümer im Klaren zu sein.

Nummer 1: Data Governance ist nicht nur Data Stewardship!

Data Stewards bekleiden eine zentrale Rolle im Data Governance. Sie kümmern sich um die Daten und deren Qualität, deshalb sind natürlich besonders wichtig und eine Grundvoraussetzung. Aber das alleine ist noch kein Data Governance! Es braucht den organisatorischen Rückhalt und die dazugehörigen Prozesse für die Steuerung des Daten-Lebenszyklus von der Erzeugung über die Nutzung bis zur Archivierung bzw. Löschung der Daten.

Nummer 2: Data Governance ist keine Software!

Die Steuerung des Daten-Lebenszyklus kann ohne Zweifel durch Werkzeuge unterstützt und erleichtert werden. Diese können aber nur dann sinnvoll eingesetzt werden, wenn zuvor die organisatorischen Rahmenbedingungen mit Rollen, Prozessen und Ressourcen geschaffen wurden. Auch wenn Tool-Hersteller vieles versprechen, eine Software ersetzt nicht ein Data Governance-Programm.

Nummer 3: Data Governance ist kein Projekt mit einem Abschluss, sondern ein ständiger Prozess!

Dieser Punkt ist aus unserer Sicht besonders wichtig! Für die Vorbereitung und Einführung von Data Governance im Unternehmen sollte eine kompetente Projektgruppe gebildet werden. Darin sollten möglichst viele der betroffenen Stakeholder vertreten sein. Dieses Projekt soll die organisatorischen Rahmenbedingungen schaffen. Mit dem Abschluss des Einführungsprojektes startet erst die eigentlich Arbeit.

Nur wenn Data Governance sich in das Tagesgeschäft integriert und dauerhaft gelebt wird, kann es erfolgreich sein.

Wie beginne ich mit Data Governance?

Im Rahmen von Kunden-Projekten und Data Governance Workshops stellt sich nach dem Einstieg ins Thema natürlich sehr bald die Frage: Wie starten wir nun am besten? Wie bringen wir unsere Data Governance Initiative "auf die Straße"?

Wir wollen Ihnen hier ein paar Tipps geben, wie Sie mit Data Governance am Besten starten.

Zu Beginn ist es aus unserer Sicht am Wichtigsten, den Status Quo zu erheben und zu analysieren. Niemand beginnt von Null, denn in jedem Unternehmen werden einige Aufgaben, die zu Data Governance gehören, ja ohnehin schon gemacht.  Diese müssen sichtbar gemacht werden.

Bei dieser Analyse sollten Sie feststellen, wo es bereits gut läuft und wo es Probleme und damit Verbesserungsmöglichkeiten gibt. Außerdem sollte man sich die Frage stellen: Was kann ich aktuell NICHT machen, weil es die Datenqualität nicht erlaubt? Die Antworten darauf liefern uns bereits mögliche Inhalte für den Data Governance Business Case.

Dieser Business Case ist wichtig, denn er dokumentiert die Notwendigkeit und den Nutzen von Data Governance in Ihrem Unternehmen. Denn Eines ist auch klar: Sie benötigen das Mandat der Geschäftsführung. Ohne Rückhalt und entsprechende Ressourcen ist der Erfolg Ihrer Data Governance Initiative von Beginn an gefährdet.

Iterative Data Governance

Ist die strategische Entscheidung zum Start eines Data Governance Programms gefallen, stellt sich dann die Frage nach einem geeigneten Startpunkt. Entscheiden sich Unternehmen dafür, strukturiertes Data Governance einzuführen geschieht dies in der Regel im Rahmen von den bereits erwähnten Data Governance Initiativen, also einzelnen Projekten, die dazu dienen, schrittweise die strukturierte Steuerung von Datenlebenszyklen zu erreichen.

Bei der Auswahl an möglichen Kandidaten für eine Data Governance Initiative können verschiedene Richtungen eingeschlagen werden.

  1. Einerseits über einen Data Catalog und die Katalogisierung der bestehenden Datenlandschaft. Welche Daten sind im Unternehmen vorhanden, was passiert mit diesen und wo sind gegebenenfalls Anomalien?
  2. Andererseits kann die Data Governance Initiative auch anforderungsgetrieben sein. Was sind die wichtigsten Kennzahlen und welche Daten werden für Reports benötigt? Sind bereits vorhandene Prozesse oder Zuständigkeiten nutzbar?

Der erste, eher technische Ansatz orientiert sich am Gesamtbestand der Daten im Unternehmen und versucht diesen greifbar zu machen. Daten werden katalogisiert und mit einem organisatorischen Überbau versehen. Der Vorteil dabei ist, dass die Menge an Daten zwar recht umfangreich, aber auch in ihrer Gesamtheit bekannt ist. Es besteht wenig Risiko, dass einzelne Bereiche "übersehen" werden und vor allem wird der gesamtorganisatorische Bedarf aufgezeigt. Spezialisierte Werkzeuge für Data-Catalogs und Data Profiling können hier unterstützen und einzelne Teilschritte können effizient automatisiert werden. Einer der Nachteile dieses Ansatzes ist die Fehlende Differenzierung und Priorisierung der Datenbereiche. Aufgrund der großen Menge an Daten und der hohen Komplexität (geschuldet den Anforderungen der operativen Prozesse und gegebenenfalls den Vorsystemen) wird nur schwer unterschieden, welche Daten nun angepasster Steuerungsmechanismen bedürfen und für welche bestehende Prozesse in den Vorsystemen ausreichend sind.

Überzeugen Sie Ihre Stakehoder

Für eine erfolgreiche Data Governance Initiative sind entsprechende Ressourcen und der Rückhalt im Management essentiell.

Um die entsprechenden Personen davon zu überzeugen, stellt sich natürlich zwangsläufig die Frage, wer überhaupt die Stakeholder der Data Governance Initiative sind. Es gilt die Personen zu identifizieren, deren Unterstützung oder Mitwirkung erforderlich ist, aber auch jene Personen, die von einer erfolgreichen Umsetzung direkt profitieren. Diese können sowohl intern wie extern sein. Externe Stakeholder können beispielsweise Partnerunternehmen mit gemeinsamer Ausrichtung sein.

Sind die Personen identifiziert, gilt es noch inhaltlich entscheidende Fragen vorzubereiten:

  • Was können wir derzeit nicht tun oder entscheiden, weil unsere Datenlandschaft unzureichend gesteuert ist?
  • Welches Potential schlummert in unseren Daten? Was könnten wir erreichen?
  • Und, welche Auswirkung hätte die erfolgreiche Umsetzung der Data Governance Initiative?
    • Zum Beispiel ein verbesserter Zugang zu Daten,
    • ein besseres Verständnis für unsere Daten,
    • die Hebung der Datenqualität und somit eine besser Entscheidungsgrundlage oder
    • eine effizientere und kontrollierbare Nutzung der Daten.

Data Governance und Data Science

In diesem Interview erklärt unser Chief Data Scientist Dr. Mario Schnalzenberger, warum Data Governance aus Sicht eines Data Scientisten wichtig ist.

Data Governance und Datenschutz

In diesem Interview mit Mag. Julia Crosina-Schreiber, Leiterin der Rechtsabteilung der ACP Gruppe, erfahren Sie, welche Zusammenhänge es zwischen Data Governance und Datenschutz gibt, beziehungsweise wie Ihnen Data Governance bei der Einhaltung des Datenschutzrechtes hilft und welche Vorteile damit verbunden sind.

Vereinfacht beschrieben ist der Zweck von Data Governance die Verwaltung und Organisation des Daten-Lebenszyklus.
Die damit verbundenen Handlungsfelder lassen sich in einem Data Governance Framework zusammenfassen:
DataGovernanceFramework_Dach_weiß

Rollen

Es werden Rollen definiert und mit Personen besetzt, um die dazugehörigen Aufgaben für die Data Governance zu erledigen.

 

mehr →

Prozesse

Data Governance steuert die mit den Daten verbundenen Prozesse und stellt die Basis für die Arbeit der entsprechenden Rollen dar. 


mehr →

Regeln

Daten sind einer Reihe von internen und externen Regelwerke unterworfen, zB. der DSGVO oder spezifische Security-Richtlinien.


mehr →

Technologien und Tools

Die Umsetzung von Rollen, Prozessen und Regelwerken werden durch den Einsatz von Technologien und Tools unterstützt.

mehr →

  

Rollen

Im Rahmen von Data Governance werden zahlreiche Rollen definiert.
Dabei sind die Data Stewards und Data Governance Manager die wesentlichsten.
Je nach Umfang der Data Governance Initiative ist es sinnvoll, noch weitere Rollen ins Team mit aufzunehmen und die Rollenlandschaft weiter zu skalieren.
 
 
 

Rollenpyramide von Robert Seiner

 

 

Was ist Data Governance?

"Data Governance ist eine Sammlung von Methoden und Prozessen, die dazu beitragen, die formale Verwaltung von Datenbeständen innerhalb eines Unternehmens sicherzustellen.

Data Governance formalisiert die Definition, Produktion und Verwendung von Daten, um Risiken zu verwalten und die Qualität und Verwendbarkeit ausgewählter Daten zu verbessern."

Ein zentrales Ziel von Data Governance ist die Verbesserung der Datenqualität. Dazu ist vieles notwendig: von Data Stewardship über Data Discovery bis hin zu Data Security. Alle Bestandteile und Initiativen haben gemeinsam, dass sie die Entwicklung der Daten als wichtiges Ziel und als strategisches Mittel für die Zukunft sehen. Es braucht eine koordinierte Steuerung über den gesamten Daten-Lebenszyklus.

Der Satz "Data is the new oil" von Clive Humby aus dem Jahr 2006 ist vielen bekannt. Einen anderen Vergleich von Dan Vasset finden wir in Bezug auf Data Governance noch passender:

"Like water, data needs to be accessible, it needs to be clean und it is needed to survive."

Daten müssen grundsätzlich einmal verfügbar und auffindbar sein. Darüber hinaus muss auch die Qualität der Daten passen, um sie nutzen zu können. Denn: Unternehmen brauchen qualitative Daten um in Zukunft überleben zu können.

 

Wozu braucht man Data Governance?

 

Einfach gesagt: Um seine Datenlandschaft im Griff zu behalten.
Die gängigsten Fragestellungen, die sich rund um Daten stellen, sind unter anderem:

  • Welche Daten habe ich zur Verfügung und wo finde ich Sie?
  • Wer darf welche Daten nutzen/ändern/löschen?
  • Sind meine Daten noch aktuell? Wie lange muss ich sie aufbewahren?
  • Wann müssen welche Art von Daten wie gelöscht werden?
  • Entsprechen meine Daten der geforderten Qualität?
  • Weiß ich, welche Daten personenbezogen sind, wenn der Kunde Auskunft darüber haben möchte?

Wir brauchen Data Governance also um

  • die Datenqualität kontrollieren und verbessern,
  • die Daten angemessen schützen,
  • die bestehende Daten-Landschaft katalogisieren und
  • den gesamten Lebenszyklus von der Erstellung bis zur Archivierung der Daten steuern zu können.

Wir brauchen Data Governance außerdem, um Rollen und Verantwortlichkeiten über Datenobjekte klar festzulegen. Oft werden Data Governance-Aufgaben schon implizit von jemanden erledigt, ohne dass er oder sie dazu eine bestimmte Rolle trägt.

Durch die klare Definition von Rollen werden solche implizite Verantwortlichkeiten manifestiert und Mandate vergeben. Damit schafft man Wertschätzung und hoffentlich auch die benötigten Ressourcen.

 

Was ist Data Governance NICHT?

Data Governance umfasst viele verschiedene Begriffe und Definitionen. Wenn man sich damit beschäftigt, ist es wichtig sich über mögliche Irrtümer im Klaren zu sein.

Nummer 1: Data Governance ist nicht nur Data Stewardship!

Data Stewards bekleiden eine zentrale Rolle im Data Governance. Sie kümmern sich um die Daten und deren Qualität, deshalb sind natürlich besonders wichtig und eine Grundvoraussetzung. Aber das alleine ist noch kein Data Governance! Es braucht den organisatorischen Rückhalt und die dazugehörigen Prozesse für die Steuerung des Daten-Lebenszyklus von der Erzeugung über die Nutzung bis zur Archivierung bzw. Löschung der Daten.

Nummer 2: Data Governance ist keine Software!

Die Steuerung des Daten-Lebenszyklus kann ohne Zweifel durch Werkzeuge unterstützt und erleichtert werden. Diese können aber nur dann sinnvoll eingesetzt werden, wenn zuvor die organisatorischen Rahmenbedingungen mit Rollen, Prozessen und Ressourcen geschaffen wurden. Auch wenn Tool-Hersteller vieles versprechen, eine Software ersetzt nicht ein Data Governance-Programm.

Nummer 3: Data Governance ist kein Projekt mit einem Abschluss, sondern ein ständiger Prozess!

Dieser Punkt ist aus unserer Sicht besonders wichtig! Für die Vorbereitung und Einführung von Data Governance im Unternehmen sollte eine kompetente Projektgruppe gebildet werden. Darin sollten möglichst viele der betroffenen Stakeholder vertreten sein. Dieses Projekt soll die organisatorischen Rahmenbedingungen schaffen. Mit dem Abschluss des Einführungsprojektes startet erst die eigentlich Arbeit.

Nur wenn Data Governance sich in das Tagesgeschäft integriert und dauerhaft gelebt wird, kann es erfolgreich sein.

 

Warum ist Data Governance wichtig?

 

Zahlreiche Umfragen und Studien zeigen die Einschätzung von Führungskräften, dass es einen direkten Zusammenhang zwischen effektiver Nutzung von Daten und besseren Unternehmensergebnissen gibt. Beispielsweise glauben 77% der befragten Führungskräfte vom Harvard Business Review , dass eine erfolgreiche Datenstrategie entscheidend für den Geschäftserfolg ist.

Dabei ist es völlig egal, ob Sie das Wissen aus Ihren Daten für eine personalisierte Begeisterung ihrer Kunden einsetzen, daraus neuartige Produkt- oder Geschäftsideen entwickeln oder die Qualität Ihrer Produkte verbessern. Es ist auch weniger relevant, um welche Daten es sich handelt, Buchhaltungsdaten, IoT-Daten oder Daten aus Ihrer Produktion.

Wichtig ist, dass Ihre Basis immer hochwertige Daten sind. In der richtigen Qualität und Granularität. Data Governance setzt genau hier an. Damit haben Sie Ihre Daten im Griff und können das unglaubliche Potential heben, das bereits jetzt in Ihren Daten schlummert.

Ohne dass Unternehmen ihre Daten im Griff haben, also ohne Data Governance, wird es zukünftig sehr schwer sein, den Erfolg aufrecht zu erhalten oder auszubauen.

 

Machen Sie schon Data Governance?

 

Wenn wir mit unseren Projektpartnern das Thema Data Governance erarbeiten, wird eines sehr oft früh ersichtlich: Einige der betroffenen Aufgaben werden ohnehin bereits erledigt und gehören mehr oder weniger zum Tagesgeschäft.

So weiß man z.B. meist wer im Unternehmen zuständig ist, wenn

  • die Daten eines Berichts nicht zusammenpassen,
  • sich Fehler in den Stammdaten zeigen, oder
  • man Zugriff auf bestimmte Daten benötigt.

Aus Sicht von Data Governance werden diese Aufgaben der Rolle des "Data Steward" zugeordnet.

Auch wenn diese Rolle oft nicht offiziell besetzt wurde: Meist weiß man in diesem Fall, wen man fragen muss und wer über diese eine Datenquelle üblicherweise Bescheid weiß. Oft sind diese Aufgaben nicht formalisiert, sind aber aus der betrieblichen Realität nicht wegzudenken.

Es handelt sich dabei um implizite Verantwortlichkeiten. Oft haben die betroffenen Personen jahrelang Wissen und Erfahrung in ihrer täglichen Arbeit aufgebaut und sind dadurch in diese Rolle "hineingerutscht". Sie kümmern sich (neben ihren täglichen Aufgaben) um einen bestimmten Datenbereich.

Mit Data Governance werden solche Verantwortlichkeiten in eine Struktur gebracht und Verbindlichkeit geschaffen. Auch die dafür notwendigen Ressourcen werden so sichtbarer. Nur so kann sichergestellt werden, dass für jede Datenquelle eine Ansprechperson definiert wurde und jeder nachsehen kann, wie diese eine Kennzahl denn nun berechnet wird. Und dass dieses Wissen auch langfristig in Ihrem Unternehmen bleibt.

 

Wie beginne ich mit Data Governance?

Im Rahmen von Kunden-Projekten und Data Governance Workshops stellt sich nach dem Einstieg ins Thema natürlich sehr bald die Frage: Wie starten wir nun am besten? Wie bringen wir unsere Data Governance Initiative "auf die Straße"?

Wir wollen Ihnen hier ein paar Tipps geben, wie Sie mit Data Governance am Besten starten.

Zu Beginn ist es aus unserer Sicht am Wichtigsten, den Status Quo zu erheben und zu analysieren. Niemand beginnt von Null, denn in jedem Unternehmen werden einige Aufgaben, die zu Data Governance gehören, ja ohnehin schon gemacht.  Diese müssen sichtbar gemacht werden.

Bei dieser Analyse sollten Sie feststellen, wo es bereits gut läuft und wo es Probleme und damit Verbesserungsmöglichkeiten gibt. Außerdem sollte man sich die Frage stellen: Was kann ich aktuell NICHT machen, weil es die Datenqualität nicht erlaubt? Die Antworten darauf liefern uns bereits mögliche Inhalte für den Data Governance Business Case.

Dieser Business Case ist wichtig, denn er dokumentiert die Notwendigkeit und den Nutzen von Data Governance in Ihrem Unternehmen. Denn Eines ist auch klar: Sie benötigen das Mandat der Geschäftsführung. Ohne Rückhalt und entsprechende Ressourcen ist der Erfolg Ihrer Data Governance Initiative von Beginn an gefährdet.

 

Iterative Data Governance

Ist die strategische Entscheidung zum Start eines Data Governance Programms gefallen, stellt sich dann die Frage nach einem geeigneten Startpunkt. Entscheiden sich Unternehmen dafür, strukturiertes Data Governance einzuführen geschieht dies in der Regel im Rahmen von den bereits erwähnten Data Governance Initiativen, also einzelnen Projekten, die dazu dienen, schrittweise die strukturierte Steuerung von Datenlebenszyklen zu erreichen.

Bei der Auswahl an möglichen Kandidaten für eine Data Governance Initiative können verschiedene Richtungen eingeschlagen werden.

  1. Einerseits über einen Data Catalog und die Katalogisierung der bestehenden Datenlandschaft. Welche Daten sind im Unternehmen vorhanden, was passiert mit diesen und wo sind gegebenenfalls Anomalien?
  2. Andererseits kann die Data Governance Initiative auch anforderungsgetrieben sein. Was sind die wichtigsten Kennzahlen und welche Daten werden für Reports benötigt? Sind bereits vorhandene Prozesse oder Zuständigkeiten nutzbar?

Der erste, eher technische Ansatz orientiert sich am Gesamtbestand der Daten im Unternehmen und versucht diesen greifbar zu machen. Daten werden katalogisiert und mit einem organisatorischen Überbau versehen. Der Vorteil dabei ist, dass die Menge an Daten zwar recht umfangreich, aber auch in ihrer Gesamtheit bekannt ist. Es besteht wenig Risiko, dass einzelne Bereiche "übersehen" werden und vor allem wird der gesamtorganisatorische Bedarf aufgezeigt. Spezialisierte Werkzeuge für Data-Catalogs und Data Profiling können hier unterstützen und einzelne Teilschritte können effizient automatisiert werden. Einer der Nachteile dieses Ansatzes ist die Fehlende Differenzierung und Priorisierung der Datenbereiche. Aufgrund der großen Menge an Daten und der hohen Komplexität (geschuldet den Anforderungen der operativen Prozesse und gegebenenfalls den Vorsystemen) wird nur schwer unterschieden, welche Daten nun angepasster Steuerungsmechanismen bedürfen und für welche bestehende Prozesse in den Vorsystemen ausreichend sind.

Eine anforderungsgetriebene Herangehensweise hingegen beginnt mit der Priorisierung der Daten und schafft somit einen Fokus auf jene Bereiche, deren strukturierte Steuerung (Governance) den größten Einfluss hat. Das Thema Daten wird sozusagen von Hinten aufgerollt. Beginnend mit den verwendeten Kennzahlen und Berichten wird evaluiert, welche Daten darauf Einfluss haben und ob deren aktuelle Steuerungsmechanismen gut genug oder ausbaufähig sind. Dieser Ansatz erleichtert es, einzelne "PainPoints" in der Datenlandschaft herauszuheben und das Data Governance Programm dahingehend zu priorisieren.

Die grundlegende Entscheidung bei der Wahl der Herangehensweise ist, ob die Governance Strukturen komplett neu aufgebaut werden sollen (mit dem Fokus auch wirklich alle Datenbereiche abzudecken), oder ob bestehende Strukturen umgebaut werden sollen und die Priorisierung nach Einfluss der Daten auf (entscheidungsrelevante) Kennzahlensysteme erfolgen soll.

 

Überzeugen Sie Ihre Stakehoder

Für eine erfolgreiche Data Governance Initiative sind entsprechende Ressourcen und der Rückhalt im Management essentiell.

Um die entsprechenden Personen davon zu überzeugen, stellt sich natürlich zwangsläufig die Frage, wer überhaupt die Stakeholder der Data Governance Initiative sind. Es gilt die Personen zu identifizieren, deren Unterstützung oder Mitwirkung erforderlich ist, aber auch jene Personen, die von einer erfolgreichen Umsetzung direkt profitieren. Diese können sowohl intern wie extern sein. Externe Stakeholder können beispielsweise Partnerunternehmen mit gemeinsamer Ausrichtung sein.

Sind die Personen identifiziert, gilt es noch inhaltlich entscheidende Fragen vorzubereiten:

  • Was können wir derzeit nicht tun oder entscheiden, weil unsere Datenlandschaft unzureichend gesteuert ist?
  • Welches Potential schlummert in unseren Daten? Was könnten wir erreichen?
  • Und, welche Auswirkung hätte die erfolgreiche Umsetzung der Data Governance Initiative?
    • Zum Beispiel ein verbesserter Zugang zu Daten,
    • ein besseres Verständnis für unsere Daten,
    • die Hebung der Datenqualität und somit eine besser Entscheidungsgrundlage oder
    • eine effizientere und kontrollierbare Nutzung der Daten.

 

Data Governance und Data Science

In diesem Interview erklärt unser Chief Data Scientist Dr. Mario Schnalzenberger, warum Data Governance aus Sicht eines Data Scientisten wichtig ist.

 

Data Governance und Datenschutz

In diesem Interview mit Mag. Julia Crosina-Schreiber, Leiterin der Rechtsabteilung der ACP Gruppe, erfahren Sie, welche Zusammenhänge es zwischen Data Governance und Datenschutz gibt, beziehungsweise wie Ihnen Data Governance bei der Einhaltung des Datenschutzrechtes hilft und welche Vorteile damit verbunden sind.

Die Rollenpyramide von Robert Seiner zeigt eine sehr ausgeprägte Struktur der Rollen, wie sie in großen Organisationen durchaus angebracht ist. Die Rollen werden dabei dem operativen, taktischen oder strategischen Level zugeordnet. Derart umfangreiche Organisationsstrukturen bedürfen wiederum eigener interner Steuermechanismen mit einem Data Governance Programm Team zur administrativen Unterstützung.

Es werden Rollen definiert und mit Personen besetzt.

Im Rahmen von Data Governance werden einige Rollen definiert. Die beiden wichtigsten Rollen in Data Governance Initiativen sind der Data Governance Manager und die Data Stewards.

Die weiteren Rollen werden je nach Umfang der Data Governance Initiative erforderlich.

Data Governance Manager
Der Data Governance Manager ist der operativ Verantwortliche für das Data Governance Programm. Er steuert die Data Governance Initiative und garantiert deren Ausrichtung an den vereinbarten Visionen und Zielen.
Data Steward
Unter Data Stewards versteht man Personen, die direkt für Erzeugung, Änderung oder Nutzung von bestimmten Daten verantwortlich sind. Sie sind die Datenkümmerer und sorgen für deren Verfügbarkeit und dafür dass die Daten auch den Qualitätsanforderungen entsprechen.
IT / System / Data Resource Experts
Diese sind über alle Ebenen wichtige Wissensträger.
Data Domain Steward
Data Domain Stewards sind für eine Data Domain verantwortlich. Diese sind entweder nach Themenbereichen (z.B. Kundendaten) oder nach System-Ebenen (z.B. operative Systeme vs. DWH-Systeme) geclustert.

Data Domain Stewards sind geschäftsbereichsübergreifend tätig.

Data Steward Coordinator
Data Steward Koordinatoren sind pro Geschäftsbereich für die Informationsverteilung an die operative Ebene verantwortlich.
Data Governance Council
Dies ist Entscheidendes Gremium auf strategischer Ebene

Die Herangehensweise bei Kundenprojekten orientiert sich in vielen Fällen nur bedingt an der vorgeschlagenen Rollenpyramide von Seiner. Jegliche Erweiterung der Aufbauorganisation muss mit großem Bedacht auf die bestehenden Strukturen erfolgen. In vielen Unternehmen sind folgende Rollen besetzt, die sinnvollerweise in Data Governance Initiativen eingebunden werden sollten.

Die hier exemplarisch genannten Rollen wirken bei unseren Kundenprojekten an Data Governance Initiativen mit. Zu beachten ist, dass die Aufgaben auf Entscheidungsebene (Data Governance Manager oder Council), auf Verwaltungsebene (Data Steward Coordinator, Programm Team) und auf operativer Ebene (vor allem Data Stewards, Datenqualitätsmanager) abgedeckt werden bzw. von der Ressourcenkapazität abgedeckt werden können.

Ein Ziel unserer Workshops ist es, die Rollenverteilung gemeinsam mit unseren Kunden herauszuarbeiten und so etwaige Engpässe (bei Kapazitäten oder nicht abgedeckten Aufgaben) aufzeigen zu können. Engpässe können oft entweder durch Schärfung der Rollen oder aber auch durch effizienten Werkzeugeinsatz kompensiert werden.

BI Verantwortliche und Analysten

BI Analysten sind vor allem auf operativer oder taktischer Ebene eingebunden. Ihre Aufgaben sind die Spezifizierung und Umsetzung von Reportanforderungen für die jeweils verantwortlichen Themenbereiche.

Sie sind Ansprechpartner für die Anwender
und Key User bei Fragen zu Berichten
(sowohl inhaltlich als auch technisch)  und fungieren sie als Schnittstelle zwischen Anwender / Key User und IT Entwickler im Reporting Umfeld .

Prozess- und Anwendungsverantwortliche

In der Data Governance Initiative müssen diese sicherstellen, dass die festgelegten Prozesse den Vorgaben entsprechend ausgeführt, gesteuert und optimiert werden.

Zu ihren Aufgaben zählt die Abstimmung von Anforderungen im IT-Anforderungsprozess.

Außerdem  steuern sie wertvolles Wissen über die Struktur der Vorsystemdaten bei und sind verantwortlich für die Weiterentwicklung  des Vorsystems (Change Prozesse).

Vertreter der Fachbereiche

Das Wissen über die Struktur der Daten liegt oftmals weniger im Fachbereich selbst, sondern eher bei den BI Analysten. Der Beitrag des Fachbereichs zum Datenqualitätsmanagement ist meist durch die Ressourcenverfügbarkeit limitiert.

Externe Dienstleister

Externe Dienstleister unterstützen bei der Anwendungsentwicklung und verfügen über Wissen zu Implementierungsdetails. Auch bei der Datenbereitstellung können diese unterstützen und liefern Support bei Änderungen der Daten.

Skalierung von Data Governance Initiativen und Data Domains

 

Die Datenlandschaft in Unternehmen ist in der Regel sehr umfangreich. Unzählige Tabellen aus ERP Systemen, CRM Systemen, der Finanzbuchhaltung, Produktion etc. werden in täglichen operativen Prozessen verwendet. Nicht nur das Volumen dieser Daten erreicht hohe Ausmaße, sondern auch deren Komplexität, vor allem durch den steigenden Bedarf an Anpassungen der jeweiligen Basis Lösungen.

Selbst wenn man sich nur auf jene Daten beschränkt, die essentiell für das Berichtswesen und Analysen sind, haben wir es mit einer schwer handhabbaren Menge an Tabellen, Dateien und Services zu tun, die im Rahmen der Data Governance gesteuert werden sollen. Ab einer gewissen Unternehmensgröße und der damit einhergehenden Systemkomplexität ist es für einzelne Wissensträger nur noch bedingt zumutbar, hier den kompletten Überblick zu bewahren und die Verantwortung für die Governance über all diese Systeme und den damit produzierten Daten zu übernehmen.

Als Ordnungsbegriff haben sich an dieser Stelle sogenannte Data Domains etabliert.

Wir versammeln unter einer Data Domain jene Daten, die entweder einem gemeinsamen Zweck dienen oder einer homogenen Quelle entspringen.

Die Bildung von Data Domains erfolgt meist auf Basis der eingebundenen Vorsysteme. Beispielsweise Buchhaltungsdaten als eine Domäne und Produktionsdaten als eine weitere. Ausgehend von meist bereits etablierten Rollen im Unternehmen, wie zum Beispiel Application Owner für die jeweiligen Kernsysteme, können aus dieser Organisation auch die Rollen im Data Governance beschickt werden. Hier ist das Wissen (notwendigerweise) in den Organisationen meist ohnehin sehr ausgeprägt.

Einige Datenbereiche haben jedoch eine Reihe von Vorsystemen und auch fachliche Anwendungsbereiche, auf die sie einwirken. So sind Kundendaten zum Beispiel sowohl in Finanzbuchhaltungs-Anwendungen ebenso relevant, wie in vertriebsunterstützenden Systemen (z.B. CRM). Der Unterschied liegt jedoch in meist differierenden Anforderungen an die Daten in deren Umfang und Qualität. Auch aus dieser "Daten-Subjekt" bezogenen Sicht können Data Domains gebildet werden. Dies bringt insofern großen Nutzen, da der Fokus der Steuerungsaufgaben erstens fachlich über die Verwendung der Daten getrieben ist und großes Potential in den systemübergreifenden Perspektiven der Daten gehoben werden kann (Vermeidung von Redundanzen, Klärung von Synchronisationsmechanismen etc.).

Diese Einordnung dient der Skalierung der Data Governance Initiativen, um die dazugehörigen Rollen, wie zum Beispiel die bereits erwähnten Data Domain Stewards entsprechend mit Wissensträgern besetzen zu können.

(Interne) Data Governance Partner

 

Einige Abteilungen müssen in Data Governance Initiativen partnerschaftlich eingebunden werden. Dabei handelt es sich nicht um klassische Einbindung als Rollen im Data Governance Konstrukt, sondern diese organisatorischen Einheiten leisten aufgrund ihrer definierten Aufgabe im Unternehmen einen wesentlichen Beitrag für die Data Governance Initiative im Rahmen "ihrer täglichen Arbeit".

Beispiele für solche Partner im Datagovernance Programm sind:

- Information Technology (IT)
- Information Security
- Internal Audit / Legal
- Human Resources
- Project Management Office (PMO)


Mitglieder aus diesen Organisationseinheiten sind in vielen Initiativen notwendig, um Data Governance erfolgreich einleiten zu können und profitieren aber auch ihrerseits in der Regel von diesen. Deren aktueller Beitrag zur Governance in ihrem jeweiligen Bereich muss nicht im Rahmen der Data Governance Initiative repliziert werden. Existierende Zuständigkeiten können jedoch im Sinne eines "minimal invasiven Data Governance Ansatzes" eingebunden werden.

Ein gute Beispiel für eine partnerschaftliche Einbindung sind IT Abteilungen. Sie müssen nicht dezidiert steuernd oder operativ im Rahmen einer klassischen Rolle zur Data Governance  beitragen, sind aber üblicherweise stark in die technische Umsetzung und den Betrieb von unterstützenden Lösungen eingebunden. Die IT-bezogenen Aufgaben sind meist durch Linien oder Projektorganisation abgedeckt.

Ebenso werden Beratungsleistung die Daten betreffend aus der Linienorganisation abgedeckt. Ein Beispiel dafür können rechtliche Belange zur Speicherung und Verwendung von z.B. Mitarbeiterdaten sein. Die für die Governance notwendigen Informationen werden auch im operativen Geschäft unabhängig der Data Governance Initiative benötigt

Diese Datagovernance Partner sind jedoch nicht als eigene Gruppe in diesem Kontext zu sehen, sondern werden je nach Bedarf in die einzelnen Prozesse (und deren Gestaltung) eingebunden.

  

Prozesse

Der wohl wichtigste Prozess im Data Governance ist das Data Quality Monitoring.

Meistens poppt das Thema Datenqualität bei der Anpassung oder Entwicklung von Berichten auf. Werden Daten aus einer "neuen" Perspektive betrachtet, zeigt sich oft, dass deren Qualität dieser neuen Betrachtung nicht vollständig standhalten. Natürlich muss man fairerweise erwähnen, dass eine perfekte Datenqualität meist ein frommer Wunsch  ist, jedoch eine zumindest ausreichende Datenqualität sollte permanent gewährleistet werden können.

Im Rahmen von Data Governance gilt es zu vermeiden, dass mäßige Datenqualität erst im veröffentlichten Bericht zum Vorschein kommt. Idealerweise ist die Qualität der Daten bereits vorher bekannt und wird anhand eines klar definierten Regelwerks kontinuierlich geprüft und gemessen. Die Definition des Qualitätsanspruchs an die Daten muss schon ein Teil der Anforderung sein.

Data Quality Monitoring hat mindestens zwei Ausgangspunkte:

  • Regelwerke, die bereits bei der Entwicklung bekannt sind (sowohl bei der Entwicklung neuer Berichte, wie auch bei der Entwicklung neuer Modelle oder deren Anpassung)

  • Regelwerke, die sich erst in der Verwendung der Daten zeigen (gemeldete Fehler im Berichtswesen)

 

Beide Ausgangspunkte müssen zur Anpassung jenes Regelwerkes führen, dem die Daten im Rahmen von ETL Prozessen unterworfen sind. Bei jeder Aktualisierung der Daten für das Berichtswesen kann festgestellt werden, ob den Anforderungen an die Daten genüge getan wird. Im Rahmen der Aktualisierung durchlaufen die Daten eine Reihe von Prüfschritten. Welche diese sind, wird zuerst im Rahmen der Anforderungsdefinition festgelegt. Ein Beispiel dafür wäre, dass kein Angebot ohne vorhandene Kundennummer im Bericht aufscheinen darf.

Werden Fehler im Bericht eingemeldet, kann dies dazu führen, dass die Liste der Prüfregeln angepasst werden muss. Zum Beispiel gibt es möglicherweise "wichtige" Angebote, die mitgezählt werden müssen, obwohl hierzu kein Kunde im Kundenstamm zu finden ist.

Für die Einhaltung dieser Regeln (und die Bearbeitung der Daten bei Regelverletzungen) ist aus Data Governance Sicht im ersten Schritt der Data Steward zuständig. Er muss eine Verbesserung der Daten einleiten oder eine Bearbeitung der Transformationsprozesse veranlassen, zum Beispiel Fallback-Stammdatensätze, die für die genannten Fälle verwendet werden können.

Technisch kann das Datenqualitätsmonitoring in unterschiedlicher Intensität betrieben werden. Es gibt eine Reihe von speziellen Werkzeugen, vor allem im Bereich des Stammdaten-Managements, die auch die kontinuierliche Anwendung von Regelwerken unterstützen. Wir empfehlen einen klaren Prozess für das Issue Tracking, um eine Überführung in die Datenqualitätsregelwerke zu gewährleisten.

Aus BI- und Datawarehouse-Sicht können aber auch schon einfache Datenqualitätsreports (Listen mit Abweichungen von Regelwerk) eine einfache Lösung darstellen. Wichtig dabei bleibt, dass die gemeldeten Regelverletzungen auch bearbeitet werden. Nur weil bekannt ist, dass Daten falsch sind, macht es das nicht zu besseren Daten! Aber man kann in Analysen darauf Rücksicht nehmen, beispielsweise durch das Ausgrenzen "zweifelhafter" Datensätze.

   

Data Governance Webinar

  

Technologien und Werkzeuge

Data Cataloging Tool

Ein Werkzeug, um sich der unternehmenseigenen Datenlandschaft zu nähern, diese besser zu verstehen und zu verwalten, ist ein Data Cataloging Tool.

Mit Azure Purview wurde Ende letzten Jahres von Microsoft ein Werkzeug veröffentlicht, mit welchem eine "Inventur" der Datenlandschaft, eine Klassifizierung von Dateninhalten und eine Übersicht über die im Unternehmen (zwischen den Systemen) vorhandenen Datenflüssen ermöglicht.

Was Purview ist und wie es funktioniert, zeigt Ihnen Wolfgang Straßer in diesen zwei (englischen) Videos. Viel Spaß dabei!

Azure Purview

Mit den in Purview enthaltenen Konnektoren ist es möglich, Verbindungen zu Dateninseln im Unternehmen zu definieren. Der Begriff eines Scans fasst im nächsten Schritt den Scope einer Inventur, die berücksichtigen Klassifikationsregeln und die Frequenz der Scans zusammen.

Purview erstellt im nächsten Schritt eine Datenlandkarte - die Data Map - in welcher die einzelnen Data Assets (Tabellen, Dateien) und deren Zusammenhänge katalogisiert werden.

Mit der webbasierten Oberfläche dem Purview Studio können Data Stewards mit dem erstellten Datennetzwerk arbeiten, nach klassifizierten Datenelementen suchen und deren Zusammenhänge analysieren.

Data Catalog und Data Assets

In einem Data Catalog werden die Bestandteile der Datenlandschaft katalogisiert, klassifiziert, in Relation zu einander gesetzt und über eine der Hauptanwendung des Katalogs - der Suche - den Datenverwendern im Unternehmen zur Verfügung gestellt.

Neben den bestehenden Systemen wie z.B. eine Datenbank werden auch die Strukturen darin - wie z.B. Tabellen und deren Spalten - und die Zusammenhänge der Datenflüsse katalogisiert. Es werden auch die Datenschnittstellen, die zwischen einer Datenbank und einem Data Lake existieren, definiert. 

Weiters geht es um die Klassifikation der Daten. Welche Elemente sind im Datenkatalog oder in der einzelnen Tabelle enthalten, wie zum Beispiel eine E-Mail-Adresse. Neben den technischen Strukturen sind im Daten Katalog auch die Verantwortlichkeiten definiert.

Wie kommen die Informationen in den Datenkatalog?

Der Datenkatalog ist also die zentrale Komponente zur Erfassung der Datenlandschaft. Die Inhalte gliedern sich in folgende Bereiche:

  • Technische Informationen (z.B. Tabellenschema mit Spalten, Datentypen und weiteren technischen Eigenschaften)
  • Datenklassifikation
  • Zuordnung von Verantwortlichkeiten (Experten, Dateneigner)
  • Business Glossary

Data Catalog in Azure Purview

Es gelangen folgende Konzepte zum Einsatz:

  • Ein Data Asset steht in Purview für eine Einheit zur Definition der Datenlandkarte. Im einfachsten Fall stellt ein Data Asset z.B. eine Tabelle in einer Azure SQL Datenbank oder eine Datei im Data Lake dar. Die Eigenschaften eines Data Asset gliedern sich einerseits in
    • die Einordnung in der Datenhierarchie (Tabelle -> Schema -> Datenbank -> Datenbankserver),
    • die technischen Details,
    • das Schema des Assets (z.B. Spalten in einer Tabelle),
    • den Verantwortlichkeiten (Owner, Experts)
  • Die Data Map - der zentrale Datenkatalog - integriert Information, welche Azure Purview durch automatisierte Scans der Quellsysteme, der Klassifikation der Datenelemente, die Elemente aus dem Business Glossary sowie der manuellen Überarbeitung der Elemente. 
  • Eine Besonderheit von Purview stellt die automatisierte Erstellung der Data Lineage dar. Erkennt Purview Zusammenhänge zwischen Data Assets, so werden diese miteinander verknüpft. Diese Verbindungen können z.B. SQL Aufbereitungen in einer Datenbank sein, aber auch Datenschnittstellen mit Azure Synapse Pipelines.
  • Einen einfachen Zugang zu den Daten in der Data Map bietet der Data Catalog bzw. die Suche darin. Die vielleicht mit einer einfachen Suche nach einem Stichwort (z.B. Kunden) gestartete Suche nach Data Assets kann in den nächsten Schritte mit einer Vielzahl der Eigenschaften im Datenkatalog kombiniert werden. So kann das Suchergebnis anhand der Datenklassifikation, dem Business Glossary, der Data Owners und Experts aber auch der Datenquellen verfeinert werden.

Wie kommen die Inhalte in den Datenkatalog?

Um den Datenkatalog mit Leben zu befüllen, sind in Azure Purview Datenquellen vorhanden. Diese stellen die Funktionalität zur Verfügung, die technische Inventur der Datenquelle durchzuführen. In diesem Schritt werden (im Beispiel einer Azure SQL Datenbank), die Schema, die Tabellen, die Spalten in diesen Tabellen sowie deren Eigenschaften wir Datentypen etc. eingelesen und verarbeitet.

Im nächsten Schritt können mit Purview automatisierte Datenklassifikation vorgenommen werden. Purview analysiert in diesem Schritt die Datenquellen anhand vordefinierter Klassifikationsregeln (z.B. einem regulären Ausdruck) um u.a. Telefonnummern oder Emailadressen zu erkennen und diesen Elementen eine entsprechende Klassifikation zuzuweisen. Neben den über 200 systemeigenen Klassifikationsregeln  können auch eigene Regeln und Klassifikationen erstellt werden.

Im nächsten Schritt kombiniert Purview die gesammelten Informationen in die Data Map - das zentrale Netzwerk an Dateninformationen.

In this video I show you how the Azure Purview Data Map is structured, how Collections are a part of this story and how you can register sources to connect to source systems.

We configured a source in Azure Purview but now we want the metadata to be scanned and imported into the Data Map... What we need to create is a Scan Definition and that's the content of this quickstart episode.

In this video, we will browse through the available data assets in the Azure Purview data map, see how classifications are applied and edit the properties of a data assets. Plus, we'll explore the filtering and browsing experience in Purview studio.

     

Data Lineage

Unter Data Lineage versteht man das nachvollziehbare Aufzeichnen des Weges der Daten

  • von der Datenquelle (im operativen System),
  • über die Transformationen denen die Daten in der DWH-Beladung unterworfen sind,
  • bis hin zu deren Verwendung in analytischen Modellen (deren Einfluss auf Kennzahlen) und
  • darüber hinaus manchmal auch deren Archivierungsmechanismen.

Wozu braucht man das? Sicher sind Ihnen Anfragen wie folgende bekannt:

  • Die Geschäftsführung verlangt einen Bericht und Sie haben keine Ahnung, wo Sie die Daten herzaubern sollen?
  • Irgendwie passen die Daten eines Berichts nicht zusammen und die Fachanwender wollen sicherstellen, dass die richtige Quellen im Datawarehouse verwenden werden?
  • In welchen Datensenken sind personenbezogene Daten gespeichert, welche bei DSGVO-Anfragen berücksichtigt werden müssen?
  • Welche Zusammenhänge und Schnittstellen bestehen zwischen zwei oder mehreren Systemen im Unternehmen?

Diese Fragen können mit Hilfe möglichst konsequenter Data - Lineage adressiert werden. Unter Lineage (ein Begriff aus der Ethnologie) versteht man eine gemeinsame Abstammung oder auch den Familien-Stammbaum. Legt man den Begriff der Lineage auf das Datenumfeld um, so versteht man das nachvollziehbare Aufzeichnen des Weges der Daten.

In erster Linie handelt es sich dabei um eine zu pflegende Dokumentation. Diese kann jedoch (entsprechende Technologien vorausgesetzt) auch automatisiert oder wenigstens teilautomatisiert erfolgen. Mit Azure Purview ist es möglich, automatisiert diese Lineage-Information aus den Datentransformationssystemen wie z.B. Azure Data Factory in die Datenlandkarte zu übernehmen. Weiters hat dieser automatisierte Ansatz den Vorteil, dass die Dokumentation mit jeder Änderung der Pipeline in der Data Factory auch in der aktuellsten Version in Azure Purview veröffentlicht wird.

Weitere Informationen finden Sie auch unter diesem Link: https://learn.g2.com/data-lineage

 

Power BI Integration

Ein Datenkatalog lebt durch die gute Integration mit vielen Systemen, um die Strukturen, Datenklassifikationen und Zusammenhänge zwischen den Systemen zu vereinen.

In Azure Purview steht bereits jetzt eine Vielzahl an Schnittstellen zur Verfügung - die Liste an native unterstützten Systemen wird von Monat zu Monat länger.

Eine sehr wichtige Schnittstelle stellt die Power BI Integration in Azure Purview dar. Mit dieser Integration von Power BI in die Azure Purview Data Map besteht nun die Möglichkeit, die Datalineage (Herkunft) von der Datenquelle über die Aufbereitungen, das Power BI Datenmodell bis zu den Power BI Reports und Dashboards nachzuvollziehen.

Azure Purview

Mit der nun verfügbaren Metadatenschnitstelle ist es möglich, die Inhalte von Power BI Datasets in die Purview Data Map zu überführen und Power BI als ein Teil der gesamten Datenherkunft zu analysieren.

Falls Sie diese Integration live sehen wollen, gibt es dazu ein kurzes Video!

 

 

Business Glossary / Kennzahlen-Dokumentation

Neben den technischen Details im Datenkatalog ist eine für die Anwender in den Fachabteilungen verständliche Definition zwingend notwendig. In diesem Zusammenhang spricht man vom Business Glossary.

Die Idee hinter einem Business Glossary ist einfach definiert - in einem Unternehmen sollten wir alle vom selben sprechen! Nehmen wir nur die Definition von Kennzahlen wie dem Umsatz, dem Deckungsbeitrag 1 oder anderen Berechnungen.

Hier ist es wichtig, dass diese Informationen gleich definiert sind, aber auch definiert ist wo diese Informationen in der Datenlandschaft zur Verfügung stehen.

Azure Purview

Im Business Glossary können diese Definitionen in einem einheitlichen Schema und einer Struktur abgelegt werden und im nächsten Schritt den Data Assets im Katalog zugewiesen werden. So wird mit dieser Aktion der Schritt von der technischen Inventur (den technischen Elementnamen) in Richtung einer geschäftsorientierten Klassifikation vorgenommen.

Wie das Business Glossary in Azure Purview definiert und verwendet wird zeigen wir Ihnen in diesem kurzen Video!