#13 Unlogische Fixierung auf Logik

Subscribe to get the latest

on 2020-08-13 00:00:00 +0000

with Darren W Pulsipher, Andrew Padilla,

Der Meinungsführer Andrew Padilla von Datacequia sieht neue Entwicklungen im Bereich des Datenmanagements und der Zusammenarbeit vor, die es Daten ermöglichen würden, sich wie Software in Bezug auf Sichtbarkeit, Zugänglichkeit, Benutzerfreundlichkeit und Portabilität weiterzuentwickeln. Er skizziert, wie eine zusammensetzbare Infrastruktur die Anliegen sowohl von Softwareingenieuren als auch von Datenwissenschaftlern angehen würde.

Keywords

#datalineage #multicloud

Ein Kontrast der Anliegen <h2>

In den letzten zehn Jahren hat die Fähigkeit der Datenexperten, Software sichtbar, zugänglich, nutzbar und transportabel zu machen, stark zugenommen. Auf der Daten-Seite gab es jedoch nicht so viele Fortschritte. Dies ist etwas, worüber sowohl Software- als auch Datenexperten nachdenken sollten. Welche Anliegen haben beide Seiten? Was können wir voneinander lernen? Derzeit sind die beiden Seiten in vielerlei Hinsicht diametral gegensätzlich.

Auf der Seite des Software Engineerings steht die Geschäftslogik im Vordergrund. Um konsistente Schnittstellen zu haben, verbergen Ingenieure die Details. Daten werden als Ausgabe betrachtet. Im Gegensatz dazu sind Datenwissenschaftler eher am Kontext dieser Ausgaben und Datenkonstrukte interessiert: den Metadaten. Zum Beispiel ist die Herkunft der Daten für einen Datenwissenschaftler wichtig, um zu sehen, wie sich Dinge im Laufe der Zeit ändern, während ein Software-Ingenieur versuchen würde, diese Details zu verbergen, um Probleme wie Variabilität und Fehler zu vermeiden.

Die Entwicklung von Daten und Metadaten als eigenständige Disziplin zu behandeln, und nicht im Zusammenhang mit der aktuellen Softwareentwicklung, könnte der Branche helfen zu wachsen. Mit anderen Worten, wir müssen den Aufbau einer zusammensetzbaren Infrastruktur in Betracht ziehen, die die Anliegen beider Seiten berücksichtigt.

Ein Beispiel dafür, wie wir derzeit mit den Metadaten-Problemen in Unternehmen umgehen, verdeutlicht diese Idee. Heutzutage verfügen wir über zentrale Metadatenverwaltungssysteme. Wir möchten wissen, wo sich all unsere Daten befinden: wer, wo, warum und wie. Das Erfassen dessen, was die Menschen tun, und das Einspeisen in ein zentrales System ist eine sehr softwarebezogene Herangehensweise. Wenn wir die Daten in ihrer eigenen Entwicklung wachsen lassen würden, könnten wir übernehmen, was Softwareentwickler tun, jedoch im Zusammenhang mit Daten. Wir könnten ein größeres Ökosystem aufbauen, indem wir anstatt so vieler privater Anstrengungen auf beiden Seiten alles in ein synchronisiertes und zentrales Repository legen und es Datenentwicklern ermöglichen, wie Softwareingenieure zu entwickeln. Wir könnten als private Anstrengungen aufbauen und pflegen, aber dann diese Kurierungen mit anderen teilen. Ähnlich wie der Wechsel in der Konfigurationsverwaltung in den 1990er und 2000er Jahren von einem zentralisierten Ort zu einem dezentraleren System könnte das Teilen leichter und flüssiger erfolgen.

Digitale Wissens-DNA <h2>

Das digitale Wissen, das wir haben, ist sowohl von der Logik als auch von den Daten abhängig. Die Software und die Daten teilen sich dieselben Grundelemente, und während wir uns weiterentwickeln und zum Wissen übergehen, bestehen starke Beziehungen zwischen beiden. Was sich unterscheidet, ist, dass wir die Infrastruktur und die Werkzeuge haben, um die Softwareseite aufzubauen, zu implementieren und sichtbar, zugänglich und nutzbar zu machen. Da wir die Datenseite jedoch nicht auf die gleiche Weise betrachten, sind wir in diesen Bereichen eingeschränkt. Zum Beispiel gibt es eine alte Betrachtungsweise, bei der Datenwissenschaftler großartige Analysen und KI durchführen und aus ihren Daten wertvolle Informationen gewinnen, aber es gibt keinen wiederholbaren Mechanismus, der deren Nutzung einschränkt.

Sobald diese Perspektive sowohl von der Daten- als auch von der Software-Community anerkannt wird, können wir einen anderen Ansatz wählen und die Erfolge der Softwareentwicklung für Daten nutzen. Anstatt persönliche Erfahrungen und Vorurteile der Software insgesamt anzuwenden, können wir betrachten, wie Daten funktionieren, wie ähnlich sie sind, aber ihre eigenen Bedenken haben. Ein Analogon wäre, Ihre Familie mit in den Disneyland zu nehmen. Die Erfahrungen und Interaktionen dort repräsentieren die Dynamik der Software. Sie könnten die Erfahrungen auf die Seite der Daten übertragen. Aber stellen Sie sich vor, in der realen Welt müssten Sie diese Erfahrung an der Tür abgeben und wenn Sie nach Hause gehen, wissen Sie nichts darüber. Das ist das Problem. Jedes Mal, wenn wir ein anderes System oder ein anderes Ökosystem betreten, erfinden wir eine neue Welt und sind uns der anderen Welten, die wir an der Tür zurücklassen mussten, nicht bewusst. Wenn wir die Erfahrung teilen könnten oder sie mitnehmen könnten, würden wir feststellen, dass wir eine viel lebendigere Wissensinfrastruktur hätten. Also, das nächste Mal, wenn Sie Disneyland besuchen, basierend auf Ihrer Erfahrung, wissen Sie, zu welcher Tageszeit es am besten ist, wie Sie Wartezeiten überprüfen können, usw… Ohne die Erfahrung der Arbeit mit den Daten in Verbindung mit der Anwendung ist es fast so, als ob man jedes Mal von vorne anfangen müsste.

Ein echtes Beispiel ist das Vergessen, das in Systemen wie dem Gesundheitswesen stattfindet, wo ein Datenexperte eine Integration von Grund auf erstellt und dann einige Jahre später jemand anders dasselbe tun muss. Wenn wir bessere Beziehungen zu den Daten durch Mapping aufbauen können, steigen Wiederverwendbarkeit und Effizienz. Warum haben wir zum Beispiel so viele Vorstellungen von einer Person in Bezug auf das Modellieren? Natürlich ist der Kontext wichtig, aber warum können wir nicht die verschiedenen Varianten einer Person sehen und dann in der Lage sein, sie abzubilden? Im VA-Gesundheitssystem haben sie mehrere Systeme, in denen “Patient” in jedem eine andere Bedeutung hat. Mapping würde eine gemeinsame Basis bieten, aber je nach Kontext Veränderungen ermöglichen, solange die Mapping-Operation sichtbar war. Dann könnten wir uns mit verschiedenen Arten von Anwendungsfällen und Wiederverwendbarkeit weiterentwickeln.

Eine große Lücke besteht darin, dass wir mit K8s eine effektive Operationalisierung von Logik erreicht haben, aber ein äquivalenter Dienst für Daten nicht existiert. Obwohl es eine Übergangslösung mit S3 gibt, ist dies nicht die Antwort. Es besteht ein großer Bedarf in allen Branchen nach einem K8s-ähnlichen Dienst, der sich mit Daten befasst. Die Zusammenarbeit ist hier wichtig. Natürlich möchten Datenexperten einen Mehrwert für ihre Organisation schaffen, aber ein bestimmter Teil hängt von einer Gemeinsamkeit ab.

Schließen der Lücken

Der Firmenname Datacequias basiert auf den acequias in New Mexico, die als Beispiel für die Art der Zusammenarbeit dienen, die für Daten benötigt wird. New Mexico ist eine trockene Region, also bauten die Menschen vor vielen Jahren eine Reihe von Bewässerungsgräben namens acequias, um das Land fruchtbar zu machen. Niemand besaß sie, aber sie wurden aus Notwendigkeit und zum allgemeinen Wohl gebaut, verwaltet und instand gehalten. Die unwirtliche Umgebung in der Datenwelt sind typischerweise Budgets und Datenbesitz, aber eine mehr gemeindebasierte Datenpflege wäre für alle von Vorteil, ebenso wie es den acequias allen zugute kam.

Stellen Sie sich vor, Datenprofis könnten einen Datensatz in jedem zentralen Repository abspalten. Sie könnten ihn verwalten und entsprechend ihren eigenen Bedürfnissen weiterentwickeln. Wenn es eine Änderung im zentralen Repository gibt, das von einer Standardorganisation verwaltet wird, könnten sie diese Änderungen sofort übernehmen oder sich dagegen entscheiden. In jedem Fall haben sie den Ursprung des Datensatzes nachvollziehbar. Heutzutage erstellen wir bei der Verwendung einer Ressource außerhalb des Unternehmens eine Kopie, die in der Zeit stehen bleibt. Das erfordert eine manuelle Verfolgung und Verwaltung von Aktualisierungen. Mit einem zentralen Repository könnten alle gemeinsam erstellen, zusammenarbeiten und Gemeinschaften mit gemeinsamen Grundlagen und sichtbarem Ursprung bilden.

Dies ist nur die Spitze des Eisbergs für das, was eine grundlegende Veränderung in der Industrie ist, um Daten wertvoller für Ihre Organisation zu machen. Für weitere Informationen über Andrew Padilla und Datacequia besuchen Sie datacequia.com.

Podcast Transcript