19-06-2024

Databricks maakt Unity Catalog voor data en AI open source

Deel dit bericht

Databricks maakt Unity Catalog open source, een complete oplossing voor data- en AI-beheer binnen meerdere clouds, dataformaten en databronnen. Dit is een belangrijke stap in Databricks' missie om open ecosystemen te bevorderen, waardoor klanten de flexibiliteit en controle houden die ze nodig hebben zonder afhankelijk te zijn van specifieke leveranciers. Databricks trekt in deze visie samen op met partners zoals Amazon Web Services, Google Cloud, Microsoft, NVIDIA, Salesforce en vele anderen.

Unity Catalog OSS biedt een universele interface die ieder dataformat en elke compute-engine ondersteunt, inclusief de mogelijkheid om tabellen uit te lezen met Delta Lake, Apache Iceberg en Apache Hudi-clients via Delta Lake UniForm. Unity Catalog ondersteunt ook de Iceberg REST Catalog- en Hive Metastore (HMS) interface-standaarden. Verder biedt Unity Catalog OSS uniform beheer voor zowel tabeldata als niet-tabeldata en AI-assets, zoals ML-modellen en generatieve AI-tools, waardoor organisaties beheer op grote schaal kunnen vereenvoudigen.

Databricks lanceerde Unity Catalog in 2021 om aan een dringende klantbehoefte te voldoen: de noodzaak voor een interoperabele catalogus voor hun data- en AI-workflows. Voorheen moesten organisaties op verschillende oplossingen vertrouwen voor specifieke doeleinden. Dit resulteerde echter in silo's tussen platforms en data- en AI-assets. Deze silo's maakten het lastiger om moderne data- en AI-toepassingen te bouwen die uiteenlopende data en tools combineren, zoals tabeldata in meerdere tabelformats, ongestructureerde data, ML-modellen, vector-indices en AI-tools. Dit leidde weer tot veel te complexe netwerken om de metadata-silo's te beheren, kopieën van data in verschillende omgevingen en formats. Het eindresultaat: verhoogde kosten en complexiteit, gebrekkig beheer en gefragmenteerde toegangscontrole.

Unity Catalog doorbreekt silo's
“Onze klanten zijn dol op Unity Catalog. Het stelt hen in staat om al hun data-objecten te beheren als één enkele bron van waarheid binnen het Databricks Data Intelligence Platform, in plaats van dat ze meerdere oplossingen voor specifieke doeleinden aan elkaar moeten knopen”, zegt Ali Ghodsi, medeoprichter en CEO van Databricks. “Ons platform is het enige grote dataplatform op de markt waar alle data standaard in een open format beschikbaar is. Nu zijn ook de metadata en het beheer open, en bieden we organisaties de beheermogelijkheden die ze nodig hebben in het huidige data- en AI-landschap. We zijn verheugd om Unity Catalog als open source aan te bieden en de code openbaar te maken. We zullen de open standaard blijven ontwikkelen in nauwe samenwerking met onze partners.”

Enkele belangrijke kenmerken van Unity Catalog OSS:
• Interoperabiliteit: Unity Catalog OSS biedt een universele interface die elk dataformat en iedere compute-engine ondersteunt, inclusief de mogelijkheid om tabellen te lezen met Delta Lake, Apache Iceberg en Apache Hudi-clients via Delta Lake UniForm. Unity Catalog OSS is interoperabel met alle grote cloudplatforms, waaronder Microsoft Azure, AWS, GCP en Salesforce; compute-engines zoals Apache Spark, Presto, Trino, DuckDB, Daft, PuppyGraph en StarRocks; en data- en AI-platforms zoals dbt Labs, Confluent, Eventual, Fivetran, Granica, Immuta, Informatica, LanceDB, LangChain, Tecton en Unstructured.
• Geïntegreerde governance: Unity Catalog OSS maakt uniform beheer mogelijk van datatabellen, ongestructureerde data en AI-assets zoals ML-modellen en generatieve AI-tools, waardoor organisaties onder meer hun beheer en ontwikkeling op schaal kunnen vereenvoudigen.
• Openheid: Met open API's en een open source server met Apache 2.0-licentie maximaliseert Unity Catalog OSS de flexibiliteit en keuzemogelijkheden voor klanten door brede interoperabiliteit te ondersteunen met uiteenlopende engines, tools en platforms.

Partners