Gouvernance des données : Okera passe sous la coupe de Databricks

Nong Li a cofondé Okera en 2016 : « Nous avons fondé Okera pour aider les entreprises data driven à doper un accès aux données légitimes tout en minimisant les risques liés à leur sécurité et en assurant la conformité réglementaire ». (crédit : Okera)

Nong Li a cofondé Okera en 2016 : « Nous avons fondé Okera pour aider les entreprises data driven à doper un accès aux données légitimes tout en minimisant les risques liés à leur sécurité et en assurant la conformité réglementaire ». (crédit : Okera)

Face à la croissance exponentielle des IA génératives et à la nécessité d'assurer la protection et la confidentialité des données de ses clients, Databricks a racheté Okera. Une solution de gouvernance des données reposant notamment sur l'intelligence artificielle.

Databricks continue de se développer dans l'IA générative. Le spécialiste du lakehouse vient d'annoncer l'acquisition d'Okera, une plateforme de gouvernance des données axée sur l'intelligence artificielle (IA). L'objectif, étendre ses propres capacités de gouvernance et de conformité pour l'apprentissage automatique et les IA LLM (large language model). Les deux sociétés n'ont pas divulgué les termes de l'accord, cependant selon Crunchbase, Okera aurait levé un peu moins de 30 M$ lors de son dernier tour de table. Parmi les investisseurs figurent Felicis, Bessemer Venture Partners, Cyber Mentor Fund, ClearSky et Emergent Ventures.

Assurer la sécurisation et la confidentialité des données

La plateforme d'Okera sécurise les data avec une approche alimentée par l'IA qui peut découvrir, classer et taguer des données sensibles. Les développeurs ou les gestionnaires utilisent ensuite une interface no code pour exploiter ces balises afin de produire des politiques d'accès et d'offrir une plus grande transparence et un meilleur contrôle sur les données. Okera propose également une technologie qui permet aux entreprises d'isoler les charges de travail sans sacrifier les performances. Ainsi, plusieurs LLM peuvent s'exécuter simultanément sans mélanger les jeux de données, ni partager ou divulguer accidentellement des informations potentiellement sensibles entre les modèles d'IA.

« Nous avons fondé Okera pour aider les entreprises data driven à doper un accès aux données légitimes tout en minimisant les risques liés à leur sécurité et en assurant la conformité réglementaire », explique Nong Li cofondateur et CEO d'Okera. « De nombreuses entreprises n'ont pas assez de profils techniques pour passer les politiques d'accès à l'échelle, en particulier avec l'explosion des LLM. Ce dont elles ont besoin, c'est d'une solution de gouvernance moderne, orientée IA ».

Répondre aux nouveaux défis avec les IA génératives

L'émergence récente de modèles d'IA générative tels que ChatGPT d'OpenAI a pris le monde d'assaut. S'en est suivie une vague d'intérêt des entreprises qui souhaitent désormais les intégrer dans leur SI. Parallèlement, l'inquiétude liée à la sécurité et à la confidentialité des données d'entraînement utilisées par les LLM augmente. Ces derniers doivent en effet mémoriser de vastes jeux de données et les restituer immédiatement. Cela signifie qu'ils peuvent aisément exploiter et divulguer des informations sensibles.

Dans le passé, les entreprises contrôlaient l'accès à leurs data avec de simples contrôles sur un seul plan, comme une base de données SQL, par exemple. Tant que les données provenaient de celle-ci, il était simple de créer des règles pour traiter efficacement les requêtes SQL. « L'essor de l'IA, en particulier des modèles d'apprentissage automatique et des LLM, rend cette approche insuffisante », explique Databricks. L'éditeur souligne ainsi que l'émergence de ces modèles entraîne une augmentation exponentielle du nombre de sources de données que les entreprises doivent gérer. « Les data utilisées par l'IA sont en effet générées par des machines et non par des humains » et la définition de règles dans ce contexte suit difficilement le développement rapide de l'IA. Selon l'éditeur, « les enjeux de gouvernance spécifiques à ces modèles d'IA comme l'identification des sources et le traitement des biais dépassent largement les capacités des plateformes traditionnelles de gouvernance des données ». 

L'équipe d'Okera, dont son cofondateur et CEO, rejoindra Databrick. Ce dernier est notamment connu pour avoir développé Apache Parquet, un format de données orienté colonnes open source permettant une récupération efficace des data stockées, sur lequel Databricks et de nombreuses autres sociétés de logiciels se sont appuyées.

Dolly 2.0, le LLM créé par Databricks

Enfin, Databricks a récemment créé son propre LLM open source spécialisé, baptisé Dolly 2.0. Un système à 12 milliards de paramètres basé sur la famille de modèles EleutherAI pythia et affiné exclusivement sur un ensemble de données de haute qualité de suivi d'instructions générées par l'homme. L'intégralité de ce modèle est en libre accès, y compris le code d'entraînement, l'ensemble de données et les poids du modèle, « tous adaptés à un usage commercial » précise le fournisseur dans un communiqué. En clair, toute entreprise peut créer, posséder et personnaliser des LLM, sans avoir à payer pour l'accès à l'API ou à partager des données avec des tiers.

La société a déclaré qu'elle avait l'intention d'intégrer les capacités d'Okera dans son Unity Catalog. Cela donnera la possibilité aux entreprises de tirer parti du système d'Okera axé sur l'IA pour fournir à leurs clients la classification et la gouvernance de toutes leurs données.

s'abonner
aux newsletters

suivez-nous

Publicité

Derniers Dossiers

Publicité