Tobiko Data vient sécuriser les pipelines de données

Cofondateur et CTO de Tobiko Data, Tobias Mao nous a indiqué que son principal concurent est DBT Labs. (Crédit S.L.)

Cofondateur et CTO de Tobiko Data, Tobias Mao nous a indiqué que son principal concurent est DBT Labs. (Crédit S.L.)

Sorte de transcodeur pour les bases de données SQL, Tobiko Data vient aider les développeurs à assurer la qualification et la circulation des données dans un environnement de production doublé d'une déclinaison virtuelle.

"Nous sommes une entreprise qui développe principalement des logiciels open source et notre produit phare s'appelle SQL mesh", nous a confié Tobias Mao, cofondateur et CTO de Tobiko Data, lors d'un récent IT Press Tour dans la Silicon Valley. SQLMesh est un framework qui permet aux data scientists et aux administrateurs de construire des pipelines appropriés et efficaces. La réponse à un problème rencontré par de nombreux développeurs : "les données sont très importantes pour alimenter les applications, mais le paysage actuel des données est particulièrement désordonné, beaucoup de données ne sont pas fiables ou sont tout simplement fausses", explique le CTO. "Vous avez un tas d'analystes qui écrivent du code spaghetti impossible à maintenir, vous n'avez aucune idée de ce qui se passe, les contrôles et les équilibres autour des données sont très immatures, ce qui cause beaucoup de problèmes quant à l'exactitude des données et les pannes de données sont nombreuses et nuisent à l'efficacité." 

SQLMesh vient donc aider les développeurs à créer des pipelines de données fiables avec des outils intégrés pour la transformation des données, les tests et la collaboration. Et grâce à la bibliothèque d'analyse SQLGlot, que Tobias Mao a créé lorsqu'il travaillait chez Airbnb, SQLMesh comprend le langage SQL, au lieu de le traiter comme un morceau de texte. "SQLMesh a été conçu dès le départ pour comprendre ce que vous écrivez. Par exemple, SQLMesh peut comprendre la dépendance de toutes vos requêtes SQL en analysant simplement le code SQL - nous n'avons pas besoin de balises personnalisées ou de quoi que ce soit de ce genre", précise Tobias Mao. Cette capacité à comprendre le langage SQL permet de débloquer un certain nombre de points, ce qui augmente considérablement la vitesse de développement et la productivité de l'ingénierie. Cet outil permet à Tobiko Data de vérifier la syntaxe des requêtes SQL avant qu'elles ne soient envoyées à la base de données. Il permet également de catégoriser et de suivre toutes les modifications apportées par les codeurs au cours du processus de développement et de leur indiquer si elles ne sont pas incompatibles avec d'autres ensembles de données. "Nous ne livrons jamais de mauvaises données, car nous comprenons ce que SQL signifie, ce que SQL a calculé, quelles données doivent être lues", assure le CTO.



Tobiko Data propose aux entreprises de créer des environnements de données virtuels que les codeurs peuvent utiliser pendant la phase de développement et réutiliser ensuite pour d'autres projets voire même en production. (Crédit Tobiko Data)

Un environnement virtuel pour accélérer les projets L'autre pièce maîtresse de SQLMesh est la maîtrise des environnements de données virtuels. "La façon dont fonctionne SQLMesh est la suivante : imaginez que vous ayez des modèles de données pour modéliser un projet très simple. SQLMesh aura deux couches. La première est la couche physique. C'est là que sont stockées toutes les tables réelles". La couche virtuelle est l'endroit où vous interagissez réellement avec les données et la couche virtuelle est juste des vues pointant vers les couches physiques. Ainsi, lorsque vous créez un environnement de développement, SQLMesh comprend que votre environnement de développement est le clone exact de la production. Il va donc créer des vues qui pointent vers les mêmes tables physiques. Les outils traditionnels, que la plupart des développeurs utilisent aujourd'hui ne font pas cela, mais double le stockage utiliser pour simplement avoir d'un côté la production et de l'autre le développement. Interrogé sur la concurrence des datastores du type Snowflake ou Databricks, Tobias Mao répond simplement que SQLMesh est plus un complément qu'un concurrent pour Snowflake ou Yellowbrick. "SQLMesh permet de savoir ce qui se passe avant de lancer des requêtes, un peu comme le fait Terraform avec les infrastructures", ce qui permet d'éviter des erreurs très coûteuses avec les plateformes cloud.  

Créé il y a 18 mois, Tobiko Data bénéficie de la grande expérience de ses fondateurs qui ont travaillé chez Apple, Airbnb, Google et Netflix. Parmi les clients de la start-up, Tobias Mao liste un studio de jeux vidéo, une société dans les données, un établissement financier, un éditeur de logiciels... "Donc, tous ceux qui ont des données, avec beaucoup de développeurs qui peuvent utiliser SQLMesh. A ce stade précoce, je dirais que notre principale cible est l'ingénieur en données."Disponible en open source, SQLMesh peut être utilisé gratuitement, mais l'éditeur vient de lancer SQLMesh Enterprise, une version payante avec support et une plateforme d'observabilité complète. Elle ne se contente pas d'indiquer aux développeurs que quelque chose s'est mal passé avec leurs données, mais elle leur explique également pourquoi. Précisons pour conclure que Tobiko Data vient de boucler un tour de table de 21,8 M$ pour financer son développement.  

s'abonner
aux newsletters

suivez-nous

Publicité

Derniers Dossiers

Publicité