Databricksは年次イベントでAIプラットフォームとしての機能強化を発表した。併せて、AI開発の効率化と低コスト化に向けた新機能も発表した。企業が本番環境で自社固有のAIを活用するための環境を着々と整えつつある。
この記事は会員限定です。会員登録すると全てご覧いただけます。
Databricksは2024年6月12日、年次のグローバルイベント「Data + AI Summit 2024」で、封数の新製品、新機能を発表した。
新たに発表されたのは、Databricksプラットフォームの全てのサービスがサーバレスで利用できるようになったことに加え、「Unity Catalog」のオープンソース化、2023年に買収を発表していたAI開発・運用支援ツールである「Mosaic AI」の統合、AIを取り込んだBI製品「Databricks AI/BI」の発表だ。さらに2024年6月14日に買収したTabuler製品を統合する計画も示した。TabulerはApache Icebergをベースとしたデータ最適化ソフトウェアを提供する企業だ。今後、Databricksのデータ統合の「核」を担う「Delta Lake」への統合を視野に入れる。
これらの発表の中でもとりわけ注目を集めたのは、Mosaic AIの統合により、企業が独自にエンタープライズ品質のAI開発を効率よく実践できるようになる点だろう。既に一般公開されているRAG(Retrieval Augmented Generation)実装に必要なベクトルデータベースに加え、基盤モデルを前提に、各種チューニング済みAIモデルを提供する。利用企業が自社データを基にチューニングし、品質フィードバックをするための環境や、AIモデルのライフサイクル管理を担うツール群も発表された。
AIモデル管理に特化した製品・サービスは他にもあるが、Databricksのようなデータプラットフォーム提供企業がこうした機能を取り込んで包括的なサービスを提供する動きが活発になってきた。
Databricksはもともと「Apache Spark」などの技術を基に商用ビッグデータ基盤ソフトウェアを提供する企業として立ち上がった企業だ。
ETLを使ってデータを集積する従来型のデータウェアハウスではなく、リアルタイムに構造化、非構造化を問わずデータを扱い、素早くインサイトを得るためのデータアーキテクチャとして、データレイクとデータウェアハウスを誘導させた「レイクハウス」アーキテクチャを提唱し、データ基盤だけでなく、データ処理や可視化ツールなどの周辺ソフトウェアを含む「プラットフォーム」として、ソリューション提供範囲を拡大してきた。
形式の異なるデータを一元的に扱うに当たり、鍵になるのが「Delta Lake」だ。Delta Lakeは、通常は構造化・非構造化データのように、通常は格納や管理の仕組みが異なる(ゆえにデータのサイロ化を起こす)多様なデータ形式を一元的に管理する仕組みだ。
「現在、92%のデータがDelta Lakeを介して処理されている」と共同創業者兼CEOのアリ・ゴディシ氏は説明する。このイベントの1週間前には「Apache Iceberg」を商用で提供する企業Tabulerの買収を発表したが、間もなくGAとなる「Project Uniform」ではApache Iceberg形式のデータもDelta Lakeで扱えるようにする計画だ。「今後数年でどちらの形式であっても扱えるようにする」(ゴディシ氏)
今回オープンソース化が発表されたUnity Catalogは、データの品質管理やアクセスコントロールなどのガバナンス機能を提供するツールだ。オープンソース化したことで、コミュニティが独自にAPIなどを提供できるようになる。コミュニティのリソースを生かして多様なデータを取り込む環境を整備する狙いがある。
近年、Databricksは「Data&AI」「データとAIの民主化」をキーワードに、レイクハウスアーキテクチャを基にAI向けのデータ基盤としての機能を拡充している。同社はワンプラットフォームでデータを扱える点を強みにしており、AI領域においても同様に、プラットフォーム内に取り込む。
AIの管理・管理基盤として2023年には「Mosaic AI」の買収を発表した。Mosaic AIでは、AI開発や運用、AIモデル評価やガバナンスなどの管理を担う他、サーバレスでGPUリソースを使ったカスタムAIを開発できるようになる。
ユーザー保有のデータでAIを開発できる他、データとAIの民主化で、自然言語で企業固有の事情を加味したインサイトを得られるようになるという。
データの民主化とAIの民主化を実現する。これにより、企業固有の事情を加味して、自然言語でデータからインサイトを得られるようになるという。
2024年7月1日以降は、全てのプロダクトをサーバレスで利用できるようになった。キャパシティ管理やクラスタ構築、バージョン管理などの作業が不要になり、アップグレードなどの負担がなくなる。クラスタなどの構成を考える必要はなく、利用した時間だけの課金で済むようになる。
Moasic AIでは複数の汎用AIモデルをチューニング済みの状態で提供する。これに先立つ2023年12月にはDatabricks Data Intelligence PlatformにおいてRAGの手法を使った生成AIアプリケーション開発ツールスイートを発表、2024年5月には、RAGを使ったドキュメント探索に使われるベクトル検索エンジン「Mosaic AI Vector Search」を一般公開した。
共同創設者兼CTOのマテイ・ザハリア氏は「AIはまだ本番環境に適用できていない。多くの企業がテストしているが、汎用モデルではなく、AIの機能を企業独自の形にしなければならない。汎用LLMではなく、複合的なAIシステム(コンパウンドAIシステム)が必要だ」とMosaic AIの価値を説明する。
これらの新機能に加え、イベント当日は「Mosaic AI Agent Framework」「Mosaic AI Agent Evaluation」「Mosaic AI Tools Catalog」「Mosaic AI Model Training」「Mosaic AI Gateway」を発表した。開発者は基盤モデルを使いながら自社固有データを使って、高品質のRAGアプリケーションを迅速かつ安全に簡単に構築できる。
Mosaic AI Agent EvaluationはRAGアプリケーションのログなどを集積し、出力の品質を自動的に判断し、エンドユーザーからのフィードバックのためのUIを提供する。
Mosaic AI Tools Catalogは複合AIシステムにおいて複数のSaaSツールなどを横断した情報探索を可能にする機能だ。データ探索の対象となるツールはUnitiy Catalogで管理できる。
Mosaic AI Model Trainingは企業が持つ固有のデータを使って、基盤モデルで利用する各種OSSのAIモデルに対して、ドメインや業務に固有のチューニングを施すためのツールだ。特殊なタスクに特化したトレーニングが可能になるため、ユースケースを限定することで高い精度の応答が可能になる。特定のドメイン向けにチューニングされたAIモデルであればパラメータが少なくて済むため、必要なコンピューティング能力が少なくて済む。高速で低コストな利用が可能だ。
ゴディシ氏は「ゼロコードでLLMのファインチューニングが可能になる」「ゼロコードでLLMのファインチューニングが可能になる」とMosaic AI Model Trainingの価値を説明した。
Mosaic AI Gatewayは生成AIモデルやそのアプリケーションに対して、モデルの管理やデプロイのための統合インターフェースを提供して、一貫したガバナンスを実現する機能だ。Mosaic AI Gatewayを介することで、AIモデルのみを切り替える、といった操作が安全かつ容易に行えるようになる。
汎用LLMを使って適切なシステムにクエリを投げて応答する手法が考えられるが、この手法は「精度が悪く応答が遅い点が課題。複合的なAIであればOSSのさまざまなAIモデルをチューニングして80%の精度を実現できる」とザハリア氏は説明した。
AIモデルのチューニングには多大なコストとリソースを割かなければならない点が課題だったが、Mozaic AIはAIモデルのチューニングに掛かるコストを抑えやすく、AIモデルの検証や品質改善のための機能も持つ。従来、ファインチューニングに手が出なかった企業にも、独自AIモデル開発の門戸を開くアプローチと言えるだろう。
近年は、ベンダー独自のデータサービスと、それに付随する専用のAIサービスが人気を集めるが、ゴディシ氏は数年前から「ロックインやサイロ化を避けるには、データをベンダーに渡してはいけない。ストレージではなく『データ』として標準的な形式でデータを持ち続けることが重要だ」と語る。AIモデルについても、オープンウェイト、オープンコードなど、公開ポリシーはさまざまだが「オープン」で公開されているものが多数存在しており、Databricksとしてもそれらのオープンなリソースを生かして標準的な技術でプラットフォームを構成する考えのようだ。
Copyright © ITmedia, Inc. All Rights Reserved.