今回は、高成長が期待されるSNOWについて、投資家目線から、技術的な特徴や競合比較、潜在市場などについて、わかりやすく分析します。
最初に要点のまとめです。
- 新しい会社で、競合出身者による会社設立。競合が出来ていないことを意識して技術やビジネスモデルが組み建てられている。
- オンプレミスのデータウェアハウスからクラウド、さらにデータの自由な共有を基本とするデータクラウドという新しく、かつ膨大な市場を作ることを目指す。
- Saasではなく、消費分課金のモデル。データ増加に比例して売上が伸びる?
- 技術の特徴は、コンピューティング(処理側)とストレージ(データ保管側)を分離する発想で、リソース使用を最大限効率化
- さらに、独自のマイクロパーティション技術により、処理実行速度を大幅に高めている。
- ゼロコピークローンの機能、タイムトラベル機能などユニークな機能
- JSON, Avro, Parquetなどセミストラクチャードデータへも対応。
- 強力なデータシェアリング機能。
- 現在競合として、近い位置にあるのはGoogleのBig query。AmazonのRedshiftやMicrosoftのAzure Synapseはプロダクトとして弱いという意見が多い。

それでは、以上を深堀していきます。
創業の経緯
2012年にオラクルのエンジニアだったBenoit氏(現プロダクト部門社長)、 Thierry 氏(現CTO)が共同で創業。
2015年に商業バージョンの製品がリリース。
2019年には、元ServiceNowのCEOのFrank氏と同じくServiceNowでCFOを務めていたMike氏がそれぞれCEO、CFOに就任し、IPOへの足固め。
2020年9月にIPOを果たしています。
元々、創業時はデータウェアハウスをクラウドで設計し、レガシー企業に加え、Amazon Redshiftなどからシェアを奪うという発想だったそうですが、近年はデータウェアハウス以外の領域でビジネスが拡大しているようです。

データウェアハウスとは、データを綺麗に加工し、保管する倉庫です。SQLといった言語により必要に応じ、データを抽出することができます。
Frank CEOはServiceNow時代にアドレサブルマーケットを拡大させた実績があり、Snowにおいても潜在市場についてはかなりこだわっているようです。
データウェアハウスから派生した機能として、具体的には同社は以下の図のように、中核のデータウェアハウスも含めた6つの機能を担っているとしています。

上の図の説明です。
Snowflakeと書いてある部分(Data engineering, Data lake, Data warehouse, Data science, Data application, Data sharing)が彼らの提供する機能です。
ピュアなソフトウェア会社で、データを保管するフィジカルなアセットなどはパブリッククラウド(Google cloud, AWS, AZURE)が基盤です。
様々なデータソースから取り込まれたデータが、同社のプラットフォームを通り、消費されていくというのが、上の図の流れです。
彼らが目指している市場はどれくらい大きいのか?
結論から書きますと、100B (USD)以上を見込んでいるようにみえます。

上の図は、同社のアドレサブルマーケットの拡大を示したものです。
創業後の2014年は、洗練されたクラウドベースのデータウェアハウスのプレイヤーであったのが、2019年には、上述したように6つに機能拡大。2020年にはデータクラウドというビジョンを掲げています。
まずアドレサブルマーケットのサイズですが、以下のように公表されています。

コアであるデータウェアハウスビジネスの領域が14B、そこからData cloudの領域の数字はありませんが、100B以上でしょうか。
Data cloudというのは、これまでになかった市場で、会社のユニークなビジョンであるとしています。参考:https://www.snowflake.com/data-cloud/?lang=ja
ぱっと見る限り、データを共有する仕組みであり、当たり前の話に見えます。
しかし、会社によると、このような仕組みをこれまでの技術でやろうとすると非常にコストがかかることが障壁となっているとのことです。
SaaSで当たり前のどこでもアプリを使うという仕組みがデータの分野でないのはおかしいというのが会社の考えで、このような仕組みを構築しようとしています。

ここからは少し技術的な部分に触れていきます。
同社アーキテクチャーの特徴
同社の大きな特徴としては、実際のデータ処理を担うコンピュート部分と、データを貯蔵するストレージ部分を完全に分離させていることが挙げられます。

分離のメリットは効率が格段に良くなること。
従来のアーキテクチャーは、コンピュートとストレージが一体化していました。
ユーザーの増加などから処理能力を上げるためにコンピュート部分を増強したければ、ストレージ部分も増強されるという仕組みで非効率でした。
またもう一つのメリットとして、小規模から極めて大きな規模まで簡単にスケールアップできることが挙げられます。
同社の処理速度はなぜ早いのか?
同社の特徴としてよく指摘されているのは、処理速度の速さです。
それは、独自のパーティション技術にあるようです。
パーティションとはテーブルにあるデータを区切ることを指します。

例えば、日付に紐づいたデータがある場合、ある日付以降と以前を分けるなどです。
パーティション処理をすることで、データに目星が付けられるので、データの検索速度が上がるというわけです。
同社の製品にはこれを自動化かつ、ち密化した”Micro partitioning”という機能が備わっています。
概要は以下です。
これにより、検索をかける際も、テーブルの中でほんの少しの領域のみをスキャンするだけで済むので早いようです。

データ共有機能
同社は、上に少し記述したように、Data cloudというビジョンを達成するにあたり、強力なデータ共有機能を備えています。
データ共有のために、データを複製するのではなく、アクセスコントロールを設定することでデータを共有できるようになっています。
ベンダーのデータ共有のエコシステムもすでに立ち上がっており、例えば、ファクトセット社の名前が挙がっています。
金融業界の例で想像すると、これまでファクトセット社から市場ベンチマークのデータをエクセルで落としてきて、それを社内のSQLサーバーにアップロードするなど面倒な作業の必要がなくなりそうです。

データの売買が簡単かつセキュアにできるようになれば、データベンダーのビジネスも加速させそうですね。
その他ユニークな機能
その他、細かいですが、非常にユニークな機能について書いていきます。
ゼロコピークローン
ゼロコピークローンとは、データベースを仮想的にもう一つ作る際に、実際にデータを複製するのではなく、参照形式にすることで、データの増加を防ぐものです。
またデータの重複も防げますね。
データベースに変更を加えたいときや、何か実験したいときに非常に有用な機能であるようです。
タイムトラベル機能
タイムトラベルという機能では、90日の間、消してしまったデータの復元が可能。
コンピュートとストレージの分離が出来ていて、機能的には同社に近いといわれているGoogleのBig queryもこのような機能がないそうです。
セミストラクチャードデータへの対応
通常エクセルの行列で表せるような構造化データがメインですが、JSON, Avro, Parquetといった半構造化データにも対応可能のようです。
競合との違い
大きく分けると、競合はレガシー(Teradata, オラクル、IBM)、Hadoop、GAM(Google, Amazon, Microsoft)の三種類。
この中で、最も競争が懸念されるGoogle, Amazon, Microsoftとの比較について書いてみました。
基本的には、SNOWはどのクラウド業者でも利用できるためベンダーロックインの懸念が無いこと、独自のパーティション技術や、アーキテクチャーにより、処理速度が速く、コストも安いことで差別化されていると思います。
Amazon Redshiftとの比較
Snowflakeは大規模顧客はもちろん小規模顧客にとっても導入が容易という声が多いようです。
導入のハードルとしては、AmazonのRedshiftは非常に高いとの声が多いです。
またコンピュートとストレージが分離されていないので、コンピュートクラスターの増強がテクニカルでスケールアップに時間がかかること。
かつマニュアルで増強しなければならず、リソースを近い将来どれくらい使うか頭を悩ませるケースが多いという声が見られます。
それでも複雑な、Redshiftを使う理由としてはAmazonのエコシステムに組み込まれているという意見。
Google BigQuery、Microsoftとの比較
BigQueryに関しては、コンピュートとストレージがしっかり分離されているという意味で最もSnow flakeの製品に近いとの評価を受けているようです。
一方で、Snowflakeのほうが、機能が充実しているというコメントもあります。
例えば、タイムトラベルのようなデータ復元機能が無い。
マイクロソフトに関しては、まだ弱いプロダクトであるという以外に定性的なコメントを見つけることができませんでした。
最後にビジネスモデル
最後にビジネスモデルです。
同社はサブスクリプションではなく、消費ベースの課金モデルです。
これは、使った分だけ課金されるということです。
そのため、データ量の増加に比例して売上が上がるということになります。
ただし、今後もデータが爆発的に増えていくことが予想されているので、データあたりの価格を下げていく必要はあるかもしれません。
同社は他社と比較して、コストを低下させる非常にフレンドリーな仕組みを提供しています。
特徴的なものとして、本当に使っているときのみ課金されるということです。
検索クエリを書くために起動させているが、アイドル状態で実際検索処理がされていないときは課金されないとしています。
コメント