MetaのLlama 3.2: AIの民主化とXRの未来
Meta Connect で発表されたオープンソース AI モデル「Llama 3.2」
Meta Platforms は、開発者向けイベントの Meta Connect で、オープンソース AI モデル「Llama 3.2」を発表しました。このモデルは、メタが展開する各種 SNS サービスなどに組み込まれる予定ですが、企業が自社のシステムに組み込むことも可能です。Llama 3.2 は日本語への対応力も高く、日本国内や日本企業が利用するオフショア開発会社などでも積極的に活用されています。読者の中には、Llama が利用されていることに気づいていない人もいるかもしれません。
Llama 3.2 のオープンソース化の理由
Meta Platforms が Llama をオープンソース化し、ライセンスを提供している理由は、自社内だけでは難しい規模にスケールさせるためです。オープンソースコミュニティに寄稿し、自社サービス以外での利用を制限しないことで、進化の速度を上げられるという利点があります。昨年の Meta Connect では、開発担当者がこの点について詳しく説明しました。
Llama 3.2 の価値
Llama 3.2 は、言語モデルだけでなく、画像を識別できるマルチモーダル機能を備えています。これは、XR(クロスリアリティ)領域での生成 AI が不可欠であるため、このプロジェクトに取り組んでいるという背景があります。Llama 2 は、OpenAI などの AI モデルよりも軽い実装で良い性能を出し、事前学習のないモデルも用意されている上、オープンソースコミュニティでの豊富な情報をもとに、カスタム AI のチューニングがしやすかったことで、高い評価を得ています。
Llama 3.2 の特徴
Llama 3.2 は、110 億パラメータの中規模モデルと 900 億パラメータの大規模モデルで、複雑な推論や高度にクリエイティブなタスクに対応しています。さらに、10 億および 30 億パラメータの小規模モデルも開発され、デバイス内での実行に適しています。これらの小規模モデルは、クアルコムや MediaTek の SoC が内蔵する推論エンジン向けに調整されており、マルチモーダル対応で画像入力にも対応しています。
Llama Stack Distributions
Meta Platforms は、Llama 3.2 を簡単に実装できるよう「Llama Stack Distributions」も提供しています。開発者は異なる環境(単一ノード、オンプレミス、クラウド、オンデバイス)で Llama モデルを簡単に扱えるようになるため、実装するタスクに応じて柔軟なシステム構成を採用できます。また、検索拡張生成(RAG)に対応した構成にすることも可能です。AWS、Databricks、デル、Fireworks、Infosys、Together AI などの協力企業が、Llama Stack Distributions を用いたアプリケーション構築への対応を進めています。
XR への取り組み
Meta Platforms が AI に取り組む理由は、XR(クロスリアリティ)が重要な技術ピースであると考えているからです。空間の中でコンピュータアプリケーションを動かし、それらを操り、必要なデータを揃え、構築していく上で、AI のサポートは必要不可欠なものになっています。
Meta Quest 3S とスマートグラス
Meta Platforms は、299 ドル(税込 4 万 8400 円~)で購入できる Meta Quest 3S を発表しました。このデバイスは、昨年発表された MR デバイスの Quest 3 に近い体験を、安価な価格帯で提供します。価格のハードルが下がったことで、若年層への VR デバイスの浸透が期待されています。Quest シリーズ向けのアプリも、コミュニケーションを中心としたゲームの『Gollira Tag』が 1 億ドルを超える売り上げを達成するなど、新たな普及の起爆剤となっています。
スマートグラスの進化
昨年発表されたスマートグラスの Ray-ban Meta Smartglass は、音声によるユーザー支援機能が実装されています。今年は、この機能をさらに拡張し、目の前にある看板などに書かれている外国語を翻訳して音声で読み上げるなど、目の前にある情景をカメラで捕捉し、AI を組み合わせてユーザーをサポートするアプローチを模索しています。
メガネ型デバイス「Orion」
メガネ型デバイス「Orion」は、ホログラフィックディスプレイを実現するデバイスです。このデバイスは、メガネレンズに相当する部品に屈折率が極めて高いシリコンカーバイドを用い、ナノスケールの精巧なウェーブガイド(導波管)を形成。レンズ周囲に超小型 LED プロジェクターを RGB の原色別に 3 基配置し、レンズ内にホログラフィックを投影します。現時点の解像度は高精細とは言えませんが、数年後を見据える製品版では、現在の Vision Pro に近いレベルの精細度を狙っています。
Orion は、70 度の有効表示画角を持ち、映画クラスの画面サイズや複数のモニターの同時表示をサポートします。重さも 100 グラムを切るため、没入感を求めない主にビジネス向けのアプリケーションでは、空間コンピュータの基盤技術になり得ます。メガネ型フレームにはヘッドトラッキング、ハンドトラッキング、視線トラッキングのセンサーを内蔵し、手首に装着する表面筋電位(EMG)計測リストバンドで、指の細かな動きを検出することでアプリケーションを使いこなせます。
まとめ
Llama 3.2 の発表は、Meta Platforms が AI 技術の民主化と XR 領域への取り組みを強化していることを示しています。オープンソース化により、開発者コミュニティ全体が Llama のプロジェクトと透明性のある関係を築き、多様な実行環境を選べるようになっています。XR 領域での技術要素を積み上げ、未来のプラットフォームを構築するための重要な一歩となっています。