Apple AIモデルMatrix3Dは3枚の画像から3Dシーンを生成

Apple AIモデルMatrix3Dは3枚の画像から3Dシーンを生成

1分で読めます
| ニュース

Apple Vision Pro 3D画像

Appleの機械学習チームは、南京大学香港科技大学の研究者と協力し、 Matrix3Dを発表しました。この新しいAIモデルは、わずか数枚の2D写真から3Dオブジェクトやシーンを再構築することができ、従来の手法からの大きな転換を示しています。

9to5Macの報道でも取り上げられているように、Matrix3Dが革新を起こしている分野は写真測量です。この分野では、写真を用いて3Dモデルや地図を作成するための計測を行いますが、従来は姿勢推定や深度予測といったタスクに複数の個別のモデルが用いられていました。

研究者によると、この多段階のプロセスは非効率性とエラーにつながる可能性があります。Matrix3Dは、これらのステップをすべて単一の統合プロセスで実行することで、この問題に対処します。画像、角度や焦点距離などのカメラパラメータ、そして深度データを単一のアーキテクチャで処理します。このアプローチにより、ワークフローが簡素化され、精度が向上します。

3D再構築への新しいアプローチ

Matrix3Dの学習方法は特に注目に値します。研究者たちはマスク学習戦略を採用しました。この手法は、ChatGPTの初期バージョンなどの開発に貢献した初期のTransformerベースのAIシステムで使用されていた手法に似ており、学習中に入力データの一部をランダムに隠蔽します。これにより、Matrix3Dは欠落している情報を補う方法を学習する必要がありました。

研究チームは、この手法がMatrix3Dにとって非常に重要であると述べています。なぜなら、この手法により、小規模または不完全なデータセットであってもMatrix3Dは効果的に学習できるからです。結果はモデルの能力を実証しています。わずか3枚の入力画像から、Matrix3Dは個々の物体や環境全体の詳細な3D再構成画像を生成することができます。

研究チームの報告によると、この統合拡散変成器モデルは柔軟な入出力構成を備え、複数のコア写真測量タスクをサポートし、エンドツーエンドで最適化可能です。これにより、タスク固有の複数のモデルを用意する必要がなくなります。

Apple Vision Proへの影響

最小限の入力から詳細な3D環境を構築できるMatrix3Dの能力には、明確な応用分野があります。この技術は、Apple Vision Proのような没入型ヘッドセットでの体験を大幅に向上させる可能性があります。3Dコンテンツを迅速に生成したり、現実世界の空間をより簡単に仮想環境に取り込んだりすることが可能になります。研究者たちは、複数ラウンドにわたるインタラクションを通してきめ細かな制御を可能にする、3Dコンテンツ作成のための革新的なツールとしてのMatrix3Dの可能性を強調しています。

チームはMatrix3DのソースコードをGitHubで公開し、研究論文をarXivで公開しました。また、プロジェクトのウェブサイトではサンプル動画を視聴したり、ポイントクラウドの再現を操作したりすることもできます。

Knowledge Network