Kinect の進化と Microsoft Research の真の重要性
目次:
Kinect がマイクロソフトにとって重要であることは、ほぼ自明の理です。レドモンドのキャプチャ デバイスは、ビデオ ゲーム コンソールを制御する単純な方法をはるかに超えており、戦略の重要な要素となり、多くの製品の基準となっています。しかし、これはまた、会社の部門と Microsoft Research のアイデア ラボとの組み合わせから何が生まれるかの具体的なサンプルでもあります。
最初の Kinect はすでにこの例でした。 3 年後、Xbox One のリリースに伴ってデバイスが予想外の限界まで進化することを可能にしたのは、同じ組合です。すべてのセクションで Kinect 2.0 は前任者よりも大幅に改善されています 今週、マイクロソフトはこの機会に、それがガジェット開発プロセスの一部であったことを説明しましたこれは、人間と機械の相互作用における基本的な要素になりつつあります。
Kinect 1.0
Microsoft が 2009 年 6 月の E3 で Project Natal を発表したとき、任天堂が Wii とその制御システムで獲得した疑いのない成功に対するレドモンドの単純な反応を多くの人が見ました。しかし、ブラジルの都市の名前を持つそのプロジェクトの下に、Kinect が隠されていました。このデバイスは 疑いの余地のないベストセラーであることが判明し、時間の経過とともに多くの期待以上。
最初の Kinect の背後にある技術は、レア スタジオのソフトウェア開発とイスラエル企業 PrimeSense の画像キャプチャ技術から生まれましたが、それは の組み合わせになります。市場への参入を可能にする Microsoft Research の調査を行う Xbox チーム
棒状のデバイスは、赤外線プロジェクターとカメラを使用してシーンをスキャンし、物体や人の動きを 3 次元でキャプチャするために特別に準備されたマイクロチップに情報を送信しました。それらは、ユーザーの声を認識できるマイクの列によって結合されました。これらすべての要素を組み合わせることで、顔認識、ジェスチャー認識、音声認識とともに 3D モーション キャプチャが可能になりました。
そのようなタスクの場合、Kinect の仕様は特別なものではありませんでした。カメラの解像度は VGA で、デフォルトでは 640x480 で動作しましたが、リフレッシュ レートは低くなりますが、1280x1024 ピクセルで動作することができました。付属のマイクロチップは、情報処理の一部のみを実行し、タスクのかなりの部分をコンソール自体に任せています。
システム全体の鍵の 1 つは、Microsoft が作成したソフトウェアにあり、Kinect センサーによって収集されたすべての情報を解釈します。ここで Microsoft Research が重要な役割を果たし、引き続き重要な役割を果たしています、Kinect の最も多様な用途を調査し、Microsoft が 2011 年以来オンラインで利用できるようにした SDK で協力しています開発者が製品やサービスに統合できるようにします。
Kinect 2.0
新しい Kinect とその前身との大きな違いは、新しいメイン カメラにあります。第 2 世代のモーション キャプチャ デバイス 高解像度飛行時間型 (TOF) カメラが組み込まれている 今後の Xbox One Kinect でより詳細にキャプチャできるようになります高精度と高解像度。この TOF カメラが提供する新しい深度モードにより、最初の Kinect の 3 倍の忠実度でシーンを再現できます。
これは、このタイプのカメラを使用する唯一の利点ではありません。これにより、60% 広い視野も実現され、より広いスペースを登録できるようになり、デバイスからより短い距離でより多くの人を同時に登録することが可能になります。新しいコンソールを使用すると、最大 6 人がステージに登場し、すべての動きを認識して区別できます。 2の動きしか記録できなかった先代から大きく進化しています。
新世代の Kinect の 2 番目の大きな変化は、新しい赤外線センサー 物体や人を認識できるようになったことです。非常に暗い場所で。センサーは非常に強力になり、完全に暗い部屋でもアイテムを識別できるようになりました。その精度は、人間の目に見える光がなくても、人を認識して身体を登録できるほどです。暗い場所では、最大 4 メートル離れた手のポーズを認識し、各指を正確に区別します。
Kinect 2.0 は、ユーザーの完全な骨格、手足の向き、体の筋肉、心臓の鼓動さえも識別します。
新しい要素の組み合わせにより、ユーザーのシルエットだけでなく、完全な骨格、手足の向き、力と体重の分布で体の筋肉を区別することも可能になりますそれらに加えられ、さらには鼓動。顔認識も大幅に改善され、細部やジェスチャも検出され、より正確な識別が可能になります。これが何を意味するのかを理解するには、次のビデオをご覧ください。
このすべての新しいテクノロジーは、すべての新しいセンサーが取得する膨大な量の情報に対処できるように、Kinect プロセッサにも改良を加えています。環境を読み取るために、最大 2 ギガビット/秒のデータがデバイスによって収集されますこのすべての情報を迅速に処理および解釈する必要があり、そのためには機械の仕様を明らかに改善する必要がありました。
しかし、コンポーネントを変更するだけでは十分ではありません。 Kinect が実現した強力なスキャナーには、認識したすべてのものを解釈できるソフトウェアが必要です。そのためには、それを実行するコードを大幅に進化させる必要がありました。ここで Microsoft Research の経験と知識がこれまで以上に重要になり、問題が発生した Xbox チームを支援し、タイムリーに適切なソリューションを提供しています。高速かつ効率的。このように、Kinect 2.0 は、Microsoft がそのアイデアの実験室に秘めている可能性を示す歴史を持つコラボレーションの製品となりました。
進化の過程
The Evolution of Kinect は、エンジニア チームがどのように TOF カメラを Xbox One に導入しようとしたかという話です。これらのタイプのカメラは、物体に反射する光信号を放出し、距離を移動するのにかかる時間を測定することによって収集されます。それらが適切に機能し、室内のオブジェクトやその環境からの反射を区別するには、最大 10 億分の 1 秒の精度が必要です。このような精度レベルは、オブジェクトの形状と輪郭を適切に計算できるようにするための十分な情報を提供する唯一の方法です。
複雑に聞こえますが、問題は、消費者向け製品でこれらのレベルに到達するのが難しいことです。新しい Kinect の開発プロセスでは、限られた時間内に解決しなければならないさまざまな問題に対処する必要がありました。 Kinect 2.0 は、2013 年後半に予定されている Xbox One のリリースに合わせて準備が整うはずです。
マイクロソフトが切り札を持っているのは、このような状況です: Microsoft Research、あなたのシンクタンクKinect の背後にあるチームは、Microsoft Research メンバーの膨大な知識と技術的経験を利用して、デバイスに統合された新しいテクノロジで発生していたさまざまな問題を解決しました。これは、会社のさまざまな部門間の協力のおかげで、研究開発への長年の投資が実を結び始めた場所です。
Microsoft Research の研究者の一部は Kinect チームと協力してアルゴリズムとパラメーターの最適化に取り組み、他の研究者はセンサーによって記録された深度を計算するためのデータとソフトウェアに焦点を当てました。 TOF カメラを導入する際の課題を認識した研究者は、Kinect の背後にあるテクノロジがどのように機能するかを再学習して、手と顔の認識アルゴリズムでソフトウェア チームを支援する必要がありました。
チャレンジは簡単ではありませんでした。背景から前景のオブジェクトを区別し、カメラのブレを最小限に抑えることは、困難な作業です。第一に、あらゆる種類のシナリオとあらゆる種類の光条件で、小さなオブジェクトを正確に測定する必要がありました。手の指を区別できるようになるまで作業する必要があり、環境と混同されるのを防ぎました。この作業の結果、新しい Kinect は 2.5 cm の小さなオブジェクトを検出することができます、前任者の 7.5 cm と比較して。ぼやけの問題には、さらに多くの作業とソフトウェアの最適化が必要でしたが、時間の経過とともに、Microsoft のエンジニアはモーション ブラーをオリジナルの Kinect の 65 ミリ秒から後継の 14 ミリ秒に短縮することができました。
これらのタスクはすべて、膨大な量の情報を処理する必要があります。 Kinect カメラでキャプチャされたデータはピクセル単位です。つまり、Kinect センサーがサポートする 220,000 ピクセルのそれぞれが独立してデータを収集しますこれに、残りのセンサーによって収集されたさらに多くの情報を追加する必要があります。複雑な問題は、このすべての情報を識別して解釈し、要素とそれらが見つかった深さを分離し、画像からノイズを除去することです。
Kinect では、Xbox One は毎秒 650 万ピクセルを処理する必要があります
"Xbox One は 1 秒あたり 650 万ピクセルを処理する必要があり、コンソールのコンピューティング パワーのごく一部しか情報を解釈するタスクに割り当てることができません。追跡、または顔または音声認識。ピクセルごとに必要な計算は非常に少なく、クリーンアップが必要です>Microsoft Research の貴重な支援がなければ、Kinect チームは予定どおりに目標を達成することはできなかったでしょう"
Microsoft Research の効果的な重要性
Kinect チームと Microsoft Research の人々との共同作業は、純粋な協議関係ではありませんでした。 Microsoft の研究者は多くの作業を引き受けました デバイスの進化に伴う問題を解決するためのインフラストラクチャとソフトウェア全体を構築しました。それぞれの分野における 2 つのチームの知識により、別々に進めるよりも速く前進することが可能になりました。
重要なのは、統合のスピードと、短期間でソリューションを提供できる能力でした。しかし、そのすべての作業は、製品を売り出すことに限定されません。追加のボーナスは、レドモンドのエンジニアによって行われた進歩が開発者に利用可能であり、より多くの表示モードで動作し、よりクリーンなデータを使用できることです.
Kinect は、Microsoft が会社として隠しているすべての可能性を明らかにします 部門が統合された方法で作業するときにそれが明らかになります。複数の Microsoft Research の研究者が Kinect 2.0 の開発に積極的に取り組んでおり、市場にすぐに影響を与えるプロジェクトに取り組んでいます。レドモンド製品への Microsoft Research の参加拡大を求めてきた私たちにとって、これは朗報です。
Kinect は、Microsoft Research がアイデアの実験室以上のものであることを具体的に示しています。Microsoft の未来のための基本的な資本です .
Via |マイクロソフトの公式ブログ | TechCrunch