Google Glass型端末で顔認識を使わず個人を特定する「外見認識」技術 InSight 、米大学研究者が発表
Google メガネこと Glass の有望な使い道のひとつに、内蔵のカメラで主観ビデオや写真を撮って記録・共有することに加えて、画像認識や画像検索でいま見ているものについて追加の情 報を表示することがあります。
すでにスマートフォンのカメラで実現している「お店の看板から営業時間やレビューを調べる」や「手にとった製品の最安値を探す」等のほか、Google Glass 型端末では人ごみから知り合いを見つけて頭上に名前を表示したり、あるいは他人でも本人が周囲に伝えたい情報 (例:タクシー相乗り希望、券ないか券、ひと狩り行こうぜ) をポップアップ表示できるかもしれません。
米デューク大学の研究者チームが発表した技術 InSight は、Google Glass のようなウェアラブル端末のカメラ映像から特定の個人を認識する方法。個人の認識にはこれまで顔認識が広く使われてきましたが、InSight では服装など外見全体から「ビジュアル指紋」を抽出して照合することで、顔を正面から撮影しなくても、背中や部分的な映像からも人を特定できることが特徴 です。
論文を発表したのは、Duke University の He Wang, Xuan Bao, Romit Roy Choudhury, および University of South Carolina の Srihari Nelakuditi 氏。 InSight のアルゴリズムから、Google Glass ではなく市販のサングラス型カメラ PivotHead とAndroidスマートフォンで実装して試してみましたまでの詳細はリンク先で読めます。要点を乱暴にまとめると:
・顔は正面から撮れるとは限らなかったりそもそも写らないかもしれないので、服装などからビジュアル指紋を生成して照合に使う。
・ビジュアル指紋は、携帯のインカメラカメラなどで撮影した上半身や全身の写真から、色の Spatiogram や、パターン(模様)のウェーブレットを生成する。( Spatiogram は色の分布を示すヒストグラムを拡張して、2次元上の色の分布も含めたグラフ。服の色だけでなく上下の組み合わせ、アクセサリなども含まれる。)。
顔認識以上に面倒そうな最初の「登録」(撮影と指紋生成)については、特に居ずまいを正して記念撮影する必要はなく、たとえばスマートフォンを普段どおり に使うなかでユーザーが画面をタッチしたとき (インカメラとユーザーの上半身が向き合っている可能性が高い)、PCを使用しているときのウェブカメラなどで複数の写真を撮影し、自動的に有効なものを 選んで「自己(自撮り)ビジュアル指紋」を生成できるとされています。(システムとして、そもそも見つけてほしい本人が望んで有効にすることが建前で す。)
知り合いやほかのウェアラブル端末利用者に特定個人の「指紋」を伝えるためには、Bluetoothで周囲にのみ発信する方法、クラウドにリポジトリを置 いて照合する方法が挙げられています。実際に採用されたのはクラウドを使うほう(の、オフラインシミュレーション)。クラウドを使う利点は、識別されたい 本人だけでなく、ほかのユーザーが撮影した映像を使ってビジュアル指紋の精度を上げる「再帰的精度向上」が使えること。
たとえば見つけて欲しい人Aの自己ビジュアル指紋が近距離の上半身正面だけを元にしていた場合でも、ほかのユーザーBのウェアラブル端末で動く InSight が A を認識したら、あとはBのカメラが捉えたAの全身や後ろ姿なども含めてビジュアル指紋の精度を向上させクラウド上のリポジトリを更新することで、それ以降 はさらに別のユーザーC が Aを部分的にだけ捉えてもちゃんとAだと認識できる、といった仕組みです。
また顔ほどユニークではない服装などをベースにした仕組み上、ビジュアル指紋の精度がある程度高くてもどうしても認識できない場合や、複数の候補があらわ れる曖昧さは排除できません。これについては、さらに認識精度を上げるためスマートフォンやウェアラブル端末のモーションセンサと複数フレームからの動き 認識を使うアイデアにも触れています。
たとえばウェアラブル端末で撮影した複数のフレームから、ある人物が静止しているか歩いているか、動いているならどの方向かといったデータを取り出し、ク ラウドを経由して識別されるほうの端末に問い合わせ、特定のタイムスタンプ (たとえば15秒前) にどのような動きをしていたかモーションセンサーのログとマッチングするなど。
論文では普段どおりの自然な服装の被験者15人を使ったコンセプト実証実験の結果、正面からでは自撮りのビジュアル指紋だけでも高い認識精度が得られたと しています(1人なら100%、15人でも93%)。背面からの場合、初期状態の自己ビジュアル指紋では正答率40%ほど(「分からない」が約55%、誤 認は低く数%)。ここからシミュレーションで指紋の精度を上げていったところ、背中からでも約93%の正答率に達したとされています。(実際にどういった 環境だったのかは元論文へ)。
さて、顔認識ではない外見認識が有望であるとして、ありそうな反応は:
1. 顔を隠しても個人を認識されるなんてプライバシー的に恐ろしい。
2. 服装は毎日変わるから非実用的。
が挙げられます。どちらも一面の真実ではありますが、論文の執筆者が議論するのは、アプリケーション例としての InSight はあくまで識別されたいユーザーが任意で使う仕組みであること。自己ビジュアル指紋は自分で登録するため、使っていなければ InSight のユーザーからは該当なしにしか見えません。
またマッチしたときに表示される情報も自前で用意するため、名前やニックネームなどなんらかのアイデンティティを含める必要もなく、「求む xx」のようにプラカードで掲げたい情報にすることもできます。(論文ではURLを書いた名札や、メッセージTシャツに擬えている)。
「服装は毎日変わる」については、逆にある日、ある場所でしか有効でないことで、プライバシーを守りつつ「今日のイベントでは XX が目当てだから、InSight を有効にしてこっちのアカウント名を載せて、XX求むと書いておこう」が可能になるともいえます。
(ただし、あくまで特定アプリケーションの設計やユースケースを前提に技術的な長短について述べただけなので、顔認識やBluetooth トラッキング などこれまでの技術と同様、プライバシー上問題のある使い方をされる可能性も考えられます。)
(余談。元論文にある利用例のひとつは、「求職フェアで学生が自分のスキルセットや希望の職を表示する」。文化の違いというか、一斉に無難なリクルート スーツに着替える日本ではかなり技術的にチャレンジングな環境になりそうです。実用化されたとして、ユーザーが頭上に表示したい内容と位置情報などから マッチングした商売はもちろん、あまりにもビジュアルフィンガプリントが更新されないユーザーには「季節の変わり目くらいは服を買おうセール」の広告が表 示されるかもしれません。)
下は InSight とほぼ関係ないGoogle Glass動画。強いていえば「Glass + 服」つながりです。(デザイナー Diane von Furstenberg と、モデルやスタイリストに Glass を着けてもらい撮影したファッションショーの主観短編動画。)