火曜日, 7月 21, 2020

ディープフェイクは実用化の段階へ

 
 

AIが生成した“存在しない人物”が、一人ひとりに語りかける

ディープフェイクは実用化の段階へ

 

AIが生成した本物らしく見える画像や動画であるディープフェイクの実用化が始まった。実際には存在しない“モデル”をAIが生成したり、こうしたモデルが一人ひとりに最適化されたフレーズやさまざまな言語で語りかける動画を作成したりといった技術が、企業の現場で使われ始めている。

 

広告大手のWPPが、世界中に数万人いる社員に対し、ちょっと変わった企業研修ビデオを送付した。AIの基本的なコンセプトを説明する映像なのだが、プレゼンターはビデオを観る社員たち一人ひとりの名前を呼び、それぞれの言語で話している。

そしてこの映像そのものが、AIにどんなことが可能なのかを証明するパワフルなデモンストレーションになっている。というのも、話し手の顔も、話す言葉も、すべてソフトウェアによって合成されたものなのだ。

この合成によってつくられた研修ビデオを、WPPは“ディープフェイク”とは呼んでいない。だが、実際のところディープフェイクとは、AIによってつくられた本物らしく見える画像や動画に適用される定義の曖昧な用語である。この研修ビデオがディープフェイクと呼ばれても、仕方ないだろう。

AIによる画像制作は、これまで嫌がらせやポルノ、詐欺などに使われることでよく知られてきた。それがいまでは、大企業によって社内研修のような退屈ともいえる目的にも使われるようになっている。

一人ひとりに最適化した映像を自動生成

WPPの人工的な研修ビデオは、ロンドンのスタートアップであるSynthesiaが開発した技術によるものだが、まだ完璧とはいえない。WPPの最高技術責任者(CTO)のステファン・プレトリアスによると、プレゼンターの話し方の韻律はテンポが外れることもある。見せてもらった初期の映像は動きこそスムーズだったが、韻律は重大な欠点といえる。

それでも一人ひとりに最適化され、言語までローカライズされた状態で多くの相手に届ける能力は、これまでの企業ビデオよりはるかに人を引きつけることができるのだと、プレトリアスは語る。「このテクノロジーは、ものすごい速さで進歩しています」

 

 

 

こうしたAIが生成するディープフェイク風のビデオの製作は、低コストで時間もかからない。新型コロナウイルスの感染拡大による影響で従来の方法によるビデオ撮影が難しく、危険なものになっているいま、それが大きな利点になっている。

プレトリアスによると、WPPの全社規模の社内教育なら全世界の従業員のために20種類の脚本が必要になることもあり、それぞれ数万ドル(数百万円)の制作費がかかる。「Synthesiaの技術を使えば、多様なアバターが相手の言語を自在に操り、一人ひとりの名前と所属部署名で呼びかけることができます。しかもコストは合計10万ドル(約1,070万円)程度です」と、プレトリアスは言う。

この夏の研修では、言語は英語、スペイン語、中国語(北京語)に限られている。プレトリアスは、この約5分の長さで20モジュールからなる映像を、今年中に50,000人の社員に配信したいと考えている。

AIが生成した“インフルエンサー”まで登場

「ディープフェイク」という言葉の由来は2017年にさかのぼる。機械学習を使ってハリウッドの女優たちの顔をはめ込んだポルノビデオを配信したRedditのユーザーの名が、「Deepfakes」だったのだ。AIを用いて動画や写真を合成するために必要なコードはネットで公開され、いまでは関心をもつ人なら誰でも利用できるようになっている。

ディープフェイクは、例えば俳優のニコラス・ケイジを彼の出演していない映画にはめ込むなど、おふざけのためにも使われてきた。一方で、最近は活動家に対する嫌がらせの道具になると同時に、政治に関する偽情報の流布を懸念する議員やソーシャルメディア企業の幹部の心配の種にもなっている。

悪ふざけのため、嫌がらせのため、あるいは楽しみのためにつくられるディープフェイクは、たいてい明らかな不具合がある。だが、いまやスタートアップは、従来の企業ビデオやマーケティング用の写真の代用になる水準の映像や画像を合成できるAIを生み出しつつある。

こうした映像や画像は、つくられたメディアや合成された人物といったかたちで登場し、徐々に表舞台に現れつつある。著名なタレントエージェンシーのクリエイティヴ・アーティスツ・エージェンシー(CAA)は最近、リル・ミケーラと契約を結んだ。ミケーラはコンピューターで生成されたInstagramのインフルエンサーで、200万人を超えるフォロワーをもつ。

現実に存在しない多様なモデルを生成

ネット通販やマーケティングの分野で利用される豪華な雰囲気の画像の作成を専門にしているRosebud AIは昨年、現実に存在しないモデルの写真25,000点のコレクションを、この顔をどんな写真にでもはめ込めるツールとセットでリリースした。最近になって同社は、マネキン人形に着せた衣類の写真を、ヴァーチャルだが本物そっくりなモデルに“着せる”ことができるサービスも開始している。

Rosebud AIの創業者で最高経営責任者(CEO)のリシャ・リーによると、資金の少ない小さなブランドが多様性に富んだ“顔”を起用し、より充実したブランドポートフォリオを作成する際に役立つのだという。「これまでならヴィジュアル重視のストーリーを語りたい小さなブランドは、クリエイティヴな人材を多く揃えなければなりませんでした。そうでなければ、ストックフォトの写真を購入する必要があったのです」と、リーは言う。それがいまでは、アルゴリズムを使って作成できるのだ。

 

スタートアップのRosebud AIは、さまざまな容姿をもつモデルの画像を生成するAIソフトウェアを開発した。IMAGE BY ROSEBUD AI
スタートアップのRosebud AIは、さまざまな容姿をもつモデルの画像を生成するAIソフトウェアを開発した。IMAGE BY ROSEBUD AI


デンマークのホイビュルクにあるフォトアーカイヴのスタートアップであるJumpStoryは、Rosebud AIのテクノロジーを実験的に活用している企業のひとつだ。すでに同社は自社開発の機械学習技術によって、ヴィジュアルが素晴らしい写真だけを選び抜いた写真コレクションを作成し、事業展開している。

こうしたなかJumpStoryは、Rosebud AIの技術の一部を試してみたという。ほんの数回クリックするだけで、ストックフォトの顔から人種まで変えられる機能だ。この技術がなければ現実的ではない作業であり、仮に手動でやるなら「Adobe Photoshop」で丁寧にこなす必要があるだろう。

だが、JumpStoryのCEOのジョナサン・ロウは、この機能をサービスとして売り出すのはやめたのだと言う。画像が“本物”であることを重視することにしたのだ。それでも、Rosebud AIの技術は素晴らしいものだったという。

「ポートレート写真の場合は非常にうまくいきました」と、ロウは指摘する。だが彼によると、全身写真のように顔が強調されていない場合は、それほど結果はよくなかったのだという。

さまざまな言語で語りかけるベッカム

WPPの企業研修ビデオの制作にかかわったSynthesiaは、アクセンチュアやSAPといった顧客企業にも、AIによって合成されたプレゼンターが出てくる映像を制作している。さらに昨年には、マラリア対策を啓蒙する公共広告に出演したデイヴィッド・ベッカムが、ヒンディー語やアラビア語、ルワンダの数百万人が使うキニヤルワンダ語などで語りかけるビデオの制作を支援した。

 

 

 サッカーのスター選手デイヴィッド・ベッカムが、ヒンディー語やアラビア語などさまざまな言語で語りかける公共広告。Synthesiaが制作を支援した


Synthesiaの共同創業者でCEOのヴィクター・リパルベリは、自動生成された映像が広まることは避けられないのだと言う。というのも、消費者も企業も従来の手法で撮影された映像を見飽きていて、自動生成された映像のほうを求めているからだと、リパルベリは指摘する。

「いつもこう言っているんです。コスト計算の項目から“カメラ”を外してしまいましょう、とね」と、リパルベリは言う。彼によると、新型コロナウイルスの影響で現場での撮影ができなくなるケースが増えた上に、企業によっては新入社員のための新しい教育・研修システムを始めなくてはならなくなった。このため、Synthesiaの技術に対する関心が高まっているのだという。

カスタマイズも自在

Synthesiaのツールを使って映像を合成するには、たった数秒しかかからない。リストからアバターを選び、台本をテキスト入力し、「ビデオを生成」というボタンをクリックするだけだ。

アバターは実在の人物に基づいてつくられており、“モデル”となった人物たちは自分のデータでどれだけ多くのビデオがつくられたかによって利用料を受け取る。

Synthesiaのアルゴリズムは実在の人物の映像を取り込んだあと、合成された音声に顔の動きをマッチさせ、新しい映像のフレームを作成する。音声は20以上もの言語に対応している。顧客は実在の人物の数分間分のサンプル映像を提供することで、独自のアバターをつくったり、環境音や音声もカスタマイズできる。

ディープフェイクの商業化を進めているリパルベリのような人々は、単に収益化を急いでいるわけではなく、細心の注意を払って進めているのだと口を揃える。

実際にSynthesiaは、倫理規則をオンラインで公開し、顧客やその台本を精査しているという。また、映像の基になった人物からは容姿を合成することについての正式な同意を得ており、政治的な内容には関与しないとしている。Rosebud AIもSynthesiaほど内容は詳細ではないが、独自の倫理規定があり、合成された映像の悪意のある利用や悪影響とは戦っていくのだという。

利点のほうが本当に多いのか

Rosebud AIのリーは、自社のテクノロジーは弊害よりも利点のほうが多いのだと言う。たとえ高額の制作費をかけられなくても、より多くの人たちが競争に参加できるよう支援しているので、“美の基準”の多様化にも役立つというのだ。実際に多様な人種のモデルを生成できるだけでなく、男女の性別にとらわれないノンバイナリーのモデルもつくれるようになっている。

「わたしが一緒に仕事をしている顧客の多くはマイノリティーのためのブランドの経営者で、ユーザー層を体現する多様なイメージをつくりたいと望んでいるんです」と、リーは言う。彼女はカリフォルニア大学バークレー校で統計学と機械学習の博士号を取得してからべンチャーキャピタリストとして働いていたが、その前は10年以上もモデルの側で活動していたこともある。

アリゾナ州立大学でAIを専門とする教授のスッバラオ・カムバンパティは、このテクノロジーを興味深いとした上で、Rosebud AIの顧客がマイノリティのコミュニティーの実在の人物の代わりに、あえて多様な合成モデルを使うか疑問をもっているという。「この技術は現実を何ひとつ変えないままで、わたしたちに間違った達成感をもたらすかもしれません」

巨大ブランドの影響力が増す?

こうした合成されたイメージが企業社会において主流になれば、人々がこの技術を体験する際に、巨大ブランドとその広告代理店が大きな影響力をもつことになる。

WPPのプレトリアスによると、同社ではAIが合成した映像のさまざまな利用方法を研究している。なかには、レンブラントの絵画のスタイルでつくられたポートレートや、実際の人間と区別のつかないデジタルモデルの制作プロジェクトもあるという。「どれも技術的には可能ですが、市場への展開については慎重に進めていきます」と、プレトリアスは言う。

WPPでは法務担当責任者が中心になり、合成されたモデルや画像に関する倫理基準の作成を進めている。その基準には、つくられた映像や画像が“本物”ではないことを、いつ、どのように明かすかについてもルールが設けられる予定。