Google、人工神経ネットワークが見た『夢』を公開
Googleの研究者が、画像認識に使われる人工神経ネットワークが見た『夢』と称する画像を公開しました。捕まる系のお薬をキメた画家の絵にフィルタを 掛けたようにも見えますが、どの画像も膨大な写真で学習したニューラルネットワークに、ランダムなノイズだけを与えた結果の出力です。
人間は枯れ尾花に幽霊を見たり、壁の染みに顔を見つけたりしますが、Googleの画像認識用ネットワークが具体的な元画像なしでノイズのなかに見た幻覚を称して『夢』と名づけています。
(※ ギャラリー後半、抽象化の少ない低階層ネットワークが出力した『夢』は、繰り返しパターンに弱い人にはお勧めできません。閲覧注意。)
画像識別用の人工ニューラルネットワークが見た『夢』画像を発表したのは、 Google のエンジニア Alexander Mordvintsev, Christopher Olah, Mike Tyka 氏。
Google は写真の被写体や場面・状況を機械的に識別するために、人工ニューラルネットワークによる機械学習の仕組みを使っています。たとえば先日リニューアル公開された「Googleフォト」アプリでは、ユーザーが事前にキャプションやタグなどを加えなくても、「ケーキ」や「水」といった言葉で自分の写真をピンポイントに探せます。
このニューラルネットワークは動物や建物などの膨大なサンプル写真を元に、見た目の「〜っぽさ」を学習しているため、ちょうど人間が壁の染みに顔を見つけるように、少しでも似ているものには反応するようになっています。
こちらの画像は、敢えて無関係な雲や風景の写真を与えて、「知っているパターンに近い何か」が少しでも検出されたら、その部分をフィードバックループで繰 り返させて、つまり自分の(誤)認識をさらに認識させて、何かを無理に発見させた画像。本来の使い方は画像から認識結果(言葉)を得るものですが、この例 では逆に画像を出力させています。
なかなか直視しがたい結果がこちら。人間のグループでも、雲の写真を渡して「顔や動物に見える部分があったら半透明のブラシでなぞって隣の人に回して」を繰り返せば、いずれはっきりと何かの浮かんだ絵が得られるかもしれません。
しかし生物の概念も常識もなく画像パターンしか知らない人工神経回路網では、写実的でありながら現実にはあり得ない奇怪な合成生物が画面じゅうから湧き出る恐ろしい絵になっています。
奇怪な『犬魚』や『豚蝸牛』。
こちらがソースの風景写真。
「似ているところはますます似て見える」ようフィードバックさせたANNの出力。山や茂みは建物に、地形の陰影はドアや窓に、あらゆるところから動物のパーツが溢れる不気味な画像。
何もない部分も筆で塗ったような質感があるのは、ニューラルネットワークが多層構造で、まず低いレベルで「線」「点」のような特徴を探すため。上位では下 位の組み合わせから部品を見つけ......と繰り返して最終的に抽象的な「犬」や「家」を識別します。何も見いだせないところも線や点に解釈しようとし た結果です。
枯れ尾花式の「誤」認識例。建物と人、鳥と虫の区別はあまりついていないようです。
オリジナルの渓流。
グロ画像の域に入ってしまった「動物の特徴だけ知っている人工神経回路網」による無理やり発見結果。
ムンクの『叫び』も、動物のパーツを発見するとこのとおり。
Googleの研究者はこれをさらに進め、完全にランダムなノイズだけを与えて、人工神経ネットワークが幻視した画像を機械の見る『夢』と称しています。
こちらは数百万枚に上る建物や風景、さまざまな場所の写真を学習させたニューラルネットワークが見た『夢』。
人工知能といって想像されるような知能もない単純な画像処理ネットワークなので、人間の見るような意味の夢はもちろん見ません。しかし人間の夢は睡眠中に 外界や体から脳に届いたシグナルを元に記憶を再構成して見ているとも言われており、そうした意味ではノイズから立ち上る記憶を夢と称するのは適切かもしれ ません。
Googleの研究者がこの手法につけた名前は『Inceptionism』。研究の直接の目的は画像識別用のニューラルネットワークがどのように学習し ているか可視化して最適化すること。しかし研究者らは、こうして画像を得ることでアーティストにとっての新たな作品作りの道具としても、さらには人間の創 作過程についての知見を得ることにもつながるのではないか、としています。詳しい解説はソースリンク先の Google Research Blog へ。
(蛇足解説:人工ニューラルネットワーク(Artificial Neural Networks, 人工神経回路網) とは、脳などの神経細胞の働きをモデルとして考案された情報処理の仕組み。考案されたのは数十年前ですが、近年は新たな手法の発見や計算機リソースの拡大 から急速に応用が進み、特にディープラーニングと呼ばれる機械学習は画像識別や音声認識などの精度を大幅に向上させています。
具体的な原理はさておき特徴は、人間が「もし足が四本あったら机か動物」のようにプログラムとして教えなくても、ただ膨大なサンプルさえ与えれば勝手に記憶して学習すること。
たとえば人間は壁や窓や屋根といった概念を持ち、ガラスや木といった素材、重力や光についての経験的な知識も使って、初めて見るものでも「これは建物らしい」と認識します。
しかし人工ニューラルネットワークはそうした概念も常識もまったくないまま、膨大な画像サンプルからます低いレイヤーでエッジなどの特徴点を認識し、上位 レイヤーではその組み合わせからパーツを認識し、さらに上位ではパーツの組み合わせから抽象的な「家」「鳥」「自転車」などまで、純粋に画像パターンの 「らしさ」だけで認識できるようになります。)