前回に引き続き、松尾先生の書籍、"人工知能は人間を超えるか"を紹介します。

特徴量設計とディープラーニング

機械学習によって「分け方」や「線の引き方」をコンピュータが自ら見つけることで、未知のものに対して、判断・識別・予測をすることができる。しかし、機械学習にも弱点がある。それが特徴量の設計である。
特徴量とは、機械学習の入力に使う変数のことで、その値が対象の特徴を定量的に表す。 この特徴量に何を選ぶかで、予測精度が大きく変化する。

特徴量の設計が、機械学習の最大の弱点のようです。これまでは、特徴量は人が選ばないといけないのだけども、それがかなり大変で実用化がなかなか進まないとのこと。

例えば、年収を予測する機械学習プログラムを考えた場合、年齢、住居、身長、好きな色など、多くの特徴量の候補が考えられます。この中でどの特徴量を選ぶかは、人間が行うことが必要なようです。
この特徴量候補の中から、"年齢"と"住居"を特徴量にとることもできますし、"身長"と"好きな色"を特徴量にしても良いわけです。前者の方がより優れた予測精度が出る気がしますが、本当に出るかどうかは分からない。

この特徴量設計に風穴を開けたのが、ディープラーニングです。
ディープラーニングは、ニューラルネットワークを多階層化してデータを処理することで、コンピュータが自動的にデータの特徴量を抽出できるようになるとのこと。具体的には、自己符号化器という、自分自身のデータを教師とした、教師なし学習で、データに内在する特徴量を抽出しているんだそうです。

データが自分自身を教師として、特徴量を抽出するというのは面白いですね。これは多分、女の子が鏡の前で一番かわいいポーズを把握することと同じことだと思われます。そう考えるとディープラーニングが、主に画像認識分野で発展していることも理解できます。
スライド1














確かに画像データの場合では、このディープラーニングによる特徴量自動抽出が効果的なのでしょう。現在ディープラーニングは画像認識分野で急速に実用化が進んでいるようです。

一方、構造データを扱うAI開発では、以前からある機械学習でビジネスを回すことになりそうです。 

参考記事:ランダムフォレストで特徴量の重要度を評価する