前回に引き続き、松尾先生の書籍、"人工知能は人間を超えるか"を紹介します。

特徴量設計とディープラーニング

機械学習によって「分け方」や「線の引き方」をコンピュータが自ら見つけることで、未知のものに対して、判断・識別・予測をすることができる。しかし、機械学習にも弱点がある。それが特徴量の設計である。
特徴量とは、機械学習の入力に使う変数のことで、その値が対象の特徴を定量的に表す。 この特徴量に何を選ぶかで、予測精度が大きく変化する。

特徴量の設計が、機械学習の最大の弱点のようです。これまでは、特徴量は人が選ばないといけないのだけども、それがかなり大変で実用化がなかなか進まないとのこと。

例えば、年収を予測する機械学習プログラムを考えた場合、年齢、住居、身長、好きな色など、多くの特徴量の候補が考えられます。この中でどの特徴量を選ぶかは、人間が行うことが必要なようです。
この特徴量候補の中から、"年齢"と"住居"を特徴量にとることもできますし、"身長"と"好きな色"を特徴量にしても良いわけです。前者の方がより優れた予測精度が出る気がしますが、本当に出るかどうかは分からない。

この特徴量設計に風穴を開けたのが、ディープラーニングです。
ディープラーニングは、ニューラルネットワークを多階層化してデータを処理することで、コンピュータが自動的にデータの特徴量を抽出できるようになるとのこと。具体的には、自己符号化器という、自分自身のデータを教師とした、教師なし学習で、データに内在する特徴量を抽出しているんだそうです。

データが自分自身を教師として、特徴量を抽出するというのは面白いですね。これは多分、女の子が鏡の前で一番かわいいポーズを把握することと同じことだと思われます。そう考えるとディープラーニングが、主に画像認識分野で発展していることも理解できます。
スライド1
















ここで思ったことは、確かに画像データの場合では、このディープラーニングによる特徴量自動抽出が効果的でしょうが、数値データのみの場合ならば、Pythonのscikit-learnで次元削減や特徴量の自動選択をすればいいのではないかと。

現在ディープラーニングは画像認識分野では実用化が進んでいますが、顧客情報など構造データを扱う業務の現場では、以前からある機械学習の仕組みでビジネスを回してる状況だと思います。
なお、人工知能のビジネス活用については、こちらで紹介しています。