新規事業のつくり方

新しいことを学ぶことが好きです。今は機械学習や自然言語処理に興味があります。

「完璧なモデルなどといったものは存在しない。完璧な絶望が存在しないようにね。」


機械学習とは、ある対象の"特徴"をモデルという数式に置き換えたものです。よって、精度100%のモデルは開発できません。世の中の事象には、無限の特徴量が存在しているので、対象のすべての特徴量データを収集することは不可能だからです。
またサイコロのような偶然が支配する事象の予測も不可能です。

しかし人間の行動には、一定のパターンが存在しています。データサイエンティストの仕事は、そのパターンをモデルとして開発し、精度をなるべく100%に近づける事です。

データサイエンティストがモデルを開発する場合、以下のような選択をしています。
・特徴量を選択する
・機械学習のアルゴリズムを選択する
・アルゴリズムのハイパーパラメーターを設定する

参考記事:これだけは知っておけ!PythonでAI開発の基礎まとめ

いろんな選択肢があるため、どうすれば最も精度の高いモデルを開発できるかは、実際に作って評価してみないと分かりません。

ではどうやってモデルを評価すればいいのでしょうか。この記事では、その評価方法を解説します。実は、モデルの評価は「ホールドアウト法」と「交差検定」と「混合行列」が分かれば大丈夫です。pythonとscikit-learnのコードと合わせて見ていきます。
続きを読む

ディープラーニングを、世界一簡単に実装する方法を見つけましたのでご報告します。

ディープラーニングとは

ニューラルネットワークというアルゴリズムがあり、『入力層』・『中間層』・『出力層』の3つに分かれるのですが、このうち『中間層』を多層化したものをディープラーニングと呼びます。機械学習のアルゴリズムの一つです。

ディープラーニングの得意分野

画像認識分野で非常に高い性能を発揮します。理由は、畳み込みニューラルネットワークとReLU関数です。畳み込みニューラルネットワークにより、画像の特徴を適切に捉えることが出来るようになりました。ReLU関数では、誤差逆伝播法で微分が1になることから、勾配が消えなくなるという問題を解決しました。またそもそも計算量が低いため、活性化関数として非常に利用されています。

音声認識分野でも、音声の「あ」とか「い」とかの波形があるのですが、その波形を画像と見立て分類することで、素晴らしい性能を発揮しています。
続きを読む

ここ最近週に1回くらい打ち合わせとかに呼ばれて、「人工知能を分かりやすく説明してください」と頼まれます。ビジネス界隈でも人工知能が語られることが増えてきて、今の業務を人工知能で効率化したいというニーズや、人工知能を使った新しい企画を考えたいという取り組みが加速しています。

そのため、いろいろ試行錯誤しながら説明しているのですが、なかなか伝わらないことも多いです。続きを読む

機械学習のデータ処理周りの実務で、よく使う関数をまとめました。

目次
はじめに
      pandasとは
      scikit-learnとは
      numpyは使わないの?
      機械学習の言語はpythonでいいの?
      機械学習(AI開発)の流れ
1.データの準備
      データフレームを定義する(DataFrame)
      csvファイルを読み込む(read_csv)
2.データの前処理
   <欠損値編>
      欠損値をカウントする(isunull)
      欠損値を削除する(dropna)
      欠損値を補完する(Imputer)
   <文字列編>
      文字列データを数値に変換する(map)
   <外れ値編>
      グラフを作成する(plot)
      列の平均値/中央値を出力する(mean/median)
      列の最大値/最小値を確認する(max/min)
3.データの基礎分析
      データから特定の列だけを選択する(iloc/ix)
      データフレームに列を追加する(’カラム名’)
4.特徴量設計
      データを標準化する(StandardScaler)
      相関係数を出力する(corr)
      特徴量データと出力データに分割する(iloc)
      学習データとテストデータに分割する(train_test_split)

続きを読む

この記事は、以下の方向けに執筆しています。

・とにかくAIブームに乗りたい方
・転職してAI案件に携わりたい方
・AIに必要な知識だけをざっくり身に付けたい方
続きを読む

就職を控える大学生や若手会社員にとって、これからの変化の波を読むことは重要なことです。自分が身に付けたスキルや経験が、将来不要になるのではと心配していることでしょう。

今起きている社会変化は、"人工知能"というテクノロジーが牽引しています。その変化はとても急激です。人間が把握できる情報量では追い付けなくなっています。

しかし人工知能分野の事業開発に携わる一人として、これからの生活がどう変わるか、大枠での予測は可能だと思い、5年後に起こりうることを予測しました。

未来予測の考え方
①メタップス佐藤さんの本「未来に先回りする思考法を」を大いに参考にする
②自分が人工知能の仕事で体験したことを参考にする
③世の中の統計データを参考にする
    続きを読む

上司から一言「人工知能について何か考えてみてくれないか」

翻訳すると、「外部環境として他社のAIの事例を調べ、内部環境として自社のビジネスプロセスを分析し、AIを導入できそうな領域を特定し、人工知能の開発方法を検討し、導入後にどのくらい収益に貢献するかのストーリーを作ってくれ」 ということです。

数あるムチャ振りの中で、最もムチャ振りな仕事と言えるでしょう。このセリフを言われたら、こう返してください。
「それなら〇〇さんが人工知能に詳しいみたいですよ。」
※〇〇には潰したい人の名前を入れましょう

逃げられなかった人へ
おめでとうございます。あなたは流行の最先端です。一緒にAIバブルに踊りましょう。
続きを読む

チャレンジすると失敗する。チャレンジしなければ失敗しない。
人間は失敗から学ぶ。
よって、人間の成長を最大化するためには、チャレンジ数を最大化することだ。

新規事業とはチャレンジの代名詞であり、成功確率は高くない。成功率を高めるためには、何度も経験するしかない。蓄積スキルは、経験数とコミットメントの掛け算だ。

一方、推進を担う事業開発部門はわりと花形な部署でもあるため、失敗すると、出世コースから外れたり、次の新規事業を任せてもらえなくなる。チャレンジ数を最大化したくとも、何度もチャレンジさせて貰えないのだ。

ここでは僕が実際に行った、新規事業失敗の社内的ダメージを最小化する方法を紹介したい。おそらく新規事業以外の失敗でも応用できるはずだ。

続きを読む

人工知能技術の歴史を変える1冊が出版されました。


現在人工知能技術(AI)は、Googleが牽引しています。その技術力は世界随一です。またWeb上の検索データを掌握しています。これからのGoogleの発展は、そのまま人工知能の発展といえるでしょう。

一方本書は、人工知能技術の本命であるディープラーニングについて、極めて分かりやすく説明してくれています。いずれ古典となる本です。

一般の人にディープラーニングという最先端技術を民主化したのです。現在本書の輪読会が多数開催されています。今後本書を学んだエンジニアが、世界を変えるためにAIの開発を行っていくでしょう。この本が日本語で出版されたことを、大変うれしく思います。 

多くの日本人に本書を読んで欲しいのですが、 140字以上の文字を見ると痙攣する人もいるかもしれません。ですので、本書のエッセンスを簡単に解説します。
続きを読む

Pythonで人工知能を使ったWebサービスを作ってみます。具体的には、その人がニートかどうかを予測するプログラムです。
今は洗練された機械学習のオープンソースやWebフレームワークが用意されていて、とても簡単に実装できます。初心者の方でも1ヶ月ほど勉強すれば十分出来るようになるのではないでしょうか。
なお今回のWebサイトは、cssなどのデザインが超適当です。。。

順番はこんな感じです。

1.Pythonをインストールする
2.FlaskとWTFormsをインストールする
3.データを用意する
4.予測モデルを実装する
5.予測結果をHTMLに渡すプログラムを実装する
6.結果を表示するHTMLを作成する   
続きを読む

↑このページのトップヘ