新規事業のつくり方

新しいことを学ぶことが好きです。今は機械学習や自然言語処理に興味があります。

機械学習のデータ処理周りの実務で、よく使う関数をまとめました。

目次
はじめに
      pandasとは
      scikit-learnとは
      numpyは使わないの?
      機械学習の言語はpythonでいいの?
      機械学習(AI開発)の流れ
1.データの準備
      データフレームを定義する(DataFrame)
      csvファイルを読み込む(read_csv)
2.データの前処理
   <欠損値編>
      欠損値をカウントする(isunull)
      欠損値を削除する(dropna)
      欠損値を補完する(Imputer)
   <文字列編>
      文字列データを数値に変換する(map)
   <外れ値編>
      グラフを作成する(plot)
      列の平均値/中央値を出力する(mean/median)
      列の最大値/最小値を確認する(max/min)
3.データの基礎分析
      データから特定の列だけを選択する(iloc/ix)
      データフレームに列を追加する(’カラム名’)
4.特徴量設計
      データを標準化する(StandardScaler)
      相関係数を出力する(corr)
      特徴量データと出力データに分割する(iloc)
      学習データとテストデータに分割する(train_test_split)

続きを読む

この記事は、以下の方向けに執筆しています。

・とにかくAIブームに乗りたい方
・転職してAI案件に携わりたい方
・AIに必要な知識だけをざっくり身に付けたい方
続きを読む

就職を控える大学生や若手会社員にとって、これからの変化の波を読むことは重要なことです。自分が身に付けたスキルや経験が、将来不要になるのではと心配していることでしょう。

今起きている社会変化は、"人工知能"というテクノロジーが牽引しています。その変化はとても急激です。人間が把握できる情報量では追い付けなくなっています。

しかし人工知能分野の事業開発に携わる一人として、これからの生活がどう変わるか、大枠での予測は可能だと思い、5年後に起こりうることを予測しました。

未来予測の考え方
①メタップス佐藤さんの本「未来に先回りする思考法を」を大いに参考にする
②自分が人工知能の仕事で体験したことを参考にする
③世の中の統計データを参考にする
    続きを読む

上司から一言「人工知能について何か考えてみてくれないか」

翻訳すると、「外部環境として他社のAIの事例を調べ、内部環境として自社のビジネスプロセスを分析し、AIを導入できそうな領域を特定し、人工知能の開発方法を検討し、導入後にどのくらい収益に貢献するかのストーリーを作ってくれ」 ということです。

数あるムチャ振りの中で、最もムチャ振りな仕事と言えるでしょう。このセリフを言われたら、こう返してください。
「それなら〇〇さんが人工知能に詳しいみたいですよ。」
※〇〇には潰したい人の名前を入れましょう

逃げられなかった人へ
おめでとうございます。あなたは流行の最先端です。一緒にAIバブルに踊りましょう。
続きを読む

チャレンジすると失敗する。チャレンジしなければ失敗しない。
人間は失敗から学ぶ。
よって、人間の成長を最大化するためには、チャレンジ数を最大化することだ。

新規事業とはチャレンジの代名詞であり、成功確率は高くない。成功率を高めるためには、何度も経験するしかない。蓄積スキルは、経験数とコミットメントの掛け算だ。

一方、推進を担う事業開発部門はわりと花形な部署でもあるため、失敗すると、出世コースから外れたり、次の新規事業を任せてもらえなくなる。チャレンジ数を最大化したくとも、何度もチャレンジさせて貰えないのだ。

ここでは僕が実際に行った、新規事業失敗の社内的ダメージを最小化する方法を紹介したい。おそらく新規事業以外の失敗でも応用できるはずだ。

続きを読む

人工知能技術の歴史を変える1冊が出版されました。


現在人工知能技術(AI)は、Googleが牽引しています。その技術力は世界随一です。またWeb上の検索データを掌握しています。これからのGoogleの発展は、そのまま人工知能の発展といえるでしょう。

一方本書は、人工知能技術の本命であるディープラーニングについて、極めて分かりやすく説明してくれています。いずれ古典となる本です。

一般の人にディープラーニングという最先端技術を民主化したのです。現在本書の輪読会が多数開催されています。今後本書を学んだエンジニアが、世界を変えるためにAIの開発を行っていくでしょう。この本が日本語で出版されたことを、大変うれしく思います。 

多くの日本人に本書を読んで欲しいのですが、 140字以上の文字を見ると痙攣する人もいるかもしれません。ですので、本書のエッセンスを簡単に解説します。
続きを読む

Pythonで人工知能を使ったWebサービスを作ってみます。具体的には、その人がニートかどうかを予測するプログラムです。
今は洗練された機械学習のオープンソースやWebフレームワークが用意されていて、とても簡単に実装できます。初心者の方でも1ヶ月ほど勉強すれば十分出来るようになるのではないでしょうか。
なお今回のWebサイトは、cssなどのデザインが超適当です。。。

順番はこんな感じです。

1.Pythonをインストールする
2.FlaskとWTFormsをインストールする
3.データを用意する
4.予測モデルを実装する
5.予測結果をHTMLに渡すプログラムを実装する
6.結果を表示するHTMLを作成する   
続きを読む

理系研究者は、この大自然を対象に、仮説を立て、実験を行い、データを集め、法則を発見している。
一方データサイエンティストは、企業を取り巻く市場環境や生産設備などに対して、データを集め、分析し、パターンという法則を発見する。 その法則は、自然科学分野のような普遍性は持たない。その企業でしか役に立たない局所的な法則だ。しかし、その企業が業績を大きく向上させるくらいの効果は十分に持つ。

データサイエンティストが科学する対象は、主にマーケティングや経営学の領域だ。文系学問の領域に、理系研究者が行うデータによる仮説検証の手法を持ち込んでいる。
続きを読む

「日本で最も人材を育成する会社のテキスト」という本を読みました。

本書によると、
人間の学びの70%が経験からだそうです。つまり、いかに効果的に経験から学べるかどうかが、成長の鍵になるということでしょう。

最も成長できる学習方法とは何か

本書が提示する、経験からの効果的な学習を図解化してみました。

続きを読む

Pythonで人工知能を開発したい人向けに、これだけは知ってほしいという知識をまとめました。本ブログだけで、PythonでAIを実装出来るはず。

まあ簡単に言うと、データをきれいにして、サーキットラーンというライブラリにデータ食わせれば、なんか予測モデルが作れるというお話です。

サーキットラーン(scikit-learn)には、いろいろな機械学習(AI)のアルゴリズムが入っています。その中でSVM(サポートベクターマシン)は、一番よく利用されています。なぜなら、比較的少ないデータでも精度の高いモデルを作ることが出来るからですね。また画像のような特徴量(説明変数)がかなり多いケースでも、高精度の分類モデルを作れます。2値分類では、最強のアルゴリズムです。

ちなみに実装するのは面倒だけど、とりあえずAIの概念を知りたいという方は、こちらの記事から気に入った本を読んでみるといいことがありますよ。

※環境はPython2.7を想定。
続きを読む

↑このページのトップヘ