新規事業のつくり方

新しいことを学ぶことが好きです。今は機械学習や自然言語処理に興味があります。

カテゴリ: Python

機械学習のデータ処理周りの実務で、よく使う関数をまとめました。

目次
はじめに
      pandasとは
      scikit-learnとは
      numpyは使わないの?
      機械学習の言語はpythonでいいの?
      機械学習(AI開発)の流れ
1.データの準備
      データフレームを定義する(DataFrame)
      csvファイルを読み込む(read_csv)
2.データの前処理
   <欠損値編>
      欠損値をカウントする(isunull)
      欠損値を削除する(dropna)
      欠損値を補完する(Imputer)
   <文字列編>
      文字列データを数値に変換する(map)
   <外れ値編>
      グラフを作成する(plot)
      列の平均値/中央値を出力する(mean/median)
      列の最大値/最小値を確認する(max/min)
3.データの基礎分析
      データから特定の列だけを選択する(iloc/ix)
      データフレームに列を追加する(’カラム名’)
4.特徴量設計
      データを標準化する(StandardScaler)
      相関係数を出力する(corr)
      特徴量データと出力データに分割する(iloc)
      学習データとテストデータに分割する(train_test_split)

続きを読む

上司から一言「人工知能について何か考えてみてくれないか」

翻訳すると、「外部環境として他社のAIの事例を調べ、内部環境として自社のビジネスプロセスを分析し、AIを導入できそうな領域を特定し、人工知能の開発方法を検討し、導入後にどのくらい収益に貢献するかのストーリーを作ってくれ」 ということです。

数あるムチャ振りの中で、最もムチャ振りな仕事と言えるでしょう。このセリフを言われたら、こう返してください。
「それなら〇〇さんが人工知能に詳しいみたいですよ。」
※〇〇には潰したい人の名前を入れましょう

逃げられなかった人へ
おめでとうございます。あなたは流行の最先端です。一緒にAIバブルに踊りましょう。
続きを読む

Pythonで人工知能を使ったWebサービスを作ってみます。具体的には、その人がニートかどうかを予測するプログラムです。
今は洗練された機械学習のオープンソースやWebフレームワークが用意されていて、とても簡単に実装できます。初心者の方でも1ヶ月ほど勉強すれば十分出来るようになるのではないでしょうか。
なお今回のWebサイトは、cssなどのデザインが超適当です。。。

順番はこんな感じです。

1.Pythonをインストールする
2.FlaskとWTFormsをインストールする
3.データを用意する
4.予測モデルを実装する
5.予測結果をHTMLに渡すプログラムを実装する
6.結果を表示するHTMLを作成する   
続きを読む

Pythonで人工知能を開発したい人向けに、これだけは知ってほしいという知識をまとめました。本ブログだけで、PythonでAIを実装出来るはず。

まあ簡単に言うと、データをきれいにして、サーキットラーンというライブラリにデータ食わせれば、なんか予測モデルが作れるというお話です。

サーキットラーン(scikit-learn)には、いろいろな機械学習(AI)のアルゴリズムが入っています。その中でSVM(サポートベクターマシン)は、一番よく利用されています。なぜなら、比較的少ないデータでも精度の高いモデルを作ることが出来るからですね。また画像のような特徴量(説明変数)がかなり多いケースでも、高精度の分類モデルを作れます。2値分類では、最強のアルゴリズムです。

ちなみに実装するのは面倒だけど、とりあえずAIの概念を知りたいという方は、こちらの記事から気に入った本を読んでみるといいことがありますよ。

※環境はPython2.7を想定。
続きを読む

人間は、人間を区分けすることが好きだ。
女王と奴隷、貴族と平民、武士と農民、資本家と労働者、正社員と非正規社員など、各人の生まれや能力によって、人を区別する枠組みを設けられてきた。組織運営の理由もあると思うが、人間は遺伝子レベルで人よりも上回りたいと願う生き物だということだろう。

そして2020年、人類は人工知能を管理する側と、人工知能に使われる側で区別されるかもしれない。
続きを読む

↑このページのトップヘ