新規事業のつくり方

新しいことを学ぶことが好きです。今は機械学習や自然言語処理に興味があります。

カテゴリ: 人工知能

「完璧なモデルなどといったものは存在しない。完璧な絶望が存在しないようにね。」


機械学習とは、ある対象の"特徴"をモデルという数式に置き換えたものです。よって、精度100%のモデルは開発できません。世の中の事象には、無限の特徴量が存在しているので、対象のすべての特徴量データを収集することは不可能だからです。
またサイコロのような偶然が支配する事象の予測も不可能です。

しかし人間の行動には、一定のパターンが存在しています。データサイエンティストの仕事は、そのパターンをモデルとして開発し、精度をなるべく100%に近づける事です。

データサイエンティストがモデルを開発する場合、以下のような選択をしています。
・特徴量を選択する
・機械学習のアルゴリズムを選択する
・アルゴリズムのハイパーパラメーターを設定する

参考記事:これだけは知っておけ!PythonでAI開発の基礎まとめ

いろんな選択肢があるため、どうすれば最も精度の高いモデルを開発できるかは、実際に作って評価してみないと分かりません。

ではどうやってモデルを評価すればいいのでしょうか。この記事では、その評価方法を解説します。実は、モデルの評価は「ホールドアウト法」と「交差検定」と「混合行列」が分かれば大丈夫です。pythonとscikit-learnのコードと合わせて見ていきます。
続きを読む

ディープラーニングを、世界一簡単に実装する方法を見つけましたのでご報告します。

ディープラーニングとは

ニューラルネットワークというアルゴリズムがあり、『入力層』・『中間層』・『出力層』の3つに分かれるのですが、このうち『中間層』を多層化したものをディープラーニングと呼びます。機械学習のアルゴリズムの一つです。

ディープラーニングの得意分野

画像認識分野で非常に高い性能を発揮します。理由は、畳み込みニューラルネットワークとReLU関数です。畳み込みニューラルネットワークにより、画像の特徴を適切に捉えることが出来るようになりました。ReLU関数では、誤差逆伝播法で微分が1になることから、勾配が消えなくなるという問題を解決しました。またそもそも計算量が低いため、活性化関数として非常に利用されています。

音声認識分野でも、音声の「あ」とか「い」とかの波形があるのですが、その波形を画像と見立て分類することで、素晴らしい性能を発揮しています。
続きを読む

ここ最近週に1回くらい打ち合わせとかに呼ばれて、「人工知能を分かりやすく説明してください」と頼まれます。ビジネス界隈でも人工知能が語られることが増えてきて、今の業務を人工知能で効率化したいというニーズや、人工知能を使った新しい企画を考えたいという取り組みが加速しています。

そのため、いろいろ試行錯誤しながら説明しているのですが、なかなか伝わらないことも多いです。続きを読む

機械学習のデータ処理周りの実務で、よく使う関数をまとめました。

目次
はじめに
      pandasとは
      scikit-learnとは
      numpyは使わないの?
      機械学習の言語はpythonでいいの?
      機械学習(AI開発)の流れ
1.データの準備
      データフレームを定義する(DataFrame)
      csvファイルを読み込む(read_csv)
2.データの前処理
   <欠損値編>
      欠損値をカウントする(isunull)
      欠損値を削除する(dropna)
      欠損値を補完する(Imputer)
   <文字列編>
      文字列データを数値に変換する(map)
   <外れ値編>
      グラフを作成する(plot)
      列の平均値/中央値を出力する(mean/median)
      列の最大値/最小値を確認する(max/min)
3.データの基礎分析
      データから特定の列だけを選択する(iloc/ix)
      データフレームに列を追加する(’カラム名’)
4.特徴量設計
      データを標準化する(StandardScaler)
      相関係数を出力する(corr)
      特徴量データと出力データに分割する(iloc)
      学習データとテストデータに分割する(train_test_split)

続きを読む

この記事は、以下の方向けに執筆しています。

・とにかくAIブームに乗りたい方
・転職してAI案件に携わりたい方
・AIに必要な知識だけをざっくり身に付けたい方
続きを読む

↑このページのトップヘ