新規事業のつくり方

新しいことを学ぶことが好きです。今は機械学習や自然言語処理に興味があります。

カテゴリ: Pythonで機械学習

機械学習ではPandasが非常に利用されています。なぜPandasを使うのか、その理由とpandasの基礎的なデータ処理をまとめました。

Pandasとは

Pandasは、エクセルのようにデータを加工したり解析できるPython向けライブラリです。Pythonのスクリプトコードの先頭行でインポートすると、Pandasを利用することが出来ます。

Pandas の基本的なデータ構造はDataFrame(データフレーム)です。DataFrameとは、Excelと同じデータ構造で、二次元のテーブルのことです。つまり行と列をもった配列データです。DataFrameの列データに付与するラベルをカラム(columns)と呼びます。

過去記事:AIエンジニアが教えるゼロから機械学習の勉強法

続きを読む

機械学習のハードルは、どんどん下がっています。理由は、pythonとscikit-learnが簡単だからです。
機械学習の第一歩は、pythonの理解です。この記事では、完全初心者向けに、よく利用するpythonの関数をご紹介します。いわば機械学習のSTEP1です!

参考記事:AIエンジニアが教えるゼロから機械学習の勉強法

pyhonとは

pythonはシンプルなプログラミング言語です。最も習熟しやすい言語のひとつです。また便利なライブラリがたくさんあります。

pandas:pandasは、エクセルのようにデータを処理したり分析できる。
NumPy:高速で行列計算ができるライブラリ。リストと勘違いしやすいので注意。行ごとに列数が異なるような2 次元配列などは扱えません。
scikit-learn:機械学習の機能が豊富。
続きを読む

本記事では、機械学習モデルの評価方法をまとめて解説します。

機械学習モデルの評価は「ホールドアウト法」と「交差検定(クロスバリデーション)」と「混合行列」が分かれば大丈夫です。Pythonとscikit-learnのコードと合わせて見ていきます。

関連記事:AIエンジニアが教えるゼロから機械学習の勉強法
続きを読む

ディープラーニングを、世界一簡単に実装する方法を見つけましたのでご報告します。

参考書籍





続きを読む

機械学習のデータ処理周りの実務で、よく使う関数をまとめました。

目次
はじめに
      Pandasとは
      scikit-learnとは
      NumPyは使わないの?
      機械学習の言語はpythonでいいの?
      機械学習(AI開発)の流れ
1.データの準備
      データフレームを定義する(DataFrame)
      csvファイルを読み込む(read_csv)
2.データの前処理
   <欠損値編>
      欠損値をカウントする(isunull)
      欠損値を削除する(dropna)
      欠損値を補完する(Imputer)
   <文字列編>
      文字列データを数値に変換する(map)
   <外れ値編>
      グラフを作成する(plot)
      列の平均値/中央値を出力する(mean/median)
      列の最大値/最小値を確認する(max/min)
3.データの基礎分析
      データから特定の列だけを選択する(iloc/ix)
      データフレームに列を追加する(’カラム名’)
4.特徴量設計
      データを標準化する(StandardScaler)
      相関係数を出力する(corr)
      特徴量データと出力データに分割する(iloc)
      学習データとテストデータに分割する(train_test_split)

続きを読む

↑このページのトップヘ