機械学習のデータ処理周りの実務で、よく使う関数をまとめました。
目次
はじめに
Pandasとは
scikit-learnとは
NumPyは使わないの?
機械学習の言語はpythonでいいの?
機械学習(AI開発)の流れ
1.データの準備
データフレームを定義する(DataFrame)
csvファイルを読み込む(read_csv)
2.データの前処理
<欠損値編>
欠損値をカウントする(isunull)
欠損値を削除する(dropna)
欠損値を補完する(Imputer)
<文字列編>
文字列データを数値に変換する(map)
<外れ値編>
グラフを作成する(plot)
列の平均値/中央値を出力する(mean/median)
列の最大値/最小値を確認する(max/min)
3.データの基礎分析
データから特定の列だけを選択する(iloc/ix)
データフレームに列を追加する(’カラム名’)
4.特徴量設計
データを標準化する(StandardScaler)
相関係数を出力する(corr)
特徴量データと出力データに分割する(iloc)
学習データとテストデータに分割する(train_test_split)
続きを読む
目次
はじめに
Pandasとは
scikit-learnとは
NumPyは使わないの?
機械学習の言語はpythonでいいの?
機械学習(AI開発)の流れ
1.データの準備
データフレームを定義する(DataFrame)
csvファイルを読み込む(read_csv)
2.データの前処理
<欠損値編>
欠損値をカウントする(isunull)
欠損値を削除する(dropna)
欠損値を補完する(Imputer)
<文字列編>
文字列データを数値に変換する(map)
<外れ値編>
グラフを作成する(plot)
列の平均値/中央値を出力する(mean/median)
列の最大値/最小値を確認する(max/min)
3.データの基礎分析
データから特定の列だけを選択する(iloc/ix)
データフレームに列を追加する(’カラム名’)
4.特徴量設計
データを標準化する(StandardScaler)
相関係数を出力する(corr)
特徴量データと出力データに分割する(iloc)
学習データとテストデータに分割する(train_test_split)
続きを読む