新規事業のつくり方

新しいことを学ぶことが好きです。今は機械学習や自然言語処理に興味があります。

カテゴリ: Pythonで機械学習

機械学習界隈で、最強アルゴリズムの一角を占めていたランダムフォレスト。ディープラーニングが登場した後急速に存在感をなくすものの、その利便性と強力さから多くのデータサイエンティストが現役利用中。

scikit-learnでのランダムフォレスト、分類モデルと重要度評価の実装方法まとめました。

決定木の問題点

決定木は、上から順に条件分岐を作って分類モデルを作る手法です。ルールが可視化できる、正規化や標準化などのデータ加工が不要など、素晴らしいアルゴリズムです。
しかし、決定木は過学習を起こしやすいという問題点がありました。

前の記事:Pythonの決定木分析できのこ派とたけのこ派を予測する続きを読む

「決定木」は、おそらく世界で最も利用されている機械学習アルゴリズムです。教師ありの学習データから、階層的に条件分岐のツリーを作り、判別モデルを作ることができます。

今回は決定木の活用例として、きのこ派とたけのこ派を予測する人工知能を作りました。プログラム言語は、Pythonとscikit-learnです。

過去記事:AIエンジニアが教えるゼロから機械学習の勉強法続きを読む

データサイエンスや機械学習では、グラフ作成ツールとしてMatplotlibが大変利用されています。なぜMatplotlibを使うのか、なぜグラフを作成するのか、その理由とグラフの作成方法をまとめました。

過去記事
※scikit-learn編:Python機械学習(AI)のデータ処理(pandas/scikit-learn)

Matplotlibとは

Matplotlibは、グラフ描画のためのPython用ライブラリです。データをいろんなグラフで可視化することが出来ます。折れ線グラフや散布図などたくさんのグラフが用意されています。

グラフの持つ力はすごいです。グラフは事実を分かりやすく人に伝えることが出来ます。例えば、横軸にビタミンCの摂取量、縦軸に肌の健康度を取り、棒グラフを作成したところ、右肩上がりなグラフができたとします。そのグラフを広告で大々的に打てば、明日には女性陣がビタミンCを買い込んですぐに売り切れてしまうでしょう。事実を目で見える形で示すこと、これがグラフの持つ力です。

matplotlibは、そんなグラフを簡単に無料で作ることが出来ます。
続きを読む

機械学習ではPandasが非常に利用されています。なぜPandasを使うのか、その理由とpandasの基礎的なデータ処理をまとめました。

Pandasとは

Pandasは、エクセルのようにデータを加工したり解析できるPython向けライブラリです。Pythonのスクリプトコードの先頭行でインポートすると、Pandasを利用することが出来ます。

Pandas の基本的なデータ構造はDataFrame(データフレーム)です。DataFrameとは、Excelと同じデータ構造で、二次元のテーブルのことです。つまり行と列をもった配列データです。DataFrameの列データに付与するラベルをカラム(columns)と呼びます。

過去記事:AIエンジニアが教えるゼロから機械学習の勉強法

続きを読む

機械学習のハードルは、どんどん下がっています。理由は、pythonとscikit-learnが簡単だからです。
機械学習の第一歩は、pythonの理解です。この記事では、完全初心者向けに、よく利用するpythonの関数をご紹介します。いわば機械学習のSTEP1です!

参考記事:AIエンジニアが教えるゼロから機械学習の勉強法

pyhonとは

pythonはシンプルなプログラミング言語です。最も習熟しやすい言語のひとつです。また便利なライブラリがたくさんあります。

pandas:pandasは、エクセルのようにデータを処理したり分析できる。
NumPy:高速で行列計算ができるライブラリ。リストと勘違いしやすいので注意。行ごとに列数が異なるような2 次元配列などは扱えません。
scikit-learn:機械学習の機能が豊富。
続きを読む

↑このページのトップヘ