August 29, 2017 Pythonの決定木分析できのこ派とたけのこ派を予測する 「決定木」は、おそらく世界で最も利用されている機械学習アルゴリズムです。教師ありの学習データから、階層的に条件分岐のツリーを作り、判別モデルを作ることができます。今回は決定木の活用例として、きのこ派とたけのこ派を予測する人工知能を作りました。プログラム言語は、Pythonとscikit-learnです。過去記事:AIエンジニアが教えるゼロから機械学習の勉強法続きを読む
August 26, 2017 【Python】Matplotlibでグラフ作成すればデータサイエンティストの仲間入り データサイエンスや機械学習では、グラフ作成ツールとしてMatplotlibが大変利用されています。なぜMatplotlibを使うのか、なぜグラフを作成するのか、その理由とグラフの作成方法をまとめました。過去記事※scikit-learn編:Python機械学習(AI)のデータ処理(pandas/scikit-learn)MatplotlibとはMatplotlibは、グラフ描画のためのPython用ライブラリです。データをいろんなグラフで可視化することが出来ます。折れ線グラフや散布図などたくさんのグラフが用意されています。グラフの持つ力はすごいです。グラフは事実を分かりやすく人に伝えることが出来ます。例えば、横軸にビタミンCの摂取量、縦軸に肌の健康度を取り、棒グラフを作成したところ、右肩上がりなグラフができたとします。そのグラフを広告で大々的に打てば、明日には女性陣がビタミンCを買い込んですぐに売り切れてしまうでしょう。事実を目で見える形で示すこと、これがグラフの持つ力です。matplotlibは、そんなグラフを簡単に無料で作ることが出来ます。続きを読む
August 21, 2017 Python機械学習でなぜPandasが利用されているのか 機械学習ではPandasが非常に利用されています。なぜPandasを使うのか、その理由とpandasの基礎的なデータ処理をまとめました。PandasとはPandasは、エクセルのようにデータを加工したり解析できるPython向けライブラリです。Pythonのスクリプトコードの先頭行でインポートすると、Pandasを利用することが出来ます。Pandas の基本的なデータ構造はDataFrame(データフレーム)です。DataFrameとは、Excelと同じデータ構造で、二次元のテーブルのことです。つまり行と列をもった配列データです。DataFrameの列データに付与するラベルをカラム(columns)と呼びます。過去記事:AIエンジニアが教えるゼロから機械学習の勉強法 続きを読む
August 02, 2017 機械学習(AI)勉強の最初のステップはPythonに触れる事です 機械学習のハードルは、どんどん下がっています。理由は、pythonとscikit-learnが簡単だからです。機械学習の第一歩は、pythonの理解です。この記事では、完全初心者向けに、よく利用するpythonの関数をご紹介します。いわば機械学習のSTEP1です!参考記事:AIエンジニアが教えるゼロから機械学習の勉強法pyhonとはpythonはシンプルなプログラミング言語です。最も習熟しやすい言語のひとつです。また便利なライブラリがたくさんあります。pandas:pandasは、エクセルのようにデータを処理したり分析できる。NumPy:高速で行列計算ができるライブラリ。リストと勘違いしやすいので注意。行ごとに列数が異なるような2 次元配列などは扱えません。scikit-learn:機械学習の機能が豊富。続きを読む
July 08, 2017 AIエンジニアが教えるゼロから機械学習の勉強法 「初心者だけど機械学習を学びたい」「ゼロからAIを作れるようになりたい」という方向けに、最短で機械学習を習得する方法を書いてみました。目次 やっぱり機械学習ツールはPythonとscikit-learn 機械学習の実装に必要な知識 機械学習のプログラミングは簡単 機械学習のおすすめ勉強法 STEP1 機械学習の基礎知識 STEP2 開発手法の知識 STEP3 プログラミングの知識 STEP4 機械学習アルゴリズムの知識 機械学習に数学の知識は必要か 自分に合った勉強方法を選ぼう 1ヶ月間集中して機械学習を学ぶと周囲に宣言しよう ※忙しい方は、「STEP1 機械学習の基礎知識」からお読みください。やっぱり機械学習ツールはPythonとscikit-learnデータサイエンス界のロイター通信的存在であるKDnuggetsから、2019年に最も利用されたデータサイエンス・機械学習ソフトウェアのランキングが発表されました。元記事:Python leads the 11 top Data Science, Machine Learning platforms: Trends and AnalysisトップはPythonです。不動の一位を確保しています。またAnaconda、Tensorflow、scikit-learnなどPythonのライブラリ群もシェアを伸ばしています。一方Rは、前年比4%シェアを落としました。Pythonは名実ともに機械学習のデファクトスタンダードになりました。我らがscikit-learnも9位と大健闘しています。Pythonとscikit-learnがあれば、機械学習は何とかなるのです。続きを読む