機械学習のハードルは、どんどん下がっています。理由は、pythonとscikit-learnが簡単だからです。
機械学習の第一歩は、pythonの理解です。この記事では、完全初心者向けに、よく利用するpythonの関数をご紹介します。いわば機械学習のSTEP1です!

pyhonとは

pythonはシンプルなプログラミング言語です。最も習熟しやすい言語のひとつです。また便利なライブラリがたくさんあります。

pandas:pandasは、エクセルのようにデータを処理したり分析できる。
NumPy:高速で行列計算ができるライブラリ。リストと勘違いしやすいので注意。行ごとに列数が異なるような2 次元配列などは扱えません。
scikit-learn:機械学習の機能が豊富。

Pythonの環境構築

Pythonの環境構築はとても楽です。なぜならAnacondaをインストールするだけだからです。Anaconda は、Python 本体に加えデータ分析でよく利用される ライブラリを一括でインストール可能にしたパッケージです。
面倒なセットアップ作業が効率よく行えるため、Python 開発者の間で広く利用されています。なお、Anaconda は商用目的にも利用可能です。

Anaconda のインストール

1.https://www.continuum.io/downloadsにアクセスします。Anaconda のダウンロードページから、Python 2.7 ※の 32 bit のインストーラをダウンロードします。
2.ダウンロードしたファイルを開き、インストーラを起動します。
3.「Next」を押して次に進みます。
4.ライセンスを確認し、「I Agree」を押して次に進みます。
5.「Just Me」を選択されていることを確認し、「Next」を押して次に進みます。
6.インストール先を尋ねられるので、「Next」を押して次に進みます。
7.2 つのチェックボックス (環境変数 PATH への設定、Python 2.7 をデフォルトの Python として登録) にチェックが入っていることを確認し、「Next」を押して次に進みます。
8.インストールが始まります。
9.「Finish」を押し、インストーラを閉じます。

※バージョンは2.7推奨です。bitはOSの環境に合わせてください。

pythonの動作環境

Anacondaをインストールすると、spyderという開発環境を利用することが出来ます。windowsの検索ボックスで、 spyder と入力してみてください。

IPython consoleという画面で、pythonのインタプリタが使えます。コマンドラインのように、対話型でpythonを動作することが出来ます。

pythonの使い方

機械学習の実務で、よく使う基礎構文だけピックアップしました。

四則演算

まずは四則演算から。
In [1]:2+3
Out[1]: 5

In [2]:3-5
Out[2]: -2

In [3]:4*6
Out[3]: 24

In [4]:4/2
Out[4]: 2

Print文

文字列は ” “ でくくります。数字はそのままで出力できます。
In [17]: print "hello world"
hello world

In [18]: print 12345
12345

データ型

type()関数で、データの型を調べることが出来ます。

In [5]: type(8)
Out[5]: int

In [6]: type("aiueo")
Out[6]: str

変数

アルファベットで変数を定義できます。毎回数値を書くのは大変ですからね。

In [7]: data = 10

In [8]: data*3
Out[8]: 30

リスト

数値を1つではなく、リストとしてデータをまとめて定義できます。

In [9]: x = [1,3,5,7,9]

In [10]: print x
[1, 3, 5, 7, 9]

In [11]: x[0]
Out[11]: 1
※リストは0から数え始めるので注意

In [13]: x[3]
Out[13]: 7

In [14]: x[0:3]
Out[14]: [1, 3, 5]
※最初から3番目まで取得

In [16]: x[:]
Out[16]: [1, 3, 5, 7, 9]

if文

#条件分岐

In [19]: abc = 8

In [20]: if abc >= 10:
    ...:     print "abcは10以上です"
    ...: else:
    ...:     print"abcは10未満です"
    ...:     
abcは10未満です

for文

 ループ処理。リストの中のデータを順番にアクセスすることが出来ます。
# for~i~:の構文

In [21]: y = [1,2,3,4,5]

In [22]: for i in  y:
    ...:     print i
    ...:     
1
2
3
4
5

関数の定義

何度も使うプログラムは関数として定義します。使う時にその関数を呼び出すことで、プログラムを再利用できます。

In [23]: def plusten(x):
    ...:     print x+10
    ...:     

In [24]: plusten(5)
15

次のアクション

このくらい理解できればpythonのコードをなんとなく読むことはできると思います。次はデータ分析系のWebサイトを検索して、興味を持ったコードの写経をやりつつ、機械学習の理解を進めることをおすすめします。
もしも本ブログを参考に機械学習を勉強していく場合、以下の順番がおすすめです。

STEP1 pythonを理解する    :今読んでいる記事
STEP2 機械学習を理解する :人工知能(AI)入門 ~機械学習でできることを解説~
STEP3 scikit-learnを実装する:これだけは知っておけ!PythonでAI開発の基礎まとめ
STEP4 データ処理を実装する:python機械学習(AI)のデータ処理(pandas/scikit-learn)
STEP5 Webサービスを作る :Pythonで人工知能のWebサービスを実装する方法


まあ機械学習を一言でいってしまうと、データから関数f(x)を作成して評価してるだけなんですけどね。