新規事業のつくり方

新しいことを学ぶことが好きです。今は機械学習や自然言語処理に興味があります。

機械学習ではpandasが非常に利用されています。なぜpandasを使うのか、その理由とpandasの基礎的なデータ処理をまとめました。

Pandasとは

pandasは、エクセルのようにデータを加工したり解析できるpython向けライブラリです。pythonのスクリプトコードの先頭行でインポートすると、pandasを利用することが出来ます。

pandas の基本的なデータ構造はDataFrame(データフレーム)です。DataFrameとは、Excelと同じデータ構造で、二次元のテーブルのことです。つまり行と列をもった配列データです。DataFrameの列データに付与するラベルをカラム(columns)と呼びます。

過去記事:AIエンジニアが教えるゼロから機械学習の勉強法

続きを読む

機械学習のハードルは、どんどん下がっています。理由は、pythonとscikit-learnが簡単だからです。
機械学習の第一歩は、pythonの理解です。この記事では、完全初心者向けに、よく利用するpythonの関数をご紹介します。いわば機械学習のSTEP1です!

pyhonとは

pythonはシンプルなプログラミング言語です。最も習熟しやすい言語のひとつです。また便利なライブラリがたくさんあります。

pandas:pandasは、エクセルのようにデータを処理したり分析できる。
NumPy:高速で行列計算ができるライブラリ。リストと勘違いしやすいので注意。行ごとに列数が異なるような2 次元配列などは扱えません。
scikit-learn:機械学習の機能が豊富。
続きを読む

「初心者だけど機械学習を学びたい」「ゼロからAIを作れるようになりたい」という方向けに、最短で機械学習を習得する方法を書いてみました。

目次

やっぱり機械学習ツールはPythonとscikit-learn
機械学習の実装に必要な知識
機械学習のプログラミングは簡単
機械学習のおすすめ勉強法
 STEP1 機械学習の基礎知識
 STEP2 開発手法の知識
 STEP3 プログラミングの知識
 STEP4 機械学習アルゴリズムの知識
機械学習に数学の知識は必要か
自分に合った勉強方法を選ぼう
1ヶ月間集中して機械学習を学ぶと周囲に宣言しよう
集中学習にはTechAcademyがおすすめ

※忙しい方は、「STEP1 機械学習の基礎知識」からお読みください。

やっぱり機械学習ツールはPythonとscikit-learn

データサイエンス界のロイター通信的存在であるKDnuggetsから、今年最も利用されたデータサイエンスや機械学習ツールのランキングが発表されました。
top-analytics-data-science-machine-learning-software-2015-2017
元記事:New Leader, Trends, and Surprises in Analytics, Data Science, Machine Learning Software Poll

トップがpythonです。またAnaconda、Tensorflow、scikit-learnなどpython関連のライブラリもトップ10にランクインしています。また前年比から見た伸び率も非常に高いです。

Pythonは名実ともにAIのディファクトススタンダードになりました。我らがscikit-learnも9位と大健闘しています。Pythonとscikit-learnがあれば、機械学習は何とかなるのです。
続きを読む

本記事では、機械学習モデルの評価方法をまとめて解説します。

機械学習モデルの評価は「ホールドアウト法」と「交差検定(クロスバリデーション)」と「混合行列」が分かれば大丈夫です。pythonとscikit-learnのコードと合わせて見ていきます。

参考記事:AIエンジニアが教えるゼロから機械学習の勉強法
続きを読む

ディープラーニングを、世界一簡単に実装する方法を見つけましたのでご報告します。

ディープラーニングとは

ニューラルネットワークというアルゴリズムがあり、『入力層』・『中間層』・『出力層』の3つに分かれるのですが、このうち『中間層』を多層化したものをディープラーニングと呼びます。機械学習のアルゴリズムの一つです。

ディープラーニングの得意分野

画像認識分野で非常に高い性能を発揮します。理由は、畳み込みニューラルネットワークとReLU関数です。畳み込みニューラルネットワークにより、画像の特徴を適切に捉えることが出来るようになりました。ReLU関数では、誤差逆伝播法で微分が1になることから、勾配が消えなくなるという問題を解決しました。またそもそも計算量が低いため、活性化関数として非常に利用されています。

音声認識分野でも、音声の「あ」とか「い」とかの波形があるのですが、その波形を画像と見立て分類することで、素晴らしい性能を発揮しています。
続きを読む

ここ最近週に1回くらい打ち合わせとかに呼ばれて、「人工知能を分かりやすく説明してください」と頼まれます。ビジネス界隈でも人工知能が語られることが増えてきて、今の業務をAIで効率化したいというニーズや、AIを使った新しい事業を立ち上げる取り組みが加速しています。

そのため、いろいろ試行錯誤しながら説明しているのですが、なかなか伝わらないことも多いです。

続きを読む

機械学習のデータ処理周りの実務で、よく使う関数をまとめました。

目次
はじめに
      pandasとは
      scikit-learnとは
      numpyは使わないの?
      機械学習の言語はpythonでいいの?
      機械学習(AI開発)の流れ
1.データの準備
      データフレームを定義する(DataFrame)
      csvファイルを読み込む(read_csv)
2.データの前処理
   <欠損値編>
      欠損値をカウントする(isunull)
      欠損値を削除する(dropna)
      欠損値を補完する(Imputer)
   <文字列編>
      文字列データを数値に変換する(map)
   <外れ値編>
      グラフを作成する(plot)
      列の平均値/中央値を出力する(mean/median)
      列の最大値/最小値を確認する(max/min)
3.データの基礎分析
      データから特定の列だけを選択する(iloc/ix)
      データフレームに列を追加する(’カラム名’)
4.特徴量設計
      データを標準化する(StandardScaler)
      相関係数を出力する(corr)
      特徴量データと出力データに分割する(iloc)
      学習データとテストデータに分割する(train_test_split)

続きを読む

このブログでは、IT業界で新規事業開発に携わっている著者が、これまで山ほど失敗して学んだ事業開発のコツを公開しています。

新規事業とは何か知りたい

続きを読む

この記事は、以下の方向けに執筆しています。

・とにかくAIブームに乗りたい方
・転職してAI案件に携わりたい方
・AIに必要な知識だけをざっくり身に付けたい方

関連記事:AI人材になるにはスキルよりまず職種を選択しよう続きを読む

就職を控える大学生や若手会社員にとって、これからの変化の波を読むことは重要なことです。自分が身に付けたスキルや経験が、将来不要になるのではと心配していることでしょう。

今起きている社会変化は、"人工知能"というテクノロジーが牽引しています。その変化はとても急激です。人間が把握できる情報量では追い付けなくなっています。

しかし人工知能分野の事業開発に携わる一人として、これからの生活がどう変わるか、大枠での予測は可能だと思い、5年後に起こりうることを予測しました。

未来予測の考え方
①メタップス佐藤さんの本「未来に先回りする思考法を」を大いに参考にする
②自分が人工知能の仕事で体験したことを参考にする
③世の中の統計データを参考にする
    続きを読む

↑このページのトップヘ