新規事業のつくり方

新しいことを学ぶことが好きです。今は機械学習や自然言語処理に興味があります。

カテゴリ: 人工知能

機械学習界隈で、最強アルゴリズムの一角を占めていたランダムフォレスト。ディープラーニングが登場した後急速に存在感をなくすものの、その利便性と強力さから多くのデータサイエンティストが現役利用中。

scikit-learnでのランダムフォレスト、分類モデルと重要度評価の実装方法まとめました。

決定木の問題点

決定木は、上から順に条件分岐を作って分類モデルを作る手法です。ルールが可視化できる、正規化や標準化などのデータ加工が不要など、素晴らしいアルゴリズムです。
しかし、決定木は過学習を起こしやすいという問題点がありました。

前の記事:Pythonの決定木分析できのこ派とたけのこ派を予測する続きを読む

書籍「レジリエンスの心理学」を読みました。本書の内容から受けた示唆を元に、人間の心理をデータサイエンスの観点から考察を試みました。

レジリエンスの心理学
金子書房
2022-10-14





続きを読む

「初心者だけど機械学習を学びたい」「ゼロからAIを作れるようになりたい」という方向けに、最短で機械学習を習得する方法を書いてみました。

目次

やっぱり機械学習ツールはPythonとscikit-learn
機械学習の実装に必要な知識
機械学習のプログラミングは簡単
機械学習のおすすめ勉強法
 STEP1 機械学習の基礎知識
 STEP2 開発手法の知識
 STEP3 プログラミングの知識
 STEP4 機械学習アルゴリズムの知識
機械学習に数学の知識は必要か
自分に合った勉強方法を選ぼう
1ヶ月間集中して機械学習を学ぶと周囲に宣言しよう

※忙しい方は、「STEP1 機械学習の基礎知識」からお読みください。

やっぱり機械学習ツールはPythonとscikit-learn

データサイエンス界のロイター通信的存在であるKDnuggetsから、2019年に最も利用されたデータサイエンス・機械学習ソフトウェアのランキングが発表されました。
top-analytics-data-science
元記事:Python leads the 11 top Data Science, Machine Learning platforms: Trends and Analysis

トップはPythonです。不動の一位を確保しています。またAnaconda、Tensorflow、scikit-learnなどPythonのライブラリ群もシェアを伸ばしています。一方Rは、前年比4%シェアを落としました。

Pythonは名実ともに機械学習のデファクトスタンダードになりました。我らがscikit-learnも9位と大健闘しています。Pythonとscikit-learnがあれば、機械学習は何とかなるのです。
続きを読む

RANGE(レンジ) 知識の「幅」が最強の武器になるという本を読みました。

RANGE(レンジ) 知識の「幅」が最強の武器になる
デイビッド・エプスタイン
日経BP
2020-03-26


RANGEとは日本語で言うと「幅」です。著者は変化の激しい現代では、経験の幅が重要であると説いています。専門性がないと不安になったり、コンプレックスを抱きやすいものですが、ゼネラリストの希望になるような本です。

続きを読む

テキストから画像を生成するAIは、「Text2Image」と呼ばれています。
今回は2021年に発表された、「Big Sleep」を試してみました。

BigSleepとは

「Big Sleep」は、「BigGAN」と「CLIP」を組み合わせたものです。テキストから画像を生成できます。Python向けライブラリとして利用できます。

BigGANとは

「BigGAN」は、1000カテゴリの画像を生成するモデルです。名前の通り、GANのネットワークを大規模化しています。DeepMindが開発しました。

2018年から「敵対的生成ネットワーク(GAN)」が流行りました。
GANは、「識別モデル」と「生成モデル」を互いに競い合わせることで精度を高めていく、教師なし学習です。生成モデルは、本物画像に似た画像を生成し、識別モデルが偽画像か本物画像かを見分けられるように学習していきます。BigGANはGANの発展形の一つです。

CLIPとは

「CLIP(Contrastive Language-Image Pre-training)」は、画像分類モデルです。画像とテキストの4億ペアを事前学習させています。OpenAIが開発しました。

学習方法としては、画像-テキストのペアのベクトルの内積を最大化し、ペアではないベクトルの内積を最小化するようにベクトルを調整していきます。その結果、画像からもテキストからも、その特徴を表現するベクトルを取得できます。
続きを読む

↑このページのトップヘ