新規事業のつくり方

新しいことを学ぶことが好きです。今は機械学習や自然言語処理に興味があります。

カテゴリ: 人工知能

機械学習界隈で、最強アルゴリズムの一角を占めていたランダムフォレスト。ディープラーニングが登場した後急速に存在感をなくすものの、その利便性と強力さから多くのデータサイエンティストが現役利用中。

scikit-learnでのランダムフォレスト、分類モデルと重要度評価の実装方法まとめました。

決定木の問題点

決定木は、上から順に条件分岐を作って分類モデルを作る手法です。ルールが可視化できる、正規化や標準化などのデータ加工が不要など、素晴らしいアルゴリズムです。
しかし、決定木は過学習を起こしやすいという問題点がありました。

前の記事:Pythonの決定木分析できのこ派とたけのこ派を予測する続きを読む

RANGE(レンジ) 知識の「幅」が最強の武器になるという本を読みました。

RANGE(レンジ) 知識の「幅」が最強の武器になる
デイビッド・エプスタイン
日経BP
2020-03-26


RANGEとは日本語で言うと「幅」です。著者は変化の激しい現代では、経験の幅が重要であると説いています。専門性がないと不安になったり、コンプレックスを抱きやすいものですが、ゼネラリストの希望になるような本です。

続きを読む

テキストから画像を生成するAIは、「Text2Image」と呼ばれています。
今回は2021年に発表された、「Big Sleep」を試してみました。

BigSleepとは

「Big Sleep」は、「BigGAN」と「CLIP」を組み合わせたものです。テキストから画像を生成できます。Python向けライブラリとして利用できます。

BigGANとは

「BigGAN」は、1000カテゴリの画像を生成するモデルです。名前の通り、GANのネットワークを大規模化しています。DeepMindが開発しました。

2018年から「敵対的生成ネットワーク(GAN)」が流行りました。
GANは、「識別モデル」と「生成モデル」を互いに競い合わせることで精度を高めていく、教師なし学習です。生成モデルは、本物画像に似た画像を生成し、識別モデルが偽画像か本物画像かを見分けられるように学習していきます。BigGANはGANの発展形の一つです。

CLIPとは

「CLIP(Contrastive Language-Image Pre-training)」は、画像分類モデルです。画像とテキストの4億ペアを事前学習させています。OpenAIが開発しました。

学習方法としては、画像-テキストのペアのベクトルの内積を最大化し、ペアではないベクトルの内積を最小化するようにベクトルを調整していきます。その結果、画像からもテキストからも、その特徴を表現するベクトルを取得できます。
続きを読む

単語分散表現とは、単語の意味をベクトルで表現することです。単語埋め込み(Word Embedding)とも呼ばれます。単語を100~300の次元数で表現することが多いです。

単語分散表現の手法には、Word2Vec(2013年)やfastText(2016年)があります。これらの手法は、ある前提を置いて学習されています。
続きを読む

AI人材の給与が高騰中です。米国のAI研究者やAIエンジニアは、大学で博士号取得した人や職歴が数年程度の人が、年収5000万円の給与を得られるようです。

東洋経済:年収5000万円もザラ、米AI人材のヤバい報酬

AI人材は、社会的ニーズが急速に高まったことから極めて希少性があります。需要に供給が追いついていないため、高値がついています。それではAI人材の主役であるAIエンジニアは、高収入で幸せなキャリアが約束されているのでしょうか。

2021年8月追記
DX・デジタル化の流れを受けて、最上流工程の重要度が高まり、AIコンサルタントが高年収を得る傾向は、日々強まっているようです。
業務部門とシステム部門の線引きを取っ払い、論点思考でフラットにAI導入の道筋を描けるような人材は、社会的に需要が急激に高まるも、要件を満たす人材は稀少です。

今後はおそらく、DX人材という文脈で、人材育成方法が体系化されていく流れと、コンサルファームに所属するシニアAIコンサルを、大手事業会社が部長~執行役員級でヘッドハンティングする流れの2軸が加速していくと思います。
続きを読む

↑このページのトップヘ