新規事業のつくり方

新しいことを学ぶことが好きです。今は機械学習や自然言語処理に興味があります。

カテゴリ: Pythonで機械学習

初心者向けにgensimとWord2Vecの利用方法と、類似単語の可視化を解説します。

Word2Vecは、自然言語処理の一つで大量のテキストデータを解析し、各単語の意味をベクトル表現をする手法です。単語の意味の近さや類似度などを計算することが出来ます。

Gensimとは

gensimは、統計的機械学習を使用した、教師なしトピックモデリングと自然言語処理のためのオープンソースライブラリです。無料で使えるPython向けライブラリです。

主な機能としては、fastText、word2vecとdoc2vecアルゴリズム、潜在意味解析(LSA、LSI)、潜在ディリクレ配分(LDA)、TF-IDFなどです。ライセンスはLGPLです。

gensim公式:https://radimrehurek.com/gensim/index.html
続きを読む

21世紀に最も重要なスキルは何でしょうか。

様々な答えがあると思いますが、おそらく多くの人が、「試す力」と答えるでしょう。仮説を立てて検証して答えを導くという手法は、自然科学分野の根幹であり、サービス企画や新規事業開発の最適解であり、GAFAの成長エンジンです。世界で最も試行錯誤している組織は、おそらくGoogleでしょう。

機械学習は、データに対する試行錯誤をコンピュータ上で何万回何億回も高速でできます。だから技術として高速で成長できています。加えてそれらの検証結果が、論文やネット上で公開されているのだから、恐ろしいまでのスピードになっています。

使い方によっては百億円の価値を生む資産が、インターネットに転がっているのです。情報が公開されている以上、勝負ポイントは「手を動かした時間量」が全てです。
続きを読む

ロジスティック回帰分析は、2値の分類モデルを作るアルゴリズムです。そして、分類結果の発生確率を予測できます。例えばある人が「ガンである確率 90%」 のような予測ができます。

また、モデルの中身を数式として理解できるので、ディープラーニングのようにブラックボックスになりません。つまり、どの説明変数がモデルの判定に重要かが人間でも分かります。

一方、ロジスティック回帰は、線形分離可能なクラスに対してのみ高い性能が発揮されます。非線形の問題はうまく学習できないという重回帰分析と同じ問題を抱えています。
加えて、ロジスティック回帰の説明変数は、数量データのみ利用可能です。カテゴリデータは基本的に推奨されません。

過去記事:ランダムフォレストで特徴量の重要度を評価する
続きを読む

機械学習界隈で、最強アルゴリズムの一角を占めていたランダムフォレスト。ディープラーニングが登場した後急速に存在感をなくすものの、その利便性と強力さから多くのデータサイエンティストが現役利用中。

scikit-learnでのランダムフォレスト、分類モデルと重要度評価の実装方法まとめました。

決定木の問題点

決定木は、上から順に条件分岐を作って分類モデルを作る手法です。ルールが可視化できる、正規化や標準化などのデータ加工が不要など、素晴らしいアルゴリズムです。
しかし、決定木は過学習を起こしやすいという問題点がありました。

前の記事:Pythonの決定木分析できのこ派とたけのこ派を予測する続きを読む

「決定木」は、おそらく世界で最も利用されている機械学習アルゴリズムです。教師ありの学習データから、階層的に条件分岐のツリーを作り、判別モデルを作ることができます。

今回は決定木の活用例として、きのこ派とたけのこ派を予測する人工知能を作りました。プログラム言語は、Pythonとscikit-learnです。

過去記事:AIエンジニアが教えるゼロから機械学習の勉強法続きを読む

↑このページのトップヘ