分類は有用である。ここでの主要な技術は、各サンプルにラベルを付けることである。機械学習の観点からは、分類問題は有限および記述的な集合を予測するために定式化することができる。基本的に、分類はサンプルにラベルを割り当てる教師あり学習タスクである。
分類は、私たちが毎日頭の中で行っていることである。スーパーにスイカを買いに行くとき、スイカの叩き具合、重さ、香り、音などから美味しいかどうかを判断する(2値分類)のが主な作業である。
タスクによっては、もっと複雑であいまいなものもあります。場合によっては、クラスが重複することもある。夜の映画を選ぶとき、コメディとファンタジーの両方の映画を選ぶことができる。また、データ構造が入れ子になっている可能性があることも特筆すべき点である。これは、クラスが階層的に配置され、互いに相対的に入れ子になっている状態である。これは分類作業でもあり、例えば、入れ子になった単語の階層、つまり「分類」の中の「クラス」である。
分類タスクとクラスタリングタスクの違いについて簡単に説明します。分類は、データの一部のラベルが既に分かっていることを意味します。クラスタリングは、正確な答えを知らないまま、データの中の構造を探索することです。
ほとんどの場合、2値分類、複数クラス分類、複数ラベル分類を扱う必要があります。二値分類は、ラベルが二値である問題を意味します:イエスかノーか、猫か犬か、融資をするか追加の確認を求めるか、などです。多クラス分類は、多くのクラスが存在する問題を解決するが、各サンプルは1つのクラスにしか属さない。例えば、「リンゴ、ナシ、プラム」のようなものです。マルチラベル分類は、一度に複数のラベルを割り当てるもので、このタスクはテキスト分類で非常によく使われます:ドラマ、歴史、コメディは、1冊の本のジャンルです。
一般に教師あり学習の課題は、以下のように書くことができる.
f(x)はあらかじめ選択されたモデルであり、ここで x は入力データ, y は出力データである。 機械学習技術者としての課題は、モデルθを最小化するパラメータを見つけることです。 例えば、学習セットの中で間違って分類されたペアの数を最小にするモデルであるべきです。 正しいモデル、実際の誤差を選択し、モデルのパラメータを最適化することが機械学習の技術である。
すべてのアルゴリズムは,線形と非線形に分けることができます.機械学習の文脈では,線形モデルはクラス間の多次元的な分割面を作成します.これに対して,非線形モデルはいくつかの複雑な面を作る.
では、どのように学習モデルを選べば、素早く効率的に結果を出せるのだろうか?まず第一に、それはデータに依存する。特徴量には依存性があったり独立性があったり、直線的に分割されていたり、より複雑な順序の曲線で分割されていたりします。ですから、問題を解決する前に、その背景を理解することがとても重要です。これを知ることで、最適なモデルを選択することができるのです。
まず、線形モデルについて簡単に説明します。
Naïve Bayesはベイズ則を用いた最も古くからのメールスパム検索モデルの1つです。
P(y|vec x) = \frac{P(y)P(\vec x|y)}{P(\vec x)}
このアルゴリズムでは、各特徴は他の特徴から独立しているが、出力には依存していると考える。式に基づき、アルゴリズムがクラスの確率を予測する。
ロジスティック回帰は、主要な回帰ベースの機械学習アルゴリズムの1つである。その主な考え方は、ある線形の分割面があり、その反対側には2つの異なるクラスがあるということである。主なタスクは、この表面を定義する各特徴の重みを見つけることである。
サポートベクターマシン(SVM)アルゴリズムは、図中のどの線が最も最適であるかという、より根本的な問題を問う。
ここでの最適解は、2つのクラス間のマージンを最大化する超平面であろう。
線形モデルの利点は、比較的高速で、簡単に解釈できることである。しかし、欠損データには対応できず、よくある特徴量間の非線形依存性を復元することができない。
線形回帰(Linear Rregression)は、従属変数が数値を予測するのに対し、ロジスティック回帰(Logistic Regression)は、従属変数が2値の発生確率を予測します。 この2値は、0|1で表される判別分析とも言えます。
現在、人工ニューラルネットワーク(多層パーセプトロン)は、機械学習の課題を解決するための最も一般的なツールの1つです。ですから、分類に使えるのは当然といえば当然です。
単一ニューロン層の第一近似では、このアルゴリズムはロジスティック回帰と密接な関係があります。活性化関数はこの系に非線形性を加える。このアプローチにより、複雑な関数を回復し、データ内に深く隠された構造を見つけることができる。これが人気の理由である。
デメリットとしては、ニューラルネットワークは他のモデルと比較して学習に非常に長い時間がかかることと、より多くのデータを必要とすることが挙げられます。
もう一つ人気のあるアルゴリズムは、K-nearest neighbors (k-NN)です。このアルゴリズムの考え方は単純で、諺にもあるように、「あなたの友達(というより隣人)が誰か教えてくれれば、あなたが誰か教えてあげよう」というものです。つまり、予測したいサンプルの最近傍を調べて、同じクラスに属すると言うのです。
このモデルの主な欠点は、学習セット全体を考慮することがほとんどないことです。
もう一つの汎用的なアルゴリズムは決定木である。これは、各枝で正確な解が与えられるまで、データを特徴に従ってサブセットに分割する。
このトピックでは、分類問題とは何か、そしてクラスタリング問題とどう違うのかについて説明しました。分類とは、ラベルが有限個の選択肢からなるサンプルのラベルを決定するタスクです。分類の課題は、バイナリ、マルチクラス、マルチラベルのいずれでも可能です。基本的なアルゴリズムは線形と非線形の2種類に分けられ、それぞれ平面と複雑な曲面を作成する。
この情報量に少し圧倒されたと感じても、心配は無用です。以下のトピックでは、これらの方法についてそれぞれ個別に説明します。
Quick Links
Legal Stuff