メールボックスを開いても、最近は自動的に別フォルダに振り分けられるので、それほど多くのスパムを目にすることはないでしょう。知らない言語の文書が送られてきても、ワンクリックで理解できる他の言語に簡単に翻訳することができます。クレジットカードが盗まれたことに気づかないうちに、銀行が不審な行動からクレジットカードをブロックしてしまう。お気に入りのストリーミングサービスは、いつもあなたの好きな映画を提案してくれるし、お気に入りの店から届く特別キャンペーンはいつも的を得ている。
これらのテクノロジーは、私たちの生活を便利にする以外に、どのような共通点があるのでしょうか。そうです、これらはすべて、今ブームとなっている人工知能(AI)のサブフィールドである機械学習(ML)によって実現されているのです。
このトピックでは、機械学習の世界について紹介します。
機械学習という言葉をよく耳にすると思いますが、実際にはどのような意味なのでしょうか。さて、MLの目的は、過去の経験から学習し、その知識を新しい未知のケースに転送できるアルゴリズムを作ることです。例を挙げてみましょう。
例えば,MLベースのスパムフィルタリングシステムを作りたいとします.そこで、過去に受信したメールから、有益なものとスパムと判定されたものを集め、そのラベルとともにアルゴリズムに導入する必要がある。するとアルゴリズムは、2種類のメールを区別する方法を学習しようとする。学習プロセスが終了すると、このモデルは新たに受信したメールを分析し、スパムメールを除外することができるようになる。
ここで重要なのは、2種類のメールの違いをアルゴリズムに教えず、過去の事例をいくつか示して、アルゴリズムに自力で判別させることです。クールでしょう?
なお、同じメールソフトを使っていても、ユーザーによってスパムの概念は異なる場合があります。実際、機械学習のサマースクールに関するメールはあなたにとって非常に興味深いものですが、中世の音楽を研究している人はおそらくスパムと考えるでしょう。ですから、同じMLアルゴリズムを異なるデータセット(例えば、あなたとあなたの友人からのメールのセット)に適用すると、全く異なるスパムフィルタが出来上がることになります。
MLは様々な問題を解決するために応用できる.大雑把に言うと,教師あり学習と教師なし学習という2つの主要なMLの設定がある.
教師あり学習では,我々のゴールは,しばしば特徴と呼ばれる他の属性の値から,あるターゲットの属性を予測することを学習することである.
対象となる属性がいくつかの異なる値をとる場合、その問題は分類と呼ばれる。前述のスパムフィルタリングは、2値分類問題の典型的な例である。各メールは、スパムか通常の2つのカテゴリのどちらかに属する。より一般的なケースでは、可能なクラスはもっと多く存在することがあり、その場合、この問題は多クラス分類と呼ばれます。例えば、手書きの数字を認識するMLモデルを学習させることが考えられます。その場合,数字の画像は0から9までの10クラスのいずれかに関連付けられなければなりません.
分類問題のもう一つの例として,マルチラベル分類があります.この設定では、モデルは各例に1つではなく、複数の2値ラベルを割り当てている。マルチラベル分類の典型的な例として、テキストの分類がある。例えば、政治、経済、スポーツ、文化、趣味、…といった多数のトピックがあらかじめ定義されており、各テキストはそのうちのいくつかをカバーすることができる(例えば、政治と経済、趣味とスポーツ、…といったように)。そこでタスクは、各テキストに対して正しいトピックを予測することである。
モデルの対象属性が数値である場合、この問題は回帰と呼ばれる。例えば、学歴、職業、経歴などから年収を予測したり、物件の場所や広さから不動産価格を予測したりすることが回帰問題の例である。
もう一つの機械学習は、教師なし学習である。入力データには、予測したい物件に関する情報が一切含まれていない。
教師なし学習アルゴリズムの典型的な例はクラスタリングである。このアルゴリズムの目的は,学習データから得られた例を,どの程度似ているかに基づいて,いわゆるクラスタ(グループ)に分類することである.クラスタリングは,市場調査において,消費者の購買行動から類似したグループを特定するためによく利用されます.バイオインフォマティクスでは、クラスタリングは、類似した機能を持つ遺伝子を分類し、集団に固有の構造を理解するのに役立つ。
教師なし技術は、いわゆる異常検知の課題解決にもよく使われる。その目的は、他のデータとは著しく異なる疑わしい事象を自動的に検知することである。異常検知技術は、銀行における不正取引の検知、航空業界、健康監視システムなどで広く利用されている。
Quick Links
Legal Stuff