回帰とは何か？

教師あり機械学習や統計学において、回帰とは、連続したYの出力を、複数の予測変数 X_1, X_2, …, X_m から数値予測することである。

この用語自体は、19世紀にイギリスの統計学者Francis Galtonによって作られた。彼は、子孫の身長と祖先の身長との依存関係を研究していた。彼は、背の高い祖先の子孫は、人間の平均身長まで縮む、つまり退行する傾向があることに気づいたのである。

回帰は、実世界に多くの応用がある。このような問題は、金融の世界では非常によくあることです。例えば、数日前の為替レートや市場価格、他の指標の値から予測することを考えてみてください。

もう一つの回帰問題の例は、航空券の値段の予測です。航空券を予約したことがある人なら、航空会社によって価格が動的に形成され、非常に頻繁に変更される傾向があることを知っているはずである。次の日の価格を予測できることは、多くの予約サービスにとって重要である。

回帰問題のもう一つの例は、配送にかかる時間の予測です。例えば、あなたがお気に入りのレストランにオンラインで注文するたびに、システムはあなたの注文がいつ玄関に届くかを教えてくれます。

問題は、これらの問題すべてをどのように解決するかです。ここでは、最もよく使われるテクニックをいくつか紹介します。

回帰問題の解法

回帰の問題を解決する最もシンプルなアプローチは、線形回帰であり、出力 Yを X_1, X_2, …, X_m の線形結合としてモデル化する．

線形回帰モデルのあてはめとは、モデル係数 \alpha_0, \alpha_1, …, \alpha_m の最適値を求めることである。

以下は1次元の場合の例で、青い点はデータを表し、赤い線は線形回帰モデルによって生成された予測値に対応する（画像ソース）。

残念ながら、線形回帰はすべての問題に対する解決策にはなりえません。多くの場合、観測された特徴と出力との間の依存関係は非線形である。そこで、より洗練された技術が必要となる。

かなり頻繁に採用されるモデルの一つに、いわゆる回帰木がある。このモデルは、入力特徴の値について一連の質問をすることで、出力変数の予測値を生成する。ここでは、車の特性から車の燃費を予測する回帰木の例を示します（詳しくは、「分類と回帰木」の記事をご覧ください）。

木の頂点から葉のノードに向かい、「重量が2512.5未満」「バンタイプ」などの質問に順次答えていくと、各特定の車の予測が得られます。回帰木モデルの構築は、どのような質問をするかを決めることである。

回帰木と線形回帰の違いは何ですか？

先ほど見たように、線形回帰モデルの予測値は直線（多次元の場合は超平面）上にある。これに対して回帰木は、入力の特徴とターゲットの間の依存関係をステップ関数で近似します（詳しくはSCIKITの決定木回帰の記事をご覧ください）。

これは入力と出力の間のより複雑な関係を捕らえるのに役立ちます。しかし実際には、単一の回帰木ではまだモデルが単純すぎるため、出力変数の良い予測器を得るのに十分であることはほとんどありません。幸いなことに、いくつかの回帰木をアンサンブルで組み合わせる方法があり、その結果、かなり正確な共同予測が得られる。

線形回帰と単回帰木の両方は解釈可能なモデルであり、予測がどこから来ているのかを人間が説明するのは簡単であることを意味している。

回帰の問題を解決するために、他のモデル、例えばサポート・ベクトル回帰やニューラルネットワークを使うことができます。このようなモデルは、線形回帰や回帰木よりも表現力が豊かである。同時に、解釈できないので、ブラックボックス・モデルと呼ばれることが多い。

評価指標

回帰問題を解くとき、多くの場合、さまざまなアルゴリズムを試し、互いに比較して最適なものを決定したいと思うでしょう。

そのためには、回帰モデルの性能を評価できることが必要です。

モデルによって生成された予測値が、出力変数 y_1, y_2, … y_n の真の値とは異なること。

機械学習では，いわゆるMSE（Mean Squared Error）を計算するのが最も一般的な方法である．MSEとは、予測値と真値との二乗偏差の平均値であり、利用可能なすべての例で計算される。

MSEが低いほど、予測の品質が高いことを意味する。

真の値と予測値の差の二乗を考慮することで、MSEはより大きな誤差に高い重みを与えることができます。実際、小さな数値は2乗するとさらに小さくなります（例：0.01^2 = 0.0001 0.01 2 =0.0001 というように）、小さな予測誤差はMSEスコアにあまり影響を与えません。一方、大きな数値は、2乗するとかなり大きくなります（例：100^2 = 10000 100 2 =10000 のように）、大きな誤差はMSEスコアに大きな影響を与えます。

実際、MSEは回帰モデルの評価だけでなく、モデルの学習にも利用されており、モデルパラメータの最適値はMSEを最小にすることで決定されることが多い。

MSEの欠点は、解釈が難しいことです。代わりにRoot Mean Squared Error (RMSE)が使われることもあるが，これはMSEの平方根にほかならない．

RMSEはMSEと似た挙動を示し、予測値と真の点の平均距離として解釈できる。

RMSEの欠点は、MSEと同様、やはりスケールに依存することです。スケールの異なるデータセットやモデル間の比較を容易にするために、RMSEスコアはしばしば、例えばターゲットの平均値で正規化されます。その結果得られるスコアは、正規化RMSE（nRMSE）と呼ばれる。

もう一つの選択肢は平均絶対誤差（MAE）で、これはモデルの予測値の真値からの平均絶対偏差である。

MAE の方が概念的に単純で、間違いなく人に解釈しやすい。(R)MSEと異なり、MAEは大きな誤差を小さな誤差より多く罰するものではないことに注意してください。そのため、大きな予測誤差が特に望ましくない場合は、(R)MSE の方が良い選択となります。

その上、絶対値関数の数学的特性から、学習段階での最適なパラメータ値を見つけるためにMAEを使用することは困難である。

まとめ

回帰は，教師あり確率統計学の一分野であり，数値出力を予測することを意味する．単純な回帰問題は線形回帰モデルで解くことができるが，より難しい回帰問題は回帰木のアンサンブルでアプローチされるのが一般的である．回帰モデルの最も典型的な評価指標は，MSE，RMSE，MAEである．

Table Of Contents

回帰とは何か？

回帰問題の解法

評価指標

まとめ

Tags

Related Posts