アンサンブル・ラーニング

機械学習および
データマイニング
問題
理論
  • 偏りと分散のトレードオフ
  • 計算論的学習理論(英語版)
  • 経験損失最小化(英語版)
  • オッカム学習(英語版)
  • PAC学習
  • 統計的学習(英語版)
  • VC理論(英語版)
学会・論文誌等
  • NIPS(英語版)
  • ICML(英語版)
  • ML(英語版)
  • JMLR(英語版)
  • ArXiv:cs.LG

カテゴリ Category:機械学習

カテゴリ Category:データマイニング

アンサンブル・ラーニングはアンサンブル・メソッドを用いた機械学習である。統計や機械学習で使われるアンサンブル・メソッドでは、さまざまな学習アルゴリズムの有限集合を使用することで、単一の学習アルゴリズムよりも優れた結果を得る [1]。一連のアルゴリズムの計算は、単一のアルゴリズムの計算よりも時間がかかるが、より浅い計算深度で、ほぼ同等の良好な結果を得ることができる。

アンサンブル・ラーニングの重要な応用領域は、決定木である。大きな決定木は、ルートからリーフまで多くの決定ノードがあり、それらすべてが不確実性の下でトラバースされるため、エラー率と分散が大きくなる傾向がある。たとえば、バギングは多くの小さな決定木を計算し、それらの結果の平均を使用する。これにより、分散(したがってエラー率)が大幅に減少する。

アンサンブルの種類

ベイズ最適分類器

ベイズ最適分類器は、常に次の式の最適解を返す。

y = a r g m a x c j C h i H P ( c j | h i ) P ( T | h i ) P ( h i ) {\displaystyle y=\mathrm {argmax} _{c_{j}\in C}\sum _{h_{i}\in H}{P(c_{j}|h_{i})P(T|h_{i})P(h_{i})}}

他のアンサンブルが平均してこの方法を上回ることはできないことを示すことができる。しかし、残念ながら、この方法は、 a r g m a x {\displaystyle argmax} 仮説空間内のすべての仮説について反復処理を行い、ほとんどの場合、この空間が大きすぎるため、実際には使用できない。

バギング

詳細は「バギング」を参照

バギングは、回帰モデルまたは分類モデルからの複数の予測を組み合わせ、各予測に均等に重み付けし、最後に予測を平均化する [2]

ブースティング

詳細は「ブースティング」を参照

ブースティングは、多くの弱い分類子を1つの強い分類子にマージする。この一般的な手法にはさまざまな実装があり、最も一般的な実装はAdaBoostである。

さらに学習したい人への参考書の例

  • 武藤 佳恭:「超実践 アンサンブル機械学習」、近代科学社、ISBN 978-4764905290(2016年12月26日)。
  • Zhi‐Hua Zhou:「アンサンブル法による機械学習: 基礎とアルゴリズム」、近代科学社、ISBN 978-4764905375(2017年7月4日)。
  • 坂本俊之:「作ってわかる! アンサンブル学習アルゴリズム入門」、シーアンドアール研究所、 ISBN 978-4863542808(2019年5月28日)。

脚注

  1. ^ Murphy (2012). Machine Learning: A Probabilistic Perspective 
  2. ^ Leo Breiman (1996-08-01). Bagging predictors. 24. pp. 123–140. doi:10.1007/BF00058655. ISSN 0885-6125. https://link.springer.com/article/10.1007/BF00058655