· theory  · 9 min read

機械学習の3種類とは?教師あり・教師なし・強化学習をG検定・DS検定向けに解説

G検定・DS検定で必須の機械学習の3種類を解説。教師あり学習(回帰・分類)・教師なし学習(クラスタリング・次元削減)・強化学習の違いと代表アルゴリズム、モデル評価指標までまとめた。

G検定・DS検定で必須の機械学習の3種類を解説。教師あり学習(回帰・分類)・教師なし学習(クラスタリング・次元削減)・強化学習の違いと代表アルゴリズム、モデル評価指標までまとめた。

機械学習とは「データからパターンを自動的に学習して、予測や判断を行うAI技術の総称」だ。

G検定・DS検定では機械学習の種類・代表アルゴリズム・適用場面・評価指標の理解が問われる。 実装コードは不要だが「どの問題にどのアルゴリズムを使うべきか」の判断力が試される。


機械学習の3種類

教師あり学習(Supervised Learning)

正解ラベル付きのデータを使って学習する方法だ。 「入力→正解」のペアを大量に与え、未知の入力に対して正解を予測できるようにする。

タスク説明代表例
回帰(Regression)連続した数値を予測する住宅価格予測・売上予測・気温予測
分類(Classification)カテゴリを分類するスパムメール判定・画像分類・疾病診断

主なアルゴリズム:

  • 線形回帰:入力と出力の線形関係を学習する
  • ロジスティック回帰:分類問題に使う。名前に「回帰」とあるが分類に使う点に注意
  • 決定木:条件分岐のツリー構造で分類・回帰を行う
  • ランダムフォレスト:複数の決定木の多数決で精度を向上させる
  • SVM(サポートベクターマシン):データ間の境界線を最大化する

教師なし学習(Unsupervised Learning)

正解ラベルなしのデータからパターンを発見する方法だ。 データの中に潜む構造・グループ・特徴を自動的に発見する。

タスク説明代表例
クラスタリング似たデータをグループに分ける顧客セグメンテーション・文書分類
次元削減多次元のデータを低次元に圧縮するデータの可視化・特徴抽出
異常検知通常パターンから外れたデータを検出する不正取引検知・設備異常検知

主なアルゴリズム:

  • k-meansクラスタリング:k個のクラスター中心を繰り返し更新してグループ分け
  • PCA(主成分分析):分散が最大になる方向に次元を圧縮する
  • オートエンコーダ:入力→圧縮→復元の構造で特徴を学習する(ディープラーニングの一種)

強化学習(Reinforcement Learning)

エージェントが環境と相互作用しながら、報酬を最大化する行動を学習する方法だ。 正解データは与えられず、「試行錯誤で最適な行動方針を学ぶ」。

要素説明
エージェント学習・行動する主体(例:ゲームのAI・ロボット)
環境エージェントが行動する空間
状態現在の状況の表現
行動エージェントが選択できる操作
報酬行動の結果として得られる数値的フィードバック

活用例:

  • AlphaGo・AlphaZero(囲碁・将棋AI)
  • ロボットの歩行制御
  • 自動運転の経路選択
  • ChatGPTのRLHF(人間のフィードバックによる強化学習)

機械学習の選択基準

「どのアルゴリズムをいつ使うか」の判断がG検定・DS検定で問われる。

問題の種類で分類する

正解ラベルがある?
├── YES(教師あり学習)
│   ├── 予測したい値が連続値 → 回帰
│   └── 予測したい値がカテゴリ → 分類
└── NO(教師なし学習)
    ├── グループに分けたい → クラスタリング
    └── 次元を減らしたい → 次元削減

試行錯誤で最適行動を学ぶ → 強化学習

モデルの評価指標

混同行列(Confusion Matrix)

分類問題の評価に使う基本ツールだ。

予測:正予測:負
実際:正TP(真陽性)FN(偽陰性)
実際:負FP(偽陽性)TN(真陰性)

主要な評価指標

指標計算式重視する場面
精度(Accuracy)(TP+TN)/(全体)クラスが均等に分布している場合
適合率(Precision)TP/(TP+FP)偽陽性を減らしたい(スパム誤判定を減らす等)
再現率(Recall)TP/(TP+FN)偽陰性を減らしたい(疾病の見逃しを防ぐ等)
F1スコア2×Precision×Recall/(P+R)適合率と再現率のバランスを取りたい

精度だけでは評価できない場合がある。 例えば99%が健常者のデータで「全員健常者」と予測すると精度99%になるが、疾病を1例も発見できない。再現率が0%というのが実態だ。

回帰の評価指標

指標内容
RMSE(平均二乗誤差の平方根)予測値と実測値の差の大きさ。単位が元データと同じで解釈しやすい
MAE(平均絶対誤差)差の絶対値の平均。外れ値の影響を受けにくい
R²(決定係数)0〜1の値。1に近いほどモデルがデータを説明できている

過学習・汎化性能・クロスバリデーション

汎化性能とは

訓練データだけでなく、未知のデータに対しても高い精度を示す能力だ。 過学習(訓練データへの過度な適合)を防ぎ、汎化性能を高めることが機械学習の核心的な課題だ。

クロスバリデーション(交差検証)

データを複数のブロックに分割し、順番に検証データとして使いながら学習と評価を繰り返す手法だ。 データが少ない場合でも、汎化性能を安定して評価できる。


AI活用プロンプト

アルゴリズムの使い分けを練習する

G検定・DS検定の機械学習で、アルゴリズムの選択を練習したいです。

以下の5つのビジネス課題に対して「どの機械学習アルゴリズムを使うか」
を答えてください。答えと理由も教えてください:

1. 過去3年間の月次売上データから翌月の売上を予測したい
2. 顧客10万人を購買行動の類似度でグループ分けしたい
3. 受信メールがスパムかどうかを自動判定したい
4. 工場の振動センサーデータから設備の異常を検出したい
5. 囲碁AIが最善手を学習したい

各課題について: 使うべき手法・アルゴリズム名・その理由を説明してください。

まとめ

機械学習の3種類で押さえる核心:

教師あり学習=正解ラベルあり、回帰か分類か——問題の種類で使うアルゴリズムが変わる。

教師なし学習=ラベルなし、グループか圧縮か——k-means・PCAの目的を説明できれば試験で対応できる。

強化学習=試行錯誤で報酬最大化——ゲームAI・RLHF(ChatGPT等)が実例として使える。

評価指標は精度だけじゃない——医療診断なら再現率、スパムフィルタなら適合率、という使い分けの根拠を説明できる状態にする。

G検定完全攻略ガイドに戻る
DS検定完全攻略ガイドに戻る

Back to Blog

Related Posts

View All Posts »