· theory · 9 min read
機械学習の3種類とは?教師あり・教師なし・強化学習をG検定・DS検定向けに解説
G検定・DS検定で必須の機械学習の3種類を解説。教師あり学習(回帰・分類)・教師なし学習(クラスタリング・次元削減)・強化学習の違いと代表アルゴリズム、モデル評価指標までまとめた。

機械学習とは「データからパターンを自動的に学習して、予測や判断を行うAI技術の総称」だ。
G検定・DS検定では機械学習の種類・代表アルゴリズム・適用場面・評価指標の理解が問われる。 実装コードは不要だが「どの問題にどのアルゴリズムを使うべきか」の判断力が試される。
機械学習の3種類
教師あり学習(Supervised Learning)
正解ラベル付きのデータを使って学習する方法だ。 「入力→正解」のペアを大量に与え、未知の入力に対して正解を予測できるようにする。
| タスク | 説明 | 代表例 |
|---|---|---|
| 回帰(Regression) | 連続した数値を予測する | 住宅価格予測・売上予測・気温予測 |
| 分類(Classification) | カテゴリを分類する | スパムメール判定・画像分類・疾病診断 |
主なアルゴリズム:
- 線形回帰:入力と出力の線形関係を学習する
- ロジスティック回帰:分類問題に使う。名前に「回帰」とあるが分類に使う点に注意
- 決定木:条件分岐のツリー構造で分類・回帰を行う
- ランダムフォレスト:複数の決定木の多数決で精度を向上させる
- SVM(サポートベクターマシン):データ間の境界線を最大化する
教師なし学習(Unsupervised Learning)
正解ラベルなしのデータからパターンを発見する方法だ。 データの中に潜む構造・グループ・特徴を自動的に発見する。
| タスク | 説明 | 代表例 |
|---|---|---|
| クラスタリング | 似たデータをグループに分ける | 顧客セグメンテーション・文書分類 |
| 次元削減 | 多次元のデータを低次元に圧縮する | データの可視化・特徴抽出 |
| 異常検知 | 通常パターンから外れたデータを検出する | 不正取引検知・設備異常検知 |
主なアルゴリズム:
- k-meansクラスタリング:k個のクラスター中心を繰り返し更新してグループ分け
- PCA(主成分分析):分散が最大になる方向に次元を圧縮する
- オートエンコーダ:入力→圧縮→復元の構造で特徴を学習する(ディープラーニングの一種)
強化学習(Reinforcement Learning)
エージェントが環境と相互作用しながら、報酬を最大化する行動を学習する方法だ。 正解データは与えられず、「試行錯誤で最適な行動方針を学ぶ」。
| 要素 | 説明 |
|---|---|
| エージェント | 学習・行動する主体(例:ゲームのAI・ロボット) |
| 環境 | エージェントが行動する空間 |
| 状態 | 現在の状況の表現 |
| 行動 | エージェントが選択できる操作 |
| 報酬 | 行動の結果として得られる数値的フィードバック |
活用例:
- AlphaGo・AlphaZero(囲碁・将棋AI)
- ロボットの歩行制御
- 自動運転の経路選択
- ChatGPTのRLHF(人間のフィードバックによる強化学習)
機械学習の選択基準
「どのアルゴリズムをいつ使うか」の判断がG検定・DS検定で問われる。
問題の種類で分類する
正解ラベルがある?
├── YES(教師あり学習)
│ ├── 予測したい値が連続値 → 回帰
│ └── 予測したい値がカテゴリ → 分類
└── NO(教師なし学習)
├── グループに分けたい → クラスタリング
└── 次元を減らしたい → 次元削減
試行錯誤で最適行動を学ぶ → 強化学習モデルの評価指標
混同行列(Confusion Matrix)
分類問題の評価に使う基本ツールだ。
| 予測:正 | 予測:負 | |
|---|---|---|
| 実際:正 | TP(真陽性) | FN(偽陰性) |
| 実際:負 | FP(偽陽性) | TN(真陰性) |
主要な評価指標
| 指標 | 計算式 | 重視する場面 |
|---|---|---|
| 精度(Accuracy) | (TP+TN)/(全体) | クラスが均等に分布している場合 |
| 適合率(Precision) | TP/(TP+FP) | 偽陽性を減らしたい(スパム誤判定を減らす等) |
| 再現率(Recall) | TP/(TP+FN) | 偽陰性を減らしたい(疾病の見逃しを防ぐ等) |
| F1スコア | 2×Precision×Recall/(P+R) | 適合率と再現率のバランスを取りたい |
精度だけでは評価できない場合がある。 例えば99%が健常者のデータで「全員健常者」と予測すると精度99%になるが、疾病を1例も発見できない。再現率が0%というのが実態だ。
回帰の評価指標
| 指標 | 内容 |
|---|---|
| RMSE(平均二乗誤差の平方根) | 予測値と実測値の差の大きさ。単位が元データと同じで解釈しやすい |
| MAE(平均絶対誤差) | 差の絶対値の平均。外れ値の影響を受けにくい |
| R²(決定係数) | 0〜1の値。1に近いほどモデルがデータを説明できている |
過学習・汎化性能・クロスバリデーション
汎化性能とは
訓練データだけでなく、未知のデータに対しても高い精度を示す能力だ。 過学習(訓練データへの過度な適合)を防ぎ、汎化性能を高めることが機械学習の核心的な課題だ。
クロスバリデーション(交差検証)
データを複数のブロックに分割し、順番に検証データとして使いながら学習と評価を繰り返す手法だ。 データが少ない場合でも、汎化性能を安定して評価できる。
AI活用プロンプト
アルゴリズムの使い分けを練習する
G検定・DS検定の機械学習で、アルゴリズムの選択を練習したいです。
以下の5つのビジネス課題に対して「どの機械学習アルゴリズムを使うか」
を答えてください。答えと理由も教えてください:
1. 過去3年間の月次売上データから翌月の売上を予測したい
2. 顧客10万人を購買行動の類似度でグループ分けしたい
3. 受信メールがスパムかどうかを自動判定したい
4. 工場の振動センサーデータから設備の異常を検出したい
5. 囲碁AIが最善手を学習したい
各課題について: 使うべき手法・アルゴリズム名・その理由を説明してください。まとめ
機械学習の3種類で押さえる核心:
教師あり学習=正解ラベルあり、回帰か分類か——問題の種類で使うアルゴリズムが変わる。
教師なし学習=ラベルなし、グループか圧縮か——k-means・PCAの目的を説明できれば試験で対応できる。
強化学習=試行錯誤で報酬最大化——ゲームAI・RLHF(ChatGPT等)が実例として使える。
評価指標は精度だけじゃない——医療診断なら再現率、スパムフィルタなら適合率、という使い分けの根拠を説明できる状態にする。
