· theory · 9 min read
ディープラーニング基礎理論|ニューラルネット・活性化関数・バックプロパゲーションをG検定向けに解説
G検定(JDLA)の核心テーマ、ディープラーニングの基礎理論を解説。ニューラルネットワークの構造・活性化関数の種類・バックプロパゲーションの意味・過学習対策まで、数式最小限で直感的に理解する。

ディープラーニングは「多層のニューラルネットワークを使って、データからパターンを自動的に学習する技術」だ。
G検定(JDLA)ではその動作原理の概念的な理解が問われる。 実装コードを書く必要はないが「何がどう動いているか」の直感的な理解がなければ、参照可の試験でも時間切れになる。
ニューラルネットワークとは何か
生物の神経回路の模倣
ニューラルネットワークは、人間の脳の神経細胞(ニューロン)の接続構造を模した数学的モデルだ。
入力層 → 中間層(隠れ層)× N → 出力層- 入力層:データを受け取る(例:画像なら各ピクセルの値)
- 中間層(隠れ層):パターンを抽出する。層が深いほど複雑な特徴を学習できる
- 出力層:予測結果を出す(例:「猫:90%」「犬:10%」)
「ディープ」ラーニングとは「中間層が多層(deep)である」ことを指す。
重みとバイアス
各ニューロン間の接続には重み(weight)という数値が設定されている。 学習とは「訓練データに対して正しい出力を出すように、重みの値を調整すること」だ。
重みが大きいほど、そのニューロンからの信号が強く伝わる。
活性化関数
活性化関数は、ニューロンが受け取った信号を「どう次の層に伝えるか」を決める変換関数だ。 活性化関数がないと、いくら層を重ねても線形変換にしかならない。
代表的な活性化関数
| 関数名 | 特徴 | 主な用途 |
|---|---|---|
| sigmoid | 出力を0〜1に圧縮。確率の表現に適している | 二値分類の出力層 |
| tanh | 出力を-1〜1に圧縮。0中心で学習が安定 | 中間層(古い手法) |
| ReLU | 0以下を0、正の値はそのまま出力。計算が速く勾配消失問題を軽減 | 中間層の主流 |
| softmax | 複数クラスの確率を合計1で出力する | 多値分類の出力層 |
現在の中間層ではReLUが主流だ。理由は計算コストが低く、後述する勾配消失問題が起きにくいためだ。
バックプロパゲーション(誤差逆伝播法)
学習の流れ
ニューラルネットワークの学習は「予測→誤差計算→重み修正」の繰り返しだ。
1. 順伝播:入力データを前向きに流し、予測値を出す
2. 誤差計算:予測値と正解の差(損失)を計算する
3. 逆伝播:誤差を後ろ向きに伝播させて、各重みの修正量を計算する
4. 重みの更新:勾配降下法で重みを更新する「バックプロパゲーション(逆伝播)」は、ステップ3の「誤差を後ろ向きに伝える計算」のことだ。 微分の連鎖律(チェーンルール)を使って効率的に計算する。
勾配降下法
損失を最小にするための重みの更新方法が勾配降下法だ。 「山の頂上から谷(損失の最小値)を目指して、勾配(傾き)の向きに少しずつ降りる」イメージだ。
更新する量を決める係数が学習率だ。大きすぎると収束せず、小さすぎると学習が遅くなる。
勾配消失問題
深いネットワークでは、誤差を逆伝播させる際に勾配が指数関数的に小さくなり、入力層に近い層がほとんど学習できなくなる問題が起きる。これを勾配消失問題という。
対策
| 対策 | 説明 |
|---|---|
| ReLUの使用 | sigmoid/tanhから置き換えるだけで大幅に改善 |
| バッチ正規化 | 各層の入力を正規化して勾配を安定させる |
| 残差接続(ResNet) | 入力をそのまま後の層に足し込む「スキップ接続」で深層化を可能に |
過学習と正則化
過学習(オーバーフィッティング)とは
訓練データに対しては高い精度を示すが、未知のデータに対しては精度が低い状態だ。 「テスト勉強の問題を完全に丸暗記したが、模試で見たことのない問題に答えられない」状態に近い。
過学習の対策
| 手法 | 内容 |
|---|---|
| Dropout | 学習中にランダムにニューロンを無効化する。過度な依存を防ぐ |
| L1/L2正則化 | 重みが大きくなりすぎないようにペナルティを加える |
| データ拡張 | 画像なら回転・反転・トリミングで訓練データを増やす |
| Early Stopping | 検証データの誤差が増加し始めたら学習を止める |
代表的なネットワーク構造
CNN(畳み込みニューラルネットワーク)
画像認識に特化した構造だ。 畳み込み層(Convolution)でエッジや模様などの局所的な特徴を抽出し、プーリング層で情報を圧縮する。
画像分類・物体検出・顔認識などに広く使われている。
RNN(再帰型ニューラルネットワーク)
時系列データ・テキストを扱うための構造だ。 前の時刻の出力を次の時刻の入力に使うことで「文脈」を保持できる。
自然言語処理の初期モデルや音声認識に使われたが、現在はTransformerに取って代わられている。
Transformer
自然言語処理の現在の主流だ。 Self-Attentionという機構で文中の単語間の関係を並列に計算できる。 ChatGPT・Gemini・Claude等の大規模言語モデル(LLM)の基盤技術だ。
AI活用プロンプト
ディープラーニングの全体像を自分の言葉で確認する
G検定に向けてディープラーニングの理解を確認したいです。
私が理解した内容を説明するので、論理的な誤りや不足点を指摘してください:
「ディープラーニングとは、多層のニューラルネットワークを使って、
入力データから出力を予測するモデルを訓練する技術です。
学習は順伝播で予測を出し、その誤差をバックプロパゲーションで
逆向きに伝えて重みを更新することで行われます」
この説明の正確さを評価し、G検定で問われる重要な補足があれば追加してください。まとめ
G検定のディープラーニング理論で押さえるべき核心:
ニューラルネットワークは「重みを調整することで学習する」——重みが何かを理解すれば、「学習」の意味が分かる。
活性化関数はReLUが中間層の主流、softmaxが多値分類の出力層——なぜReLUが主流かを説明できる状態にする。
バックプロパゲーションは「誤差を後ろに伝えて重みを修正する手順」——実装の詳細より「何のための手順か」を理解する。
過学習の対策はDropout・正則化・Early Stopping——各手法が「なぜ過学習を防ぐか」を説明できれば試験で対応できる。
