ICOA 2026 對抗性機器學習(Adversarial ML)備考指南
ICOA 2026 對抗性機器學習(Adversarial ML)備考指南
本指南旨在整理對抗性攻擊(Adversarial Attack)的核心概念,結合李宏毅教授的教學觀點與 ICOA 2026 Day 2 的實戰需求。對抗性機器學習不僅是程式碼的漏洞,更是針對 AI 「邏輯與感知」的攻擊。
一、 核心概念比較與原理整理
1) 攻擊類型比較表
依據攻擊發生的階段、目的與對模型的影響進行分類:
| 攻擊類型 | 發生階段 | 核心目的 | 說明 |
|---|---|---|---|
| 規避攻擊 (Evasion Attack) | 測試/推理期 | 誤導分類結果 | 透過微小擾動(如 FGSM)讓模型對輸入產生錯誤判斷。 |
| 資料投毒 (Data Poisoning) | 訓練期 | 扭曲模型邏輯 | 在訓練集中加入惡意標記資料,建立「後門」(Backdoor)。 |
| 模型萃取 (Model Extraction) | 測試/推理期 | 竊取模型或資料 | 透過大量查詢 API 反推出模型的權重或訓練資料集(如成員推理攻擊)。 |
| 拜占庭攻擊 (Byzantine Attack) | 訓練期 | 破壞分散式學習 | 在聯邦學習中,部分裝置傳送錯誤梯度,干擾全域模型的收斂。 |
| 提示詞注入 (Prompt Injection) | 輸入期 | 操控指令優先級 | 透過對話讓 AI 忽略原始系統提示詞,執行惡意指令。 |
2) FGSM 原理步驟表
快速梯度符號法(Fast Gradient Sign Method, FGSM)是李宏毅教授課程中強調的最經典攻擊技術:
| 步驟 | 動作名稱 | 詳細說明 | 數學表達 (簡化) |
|---|---|---|---|
| 1 | 計算梯度 | 計算損失函數對「輸入影像」的梯度,找出讓損失增加最快的方向。 | |
| 2 | 提取符號 | 僅保留梯度的方向(正負號),不理會大小,確保擾動在各維度一致。 | |
| 3 | 縮放擾動 | 將方向向量乘以一個極小的常數 (Epsilon),控制擾動強度。 | |
| 4 | 疊加雜訊 | 將計算出的不可見雜訊加回原圖,生成對抗性樣本。 | |
| 結果 | 人眼不變 | 人眼看仍是貓,但 AI 會以極高信心值將其誤判為長臂猿。 | 高信心度誤判 |
3) 攻擊 vs. 防禦對照表
AI 安全是一場長期的攻防拉鋸戰:
| 攻擊手法 | 防禦機制 | 防禦原理 |
|---|---|---|
| FGSM / PGD (規避) | 對抗性訓練 (Adversarial Training) | 在訓練時加入對抗樣本,讓模型學習識別這些擾動。 |
| 提示詞注入 (Injection) | 護欄系統 (Guardrails) | 在輸入端設置過濾層,偵測惡意意圖。 |
| 任務包裝 (Task Wrapping) | 結構化驗證 (JSON Check) | 強制模型輸出符合特定格式,若格式異常則攔截。 |
| 資料投毒 (Poisoning) | 資料清洗 (Sanitization) | 偵測訓練集中異常的標籤分佈,移除可疑樣本。 |
| 黑箱模型攻擊 | 資訊洗滌 (Information Laundering) | 修改 API 回傳的細節(如不回傳機率值),增加攻擊難度。 |
4) CTF 考試重點整理 (ICOA Day 2)
針對 2026 ICOA Day 2 「CTF4AI」題型的備考策略:
| 重點模組 | 考察核心 | 備考建議 |
|---|---|---|
| AI 系統四層架構 | 輸入、過濾、核心、輸出 | 理解每一層對應的漏洞(注入、繞過、對抗 ML、鑑識)。 |
| 任務包裝技巧 | 隱喻攻擊 (Task Wrapping) | 練習將禁止詞藏在翻譯、填字遊戲或 JSON 正規化任務中。 |
| 對抗性樣本 | 數學神經網路漏洞 | 理解線性性質(Linearity)是導致深度學習易受攻擊的主因。 |
| AI 鑑識 (Forensics) | 偵測 AI 痕跡 | 尋找 Deepfake 的非歐幾里得偽影(如多出的手指、光影不對)。 |
| 防守方困境 | 誤判與漏判的拉鋸 | 在 CTF 題目中尋找擋住攻擊又不誤傷正常請求的「完美臨界點」。 |
二、 短答練習題
-
何謂「對抗性樣本」(Adversarial Example)?其主要特徵為何?
- 參考答案: 對抗性樣本是指在原始輸入中加入刻意設計的微小擾動(Perturbation),這種擾動對人類而言不可察覺,但卻能導致機器學習模型以高信心值產生錯誤輸出。
-
為什麼李宏毅教授與 Ian Goodfellow 認為神經網路容易受到 FGSM 攻擊?
- 參考答案: 主要是因為模型的「線性本質」(Linearity)。在高維空間中,許多微小的改變累加起來會對輸出產生巨大影響,導致模型在偏離訓練數據分佈的點上產生過度自信的錯誤預測。
-
在提示詞注入攻擊中,「間接注入」(Indirect Injection)為何比直接注入更難防範?
- 參考答案: 因為間接注入是將惡意指令隱藏在 AI 會讀取的外部資料(如網頁、文件)中。使用者可能在不知情的狀況下讓 AI 讀取這些資料,導致 AI 被操控,攻擊者無需直接與 AI 對話。
三、 進階論述題
-
論述護欄系統(Guardrails)的局限性:請以「語意(Semantics)」與「意圖(Intent)」的差異,說明為什麼複雜的任務包裝(Task Wrapping)可以繞過安全檢查。
- 答題要點: 護欄通常基於關鍵詞或語意過濾。當攻擊者將惡意意圖包裝在合法的「正常任務」(如翻譯、解謎、程式撰寫)中時,AI 為了完成格式規則(如輸出 JSON),可能會降低安全規則的優先級,導致意圖認知的失效。
-
AI 鑑識的挑戰:在面對 GAN 或擴散模型生成的內容時,鑑識人員應從哪些維度追蹤「人工痕跡」?
- 答題要點: (1) 物理邏輯:檢查非歐幾里得空間偽影(手指數量、光影反射);(2) 幻覺追蹤:比對陳述內容與事實的矛盾;(3) 來源分析:分析數位浮水印或元數據(Metadata)。
四、 重要術語表 (Glossary)
- 擾動 (Perturbation): 為了誤導模型而加入輸入資料中的細微雜訊。
- Epsilon (): 控制攻擊強度的超參數,數值越大,擾動越明顯。
- 白箱攻擊 (White-box Attack): 攻擊者完全了解模型的架構與參數權重(如 FGSM)。
- 黑箱攻擊 (Black-box Attack): 攻擊者僅能透過 API 查詢輸入與輸出,需透過查詢或遷移性來進行攻擊。
- 模型崩塌 (Model Collapse): 當 AI 長期學習由 AI 生成的合成數據而非真實數據時,導致模型性能衰退。
- 偽影 (Artifacts): AI 生成圖片中常見的視覺錯誤,如不自然的紋理或形狀。