ICOA 2026 對抗性機器學習（Adversarial ML）備考指南

本指南旨在整理對抗性攻擊（Adversarial Attack）的核心概念，結合李宏毅教授的教學觀點與 ICOA 2026 Day 2 的實戰需求。對抗性機器學習不僅是程式碼的漏洞，更是針對 AI 「邏輯與感知」的攻擊。

一、核心概念比較與原理整理

1) 攻擊類型比較表

依據攻擊發生的階段、目的與對模型的影響進行分類：

攻擊類型	發生階段	核心目的	說明
規避攻擊 (Evasion Attack)	測試/推理期	誤導分類結果	透過微小擾動（如 FGSM）讓模型對輸入產生錯誤判斷。
資料投毒 (Data Poisoning)	訓練期	扭曲模型邏輯	在訓練集中加入惡意標記資料，建立「後門」（Backdoor）。
模型萃取 (Model Extraction)	測試/推理期	竊取模型或資料	透過大量查詢 API 反推出模型的權重或訓練資料集（如成員推理攻擊）。
拜占庭攻擊 (Byzantine Attack)	訓練期	破壞分散式學習	在聯邦學習中，部分裝置傳送錯誤梯度，干擾全域模型的收斂。
提示詞注入 (Prompt Injection)	輸入期	操控指令優先級	透過對話讓 AI 忽略原始系統提示詞，執行惡意指令。

2) FGSM 原理步驟表

快速梯度符號法（Fast Gradient Sign Method, FGSM）是李宏毅教授課程中強調的最經典攻擊技術：

步驟	動作名稱	詳細說明	數學表達 (簡化)
1	計算梯度	計算損失函數對「輸入影像」的梯度，找出讓損失增加最快的方向。	$\nabla_x J(\theta, x, y)$
2	提取符號	僅保留梯度的方向（正負號），不理會大小，確保擾動在各維度一致。	$sign(\dots)$
3	縮放擾動	將方向向量乘以一個極小的常數 $\epsilon$ （Epsilon），控制擾動強度。	$\epsilon \cdot sign(\dots)$
4	疊加雜訊	將計算出的不可見雜訊加回原圖，生成對抗性樣本。	$x_{adv} = x + \text{noise}$
結果	人眼不變	人眼看仍是貓，但 AI 會以極高信心值將其誤判為長臂猿。	高信心度誤判

3) 攻擊 vs. 防禦對照表

AI 安全是一場長期的攻防拉鋸戰：

攻擊手法	防禦機制	防禦原理
FGSM / PGD (規避)	對抗性訓練 (Adversarial Training)	在訓練時加入對抗樣本，讓模型學習識別這些擾動。
提示詞注入 (Injection)	護欄系統 (Guardrails)	在輸入端設置過濾層，偵測惡意意圖。
任務包裝 (Task Wrapping)	結構化驗證 (JSON Check)	強制模型輸出符合特定格式，若格式異常則攔截。
資料投毒 (Poisoning)	資料清洗 (Sanitization)	偵測訓練集中異常的標籤分佈，移除可疑樣本。
黑箱模型攻擊	資訊洗滌 (Information Laundering)	修改 API 回傳的細節（如不回傳機率值），增加攻擊難度。

4) CTF 考試重點整理 (ICOA Day 2)

針對 2026 ICOA Day 2 「CTF4AI」題型的備考策略：

重點模組	考察核心	備考建議
AI 系統四層架構	輸入、過濾、核心、輸出	理解每一層對應的漏洞（注入、繞過、對抗 ML、鑑識）。
任務包裝技巧	隱喻攻擊 (Task Wrapping)	練習將禁止詞藏在翻譯、填字遊戲或 JSON 正規化任務中。
對抗性樣本	數學神經網路漏洞	理解線性性質（Linearity）是導致深度學習易受攻擊的主因。
AI 鑑識 (Forensics)	偵測 AI 痕跡	尋找 Deepfake 的非歐幾里得偽影（如多出的手指、光影不對）。
防守方困境	誤判與漏判的拉鋸	在 CTF 題目中尋找擋住攻擊又不誤傷正常請求的「完美臨界點」。

二、短答練習題

何謂「對抗性樣本」（Adversarial Example）？其主要特徵為何？
- 參考答案： 對抗性樣本是指在原始輸入中加入刻意設計的微小擾動（Perturbation），這種擾動對人類而言不可察覺，但卻能導致機器學習模型以高信心值產生錯誤輸出。
為什麼李宏毅教授與 Ian Goodfellow 認為神經網路容易受到 FGSM 攻擊？
- 參考答案： 主要是因為模型的「線性本質」（Linearity）。在高維空間中，許多微小的改變累加起來會對輸出產生巨大影響，導致模型在偏離訓練數據分佈的點上產生過度自信的錯誤預測。
在提示詞注入攻擊中，「間接注入」（Indirect Injection）為何比直接注入更難防範？
- 參考答案： 因為間接注入是將惡意指令隱藏在 AI 會讀取的外部資料（如網頁、文件）中。使用者可能在不知情的狀況下讓 AI 讀取這些資料，導致 AI 被操控，攻擊者無需直接與 AI 對話。

三、進階論述題

論述護欄系統（Guardrails）的局限性：請以「語意（Semantics）」與「意圖（Intent）」的差異，說明為什麼複雜的任務包裝（Task Wrapping）可以繞過安全檢查。
- 答題要點： 護欄通常基於關鍵詞或語意過濾。當攻擊者將惡意意圖包裝在合法的「正常任務」（如翻譯、解謎、程式撰寫）中時，AI 為了完成格式規則（如輸出 JSON），可能會降低安全規則的優先級，導致意圖認知的失效。
AI 鑑識的挑戰：在面對 GAN 或擴散模型生成的內容時，鑑識人員應從哪些維度追蹤「人工痕跡」？
- 答題要點： (1) 物理邏輯：檢查非歐幾里得空間偽影（手指數量、光影反射）；(2) 幻覺追蹤：比對陳述內容與事實的矛盾；(3) 來源分析：分析數位浮水印或元數據（Metadata）。

四、重要術語表 (Glossary)

擾動 (Perturbation)： 為了誤導模型而加入輸入資料中的細微雜訊。
Epsilon ( $\epsilon$ )： 控制攻擊強度的超參數，數值越大，擾動越明顯。
白箱攻擊 (White-box Attack)： 攻擊者完全了解模型的架構與參數權重（如 FGSM）。
黑箱攻擊 (Black-box Attack)： 攻擊者僅能透過 API 查詢輸入與輸出，需透過查詢或遷移性來進行攻擊。
模型崩塌 (Model Collapse)： 當 AI 長期學習由 AI 生成的合成數據而非真實數據時，導致模型性能衰退。
偽影 (Artifacts)： AI 生成圖片中常見的視覺錯誤，如不自然的紋理或形狀。