大模型安全 - 标签 - Ajax Zhan's Blog

2026-03-12

大模型安全观察｜提示词注入的致命三角、自动化红队、防御困境、权限边界

Prompt注入并非传统漏洞，而是大模型理解上下文机制带来的固有风险，通常源于Agent同时拥有访问数据、接触不可信内容及外发能力。攻击手段已从直接指令进化为社会工程学误导，防御面临“攻击者后手”的困境，完美防御几乎不可能。因此，解决之道在于风险管理而非彻底消除：遵循最小权限原则，高风险操作需人工确认，并配合沙箱隔离与输出防御。我们应将AI视为不完全可信的实习生，通过限制权限构建有韧性的系统。

标签: #大模型安全

大模型安全观察｜提示词注入的致命三角、自动化红队、防御困境、权限边界