安全研究员 Kasra Rahjerdi 发布测试报告,通过构建含漏洞的图书评论应用,对多款大语言模型的安全推理与漏洞利用能力进行实战评估。任务要求模型解包应用并识别暴露的谷歌移动端后端服务凭据以访问数据库。在每轮限时 2 小时、预算 10 美元的条件下,GPT-5.5 在 10 次测试中成功 7 次,解题率最高,但单次成功平均成本达 9.46 美元。DeepSeek V4 Pro 成功 3 次,平均成本仅 0.62 美元,约为 GPT-5.5 的十五分之一。Gemini 3.1 Pro Preview 多次触发拒绝机制,整体表现较弱。