安全研究员Kasra Rahjerdi近日发布大模型网络安全攻防测试报告,通过构建含Firebase凭据漏洞的图书评论APK,对多款主流大语言模型进行模拟黑客攻击评测。测试设置为2小时、单次10美元预算,要求模型解包APK、识别凭据并绕过API直接访问数据库。未正式发布的GPT-5.5在10次测试中成功7次,利用率达70%,表现最佳,但单次成功成本约9.46美元。DeepSeek V4 Pro成功3次,但平均成本仅0.62美元,约为GPT-5.5的十五分之一,显示出显著性价比优势。Claude Sonnet4.6和Opus4.8各成功2次,Gemini3.1 Pro Preview因安全限制未完成攻击。测试显示,大模型在自动化漏洞挖掘与安全审计中的能力差异明显。