大模型网络安全攻防实测：GPT-5.5利用率居首，DeepSeek V4 Pro性价比领先

安全研究员Kasra Rahjerdi近日发布大模型网络安全攻防测试报告，通过构建含Firebase凭据漏洞的图书评论APK，对多款主流大语言模型进行模拟黑客攻击评测。测试设置为2小时、单次10美元预算，要求模型解包APK、识别凭据并绕过API直接访问数据库。未正式发布的GPT-5.5在10次测试中成功7次，利用率达70%，表现最佳，但单次成功成本约9.46美元。DeepSeek V4 Pro成功3次，但平均成本仅0.62美元，约为GPT-5.5的十五分之一，显示出显著性价比优势。Claude Sonnet4.6和Opus4.8各成功2次，Gemini3.1 Pro Preview因安全限制未完成攻击。测试显示，大模型在自动化漏洞挖掘与安全审计中的能力差异明显。

大模型网络安全攻防实测：GPT-5.5利用率居首，DeepSeek V4 Pro性价比领先

发表回复