一款名为“扫地僧”(MopMonk)的神秘AI在权威网络安全基准测试平台CyberGym上,以73.1%的胜率位列全球第七、中国第一,成绩紧追OpenAI。该测试基于超过1500个真实历史漏洞,要求AI在隔离环境中通过多轮推理和工具调用,生成能触发漏洞的有效攻击代码,难度极高。 “扫地僧”未公开团队信息,仅知其基于上海MiniMax公司的开源模型M3构建。M3拥有出色的编程能力、超长上下文理解和多模态处理能力。其成功关键在于一套专为漏洞挖掘设计的智能体框架,核心是结构化的“漏洞记忆”系统:它将任务过程中的代码路径、失败证据、下一步约束等信息有序组织并持续更新,使AI能基于历史经验高效调整策略,避免重复试错。同时,系统支持多智能体并行探索并共享记忆,提升了搜索效率。 这一成绩表明,在复杂任务中,将强大基座模型与精心设计的智能体执行框架深度结合,比单纯追求模型参数规模更为重要。其技术路径展示了如何通过工程优化,将模型的理论能力转化为实际解决问题的能力。
marsbit13小时前




