ReAct 循环:观察(读终端输出或文件内容)→ 推理(对照目标分析当前状态)→ 行动(执行命令或调用工具)。驱动这个循环的是 Hermes-3 模型(基于 Llama 3.1),Nous Research 自家的 Atropos 做了专项微调,重点针对工具调用精度和多步规划——跑长任务不容易迷路。Atropos 不只是训练底层模型用的——框架里还内置了 RL 训练管道。agent 跑任务时产生的工具调用轨迹可以直接导出,拿去当微调数据。换句话说,你用它干活就是在给模型喂数据。记忆在迭代,技能在迭代,连模型本身都可以跟着你的使用习惯收敛。这才是"越用越强"真正指的东西。三层同时运转:agent 执行任务时记忆层在喂上下文,执行完之后技能层在判断要不要把这次的解法提炼成一个可复用文件,执行轨迹则在后台积累成潜在的训练数据。