标签:而是在此基础上进行了多项参数优化和结构调整。具体包括:增加专家数量以提升模型效果;减少注意力头数量以节省计算资源;仅在第一层使用dense结构