标签:涵盖从轻量级到超大规模的不同参数配置。其中包括两款混合专家(MoE)架构模型