ChatGPT 参数规模被扒:只有 7B

https://www.ithome.com/0/756/240.htm

具体来说,南加大团队三位作者破解出了未公布的 gpt-3.5-turbo 嵌入向量维度(embedding size)为 4096 或 4608。

而几乎所有已知的开源大模型如 Llama 和 Mistral,嵌入向量维度 4096 的时候都是约 7B 参数规模。
其它比例的话,就会造成网络过宽或过窄,已被证明对模型性能不利。

因此南加大团队指出,可以推测 gpt-3.5-turbo 的参数规模也在 7B 左右,除非是 MoE 架构可能不同。
 
 
Back to Top