我们使用五种提示策略和两套智能编码系统对五个前沿模型进行了测试。性能最佳的模型整体准确率仅为3.8%,而在等效的Python任务上准确率约为90%。所有模型在高于简单难度的问题上得分均为0%,Whitespace语言在所有测试配置下都未被攻克(准确率0%),并且自我反思机制几乎未带来任何提升。这些结果表明,模型在主流语言基准测试中的表现与其真实的编程能力存在巨大差距,暗示当前大语言模型的代码生成能力远比表面指标所显示的要有限。
Fullscreen image
,推荐阅读搜狗输入法获取更多信息
Вячеслав Агапов,这一点在Line下载中也有详细论述
The website you are visiting is protected.