AI大模型:智能手机真的要拥有智能了?-AI大模型:智能手机真的要拥有智能了?

AID:
CID:
视频图片:
作者头像:
弹幕地址:
视频描述:

热门回复:

  • EmilyLG:刚好听了一个课,里面有对这些国内大模型和GPT比较的解释,节选如下: 除了那个说“与GPT-4相比毫不逊色”的那家厂商只是文字上的宣传之外,其他几个国产大模型在标榜自己的同时至少都展示了一些证据。 而且,这些证据都很类似,就是针对目前中文大语言模型AI的三大测试集上,它们都表现亮眼。 这三个测试集分别是C-Eval、MMLU、AGIEval。 第一个是清华大学、上海交大和爱丁堡大学合作开发的针对中文语言的综合性能测试。 第二个是学术界经常使用的大规模多任务语言理解测试集。 第三个是微软的华人团队开发的考察AI类人能力的测试,包括高考、法学入学考试、数学竞赛和律师资格考试的一些内容。 说得更通俗一些,这些测试集本身都是开卷的。如果一个开发者做的模型把在这些测试集上的表现当作重要考量目标,那只要足够长的训练后,就一定可以得到很好的成绩。但与此同时,和这些训练集内容无关的问题,回答质量就不如人意。 开发者当然要全面考量模型的表现,不会弄成在训练集上满分、在日常会话上完全智障的样子,但开发者往往又面临着各种领导的指标性考核,所以不得不去为了考试成绩做优化。这就是它们并没有实力和GPT3.5或者4竞争的原因。 过拟合的问题在很多企业管理者下指示,“一定要超越谁谁谁”的时候特别容易出现。 比如前几年,在自动驾驶技术还远达不到今天水平的时候,就有一些公司号称可以做到在真实复杂路况下实现完全的自动驾驶,还录了道路实测的视频。那个水平看起来真是很厉害,超过当时世界顶尖水平。 一个3年前都还没有涉足自动驾驶领域的公司,怎么突然就能做到世界顶尖呢? 其实就是过拟合,就是在今后要展示效果的路段上做无数次训练,配以高精度的立体地图,把马路牙子的高度、红绿灯读秒的规律、花草树木垃圾桶的位置、车道线的细节全都标注好,然后反复训练。最后就能达到测试路段的完美表现。但要是让这辆车去5公里外的其他一片地跑跑,那分分钟就出事故了。 现在国产大模型这个问题有多严重呢? 国内最早着手大模型研究的团队智源研究院的总工程师林咏华这么评价过:到现在确实没有一个被公认的测评集,但至少C-Eval、MMLU以及CMMLU,这几个类似的测试集已经有点被各个模型过度训练。 所以,时至今日,观察大模型能力时,我建议大家不用过度关注这几个测试集的评分。
  • 怪盗普朗克:这ai林亦白毛还挺好看[星星眼]
  • 寒冰豆豆:新人找挺快
  • 千代甜桃:隐私换便利其实我是愿意的,因为反正也藏不住,不如格局打开,直接享受!比如我在百度看病的同时。淘宝就可以给我推送骨灰盒。让我一步到位。
  • 洛陽城裏見秋風:卡梅隆拍终结者(1.1984)的时候或许不会想到,在短短不到40年的时间里,人人有“天网”、人人用“天网”、人人皆“天网。