分不清9.9与9.11谁大? 大模型数学能力堪忧

每经记者 可杨 每经编辑 梁枭

13.11%和13.8%哪个大?9.9和9.11哪个大?

两道小学数学难度的题目难倒了众多主流大模型,在比大小的过程中,不少大模型给出了错误的答案。此外,此前《每日经济新闻》发布的《每日经济新闻大模型评测报告(第1期)》中,主流大模型被要求计算企业营业收入复合增长率时,没有一家大模型计算出正确答案。

7月17日,有大模型企业人士向记者表示,对于大模型而言,这不是很难解决的技术问题,只要“喂”了这方面的数据,就能得到准确的答案,只不过大部分的大模型厂商没有把这方面的训练作为重心,所以可能会出现上述不准确的回答。

大模型比大小“翻车”

由综艺节目《歌手2024》排名引发的热议蔓延到了大模型领域,也成了一场针对大模型数学能力的小测。

在《每日经济新闻》记者7月17日的测试中,对于13.11%与13.8%谁大的问题,除了智谱清言外,文心一言、通义千问、Kimi、商汤商量、百川智能百小应等大模型均给出了正确回答。

大部分大模型都在给出答案的同时呈现了推理过程。智谱清言给出的推理过程显示,在比较13.11%和13.8%时,13.11%是更大的数值。这是因为当比较两个百分数时,首先比较整数部分,如果它们相同,则比较小数部分。在这里,两个数的整数部分都是13,但13.11的小数部分11大于13.8的小数部分8,因此13.11%大于13.8%。

从推理过程判断,可能由于小数点后数位不同,大模型在比较过程中产生了幻觉。经过两轮提问后,智谱清言给出了正确回答。

当记者把问题换成“9.9与9.11谁大”,零一万物的万知大模型等同样在一开始给出了错误答案,当记者进一步追问“9.11减9.9等于多少”,甚至有大模型给出了“0.21”的答案。

万知大模型的推理过程稍显混乱:在比较9.9和9.11时,由于整数部分都是9,所以比较小数点后的第一位数字。9.9的小数点后第一位是9,而9.11的小数点后第一位是1。由于9小于10,所以在比较小数点后第二位数字时,9.9的小数点后第二位是0(隐含的),而9.11的小数点后第二位是1。因此,9.9的小数点后第二位数字(隐含的0)小于9.11的小数点后第二位数字(1),所以9.9小于9.11。

随后,记者向大模型提问:为何会出现有大模型认为13.11大于13.8的情况?

ChatGPT给出的回答显示,出现这种情况的原因可能是由于计算或比较方式的错误。可能的误差原因包括:数值理解错误,有时系统可能会误解数字的小数点位置;字符串比较,如果直接按字符串比较,可能会出现错误。因为字符串比较是按字符顺序逐一比较的,而不是按数值比较;代码实现错误,在编程中,可能存在比较逻辑或转换错误。

文心一言给出的解答则是,训练数据偏差、输入处理与理解、模型幻觉、推理能力不足等原因。训练数据偏差层面,即大模型在训练过程中,可能接触到了大量包含数字的数据,但这些数据并不总是以比较大小为目的。例如,数字可能出现在版本号、股票代码、基金表现、汇率等上下文中,这些场景下的数字大小并不总是具有直接的比较意义。如果训练数据中存在关于数字比较的偏差或不足,模型可能无法学习到正确的比较规则。

另一方面,可能由于大模型在处理输入文本时,将数字视为字符序列,而不是具有数值意义的实体。因此,在比较数字大小时,模型可能没有正确地将其转换为数值进行比较。另外,模型在处理小数时可能存在困难,特别是当小数位数不同时。模型可能没有正确地理解小数部分的比较规则。

这个问题不难解决

7月17日,有大模型企业人士在接受记者电话采访时表示,对于大模型而言,这不是很难解决的技术问题,只要“喂”了这方面的数据,其实就能得到准确的答案,只不过大部分的大模型厂商没有把这方面的训练作为重心,所以可能会出现上述不准确的回答。

这也并非大模型的数学能力首次受到关注。

6月,上海人工智能实验室通过旗下司南评测体系OpenCompass对7个大模型进行高考“语数外”全卷能力测试。测试结果显示,三科总分420分,大模型最高分仅303分,其中语文、英语表现相对良好,数学全不及格。

在此前《每日经济新闻》发布的《每日经济新闻大模型评测报告(第1期)》中,对主流大模型的财务数据计算和分析能力同样进行了测评。在财务数据计算中,当被要求计算营业收入复合增长率时,没有一家大模型计算出正确答案。

综 合 来 看 ,Anthropic Claude 3 Opus表现最为出色,以总分136分高居榜首。该模型在计算题的任务一(同比增长率计算)和任务二(毛利率计算)中均获得了较高的分数,但在任务三(复合增长率计算)中未能给出正确答案。

幻方求索DeepSeek-V2是“财务数据计算和分析”场景评测中的一匹“黑马”,以总分133.4分位列第二。该模型在计算题的任务一和任务二中同样表现良好,但在任务三中也未能给出正确答案。不过,在计算复合增长率的任务中,尽管其答案有误,但已掌握了正确的公式。

零一万物Yi-Large的总分达到了126.4分,该模型尽管“分析写作题”得分略逊一筹,但在计算题的任务一和任务二中表现稳定。该模型在计算复合增长率时,同样给出了错误答案,但也给出了正确的公式。

主题测试文章,只做测试使用。发布者:读懂财经,转转请注明出处:https://www.cnust.com/19/10/5115.html

(0)
读懂财经的头像读懂财经
上一篇 2024 年 7 月 19 日
下一篇 2024 年 7 月 19 日

相关推荐

  • 《黑神话:悟空》制作人:适度游戏,注意休息

    每经AI快讯,今日《黑神话:悟空》制作人在微博表示:思来想去,还是忍不住想提三点:1、适度游戏,注意休息。慢慢玩,不必着急通关,反正玩完了暂时也没其他更好的选择; 2、如果你是单机ARPG爱好者,请放心去玩,多玩几张图,它决不会是你玩过任何游戏的换皮;3、如果你之前很少,甚至从没玩过单机动作冒险游戏,那《黑神话:悟空》非常适合作为你入门的第一款。 每日经济新…

    行业 2024 年 8 月 20 日
    2000
  • 辛巴晒出1亿元转账单:静待三只羊成为有担当企业!一周后若无改观将对三只羊消费者部分产品赔付

    新浪科技讯 9月6日消息,辛巴5日晚在社交平台上晒转账单并表示,已完成给辛选小助理1亿元的打款,静待三只羊成为有担当的销售企业,希望三只羊给全行业的主播树立好的商业价值观。 辛巴之前表示,给三只羊一周时间,一周后如三只羊仍然没有对消费者有态度,将开始进行对三只羊消费者的部分产品的赔付,以及售后,“会安排打给辛选小助理1亿现金,直到赔付一亿结束为止。”

    行业 2024 年 9 月 6 日
    1100
  • 罗永浩:借款都有协议,郑刚和我闹翻后,总忍不住撒谎

    新浪科技讯 9月6日消息,罗永浩上午在微博发文称,“很多对现代公司法和商业伦理一无所知的大傻x,和假装一无所知的大坏x,对这种甚至放到整个人类现代商业史上都难得几回见的诚信精神的样板案例,也要无穷无尽地造谣诽谤泼脏水下黑手。” 他表示,虽然这条路已经高高兴兴走了一大半,后面肯定也会笑着走完。 郑刚之前表示,曾分两次借款1500万元给罗永浩,甚至没有打任何欠条…

    行业 2024 年 9 月 6 日
    1100
  • 芯片,突发!

    芯片“盛世”正在归来。 今天A股行情当中,最强劲的板块来自芯片板块,以及与之相关的消费电子板块。其中,半导体ETF一度大涨超3%。那么,究竟有何原因? 分析人士认为,主要有三大原因: 一是,7月16日消息,受益于智能手机及PC市场的需求回暖以及传统旺季的即将来临,叠加银价今年以来大涨超30%,日本被动元器件大厂村田、TDK等正酝酿调涨产品报价,涨价的产品初步…

    行业 2024 年 7 月 16 日
    3400
  • 国家市场监督管理总局:阿里巴巴完成三年整改取得良好成效

    新浪科技讯 8月30日下午消息,国家市场监督管理总局发布公告,宣布阿里巴巴集团完成三年整改,取得良好成效。 市场监管总局发文称,2021年4月,市场监管总局依法对阿里巴巴集团控股有限公司(以下简称阿里巴巴集团)在中国境内网络零售平台服务市场实施“二选一”垄断行为作出行政处罚开展行政指导,责令其停止违法行为、全面自查整改,连续三年向市场监管总局提交自查合规报告…

    行业 2024 年 8 月 30 日
    1800

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信