大模型集体失智:9.11和9.9哪个大,几乎全翻车了

大模型集体失智:9.11和9.9哪个大,几乎全翻车了

近期,一个看似简单的数学问题挑战了众多前沿的人工智能大模型,引发了业界的关注。问题本身并不复杂:9.11和9.9哪个数字更大?然而,在第一财经记者的测试中,即便是先进的AI系统也出现了分歧。在12款接受测试的大模型中,只有阿里通义千问、百度文心一言、Minimax和腾讯元宝给出了正确的答案,剩余八款模型,包括知名的ChatGPT-4o等,则在这个基础数学问题上栽了跟头。

这些出错的大模型大多陷入了比较小数点后数字的误区,误以为9.11大于9.9。即使记者明确指出是在数学的语境下进行比较,类似ChatGPT这样的顶尖大模型也未能避免错误。这揭示了长久以来大模型在处理数学问题上的不足,反映出它们的设计更偏向于文字处理而非数字逻辑。

该现象的起因可追溯至一档综艺节目中的投票率比较,观众对13.8%与13.11%的大小产生争议,进而引发了公众对AI处理此类基本数学问题能力的好奇和测试。测试结果显示,许多AI在面对这类基础数学问题时显得力不从心,尽管它们在复杂的语言任务上表现出色。

探究其背后的原因,专家们指出,生成式语言模型的本质决定了它们更擅长处理基于文本的关联性任务,而非数学所需的逻辑推理和精确计算。语言模型通过学习海量文本数据来预测下一个词,这使得它们在文学创作上能够展现出接近人类的水平,但在需要严谨逻辑和抽象思维的数学领域,却显得力有未逮。此外,数字处理时的分词问题也是导致错误的一个技术因素,现有分词器往往没有针对数学计算进行优化,可能导致数字被错误分割,影响模型的理解。

为改善这一状况,有观点认为,针对性的语料训练能够逐步提升大模型的理科能力,特别是通过构造包含数学问题解决过程的数据集来增强模型的数学推理能力。随着AI技术的发展,未来大模型的训练或将更加注重结构化和专业领域的数据构建,以确保它们能够在需要精确计算和复杂推理的场景中发挥可靠作用,比如金融分析、工业报告解读等领域。这不仅是提高模型准确性的需求,也是推动AI技术在更多高要求场景中实现有效落地的关键。

大模型集体失智:9.11和9.9哪个大,几乎全翻车了。

主题测试文章,只做测试使用。发布者:读懂财经,转转请注明出处:https://www.cnust.com/18/10/4909.html

(0)
读懂财经的头像读懂财经
上一篇 2024 年 7 月 18 日
下一篇 2024 年 7 月 18 日

相关推荐

  • 胡锡进:一直炒股就不可能得老年痴呆

    大V胡锡进今日发文表示“炒股还是挺上瘾的,我觉得,只要我一直炒股,就不可能得老年痴呆。”值得注意的是,老胡最新炒股显示总亏损达到7.9万元。 胡锡进表示“仓内目前又有了一点余钱,我又举起了猎枪,寻找目标,耐心瞄准。我轻易不会再干早上卖出晚上买回的短线操作了,不再投机一两个点的升降,这样的操作掐准了实在太难。一旦看好一个板块和一只股票,就要敢于多攥它一段时间,…

    科技 2024 年 7 月 23 日
    2800
  • 15年来最严重高估?美国一年非农就业人数恐大幅下修百万

    本周三出炉的一项重磅修正可能意味着,美国政府的统计部门严重高估了国内就业人数,就业虚高程度可能是15年来最大。那将令市场担心美联储的降息行动严重滞后,因为劳动力市场并没有之前数据体现的那么有韧性。 美东时间8月21日周三,美国劳工部的劳工统计局(BLS)将公布今年一季度的就业和工资季度普查(QCEW)数据,根据QCEW,今年3月的非农就业人数将作出初步的基准…

    科技 2024 年 8 月 21 日
    1500
  • 哈里斯:将永远确保以色列能够自卫,呼吁尽快达成停火协议

    美国副总统哈里斯于7月25日在当地与以色列总理内塔尼亚胡进行了会面。会晤结束后,哈里斯公开表示,双方进行了坦诚且富有建设性的对话。她重申了美国对于以色列自卫权的坚定支持,并表达了希望冲突各方能尽早实现停火,以促进人质获释及巴勒斯坦民众获得必要援助的愿望。同时,哈里斯明确反对恐怖主义、暴力行为及任何形态的仇恨情绪,呼吁国际社会共同努力,推动地区局势缓和。

    2024 年 7 月 26 日
    2100
  • 多位基金经理实地打卡“萝卜快跑”,下架风波后,相关上市公司仍被看好?

    7月盛夏,“萝卜快跑”自动驾驶汽车火热出圈,再次将智能驾驶带回到市场的聚光灯下。近日,由长城基金经理曲少杰、赵凤飞组成的“长城行业调研团”分别在武汉、深圳两地,以乘客视角尝鲜“萝卜快跑”;永赢基金经理张璐也奔赴武汉体验了智能驾驶。 除了体验“萝卜快跑”,博时、南方、大成、诺德、鹏华、建信、华安、西部利得、泉果等多家公募基金的基金经理还在近日调研了多家“车路云…

    科技 2024 年 7 月 30 日
    4500
  • 外媒:汇丰考虑在全面改革中削减管理层级

    8月28日,据彭博社报道,汇丰控股即将上任的行政总裁艾桥智(Georges Elhedery)考虑压减中层管理层级,效仿花旗和渣打等竞争对手的做法。 艾桥智(Georges Elhedery) 知情人士透露,作为讨论的部分内容,汇丰控股可能会削减全球各地的国家负责人数量。艾桥智下个月上任后,还可能对向他汇报工作的高管和职位进行调整。 知情人士称,艾桥智的考虑…

    科技 2024 年 8 月 28 日
    1400

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信