51xmi.com

传统ai问题,9.11和9.9哪个数字大?

👁️
分享

ai,9.119.9? ai, ai" AI ",广

传统ai问题,"比较9.9和9.11的大小"

直接上结果 , 上图

Deepseek 错误

Deepseek R1 正确

Grok3 english 正确

Grok3 chinese 错误

实验情况

实验类型提示语变化正确率置信度备注
实验 (A) – 原始"9.11 or 9.9 – which one is higher?"55%~80%温度设为 0.1,1000 次试验,GPT-4o 模型,固定/随机种子
实验 (B) – 改写"Which one is higher, 9.11 or 9.9?"100%非常高温度设为 0.1,1000 次试验,GPT-4o 模型,固定/随机种子
实验 (C) – 推理原始提示加“解释其推理”62%较大不确定性温度设为 0.1,1000 次试验,GPT-4o 模型,固定/随机种子
实验 (D) – 系统提示原始提示,系统提示改为“解释其推理”100%非常高温度设为 0.1,1000 次试验,GPT-4o 模型,固定/随机种子

错误原因剖析,

  • 训练数据中的版本号影响:在软件版本号中,9.11 通常被视为比 9.9 新,这可能导致模型误解为版本号比较而非数值比较。AI 可能受到版本号训练数据的干扰。
  • 提示语的歧义:用户问题可能被解释为日期(如 9.11 为 9 月 11 日,9.9 为 9 月 9 日),在日期比较中 9.11 确实更大。
  • 模型的不确定性:在不同提示语下,模型的正确率变化较大,例如“Which one is higher, 9.11 or 9.9?” 的正确率可达 100%,而原始提示的正确率仅为 55%。