传统ai问题,9.11和9.9哪个数字大?
传统ai问题,9.11和9.9哪个数字大? 不要盲目相信ai, ai下面的小字都有提示"内容由 AI 生成,请仔细甄别",就是广告等下面的小字一样
传统ai问题,"比较9.9和9.11的大小"
直接上结果 , 上图
Deepseek 错误

Deepseek R1 正确

Grok3 english 正确

Grok3 chinese 错误

实验情况
实验类型 | 提示语变化 | 正确率 | 置信度 | 备注 |
实验 (A) – 原始 | "9.11 or 9.9 – which one is higher?" | 55% | ~80% | 温度设为 0.1,1000 次试验,GPT-4o 模型,固定/随机种子 |
实验 (B) – 改写 | "Which one is higher, 9.11 or 9.9?" | 100% | 非常高 | 温度设为 0.1,1000 次试验,GPT-4o 模型,固定/随机种子 |
实验 (C) – 推理 | 原始提示加“解释其推理” | 62% | 较大不确定性 | 温度设为 0.1,1000 次试验,GPT-4o 模型,固定/随机种子 |
实验 (D) – 系统提示 | 原始提示,系统提示改为“解释其推理” | 100% | 非常高 | 温度设为 0.1,1000 次试验,GPT-4o 模型,固定/随机种子 |