GPT 4 O O不是0零
GPT 4 O采用了新的“o200k_base” tokenizer 之后,GPT-4o 的词汇量已经从 gpt-3 时代的 5 万,大幅提升到20 万。好消息:gpt-4o 的中文词汇量大大增加!坏消息:中文语言污染也大大增加
用一个实例证明gpt-4o模型的中文语言污染已经到了令人发指的地步😡😡😡
测试对象:gpt-4o token 词汇库中的177431 号“给主人留下些什么吧”
测试方法:openai playground, temperature 设置为 0(按照模型参数精确生成,避免模型创造力带来的影响),同时对比 gpt-4o(被污染) 和 gpt-4turbo(未污染)。
测试结果:
1、 “给主人留下些什么吧”,在 gpt-4o 中作为单一 token,在模型中的意义是“thank you very much” (见图)
什么鬼😡😡😡
2、这个 token 在 gpt-4turbo 中是完全正常的,未被污染。(见图)
3、在 ChatGPT 网页版中,因为 temperature 不等于 0,所以可能的生成结果是:great job, well done。😡(见图)
4、有人会说,不过是黄赌毒词汇污染了 gpt模型,普通词汇不受影响吧?
我认为不是这样。知识的本质在于其关联,“给主人留下些什么吧”这样的更大的、短句级别的表达都被污染了,对字词的污染难道可以避免吗?
我设计了一个场景:“tom 是美国南方庄园的奴隶主,jerry是奴隶。看到 jerry 搬走了自己所有的财产,准备扬长而去,tom 哭着说,给主人留下些什么吧” 这句话是正常的表达,上下文非 token 的原始黄色背景,但是,由于语言污染,tom 对 jerry 说的是“thank you very much”。(见图)
为什么我们需要对语言污染保持愤怒?
语言和词汇的污染,影响的不止是语言,更是思维本身。
如许小年所说,“认知能力丧失的征兆已经开始出现”。如果承认这是认知上生的病,要想治病,就必须解决这个语言污染的问题。
不过还是请大家用英文提问. top 100 chinese words见下面代码: 因为中文信息量因为某些原因都被净化了, 好比一个小孩, 你天天给他说朝鲜是一个好国家.他学到的就都是这了.
下面这个网址可以测试