up
1
date
‣
vip
slug
0514193101
status
Published
tags
AI
type
Post
summary
GPT 4 o 双语发布会
password
IP
Email
Link
category
Notion
GPT 4 O O不是0零
GPT 4 O采用了新的“o200k_base” tokenizer 之后,GPT-4o 的词汇量已经从 gpt-3 时代的 5 万,大幅提升到20 万。好消息:gpt-4o 的中文词汇量大大增加!坏消息:中文语言污染也大大增加
用一个实例证明gpt-4o模型的中文语言污染已经到了令人发指的地步😡😡😡
测试对象:gpt-4o token 词汇库中的177431 号“给主人留下些什么吧”
测试方法:openai playground, temperature 设置为 0(按照模型参数精确生成,避免模型创造力带来的影响),同时对比 gpt-4o(被污染) 和 gpt-4turbo(未污染)。
测试结果:
1、 “给主人留下些什么吧”,在 gpt-4o 中作为单一 token,在模型中的意义是“thank you very much” (见图)
什么鬼😡😡😡
2、这个 token 在 gpt-4turbo 中是完全正常的,未被污染。(见图)
3、在 ChatGPT 网页版中,因为 temperature 不等于 0,所以可能的生成结果是:great job, well done。😡(见图)
4、有人会说,不过是黄赌毒词汇污染了 gpt模型,普通词汇不受影响吧?
我认为不是这样。知识的本质在于其关联,“给主人留下些什么吧”这样的更大的、短句级别的表达都被污染了,对字词的污染难道可以避免吗?
我设计了一个场景:“tom 是美国南方庄园的奴隶主,jerry是奴隶。看到 jerry 搬走了自己所有的财产,准备扬长而去,tom 哭着说,给主人留下些什么吧” 这句话是正常的表达,上下文非 token 的原始黄色背景,但是,由于语言污染,tom 对 jerry 说的是“thank you very much”。(见图)
为什么我们需要对语言污染保持愤怒?
语言和词汇的污染,影响的不止是语言,更是思维本身。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F3566433a-a75e-4eaf-8068-4da17d0ff217%2F73e2e34e-7cee-4c5a-8938-ac77cbf3ff1c%2FE56F7F78-EF27-4954-BA02-4DA07E73586A.jpeg?table=block&id=ab8502aa-1ea1-4d96-b0a4-281a8ca967fd&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F3566433a-a75e-4eaf-8068-4da17d0ff217%2Ff104e1a7-7f1c-4270-baa2-149768a9b5aa%2F6E455442-68EA-4BBA-886C-982F4B065DA9.jpeg?table=block&id=ce192fdc-be46-46fa-a9e5-0ce4c9cf4411&cache=v2)
如许小年所说,“认知能力丧失的征兆已经开始出现”。如果承认这是认知上生的病,要想治病,就必须解决这个语言污染的问题。
不过还是请大家用英文提问. top 100 chinese words见下面代码: 因为中文信息量因为某些原因都被净化了, 好比一个小孩, 你天天给他说朝鲜是一个好国家.他学到的就都是这了.
下面这个网址可以测试