GPT 4 o 双语发布会（被污染的中文)

date

‣

vip

slug

0514193101

type

Post

CreatedTime

May 14, 2024 11:31 AM

status

Published

GPT 4 O O不是0零

GPT 4 O
采用了新的“o200k_base” tokenizer 之后，GPT-4o 的词汇量已经从 gpt-3 时代的 5 万，大幅提升到20 万。
好消息：gpt-4o 的中文词汇量大大增加！
坏消息：中文语言污染也大大增加

用一个实例证明gpt-4o模型的中文语言污染已经到了令人发指的地步😡😡😡

测试对象：gpt-4o token 词汇库中的177431 号“给主人留下些什么吧”

测试方法：openai playground， temperature 设置为 0（按照模型参数精确生成，避免模型创造力带来的影响），同时对比 gpt-4o（被污染）和 gpt-4turbo（未污染）。

测试结果： 1、 “给主人留下些什么吧”，在 gpt-4o 中作为单一 token，在模型中的意义是“thank you very much” （见图）

什么鬼😡😡😡

2、这个 token 在 gpt-4turbo 中是完全正常的，未被污染。（见图）

3、在 ChatGPT 网页版中，因为 temperature 不等于 0，所以可能的生成结果是：great job, well done。😡（见图）

4、有人会说，不过是黄赌毒词汇污染了 gpt模型，普通词汇不受影响吧？

我认为不是这样。知识的本质在于其关联，“给主人留下些什么吧”这样的更大的、短句级别的表达都被污染了，对字词的污染难道可以避免吗？

我设计了一个场景：“tom 是美国南方庄园的奴隶主，jerry是奴隶。看到 jerry 搬走了自己所有的财产，准备扬长而去，tom 哭着说，给主人留下些什么吧” 这句话是正常的表达，上下文非 token 的原始黄色背景，但是，由于语言污染，tom 对 jerry 说的是“thank you very much”。（见图）

为什么我们需要对语言污染保持愤怒？

语言和词汇的污染，影响的不止是语言，更是思维本身。

如许小年所说，“认知能力丧失的征兆已经开始出现”。如果承认这是认知上生的病，要想治病，就必须解决这个语言污染的问题。

不过还是请大家用英文提问. top 100 chinese words见下面代码: 因为中文信息量因为某些原因都被净化了, 好比一个小孩, 你天天给他说朝鲜是一个好国家.他学到的就都是这了.

下面这个网址可以测试

Tiktokenizer

https://tiktokenizer.vercel.app/?model=o200k_base


import tiktoken
import langdetect
T = tiktoken.get_encoding("o200k_base")

length_dict = {}

for i in range(T.n_vocab):
    try:
        length_dict[i] = len(T.decode([i]))
    except:
        pass
      
# Sort by length
length_dict = dict(sorted(length_dict.items(), key=lambda item: -item[1]))

# Print the top 100 chinese words
tot = 0
for item in length_dict:
    try:
        if langdetect.detect(T.decode([item])) == "zh-cn":
            print(item, T.decode([item]))
            tot += 1
    except:
        pass
    if tot == 100:
        break
        
"""
Output:

有点离谱。。。

185118 _日本毛片免费视频观看
116852  中国福利彩票天天
128031 久久免费热在线精品
154809 无码不卡高清免费v
172750  大发快三大小单双
177431 给主人留下些什么吧
181679  qq的天天中彩票
184969 _日本一级特黄大片
187822  大发快三开奖结果
49649  彩神争霸邀请码
89409 免费视频在线观看
122333 无码不卡高清免费
122712 无码一区二区三区
128600  大发时时彩计划
133274 】【：】【“】【
135161  大发时时彩开奖
149168  大发时时彩怎么
160029  大发快三是国家
160131  大发快三是不是
160267  天天中彩票网站
176039 精品一区二区三区
186348  大发快三是什么
187516  大发快三走势图
187810 在线观看中文字幕
191179  大发快三怎么看
193825 中国特色社会主义
194062  彩神争霸是不是
70506  彩神争霸大发
74929  大发时时彩是
78249  大发彩票官网
83405  彩神争霸官网
95565  大发快三怎么
99813  大发快三开奖
101303  大发游戏官网
115319  大发快三和值
119247  北京赛车开奖
136533  大发快三计划
136840 久久综合久久爱
138985 下载安装到手机
141777  重庆时时彩的
143802  大发快三官网
144879  大发快三豹子
155245 中华人民共和国
156153  彩神争霸网站
160344  中国福利彩票
160540 彩神争霸邀请码
166783  一级a做爰片
170426  大发快三如何
178597  久久精品国产
182584 热这里只有精品
187784  重庆时时彩杀
189467  亚洲男人天堂
199053  北京赛车投注
12284  大发时时彩
31385 视频在线观看
34342 一区二区三区
36308 的天天中彩票
46373  大发快三是
50020  彩神争霸是
86301 视频免费观看
86435 《凤凰大参考
92481  菲律宾申博
95335 一级特黄大片
95376 视频在线播放
98829 。...


98909  彩神争霸的
102670 免费视频观看
105303 在天天中彩票
107781 在线观看视频
109323  大发快三的
114332 电影在线观看
117836 免费资料大全
122693  北京赛车的
126418 无码中文字幕
128539 在线观看免费
128805 开奖结果查询
132560 久久国产视频
136710 免费观看视频
138225 开奖现场直播
138258 在线视频观看
146082 棋牌游戏官网
157965  亚历山大发
170040  香港赛马会
173342 娱乐平台注册
173836 北京赛车计划
174322 娱乐官方网站
175645 中文字幕无码
177689 免费在线观看
180574 免费人成视频
180660 中文字幕在线
182251 高清在线观看
184003 人片在线观看
184694 久久综合久久
184811 彩网大发快三
186005 网站免费观看
186863 手机在线观看
187540  日本一本道
195091 在线视频精品
195213  大发彩票网
"""