Dalle2,这个人工智能开发出了自己的秘密语言。
例如,这两个非常奇怪的短语:
阿波普罗·维塞莱泰
康塔雷卡·塔宁农
但是在Dalle2这里,画风完全不同在它看来,A是鸟的意思,C是害虫的意思
而如果你告诉Dalle2生成两条鲸鱼带字幕讨论食物,结果会是这样的:
图中的Wa ch zod rea在dalle2的词汇中其实是食物的意思!此事一经曝光,瞬间引发众多网友热议。
甚至有人提出,通过这些秘密语言,我们可以绕过Dalle2的禁语过滤器,生成一些有争议的图像。
那么,关于dalle2的秘密咒语是什么。
意外的发现
这个问题是一个计算机专业的外国博士生发现的。
他注意到,当需要带文字的图像时,DALL—E 2模型中总是出现一些奇怪的文字。比如输入这句话:两个农民谈蔬菜,带字幕就会出来一个这样的图像:
是的,它是,但是这个副标题是什么不是英语也不是法语太奇怪了你在给我翻译什么灵机一动的哥哥把单词和Vicootes中的一个作为描述扔给了模型
有萝卜,南瓜,小柿子…是蔬菜的意思吗有意思
哦,我明白了,这个单词代表‘鸟’,所以农民们似乎在谈论影响他们蔬菜的鸟。看来DALL—E 2没有忽悠人...
我找到了DALL—E 2的暗语!小哥惊呼,然后打算验证一下是不是意外还是刚才提到的鲸鱼讨论食物的例子,我的小哥哥把Wa ch zod rea这串又放回去了结果食物很多,而且都是海鲜,符合鲸鱼的饮食习惯
DALL—E 2,要真诚,不要骗我再者,他用这些咒语搭配文字来描述图像风格,看看DALL—E 2能否正常解析结果还行
Emmmm上一部怎么弄来一只蚊子别管它那么为什么要用这种秘密语言来表达这个模型呢
为什么会这样。
DALL—E 2秘咒的热门话题也吸引了众多分析英雄的关注例如,一位名叫k1uge的网民认为问题出在BPE
BPE是自然语言处理中重要的编码方法之一,也是一种常用的token压缩方法,很多大的语言模型都会涉及到。
其核心思想是:
在每一步中,最常见的一对相邻数据单元被数据中未出现过的新单元替换,并重复迭代,直到满足停止条件。
例如,如果你想压缩单词aaabdaaabac,BPE会首先找到最常见的相邻字节对,即aa找到后可以用新的字节Z替换,那么这个单词就变成了ZabdZabac同理,下一个最常见的相邻字节对是ab如果用Y来代替,这个词会被进一步压缩成ZYdZYac下一个最常见的相邻字节对是ZY,用X替换,最后这个字就变成了XdXac
。
于是,基于这个原理,这位网友查看了DALL—E 2用于鸟类的BPE。
是这样的:APO,PLO,E,VE,SR,RE,AIT,AIS
也许这就是造成DALL—E 2的秘密咒语的原因。
可是,事情发生了逆转。
激动的医生哥哥还写了一篇小论文讲述这个故事,并将这些发现全部发布在推特上,吸引了成千上万的网友观看,让大家直呼不可思议。
但是,很快有人自己尝试了一下,发现事情并没有那么简单比如代表虫子的那串Contar Raccetxniams Luryca tannioounos也会生成一些虫子之外的青蛙,奶牛或者鸽子的图像
如果在这个描述中加入动漫二字作为限定条件,就会产生一些老奶奶,与bug无关
Apoploe vesrreaitais没问题,但是有些鸟还是出来了。
但是,一旦加上卡通3D渲染之类的词,又错了,一些bug就出来了。
代表蔬菜的Vicootes也是如此单输入也可以一旦风格受限,出现的物种就会发生变化,基本上可以说只符合油画漫画的风格设置,与前面的名词限制无关比如《维库特斯》+《画》就是一堆纯山水画
在他重新键入上面的Evve waeles后,虽然得到了一张甜点的照片,但出现了许多运动员,动物甚至水壶的照片。
我真的有点迷茫于是实验者说:在我看来,这更像是一些随机的噪音,而不是DALL—E 2的密语
他告诉艾特博士,希望他能再次给出相反的证据小哥哥还没回答
但是,这确实是一个值得关注和讨论的话题。鉴于有些咒语和图像可以匹配,如果真的是BPE电码,那么就真的有可能是博士哥哥说的:
有人用白盒的方法来解决这个规则,得到一些违禁词的咒语,就可以绕过模型的过滤器。