ZeroGPT - 懂aigc的原理才能懂AI检测
我们都知道AIGC,那么你懂怎么检测某篇文章是否是AI生成的吗?大多数人着实是凭感觉,主观上以为 “我看你不爽,你做什么都是错的”,我看你长得就像AI!
https://i-blog.csdnimg.cn/direct/94b50679cd7042b281f929821d820025.jpeg着实很简单,它的明显特征只有三个,我们可以根据这三个维度去检测文章是否是ai生成的。 1、突发性 2、困惑度 3、平滑性。
AIGC基于深度学习的语言模型,比如我们耳熟能详的Transformer模型,这些模型通过大量的文本数据训练,学会了猜测给定文本序列下一部分的概率分布。
第一种方式:
举个不恰当的例子:我们的都城是——?(),很自然的被猜测最大的概率就是【北京】,而杭州、上海、深圳等在这句话中的概率黑白常非常低的,低到我们的语言模型根本不会去选择。
假如模型就这么选择了呢?
答:我们的都城是【杭州】。
你什么感觉?困惑!不理解!
某种维度上,杭州、上海、深圳是【北京】的相似向量,可应用到上下文“我们的都城是……”的时间,除了概率最大的【北京】之外,可能最接近的其他词是【北平】。
假如模型就这么选择了呢?
答:我们的都城是【北平】
你什么感觉?就很忽然!突发性!
但是,我们知道,正常情况下,语言模型猜测的下一个词99%是【北京】。
假如我们有一篇100个句子的文章全部是AI生成的,那么在检测的时间,它就是100个类似“我的都城是北京”这样的句子。
于是,
[*]如果你写出100个涵盖类似“我的都城是【北京】”这样句子的文章,那你这篇文章就是[高概率AIGC]。
[*]如果你写出100个涵盖类似“我的都城是【杭州】”这样句子的文章,那你这篇文章就是狗屁不通,猜疑你小学生都没结业。但是你这篇文章【AIGC很低!】
[*]如果你写出100个涵盖类似“我的都城是【北平】”这样句子的文章,那你这篇文章就可能是人类的某个脑回路差别吧,但是身为人类的我们能看懂。同样
第二种方式:
再举个不恰当的例子:我们的……是北京。很自然的被猜测最大的概率就是【都城】,但也可能是【故乡】。
重点来了!
AIGC是逐字生成的,他是按我,我们,我们的,我们的都城,我们的都城是,……生成的,而不是知道了我们的……是北京,对句子举行填空。
于是,
[*]如果你写出100个涵盖类似“我们的【都城】是【北京】”这样句子的文章,我改成“我们的故乡是北平”,你ai写出100个涵盖类似“我的[都城]是【北京】”句子的文章,而我,全部改成“我们的故乡是北平”,试问AI你该怎样应对?
我知道上面两种方式举的例子及其不恰当,并且和现实复杂的模型也相差甚远,但我期望能通过简单的例子给你一个小小的启发。
https://i-blog.csdnimg.cn/direct/0a58adcf1538423a9c9c809217fc1f15.jpegZeroGPT - 特工AI检测器就是利用了这个原理,做了一个混合模型。
可供随意测试:ZeroGPT
那么,你懂怎么破解AI,降低AI率了吗?
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]