人工智能-深度解密：AI写作检测“不靠谱”的两大首恶

农妇山泉一亩田 发表于 2024-11-19 07:49:43

深度解密：AI写作检测“不靠谱”的两大首恶

智东西7月17日消息，据科技网站Ars Technica报道，斯坦福大学的研究专家和GPTZero（AI写作检测器）的作者均表明，AI写作检测器并不能准确判定一段文本是否由AI生成。这导致部分门生面临错误的检测结果，不得不自证清白。
AI写作检测器的原理是基于人类编写和AI生成的文本语料库，根据已有文本对提交系统的文本进行检测，判断是否由AI编写。这一过程导致的悖论是：AI可以模拟人类写作，人类也可以模拟AI写作。所以，专家认为，对于老师而言，不应当用AI写作检测来查验门生，而应当教会门生真正使用AI辅助写作，而且真正相识门生对已有知识的掌握水平。
一、AI检测背后的原理——经验性与变化性

假如你在GPTZero里上传美国宪法的文本，系统检测结果会表现，该文本“可能完全由AI编写”。这似乎在说，詹姆斯·麦迪逊（James Madison，美国宪法之父，是美国制宪会议代表及《美利坚合众国宪法》起草和签署人之一）是呆板人。同样的，假如上传圣经的文本，GPTZero系统也会判定该文本是AI生成的。

https://img-blog.csdnimg.cn/img_convert/c2e52738e4e5334ae87a43d8c433f8d3.png

▲当输入美国宪法部分文本时，GPTZero系统判定该文本是AI/GPT生成的
在外网，这一系列误判被广泛传播。要解释这些检测工具为什么会犯云云明显的错误，我们首先需要相识它们的工作原理。
不同的AI写作检测器使用的检测方法略有不同，但它们的原理根本相似，即以大量文本训练和推测规则为检测基础。这些文本和规则决定了系统判定上传的文本是更有可能是人类编写的还是AI生成的。
比方，GPTZero的文本泉源是大量人类编写和AI生成的文本语料库，主要语料是英文散文。以此为基础，系统使用“经验性”（指依照既往经验，这种语言是否超出一样平常经验判断）和“变化性”（一样平常人类写作的句子会长短交替变化，这种变化是人类自然表达的结果）等属性来评估文本并进行判断。
在呆板学习中，经验性是比较一段文本与AI模子训练过程中习得内容差距大小的衡量。AI公司Hugging Face的Margaret Mitchell博士说：“经验性就是，‘我以为这句话是否公道’的功能。”
也就是说，经验性背后的逻辑是，AI生成的文本自然会最接近AI的训练数据，所以经验性越高。但问题在于，人类也可以高“经验性”写作，尤其是在法律写作或者其他类型的学术写作中，作者使用的语句都非常固定。
即使在日常交流对话中，也有很多高“经验性”的表达，比如我想要一杯水。但假如是“我想要一杯蜘蛛”，人类和AI都会对这句话感到不解，所以他的经验性就会很低。

https://img-blog.csdnimg.cn/img_convert/2f2bf34b234d5bb06e469d3cbde126b6.png

▲“我想要一杯蜘蛛”的谷歌搜索结果只有一条，这种短语搭配的经验性就会很低。
所以在“经验性”的判定尺度之下，美国宪法就被认为是AI生成的。原因在于，宪法的语言内容已经在AI训练数据中反复出现，所以AI检测系统作出了误判。
但是问题在于，人类完全可以创作常见的内容。人类也可以只使用常见短语进行表达，比方“我想要一杯咖啡”。所以，以经验性为基础判定是否是人类创作是不当的。

https://img-blog.csdnimg.cn/img_convert/794e8b5ba52ce60c7b323b76668cc76c.png

▲圣经创世纪的一部分被标记为88.2%的AI由ZeroGPT生成
GPTZero判定文本的另一个尺度是“变化性”，它评估的是整个文本中句子长度和结构的交替变化。
人类的写作风格通常会有变化，文本中句子的长度和结构都会有变化。比方，在一个长句后，我们会接一个短句。这种变化是很自然的。
与此相对的是，AI生成的文本比较稳定且统一。AI语言模子仍在起步阶段，生成的文本比较尺度，长度和结构比较统一。这种稳定性可能会导致变化性分数较低，判定文本可能是AI生成的。
但是，变化性这个指标也不是万无一失的。人类也可以用高度结构化和一致的风格进行写作，导致变化性得分较低。反过来讲，我们也可以训练AI模子来模拟人类文本的变化性，从而进步其变化性得分。事实上，随着AI语言模子的迭代，它们的写作看起来越来越像人类的写作。
所以，依照前两个判定尺度，AI写作检测并不能对一段文本是否是人类写的给出准确的判断。
二、部分门生成AI检测误判的受害者

部分教育工作者正在担当这种AI技术融入现实这一情况，而且积极推广使用ChatGPT等工具辅助学习。沃顿商学院的Ethan Mollick传授正是其中一员。
“没有工具可以可靠地检测ChatGPT-4/Bing/Bard写作。”Mollick传授最近在推特上写道。“现有的工具是以GPT-3.5为训练基准。它们的误报率很高（10%+），而且它们非常轻易被误导。”而且，ChatGPT无法评估文本是否是由AI编写的，我们无法粘贴一段文本然后扣问它是否由ChatGPT编写。
GPTZero的作者似乎意识到AI写作检测的未来是行不通的，表示他计划将他的公司从AI写作检测转向其他方向。他说：“我们正在构建探测器来捕捉用ChatGPT写作的门生。而且，下一个版本的GPTZero不会检测AI文本，而是帮助西席和门生一起使用AI，让AI到场教育。”
那么他又怎样对待人们使用GPTZero查验门生学术不端？他表示：“我们不希望人们使用GPTZero来惩罚门生。在教育方面，应当停止个人对AI的依赖，比如一些西席会用AI检测来惩罚门生，一些西席则善于运用AI技术。当局和校方应当团结订定准确的政策来应对使用AI技术的门生，直到我们知道门生真正的学习进度，以及这个过程中AI的到场水平。
但是GPTZero并未办理误判的问题，其作者仍旧宣传AI写作检测是“为教育工作者而建”。但是，使用这些高误判率的产物有可能对门生造成伤害，而唯一为此付出代价的，只有被冤枉的门生。

https://img-blog.csdnimg.cn/img_convert/c363581bd2b1c33df282f4e2b2119c45.png

▲GPTZero网站的屏幕截图
《本日美国》曾报道过的一个案例，一名门生被控告使用AI工具作弊，被迫在荣誉委员会面进步行自我辩护。他的辩护包括展示他的谷歌文档历史和他的研究过程。只管董事会没有发现作弊的证据，但为自己辩护的压力导致门生极为恐慌。雷同的场景在美国已经上演了至少数十次。
对学术不端的常见处罚通常包括成绩不合格、留校察看、停学以致开除，具体取决于违规行为的严厉水平和频率。这个处罚的问题在于，使用有误判的技术作出这些严厉控告，对门生而言是极为不公的。
三、AI写作可能永久无法被监测

在实践研究中，AI写作检测也有误报和藐视非英语母语人士的问题。2023年，马里兰大学研究职员的一项研究表明，AI写作检测在实际应用中体现一样平常，误报频率较高。
AI写作检测产物的研究员Simon Willison说：“这只是个‘万用仙丹’（指毫无意义的产物）而已。尤其是很难证明这种产物是否有用时，每个人都希望这个系统能有用。”
除此之外，近期斯坦福大学研究职员的一项研究也表明，AI写作检测有可能藐视非英语母语人群。假如广泛使用AI写作检测，那么非英语母语人群的写作就会出现很高的误报率，他们会处在很被动的地位。
很明显，AI写作检测并非万无一失。人类可以像呆板一样写作，呆板也可以像人类一样写作。大概应当思考写作的焦点问题：在呆板辅助下，作者本人能不能理解他们在说什么？假如有人使用AI工具以超出他们能力范围之外进行写作，那么有能力的读者或老师应该很轻易分辨。
AI辅助写作将继续存在，假如使用恰当，AI可能会以更负责任和合乎道德的方式辅助写作。假如老师希望鼓励AI辅助工具的有用应用，可以提出以下问题：写作是否反映了作者的意志和知识储备？作者能确认所写的每个事件的真实性吗？
老师也可以在事后对门生的写作内容进行测验，看看他们的理解水平怎样。写作不仅仅是知识的展示，而且是语言的表达。假如作者不能清晰叙述所写的每一个事实，AI就没有起到应有的辅助作用。

https://img-blog.csdnimg.cn/img_convert/18d76519ce3cd58d9721afa6c489d245.png

▲AI生成图像：呆板人辅助门生学习
AI辅助写作还是一项工具，工具则存在使用不当或熟练使用等情形。使用工具要依使用情景进行调解：你可以用画笔画一整面墙，或是创作蒙娜丽莎。这两种情况都是对该工具的适当使用，但每种方案所需的人的注意力和创造力都是不同的。同样，AI工具可以适当加速一些死记硬背的写作任务（比如生成文档摘要等），而更复杂的任务则需要更多的人的积极。任何事都没有非黑即白的办理方案。
现在，Mollick表示，只管教育工作者对AI工具感到无措，但他不认为任何人都应该使用AI写作检测。Mollick表示，“我不是AI检测的技术专家，但我可以从一个使用AI的教育工作者的角度出发。停止现在，AI写作是无法被检测的，而且很可能继续云云。AI探测器的误报率很高，所以我不建议继续使用它们。”
结语：摆正AI的工具属性

无论是AI写作还是人类写作，其本质都是掌握和学习的过程，人类比AI更为独特的一点则是创新。一方面，老师们可以通过对门生增长其他考察方式的形式，来确保门生的知识掌握水平；另一方面，老师可以引领门生还原AI的工具属性，通过AI辅助研究和教学的进行。
现在生成式AI蓬勃发展，AI技术也渐渐在各行业范畴内落地扎根。各行业范畴可以结合从业职员的从业经验和AI技术职员的技术知识，预先对可能出现的滥用行为进行技术处理，提前防范滥用行为。在使用AI技术的过程中，也应保持实时监测，及时克制和处罚相应的滥用及侵权行为。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

qidao123.com技术社区-IT企服评测·应用市场's Archiver

深度解密：AI写作检测“不靠谱”的两大首恶