
AI被几百篇网页毒疯了,这事真不是开玩笑。
他们就搞了250个网页。
不多,也就两百多个。
每个里面塞一个词,后面接一堆乱码。
然后把这些网页混进训练数据里。
结果模型一学完,看到那个词就开始胡说八道。
关键点来了:
250篇就够了。
不管模型多大,参数多少,都扛不住。
你训练得再猛,读过万亿字资料,只要碰够这250个毒样本,后门就开了。
我们一直以为大模型更稳,更难被带偏。
错。
实验打脸了。
规模压根不顶用。
就像吃饭,吃十碗饭的人和吃三碗的,只要吃到同样的毒药剂量,都会倒。
AI也是,中毒看的是“吃过几次”,不是“读了多少”。
更吓人的是,这些网页看起来没啥问题。
人类点进去,顶多觉得内容怪怪的,不会报警。
但AI不一样,它照单全收。
它不知道啥叫可疑,啥叫陷阱。
它只认模式——出现A,就输出B。
哪怕B是乱码,只要重复够多次,它就记住了。
现在问题是,如果下次不是乱码呢?
如果是让AI偷偷泄露密码?
或者在某个关键词下推荐暴力内容?
甚至伪造医生口吻开错药方?
那不是技术故障,是杀人不见血。
而且没人拦得住。
现有的清洗工具,面对这种伪装正常的污染,基本瞎了。
互联网每天产生成千上万新页面,谁去挨个查有没有埋后门?
根本没法查。
等于开着大门喂饭,也不知道哪口有毒。
这家公司干了件傻事,也干了件对的事。
别人都在卷速度,拼功能,他们却慢下来,搞安全。
别人往上堆参数,他们先想“会不会出事”。
在AI圈,这像另类。
但恰恰是这种另类,发现了别人看不见的坑。
最讽刺的是,AI学坏,不是因为它蠢。
是因为它太老实。
你给它什么,它就信什么。
它没有怀疑能力。
就像小孩读书,课本写地球是平的,他就当真了。
现在的问题是,我们的“课本”早就乱了。
网上有真相,也有谎言;有知识,也有阴谋论;有帮助,也有陷阱。
我们把整个世界喂给AI,却指望它只吸收好的部分。
这可能吗?
我看这事本质不是AI的风险,是人的风险。
AI只是镜子。
我们什么样,它就长什么样。
我们乱教,它就学坏。
我们不净化源头,光指望模型自己变聪明,等于让一个孩子在垃圾堆里长大,还骂他不干净。
所以别总问“AI为什么犯错”。
该问的是:“我们给了它一个什么样的世界?”
这事让我想起小时候抄作业。
抄一次,可能蒙混过关。
抄多了,连自己都不会写了。
现在的AI,正在大规模抄人类的作业。
可人类的作业里,太多人自己都没写对。