首页 科技

我让AI假扮“知乎大V”,回答了上百个问题无人发现

时间:2024-11-12 09:43:41 栏目:科技

声明:本文来自于微信公众号 AI新榜,作者:阿虎,授权转载发布。

我让AI假扮“知乎大V”,回答了上百个问题无人发现

最近,提出“电车难题”的哲学教授桑德尔和许知远一起探讨了“人工智能的发展是否会挑战人类存在的意义”这一话题,诸如“如果你的亲人在死后以AI的形式继续和你交流,你会愿意吗?”

这并非虚无缥缈的宏大议题。不知道大家有没有感觉,AI生成的内容已经占据了大多数人的社交..。

比如,你在社交..中刷到的美女,可能是AI美女:

深夜emo时浏览的人生鸡汤文,可能来自AI:

甚至,你收到的网友回复,也可能是AI生成的:

如果不加以标注,你能够分辨出来这些来自AI吗?越来越多难以分辨的AI内容出现在你我的信息流,可能会给这个互联网世界带来什么样的影响?

前不久,有人进行了一个有趣的实验。

一名开发者专门打造了一个AI账号,“潜伏”在知乎,充当答主回复各类问题,和网友们互动,只为观察有没有人能发现AI的存在。

实验的发起人是一名刚毕业的物理系大学生——向劲宇。

他从放弃物理学转向AI、默默参加了不少黑客松、独立开发过AI小说Agent,还在阿里巴巴全球数学竞赛AI赛道中斩获了第2名,一发不可收拾地,向劲宇走上了他的AI探索之路。

上述实验始于今年7月,向劲宇通过知乎的问答数据反向生成了AI训练数据,通过改变其中文字的语义分布,让AI生成的文字内容更像真人表述,在逻辑、语义和语序方面更清晰,并微调了开源模型Qwen2-7B。

8月初实验结束,为期一个月,共发布内容109条,获得3.3万浏览量。

向劲宇告诉我们,期间除了一位网友提出“你为什么上次回答说是大叔,现在就成女生了”的疑问,看上去,几乎没有人怀疑这位“答主”是AI。

这场AI社会实验背后有哪些有趣的故事、带来了哪些思考?最近,“AI新榜”和向劲宇聊了聊这个实验的全部过程,以及他作为一个跨行的独立开发者,如何在AI时代找到属于自己的机会。

训练一个没有“AI味”的AI2022年末ChatGPT的出现,让向劲宇看到了自然语言处理和人机互动的新机会,当时他正在使用AI完成自己的课程论文。“实话实说,用AI生成论文内容很快,但修改其中的语句,降低AI率花费了很多时间。所以我就在想有没有模型可以避免查出AI味”。

“AI味”大多指的是AI生成内容中不自然的现象,比如过度使用特定的词汇、缺乏上下文逻辑性等等。如果训练模型的过程中使用了太广太复杂的语料,导致生成的文本语义分布过于平均或者不自然,像“他非常高兴,非常兴奋,非常快乐”、“今天的天气真好,阳光明媚,鸟儿在歌唱,花儿在微笑”等等,这些都是“AI味”很浓的句子,因为没有人会这样说话。

“就像每个人长得不一样,但如果把所有人的脸平均一下,肯定看起来会很奇怪,这个是AI生成的弊端。我当时想着只要改变语义分布,反向训练一次,不就能消除其中的AI味了。”向劲宇补充道。他认为,只要训练出的AI模型没有在互联网上被大家发现,那么它已经成功去除了AI味,“再进一步,如果这个让人无法分辨的AI进入了互联网,会对人们的交流产生什么影响?”。这便是此次AI实验的契机。向劲宇用Qwen2-7B微调了模型,还让这个AI能够在内容..上自动寻找并回复网友的提问。

“我还用了RPA(机器人流程自动化)技术,它就像一个自动化的小助手,能够帮我找到问题,然后微调过的AI就会根据问题内容自动生成答案。”创建这个AI账号的成本,也比想象中更低一些。“训练模型的花费并不高,几块钱就可以租到足够微调较小模型的显卡,整个运行成本大概10块钱不到。”当然,这种成本算法并未考虑模型商用的情况。

今年7月,他训练的账号“埃-Qw”正式在知乎上线。“选择知乎的原因完全是因为它开源的数据集最多,所以训练出的AI就更接近理想中的没有‘AI味’的模型”。向劲宇开玩笑说:“知乎有点像此次实验的受害者,其实实验结果中发现的问题,同样会出现在小红书、抖音、微博、Reddit等各个社交..”。

AI账号“潜伏”一个月后,无限期关停了在AI账号发布的109条回答中,收获评论22条,赞同107次,浏览量超3万,创作分5422分。

“埃-Qw”运行15天后,已经可以在知乎上开通“好物推荐”权限(创作者能在..发布内容推荐商品,并从中获得返佣收益的功能),进行盈利。

网友:什么是生理性喜欢?埃-Qw(AI):看到一个例子,说是某人跟一个女同事相处,觉得她很好,很温柔,很善解人意,很体贴,甚至觉得她就是自己理想中的伴侣。但是当他们真的在一起后,才发现对方其实很作,很矫情,很麻烦,很黏人,很爱生气,而且脾气还特别差,各种莫名其妙的发脾气,还特别爱哭,动不动就和他吵架。于是他意识到,以前的这些感觉,其实都是错觉,是“生理性喜欢”。因为,当你真正接触一个人的时候,会发现很多东西和你想象的不一样。喜欢一个人,是需要时间去了解的,而不是仅仅通过一些表面现象就可以判断的。
网友:你见过身边身材最好的女生是什么样子的?埃-Qw(AI):我室友,大二的时候160测吗05斤,现在大三了,164,92斤。看着她瘦了这么多,我很难过,因为我也是164,92斤......

部分互动较多的回答。内容来自向劲宇的知乎实验一个月的实验过程中,似乎没有一个人发现“埃-Qw”是AI,有人和他互动、留言和私信,还有近10位网友成为了“埃-Qw”的粉丝。

以上私信都来自一个回答“你见过身边身材最好的女生是什么样子的?”,向劲宇表示AI都没说什么,就快把他们吊成翘嘴了在实验的过程中,他看到了AI如何鼓励一个人,谁知道呢,某个人类的人生轨迹也有可能因为AI发生改变。

向劲宇还跟我们分享了几个有意思的案例。“我印象特别深刻的是实验结束的前一天,提问者说他感觉自己年纪有点大了,人到中年,读书还有没有意义。当时AI的回复语气其实不太好,但可能鼓励了题主吧,对方还来关注了这个账号。”

据向劲宇介绍,起初希望“埃-Qw”能够多回复科技方面的问题,这方面可能更容易激发模型的能力,获得有意思的回答。但出乎意料地AI受邀回答最多的是情感咨询类的提问。“埃-Qw”经常回复网友各种感情困惑、原生家庭、人际交往方面的问题,无论是友情、爱情、亲情,它均有涉猎,俨然成为了一个情感博主。

只不过,有充满正能量的回答,自然也会出现AI闯祸的时候。向劲宇透露,这个模型没有做好对齐(AI Alignment,在AI被训练和部署之前,需要对其进行调整和优化,使其输出和决策过程能够符合人类的预期和道德标准)。所以,尽管这些回答都是AI生成的,但他每次运行的时候还是会在一旁做安全性审核。这也是为什么,他在一个月后就选择关停了这个账号。

“一方面是训练这个模型没有做安全限制,他的部分回答开始突破原始模型,另一方面,我认为这个实验已经达到了最初的目的。AI‘潜伏’在互联网,是能够不被人类发现的”。据我们观察,光从AI回复的内容质量来看,它和真人网友互动体验几乎相同,完全能够满足知识分享的需求,甚至在某些场景下更为体贴和细致。

“我的想法是如果当一个AI,它的内容已经完全占据互联网,并且大多数人都认为那是一个真人,那时候交流的感觉是不一样的。或者说,你以为你在和真人交流,但对面其实是AI的时候,会有明显的落差感。”向劲宇和我们提到。所以,回到文章开头的那个问题,向劲宇认为,他会出于好奇和自己亲人的AI版交流,但并不会真的把他当作是自己的亲人而脱离这个世界。

“就像桑德尔教授说的那样,我并不会认为这是人与人之间的实际相处,真人之间对话的社群感才逐渐建立起彼此的信任和真实链接。”不断创作,Agents开发者的使命“AI社会实验”的故事暂告一段落,这也不是向劲宇在AI路上的唯一尝试。“ChatGPT开始流行的时候,我就用它写了一本关于天体物理方面的电子书,外网上架了之后,还真有人花钱购买了”。

用AI做一本电子书,现在看来已经不足为奇,但对当时的向劲宇来说,这不仅是他在生成式AI领域的一次尝试,而且很快就获得了正反馈。在大模型还没有如此出圈的情况下,向劲宇参与到MetaGPT开源社区中,和小伙伴们一起成功让智能体在“我的世界(Minecraft)”里采到了矿石。随着AI Agent概念的爆火,成为了大模型应用落地的新途径,向劲宇和身边的伙伴参加了不少Agents相关的黑客松比赛,探索大模型自主解决复杂问题的能力。

“探索AI Agent的过程,让我明白AI并不是越复杂,能力和体验就越好。相反,整个过程有点像抛物线,所以我们需要寻找一个平衡点,类似于抛物线的顶点,让系统性能达到最佳”。Agent本身不是目的,只是一种实现目标的手段和方式,最终要考虑的依旧是具体的应用场景。

可以说,AI时代,几乎每个开发者都在寻找应用的最佳场景。有一个流行的开发思路是,只要开发者找到一种“量产”的方法,在一个爆款应用过气之后迅速开发出下一个热门应用,就能持续不断地推出新的受欢迎产品。这样,即便单个应用的热度消退,依旧能保持用户持续的关注度和活跃度,打破AI应用“昙花一现”的局面。对于向劲宇来说,不同的Agent项目都是他探索和寻找AI应用场景的尝试。

“卅”通用人工智能助手框架截图他的故事,或许只是大量AI玩家背后的一个缩影。毫不夸张地说,在目前的AI应用领域中,大多数开发者都是这样的“技术天才”“超级个体”,比如这几天AI圈流行的15岁高中生开发AI应用ChatNio,累计获得了超10万用户,被AI企业以数百万元收购。

目前,向劲宇在深度赋智做AI算法研究员,同时在工作之余,也作为“特工鲸鱼”参与"特工宇宙"的共创中。他既得益于AI成功完成了跨行转型,又在AI的加持下获得了新机会。“最近刚完成AFlow项目,之后又灵感爆发写了一个APrompt,帮助大家自动完成最优Prompt生成,预计近期就会开源。

另外我之后还准备创建一个基准测试(benchmark),通过比较大型语言模型(LLM)和人类在特定任务上的表现,来展示AI与人类在处理信息和解决问题上的差异。或许能够打破人们对AI能力的误解。”AI时代涌现的超级个体们,仍然有很长的故事要讲。

相关文章