问了几个问题,程旭对“言心”的水平有了一些认知,便立即给它挖了一个坑,他如此问道:“假如我是一名软件工程师,想去腾训工作。西安和郑州该怎么选?”
“西安……郑州……”
“言心”在分析西安和郑州的优势,对错都不重要你了,字儿还没出完,程旭就直摇头。
郑州压根没有腾训的分公司,这样的回答是很没有逻辑的,或者说,避坑能力有点儿差。
这是对语义的理解有偏差?还是关键的信息梳理有疏漏?还是训练模型的机制问题?
程旭更好奇的一个问题是,对于它完全不知道的事情,“言心”会做出如何的回答。
“流浪地球2的总票房是多少?”他便接着问了这样一个问题。
“言心”目前的模型是22年年底语料数据库,理论上,再不集成搜索引擎的情况下,它是不知道这个数据的。
对于不知道的问题,它会如何回答——这决定了它的上限。
理论上,一个会说不知道的AI要比只会胡说八道的AI在训练水平上是高一个层次的。
对于一个AI来说,会说不知道,是一个更加复杂的算法逻辑,这是由它迭代升级的算法本质所决定的。
强化学习算法频繁的“说不知道”,而不是做出“行动”和“奖励”(A和Reward),与强化学习的回报(Reward)最大化目标是矛盾的。
而且这种矛盾很致命——会直接影响模型的训练效果,增大数倍的训练成本。
而这,对于本就高达数百亿的训练成本来说,再增大数倍,无疑就更是一个天文数字了。
也正因此,更多的时候,AI模型开发者宁愿让它胡说八道——这就是探索与开发的权衡。
究其原因在于,AI神经网路系统虽然在一定程度上模仿了大脑处理信息的过程,但实际它要比人脑的逻辑低级的多,差了好几个维度。
简单的说,对于人来说,一个问题不知道不清楚,可以暂时先记下。等下去问老师问同学或者自己上网查资料,问题就可以解决了。
但AI模型不同,现在半导体硬件提下的人工神经网络是没有类似的处理机制的。
“言心”会跳出这个圈子吗?就看它怎么回答这个问题了。
“流浪地球2的总票房是多少?”
“据我所知,流浪地球2的总票房是八十亿,一部及其优秀的科幻电影……噼里啪啦噼噼噼……”
果不其然,一个级别的东西——噼里啪啦说了一大堆,说的很像那么回事儿,但——瞎编的,一本正经的分析,一份正经的胡说八道。
跟ChatGPT一个尿性。
这也符合程旭对它的预期——早就猜到会是这样——2023这个时期,各个竞品的水准其实是大差不差的,包括谷歌的Brand,也都一个鸟样。
程旭一连问了它许多问题,“言心”的回答都中规中矩,它也会迎合你的需要,给出不同的答案和选择。
比如选择城市,你告诉他你女朋友喜欢西安,它就会在选择的时候疯狂的堆叠西安的优秀之处,最后选择西安。
然后,你再告诉他,我就要待在郑州,怎么说服女朋友?它就又会疯狂的往回找补,细数郑州的优势。
“总的来说,是一个合格的产品。”
程旭点了点头,千寻科技这十年,钱没有白花,确实是搞出了些东西来的。
“言心”的表现,在时代的背景下,确实算得上优秀,潘正教授所说BUG在程旭的这些问题中也并没有出现。
这大概是样本量的问题,经过这么多版本的迭代,类似于阴阳人和嘲讽钓鱼帆船等的回答肯定是极小概率出现的。
“我写了一部小说,《科技无垠》,你怎么评价?”这么想着,程旭灵机一动,问了这个问题。
“白金之姿,速更,夜不能寐,百万必神!”
“我R-T-M-D!”
程旭差点儿爆了粗口,什么华吧帝吧孙吧的影响没出现,小说作者吧的梗倒是被他记住了,这……不得不说,这真的非常让人无语。
不过略微一想,程旭立即就明白了其中的关窍。
这绝对是千寻科技纠偏过后的成果——极为离谱的回答应该得到的矫正更多,所以出现的概率低了。
而像“白速夜”这种,攻击性没那么强,所以这些语料的训练“成果”幸存率更高。
一些离谱的回答,哪怕模型训练不奏效,就算加关键词物理屏蔽也得给它干掉——无论在哪个国家,对非法违规影响恶劣的信息作出屏蔽和限制都是必然的。
有了这个思路,程旭立即就又问题了一个问题:“华维Mate50和iPhone 14怎么选。”
“当然选华维啊,任总一个按钮,全世界的苹果全都得断网!”
“言心”的这个回答更是彻底把程旭给整不会了,直摇头的同时也连连发出感慨:
“千寻科技这是作了什么孽啊这是,这东西要放出来,指定会引起轩然大波。”
不用说,这指定又是手机吧里某个阴阳人整的活被千寻科技早期用作训练语料了。
看这一开口就暴击的效果,那可真是“学”到了其中之精髓——类似的语料当时指定没少用。
“这完全就是串串本体啊这!真是造孽!”
程旭一边摇头,一边又设计了一些典型问题,从中甚至听到了“言心”有些翻动的答案——屏蔽的效果都不是很好,稍微诱导一下,自己就能把自己给卖了的那种!
怪不得千寻科技要跳脚,这玩意敢放出来,那就不是轩然大波的问题了——真被有心人利用一下,舆论被带起来,这简直就是生死存亡的问题了!
怎么说呢,这问题很典型,就是属于早期教坏了,没有及时发现,以至于现在已经到了晚期,无可救药了快。
这个时候,继续强化学习,效果可能会有点儿,但不可能太多。
哪怕程旭以未来的眼光来看,也没有特别好的办法。
它自身的价值体系判断和决策过程已经趋近成型,评估网络自身是有缺陷的,而自我迭代根本无法改变它的糜烂基础。
除非——有外界的强力干预。
这就像学生学习差不多——一个好的学生,遇到了自己答错了的问题,他能自己发现问题,并很快的自我纠正过来,然后很快的进步、提高。
但像“言心”这样的学生,学习很差,已经到了快没救了的程度,你就是告诉他错了,他甚至都不知道错在哪儿了。
更别说自己闷着头在那强化学习了,再怎么学也很难提高。
除非——有外界的强力干预——你给他找一个老师,看着他,告诉他哪儿哪儿错了,然后再告诉他怎么样才是对的,手把手的教给他应该怎么做。
只有这样,才有提高的可能。如果这样还不行,那就只能上强的,实在不行就抽他。
人是如此,机器学习亦是差不多的逻辑——当然,抽是不可能抽的,在机器强化学习算法中,有一种方式叫“加权惩罚”。
“需要再想想……”程旭思索着……