p; 晚上十二点许临回到酒店。
今晚他没有熬夜,早早就睡觉了。
第二天早上八点半,许临开始工作。
训练人工智能,还需要大量的数据进行投喂,而且不是乱来的。
因为许临要弄两个模型。
第一个是梯度生命模型,这个和深度思考有关系,但更加复杂,里面是好几个重要的神经网络组成。
第二个是强化版的万物生成模型,有了这个模型,除了在万物生成模型的原有基础上去生成图形和视频,甚至还可以在视频里面随机生成特效。
方向就这两个,都是原有基础上进行强化,而且不是简单强化。
许临需要的数据非常多,并且是合适的数据。
不是说随随便便扔一堆乱七八糟的数据进去就可以。
比如梯度生命模型,许临就需要:对常识和世界的认知、逻辑推理和问题解决、自然语言的论证和对话……等等这些数据。
就和人们从小到大接受的教育一样,人在接受了各种各样的教育之后,才会逐渐增强对这个世界的认知,如果没有接受过教育的人,无论是进入学校接受专门的教育还是自己在社会上的自我学习,这些都可以,但如果没有这些经历,那这个人就会是一个弱智,他没法对世界形成一个基本的认知,也不会具备自我思考的能力。
比如,这个小孩如果是由动物养大,新闻上就出现在被狼养大的小孩,他就是狼的习性,人类的一切活动他都不会。
人工智能也同理,许临要喂这些数据给它,让它学习,最终逐渐形成能够思考的人工智能。
也就是类似于给自家的小孩进行教育。
那么,这些专门的数据,从哪里来?
比如对世界和常识的认知,这种数据,可以在维基百科、百度百科等等各种百科里面找。
这都是公开数据库。
许临今晚都在满世界互联网去翻找数据,并且进行分门别类。
得亏他能够一心四用,一个人的大脑等于四个人的大脑,所以他找数据的速度很快。
就是量太大了,需要的时间非常长。
另外,许临也不是只找公开数据库,有些训练数据,需要更加深入的,许临就不得不上强度。
所以,作为全世界断档第一的黑客,许临还攻破了一个又一个私密数据库,去盗取了这些数据,尤其是欧美日韩的数据,许临抽取最多。
有些数据,涉及重大机密,足够让许临判死刑,枪毙一万次。
但常言道,英雄不问出处。
同样,历史属于胜利者。
要是他成了,他就是彪炳史册的英雄。
你要是坐牢的时候撸了一个重要大发明出来,哪怕死刑都能抵消掉。
最多就是为了掩人耳目,比如你原来叫张三,张三确实被枪毙了,但你实际没被枪毙,你现在叫李四,是一名研究人员。
接下来的五天,许临都在废寝忘食地搜集数据。
而且,为了方便工作,许临买了二十台高性能笔记本放在酒店里面,所以他搜集数据的时候,就在二十台电脑前面跑来跑去,这会操作这台电脑,那会操作那台电脑,走个不停,运动量非常大,但许临在专心地搜集数据。