AI是如何学习的,为什么大数据是核心燃料
AI和我们人一样,在没有完成学习训练前,它无法形成对世界的任何认知,也就无法正确处理任何事务,一个优秀的AI必须通过学习与训练来形成对世界的正确认知,那么AI又是如何通过学习训练来形成认知的呢
当前的AI训练大致可以分为预训练、微调、人类偏好优化三大阶段
所谓预训练,也称为无监督学习阶段,或者叫自监督学习阶段,就是让模型通读天下文章,学会语言的基本规律,不会把我要吃饭,写成我吃饭要
此阶段首先会把大量文本数据输入AI,并且让AI自行总结语言文字的规律,然后自动的去不停的去验证与调整所总结的语言文字规律是否正确,那么它又是如何来验证的呢,很简单,可以随机抽取一段文本,并随机遮住文本中的部分词汇,让模型推算被遮住的词。比如今天xx很好,我打算去公园,模型需推算出,天气,如果推算出的词语不正确,就需要重新总结规律。
经过以上训练后,AI就知道如何以正确的方式组织语言。
第二步是进行模型微调,也叫做监督学习阶段,让模型学会正确回答问题
什么叫做学会回答问题呢,和前面的预训练又有什么区别呢,打个比方我们要写一封信,信有信的格式,开头要有称呼,然后是正文,后面是祝福语和签名日期,而让没有经过微调的模型写信的话,它会直接巴拉巴拉就输出正文内容,很明显这样的输出是不正确的。如何通过训练让AI学会呢,一般通过给模型大量指令和标准答案让AI来学习,然后让他进行回答,并检测回答是否正确,如果不正确就再进行学习训练,最终让AI学会按指令做事。比如,总结下面这段话的中心思想,然后告诉他正确回答方式是,本文主要讲了xx。所谓监督训练,即人工提前标注问题的答案,AI自行调整参数实现正确回答的过程。
监督训练与无监督训练的区别是,监督训练为人为主动标记答案,AI自行调整参数实现正确输出,而无监督训练则是AI自动抽取数据信息,然后自行总结词与词、字与字间的关系。
第三步则是进行人类偏好优化,也称为强化学习阶段,目的是让AI能像人一样表达,是有风格、有情绪的,而不是一成不变的AI味
强化学习一般通过人类标注员打分方式向模型反馈信息,让模型对同一问题生成多个回答,标注员按,相关性、正确性、礼貌性等特征 进行打分。比如,提一个问题问题 ,如何减肥
回答 A 控制饮食 + 运动, 打 5 分
回答 B 吃减肥药,打1分,因为可能有害健康
这样AI就根据打分的高低,逐渐地将参数向高分方向调整,最终形成更符合人类习惯的表达方式
很明显,世界那么大,规律那么多,需要总结的规律自然多,需要用来总结规律的数据信息也就多,因为数据是规律认知的来源,所以说大数据是AI的基础,是AI的核心燃料