摘要
本文提出假说,Reward is enough for AGI
引言
举了松鼠找松子吃的例子,确实,最终吃了松子reward就为1,没吃到松子reward就为0
背景知识:强化学习
把世界和生活的所有事reward化:
讨论
尝试用强化学习解释世界的一切robot
结论
如果Reward-is-enough这个猜想是正确的,就能实现AGI。
微信扫一扫
本文提出假说,Reward is enough for AGI
举了松鼠找松子吃的例子,确实,最终吃了松子reward就为1,没吃到松子reward就为0
把世界和生活的所有事reward化:
尝试用强化学习解释世界的一切robot
如果Reward-is-enough这个猜想是正确的,就能实现AGI。
相关推荐