A Libertine of Computer Science

JIT vs AOT

JIT[Just-In-Time],也就是即时编译,边运行边编译[动态编译]。AOT[Ahead-Of-Time],指运行前编译,是两种程序的编译方式。比较这两种编译方式之前,先比较编译器[Compiler]和解释器[Interpreter]。

Reinforcement Learning--Temporal-Difference

与MC一样,时序差分学习[Temporal-Difference Learning,TD]也从Episode学习,不需要了解模型本身,而是主动的是对环境做试验来得到相应”经验”。与MC不同的是,它通过学习不完整的Episode和自身的引导[bootstrapping],猜测Episode的结果,同时持续更新这个猜测。也就是说,TD方法不要求$不完整的Episode$,所以可以走一步就估算一次,也就是进行Step-Based的强化学习。因为可以克服诸多限制,TD方法是强化学习理论中最核心的内容,是强化学习领域最重要的成果。

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18]