Data Parallelism vs. Model Parallelism in Deep Learning Training [深度学习中的数据并行和模型并行]
数据并行[Data Parallelism]是用来解决深度学习中单批次训练数据[training batch data]过大无法放入GPU内存中的方法,其理论基础来源于分割数据进行梯度计算再合并结果并不会印象直接计算梯度的结果。所以可以将一个模型复制多份放入一台机器的多个GPU中或者多台机器的多个GPU中,然后将训练数据分割让每个GPU进行梯度计算,最后将计算结果汇总。