Write Amplification in SSD [SSD中的写入放大]

Write Amplification 写入放大，Write Amplification Factor写入放大系数。写放大系数的含义：当我们的host要求向ssd写入A大小的有效资料，而实际上由于flash的特性，我们真正写入flash的资料大小是B，那么B/A就是写放大系数。

Cause

WA写入放大的元凶是GC垃圾回收。当操作系统当删除一个数据时，数据不会立马删除，而是把这个要删除的数据上标记一个“删”的标签，此时实际上没有真正删除[这也是硬盘上数据再删除之后仍存在机会恢复的原因]。

WA只存在与闪存中，机械硬盘不存在这个问题。因为SSD的设计完全不同于传统的机械磁盘，而两者的工作原理也不同，SSD一个完整的电子设备，没有传统机械盘的读写磁头。因此，在读写数据的时候由于少了磁头在磁道之间的寻道过程所以SSD能提供较高的IOPS性能。也正因为其少了磁头的调度，所以SSD还能减少电量的使用[磁头移动也耗电]。但是SSD也存在一些问题，写入在SSD中的数据是不可以直接更新的，只能通过扇区覆盖重写，在覆盖重写之前需要先擦除，而且擦除操作又是不能在扇区上做的，只能在磁盘的块上来完成，擦除块之前需要将原有的还有效的数据先读出，然后在与新来的数据一起写入，这些重复的操作不单会增加写入的数据量，还会减少闪存的寿命，更吃光闪存的可用带宽而间接影响随机写入性能。具体说来，当机械硬盘要写入新数据时可以直接覆盖那些已经被标记“删”标签的数据，而固态硬盘不行，只能先擦除旧的数据才能写入新数据，而NAND闪存工作原理是以4K页（page）为一个单元写入的，但擦除只能以块block[64个page]为单位，如果一个块block上有32个page有效数据和32个被标记“删”标签的无效数据，那要在这个块block上重新写入数据，那必须要擦除整个块block，那还有一半有效数据怎么办了？那只有把那32page的有效数据就要搬到另一个有空位置的块block中，这个这就是GC垃圾回收技术，把有效的数据搬到另一个块block中，原本就已经写入过一次了再加上这次搬迁不就又多了一次写入吗，这就是所谓的写入放大。这也就是为什么在磁盘写满后，如果老化掉一些最久未使用的数据块后，继续大量写入新的数据，随着时间的推移，写入速度变得比刚开始时慢了许多。

举个最简单的例子：当要写入一个4KB的数据时，最坏的情况是一个块里已经没有干净空间了，但有无效的数据可以擦除，所以主控就把所有的数据读到缓存，擦除块，缓存里更新整个块的数据，再把新数据写回去，这个操作带来的写入放大就是: 实际写4K的数据，造成了整个块（共512KB）的写入操作，那就是放大了128倍。同时还带来了原本只需要简单一步写入4KB的操作变成：闪存读取(512KB)→缓存改（4KB）→闪存擦除（512KB）→闪存写入（512KB），共四步操作，造成延迟大大增加，速度变慢。所以说WA是影响SSD随机写入性能和寿命的关键因素。

闪存的编程和擦除次数有限。通常以闪存在整个寿命中最多可忍受的编程/擦除循环（P/E循环）次数来表示。写入放大越低，则越为理想，因为与之对应的是闪存中P/E循环次数减少，所以能延长SSD的寿命。

Solution

在实际操作中我们很难完全解决掉SSD写入放大的问题，只能通过某些方法来更有效的减少放大的倍数。一个很简单的办法就是将一块大的SSD硬盘只使用其的一部分容量，比如128GB你只是用64GB，当然这种方法有点过于浪费资源了。现阶段公认的比较好的方法是TRIM。TRIM位于操作系统层。操作系统使用TRIM命令来通知SSD某个page的数据不需要了，则可以回收。支持TRIM的操作系统和以往的主要区别是删除一个Page的操作不同。在磁盘时期，删除一个page之后在文件系统的记录信息里将该page的标志位设置为可用，但是并没有将数据删除。使用SSD且支持TRIM的操作系统，在删除一个page时，会同时通知SSD这个page的数据不需要了，SSD内部有一个空闲时刻的垃圾收集进程，在空闲时刻SSD会将一些空闲的数据集中到一起，然后一起Erase。这样每次写操作，就在已经Erase好了的Page上写入新的数据。

另一个基于hardward的机制是提供一个裸的SSD，然后允许用户自定义很多操作，通过用户自己的设计机制来尽量避免WA，比如目前的Open-Channel SSD就是一例。

Categories

Tags

Write Amplification in SSD [SSD中的写入放大]

Cause

Solution