行业分析机构 Trendfocus发布的数据,2024年第一季度,全球机械硬盘(HDD)出货量达2970万块,环比增长3%,出货总容量达262EB,环比增长22%。面向企业存储的HDD出货量和出货容量双双增长,其中出货容量增幅高于出货量的增幅,这表明HDD依然是企业容量需求型场景的主流选择。
企业数据存储大致可分为性能需求型和容量需求型两大类场景,前者的典型代表是计算类应用,通常以512B、4K等小数据块的随机读写为主,关注点聚焦在IOPS性能;而容量需求型存储则重点考量64K、128K及以上数据块的顺序读写性能(即带宽,MB/s),典型应用场景包括关键业务数据备份、文件共享、日志存储等,使用HDD为AI应用存储海量训练数据也是企业的主流选择。
虽然SSD的顺序读写性能高于HDD,但对于企业用户来说,实际的使用需要结合各种综合因素,除性能外,还有稳定性、可靠性、投入成本等多种因素。所以企业依然青睐使用HDD来满足海量数据增长引发的存储容量需求。而HDD是如何满足企业应用所需的呢?
本文将基于东芝的MG10-D系列空气封装硬盘,从实际测试出发,分析HDD在企业存储市场的优势特点。
1基准测试:可预测的性能,简化企业存储复杂度
MG10-D系列是东芝最新发布的传统磁记录格式 (CMR) 空气硬盘产品家族,有SATA和SAS两种接口,容量从1TB到10TB。据东芝官网信息,MG10-D系列硬盘的性能和电源能效均有明显提升,同时还提供即时清理擦除(SIE)和自加密驱动器(SED)等数据安全功能。本次测试用的HDD为3.5英寸外形规格的SATA接口硬盘,容量8TB。
图1:用于本次测试的东芝MG10-D系列磁盘,容量8TB
图2:硬盘背面;
图3:硬盘接口为SATA 3.0规格,最大速率6Gb/s;
图4:主轴电机,带动内部盘片高速旋转(7200转/分钟),并“托”起磁头实现数据存取;
图5:主轴电机上方的通气孔,用以保持内外部气压平衡,旁边有英文提示“请勿遮挡”。
基准性能测试的目的是用于评估HDD自身所能发挥出的性能,即 “裸盘性能”。根据海量文件存储、数据备份、云归档等场景的数据存取特点,测试选择用64K、128K及以上尺寸的数据块,通过常用的硬盘基准性能测试工具Iometer下发顺序读写负载来评估HDD的带宽表现。图6为东芝MG10-D系列8TB硬盘在128K数据块下的顺序读写性能。
图6:东芝MG10-D系列8TB硬盘的128K顺序读写性能
本节测试使用单一线程对东芝MG10-D系列8TB硬盘下发读写负载,从测试结果可以看出,在单线程、1队列深度时,硬盘达到最大读写带宽,均在290MB/s左右,此时的平均响应时间仅为0.46ms。
此测试结果表明了以下多层含义:
1、 顺序读写性能均衡,不管是顺序读(绿色柱状)还是顺序写(橙色柱状),在不同队列深度下的吞吐率都近乎相似,保持在290MB/s左右;
2、 在队列深度为1时,硬盘已达到最大的读写带宽290MB/s,应用体验稳定流畅。
3、 在达到最大带宽后,随着负载(队列深度)的增加,吞吐率保持平稳,响应时间随负载的增加而增长,这表明即使在密集负载情况下,东芝MG10-D 8TB硬盘依然能够发挥出最大带宽性能,且保持平稳,具有很好的性能可预测性,以便企业存储系统能更好地匹配业务需求。
值得注意的是,东芝官网公布的MG10-D系列HDD的顺序读写带宽为268MiB/s,为二进制。而本测试中的290MB/s使用十进制,换算成二进制大约为278MiB/s。
图7:不同数据块大小的顺序读写性能(吞吐率与响应时间)
上图7是东芝MG10-D系列8TB硬盘在使用64K、128K、256K、512K、1024K等不同大小数据块下的顺序读写带宽和响应时间表现。其性能表现趋势与上一测试结果近乎相似,在1队列深度时可达到最大吞吐率,且随着负载的继续增加,吞吐率保持不变,响应时间随数据块大小而变化。
图8:东芝MG10-D系列8TB硬盘稳定性测试结果
上图8为128K数据块在持续读写下的响应时间散布,在1分钟持续的读写负载下发中,响应时间大多散布在0.4~0.5ms之间,只有极少数分散在0.5ms之外,但均未超过0.6ms,这从另一方面显示了东芝MG10-D系列硬盘的性能稳定性与可预测性。
从基准测试的结果数据来看,东芝MG10-D系列8TB硬盘仅需单线程单队列的情况下就能达到最大吞吐率,即使在密集读写负载情况下也能保持稳定的最大带宽性能,所具备的性能可预测性,有助于企业用户简化存储系统的优化与管理工作。
基准性能测试反映的是东芝8TB硬盘本身所能发挥的最大性能,并不代表其在实际应用中的性能表现。接下来进行的文件性能测试将展示东芝8TB硬盘的实际应用性能表现。
2如何让海量小文件存储更有效率?
文件存储是企业最常见的应用场景,典型如日志存储、文件共享、云数据备份与归档等,随着大数据分析技术的发展,海量文件存储也逐渐成为企业的典型应用场景,尤其是近几年掀起的又一轮AI狂潮,为AI模型训练所需的海量数据提供存储能力也是HDD的重要应用场景。
我们使用VDbench创建模拟企业实际数据环境,来测试东芝10-D系列8TB硬盘,评估在处理海量小文件场景下,硬盘的每秒文件读写数,每秒吞吐率,以及响应时间等多项表现。将东芝MG10-D系列8TB硬盘用作企业文件系统,并创建两层目录,每层10个目录,在第二层的所有目录中都创建2000个半/非结构化文件,总计20万个文件(即2000x10x10)。在不同的测试环节,VDbench会重新生成不同大小的20万个文件(如64K、128K、256K、512K、1024K),用以评估东芝MG10-D系列8TB硬盘在不同文件大小情况下的每秒文件读写数量和带宽吞吐。
图9展示的是64K、128K、256K及以上不同尺寸大小文件的顺序读取与写入性能:
图9:海量小文件的顺序读取/写入性能测试结果
从上图展示的测试结果来看,在64K和128K小文件测试中,MG10-D每秒可成功打开并传输的文件超1000个以上,随着文件尺寸的增大,每秒文件传输数开始下降,带宽则快速提升,在256K时达到最大带宽171MB/s;之后随着文件尺寸的增加,每秒文件传输数逐渐下降,带宽随之对应下降。
在文件顺序写入测试中(实际是重写),64K文件每秒可写入近950个,随着文件尺寸的增大,每秒写入数量逐步降低,写入带宽则随之提高。在1MB文件时达到最大带宽111MB/s。
在企业数据中心内,更多应用场景的数据传输特点是文件随机读写,图10展示的是不同尺寸大小文件的随机读取与写入性能测试结果: