分享嘉宾:
王宝伟
分享主题:
硬盘固件问题及升级方法
链接:http://pan.baidu.com/s/1qXJPX4g密码:3h2j
以下为分享实录:
希捷NM0033硬盘固件问题
项目实施中发现新到货硬盘出现大量设备掉盘,通过分析设备日志发现磁盘出现大量坏块,检测正常的硬盘使用一段时间后也会出现掉备用及坏盘,故障率明显很高。经过返修磁盘希捷给出检测报告硬盘盘片出现多出划伤。经过历时三个月,返修数千片硬盘,最终定位硬盘FW固件问题:
SN03版本,磁盘故障率高-2015年4月
SN05版本发布2015年6月
SN06版本发布2015年7月
升级文件及方法:
链接:http://pan.baidu.com/s/1hsCUWU4密码:8xut
这个问题是我们15年导入希捷NM0033硬盘大量出货后遇到的,最终与希捷确定了希捷盘的批次问题,当然了至今希捷也没有正式发文承认他们有批次问题。希望大家如果工作中有上述硬盘的使用尽快完成FW升级。我们以数千片磁盘,近百个项目惨痛的教训提醒大家!
希捷NM0023硬盘固件升级
升级文件及方法:
链接:http://pan.baidu.com/s/1c19zdFM密码:hc14
这是希捷的SAS硬盘问题,同样提醒大家升级。相关升级方法固件已在上述链接。
希捷NM0033硬盘powerchoice问题
兼容性问题,导致设备意外掉盘。建议关闭此功能。
介绍与配置方法
链接:http://pan.baidu.com/s/1bD6SgA密码:lrym
这是希捷的新技术,目前我们还在消化中。哎!又是一个坑[。
节能技术,分析问题原因是在磁盘开户powerchoice功能后,硬盘与磁盘背板的信号完整性受到影响,从而踢盘。目前在测试与核实中。
不识别硬盘问题
时间:2014年ST2000645NS硬盘问题
表现:不识别硬盘,多次客户退货。
下边我们来说一下SSD,这想必大家会感兴趣。
SSD硬盘介绍
SSD全称Solid State Disk,就是大家平时提到的固态硬盘,是一种完全由电子元器件组成的持久化存储设备,这是和传统机械硬盘(Hard Disk Drive,简称HDD)的重要区别。
SSD和机械硬盘相比,有着更高的IOPS,更高的带宽,更低的访问latency,还兼容目前主流的HDD接口,比如SATA SAS等。现在市场上的SSD主要都是基于NAND Flash的。
而同样作为持久化存储,SSD和HDD相比有哪些优势和劣势呢
主要组件:1.主控芯片
2. NAND芯片
3.电容(掉电保护,在意外掉电时把RAM数据写入NAND)
4. DRAM缓存
5. SATA接口
6.NOR flash引导SSD
图比较小,不够清晰。我再补一张intel的m.2接口SSD
NAND中的SLC, MLC与TLC
什么是SLC?
SLC英文全称(Single Level Cell——SLC)即单层式储存,即1bit/cell,读写速度快,寿命长,价格是MLC的三倍以上,约10万次读写寿命。主要由三星、海力士、美光、东芝等使用。
SLC技术特点是在浮置闸极与源极之中的氧化薄膜更薄,在写入数据时通过对浮置闸极的电荷加电压,然后透过源极,即可将所储存的电荷消除,通过这样的方式,便可储存1个信息单元,这种技术能提供快速的程序编程与读取,不过此技术受限于Silicon efficiency的问题,必须要由较先进的流程强化技术(Process enhancements),才能向上提升SLC制程技术。
什么是MLC?
MLC英文全称(Multi Level Cell——MLC)即多层式储存。即2bit/cell ,速度一般,寿命一般,价格一般,约3000-10000次读写寿命。主要由东芝、Renesas、三星使用。
英特尔(Intel)在1997年9月最先开发成功MLC,其作用是将两个单位的信息存入一个Floating Gate(闪存存储单元中存放电荷的部分),然后利用不同电位(Level)的电荷,通过内存储存的电压控制精准读写。MLC通过使用大量的电压等级,每个单元储存两位数据,数据密度比较大。SLC架构是0和1两个值,而MLC架构可以一次储存4个以上的值,因此,MLC架构可以有比较好的储存密度。
什么是TLC?
TLC=Triple-Level Cell,即3bit/cell,速度慢,寿命短,价格便宜,约500次读写寿命,技术在成长中。TLC利用不同电位的电荷,一个浮动栅存储3个bit的信息,约500-1000次擦写寿命,MLC-TLC【容量大了1/2倍,寿命缩短为1/20】
对比:
颗粒厂商:
晶圆(东芝、镁光-英特尔、海力士、三星)
目前intel的SLC型号:
Intel?? SSD X25-E Series (64GB, 2.5in SATA 3Gb/s, 50nm, SLC)
Intel?? SSD DC P3700 Series (1.6TB, 1/2 Height PCIe 3.0, 20nm, MLC)
Intel?? SSD DC P3700 Series (1.6TB, 2.5in PCIe 3.0, 20nm, MLC)
Intel?? SSD DC P3700 Series (1.6TB, 1/2 Height PCIe 3.0, 20nm, MLC)
Intel?? SSD DC P3700 Series (1.6TB, 2.5in PCIe 3.0, 20nm, MLC)
行业术语:
名称
解析
用途
黑片
不能通过晶圆厂检测
山寨闪存盘
不会用于SSD
白片
晶圆厂通过,未通过原厂检测
二线厂商硬盘,打上自己logo
kingston
eSLCeMLC
企业用,搭配主控和固件算法
各颗粒厂商
下面看一下我们最为熟悉的DOM盘,主要用做工控设备上做系统盘或系统卡
DOM一般用于工业产品的系统盘,多使用SLC颗粒存储.
这是SATADOM当然也有IDE接口的
SATA接口SSD硬盘:
2.5寸SATA接口,与目前磁盘相兼容。
PCI-e接口卡:主要应用在企业服务器上。
mSATA接口:
同样是SATA协议,理论带宽600MB。
接口特点:
用户嵌入式产品应用。
m.2接口:Pci3.0接口协议NVMe与PCI-e
X1 800MB
X4 3.2GB
m.2转SATA
NVMe协议: Non-Volatile Memory Express非易失性存储标准,使用PCI-E通信协议的SSD规范.设计时充分考虑了PCI-E的低时延及并行处理的特点.与当前处理器与应用的并行平台一应用配合,充分发挥NVMe性能优势.必为在为一代SSD接口标准。
接口特点:
低延时:
SATA AHCI标准都是为高延时的机械硬盘所设计。成为SSD发展的瓶颈。NVMe标准出现降级了存储的高延时。
IOPS增大:
提高SSD的IOPS(每秒读写次数)性能。目前市面上性能不错的SATA接口SSD,最多只会测试到队列深度为32的IOPS能力,其实终究原因这是AHCI的上限,其实许多闪存主控可以提供更好的队列深度。而NVMe则可以把最大队列深度从32提升到64000,SSD的IOPS能力也会得到大幅提升.
功耗更低:
NVMe加入了自动功耗状态切换和动态能耗管理功能,设备从能耗状态0闲置50ms后可以迅速切换到能耗状态1,在500ms闲置后又会进入能耗更低的状态2。虽然切换能耗状态会产生短暂延迟,但闲置时这两种状态下的功耗可以控制在非常低的水平,因此在能耗管理上,相比起主流的SATA接口SSD拥有较大优势
驱动适应性好:
NVMe加入了自动功耗状态切换和动态能耗管理功能,设备从能耗状态0闲置50ms后可以迅速切换到能耗状态1,在500ms闲置后又会进入能耗更低的状态2。虽然切换能耗状态会产生短暂延迟,但闲置时这两种状态下的功耗可以控制在非常低的水平,因此在能耗管理上,相比起主流的SATA接口SSD拥有较大优势。
代表产品:
型号:三星950pro
保修:五年
数据写入量:200TB接口:m.2协议NVMe
方式
读
写
顺序
2500MB/s
1500MB/s
随机
300000IOPS
110000IOPS
标准解读:
链接:http://pan.baidu.com/s/1bo6drDd密码:xgkg
测试方法:
链接:http://pan.baidu.com/s/1jHP1Rdc密码:qyiw
这就是晶圆
晶圆是指硅半导体集成电路制作所用的硅晶片,由于其形状为圆形,故称为晶圆;在硅晶片上可加工制作成各种电路元件结构,而成为有特定电性功能之IC产品。晶圆的原始材料是硅,而地壳表面有用之不竭的二氧晶圆制造厂再把此多晶硅融解,再于融液里种入籽晶,然后将其慢慢拉出,以形成圆柱状的单晶硅晶棒,由于硅晶棒是由一颗晶面取向确定的籽晶在熔融态的硅原料中逐渐生成,此过程称为“长晶”。硅晶棒再经过切段,滚磨,切片,倒角,抛光,激光刻,包装后,即成为积体电路工厂的基本原料——硅晶圆片,这就是“晶圆”。
SSD测试工具:
AS SSD Benchmark专业测试SSD工具软件,测试内容全面。可以全面了解SSD的性能。包括了4个方面的测试(顺序读写、4K随机读写、64线程4K读写、寻道时间
精彩问答
Q1:海康做存储会ssd和普通硬盘结合起来用么?
答:我们事业部这边目前没有此类产品,但是对视频分析中肯定会用到分层技术的。目前杭州研究院在做这方面工作。
Q2:提一个小问题!操作系统磁盘调度策略对磁盘性能的影响有多大?测过吗?
Q3:存储满了,虚拟机继续下发IO,会有什么问题?怎么防止这种情况?
答:我们没有做过类似方面的测试。在视频行业中上层应用是不会造成类似发生的。录相中循环覆盖的策略,并且都是顺序写的
Q4:希捷硬盘出现大批量问题大概是哪个时间段的硬盘?因为我们也发现WD的硬盘也出现这种大批量掉线的问题了!
答:我们是15年发现希捷NM003 SATA磁盘的批次问题,西数磁盘从我们导入情况的来看还是比较乐观的,目前还没有重大事故发生。西数有针对海康设备的定制盘,即加密磁盘
Q5:想问硬盘fw固定版本海康是怎么在做的,海康对硬盘fw版本是固定版本吗
答:在15年发现希捷批次问题时,希捷开始不承认的.当我们返厂多块硬盘后,他们安排工程师到北京,与我们研发交流.随后给出了多个FW版本,目前希捷官网发布版本已是SN06了,希捷没有给特殊的FW版本.目前尝试合作厂商是西数,针对视频加密在硬盘上做了一些工作.
Q6:在硬盘震动上是否出现过问题,比如多盘引起共振等,硬盘共振会带来什么样的问题?
答:硬盘共振问题在项目中是有出现过的.不是共振,是振动引起的坏盘率高;一个铁路项目中共用磁盘100多块,半年的时间坏了几十块硬盘.共振这个问题也是要避免.磁盘同时加电,同时旋转肯定会有共振产生.我们使用的是交错组建RAID,从结构上做改进的地方很多,机箱结构,磁盘托架。
Q7:一般企业级硬盘监控级硬盘有什么区别?
答:企业盘和监控盘是有区别的,最明显的就是价格了,当然还有制造工艺,检验标准.适用场景,在阵列中不建议使用监控盘,在DVR,NVR中可以使用监控盘达到更好控制成本
Q8:希捷硬盘渠道是有多种fw版本的,海康难道没有管控,是否存在多个硬盘不同fw,海康是怎么管控的
答:对于FW方面厂商是有考虑的.通过设备的交错启动也是方法之一
Q9:另外海康发到用户手中的硬盘是全盘测试的吗?还是抽测扇区进行,有做高低温等压力吗
答:这个问题属于供应链和备件管理部负责,我们不太清楚当前的做法.我想应该是有抽检吧.但是项目现场我们是检测要求的.对磁盘中的关键项目进行快速检测.对没有通过检测或未经检测的磁盘设备是不能使用的
Q10:读写的速度有没有在实际dynamic的结果啊
答:在我们硬件测试与磁盘导致测试附页是有长期的测试数据的。做为我们磁盘导入的依据存在的。
实名制群分享由迅达云协助完成
迅达云(SpeedyCloud)致力于为用户提供『一站式云服务』
KVM社区群分享奖品由华章科技学院支持电子读书卡