Esxi6.5检查磁盘错误 - 少言少语的知识库

好的，在 ESXi 6.5 中检查磁盘错误，主要有两种途径：一种是通过命令行进行底层检查和状态查看，另一种是通过 vSphere Client 图形界面查看存储告警和硬件状态。

我将为您详细介绍这两种方法。

方法一：通过 ESXi Shell 命令行检查（更直接、更强大）

通过 SSH 或 DCUI 界面登录到 ESXi 主机的命令行界面，然后执行以下命令。

1. 使用 `esxcli storage core device list` 查看设备基本信息

这个命令可以列出所有存储设备，并显示它们的运行状态。

esxcli storage core device list

在输出中，重点关注以下几个字段： * Is USB: 确认是否为 USB 设备。 * Is Removable: 确认是否为可移动设备。 * Operational State: 操作状态，正常应为 OK。 * Status: 设备状态，正常应为 Online。 * Is Local: 是否为本机磁盘。 * Is SAS: 是否是 SAS 磁盘。

如果 Operational State 或 Status 不是正常值，则表明磁盘可能有问题。

2. 使用 `esxcli storage core device smart get` 查看 S.M.A.R.T. 数据

S.M.A.R.T. 是磁盘自我监测、分析和报告技术，是预测磁盘故障的最重要指标。

# 首先用上一个命令列出设备标识符（例如：naa.5000c5009123abcd）
esxcli storage core device list

# 然后针对你认为有问题的设备查询 SMART 数据
esxcli storage core device smart get -d <device_identifier>

例如：

esxcli storage core device smart get -d naa.5000c5009123abcd

在 SMART 输出中，您需要重点关注： * Health Status: 健康状态。OK 表示良好，Bad 表示严重问题。 * Media Wearout Indicator: 介质磨损指示器。100 表示全新，数值越低表示磨损越严重。 * Reallocated Sector Ct: 重映射扇区计数。数值不为 0 或持续增长，表明磁盘有坏道，正在用备用扇区替换。 * Power On Hours: 通电时间。 * Drive Temperature: 驱动器温度。 * Other Raw Read Error Rate, Seek Error Rate 等： 各种错误率。非零值或持续增长的值都需要警惕。

注意： 并非所有磁盘（尤其是通过硬件 RAID 卡管理的）都会向 ESXi 暴露 S.M.A.R.T. 信息。对于这类磁盘，此命令可能返回 Unknown 或没有数据。

3. 使用 `vmkfstools` 检查文件系统一致性

这个命令用于检查 VMFS 文件系统的一致性，类似于 Windows 的 chkdsk。注意：在执行此操作前，必须将数据盘从虚拟机中卸载，否则会报错。

# 语法
vmkfstools --check <VMFS_Volume_Device_Path>

# 示例：检查 datastore1 对应的设备
vmkfstools --check /vmfs/devices/disks/naa.5000c5009123abcd

4. 查看系统日志

磁盘错误通常会在系统日志中留下记录。

# 查看最近的存储相关日志
tail -f /var/log/vmkernel.log | grep -i "scsi\|disk\|error\|fail"

# 或者使用 esxcli 查看
esxcli system log mark
# ... 等待一段时间或重现问题 ...
esxcli system log poll

方法二：通过 vSphere Web Client 图形界面检查

对于不习惯命令行的用户，可以通过 Web Client 进行初步检查。

登录 vSphere Web Client，连接到您的 vCenter Server 或直接连接到 ESXi 主机。
在左侧导航器中，转到 主机和集群，选择您要检查的 ESXi 主机。
点击监控选项卡。
检查以下部分：
- 存储 > 设备： 这里会列出所有存储设备。状态栏会直观地显示设备是“正常”还是“异常”。
- 存储 > 适配器： 检查 HBA 卡的状态是否正常。
- 硬件 > 硬件状态： 这是最重要的地方。展开各个组件，查看是否有关于“存储控制器”或“物理磁盘”的警告或错误信息。这里会显示预故障警告（Predictive Failure）等严重告警。
- 日志： 在“日志”管理中，可以筛选查看与“存储”相关的日志事件。

总结与最佳实践

方法	优点	缺点	适用场景
CLI: `esxcli device list`	快速查看设备基本状态	信息量有限	快速初步排查
CLI: `esxcli smart get`	最直接的磁盘健康诊断	依赖磁盘支持，不适用于硬件 RAID	预测性维护的首选
CLI: `vmkfstools`	检查文件系统级错误	需要卸载数据存储，影响业务	怀疑 VMFS 元数据损坏时
CLI: 查看日志	查看历史错误记录	信息量大，需要筛选	追溯已发生的错误
Web Client	图形化，易于使用	信息可能没有 CLI 详尽	日常巡检，快速查看告警

操作建议：

定期检查： 建议每月通过 esxcli storage core device smart get 命令检查一次所有磁盘的 S.M.A.R.T. 状态，重点关注 Health Status 和 Reallocated Sector Ct。
关注告警： 在 vSphere Client 中配置 SMTP 邮件通知，确保能及时收到硬件故障告警。
硬件 RAID： 如果您的服务器使用硬件 RAID 卡（如 PERC、Smart Array），ESXi 将看不到单个物理磁盘。在这种情况下，您需要进入 RAID 卡的管理界面（例如 iDRAC、iLO、BIOS 配置工具）来检查物理磁盘状态和 RAID 阵列健康状况。
备份至关重要： 无论磁盘检查结果如何，拥有一个可靠且可恢复的备份是应对磁盘故障的最终手段。

希望这份详细的指南能帮助您有效地检查 ESXi 6.5 主机的磁盘健康状况。

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search