查看aix系统故障记录收集信息-白红宇

查看aix系统故障记录收集信息

阅读量：6299 次

发布时间：2019-06-22

本文共 7388 字，大约阅读时间需要 24 分钟。

查看系统故障记录收集信息

errdemon 进程在系统启动时自动运行，记录包括硬件、软件及其他操作信息。故障记录文件为/var/adm/ras/errlog，可备份下来或拷贝到别的机器上分析。

也可以使用errpt 命令来查看(普通用户权限也可使用)

#errpt |more 列出简短出错信息

ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION

192AC071 0723100300 T 0 errdemon Error logging turned off

0E017ED1 0720131000 P H mem2 Memory failure

9DBCFDEE 0701000000 T 0 errdemon Error logging turned on

038F2580 0624131000 U H scdisk0 UNDETERMINED ERROR

AA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATION

TIMESTAMP: MMDDHHMMYY (月日时分年）

T（类型）： P 永久；T 临时； U 未知（永久性的错误应引起重视）

P：Permanent；T：Temporary；U：Unknow。
C（分类）：H 硬件；S 软件；O 用户； U未知

H：Hardware；S：Software；O：；U：Unknow。

#errpt -d H 列出所有硬件出错信息

#errpt -d S 列出所有软件出错信息

#errpt -aj ERROR_ID 列出详细出错信息

# errpt -aj 0502f666 <--- ERROR_ID用大小写均可

例：

LABEL: SCSI_ERR1

ID: 0502F666

Date/Time: Jun 19 22:29:51

Sequence Number: 95

Machine ID: 123456789012

Node ID: host1

Class: H

Type: PERM

Resource Name: scsi0

Resource Class: adapter

Resource Type: hscsi

Location: 00-08

VPD: <--- Virtal Product Data

Device Driver Level.........00

Diagnostic Level............00

Displayable Message.........SCSI

EC Level....................C25928

FRU Number..................30F8834

Manufacturer................IBM97F

Part Number.................59F4566

Serial Number...............00002849

ROS Level and ID............24

Read/Write Register Ptr.....0120

Description

ADAPTER ERROR

Probable Causes

ADAPTER HARDWARE CABLE

CABLE TERMINATOR DEVICE

Failure Causes

ADAPTER

CABLE LOOSE OR DEFECTIVE

Recommended Actions

PERFORM PROBLEM DETERMINATION PROCEDURES

CHECK CABLE AND ITS CONNECTIONS

Detail Data

SENSE DATA

0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000

检查系统是否有巨大的Core文件生成

使用 find / -name core –print来检查。对Core文件，一般直接删除就可以了。

文件系统空间不够。

查看有没有“满”的文件系统。特别是/、/var、/tmp，不要超过90%。文件系统满可导致系统不能正常工作，尤其是AIX的基本文件系统。如/ (根文件系统)满则会导致用户不能登录。用df –k 查看。

# df -k (查看AIX的基本文件系统)

Filesystem 1024-blocks Free %Used Iused %Iused Mounted on

/dev/hd4 24576 1452 95% 2599 22% /

/dev/hd2 614400 28068 96% 22967 15% /usr

/dev/hd9var 8192 4540 45% 649 32% /var

/dev/hd3 167936 157968 6% 89 1% /tmp

/dev/hd1 16384 5332 68% 1402 35% /home

除/usr文件系统，其他文件系统都不应太满，一般不超过80%。

处理方法1：删除垃圾文件

# du -sk * |sort -rn |head

查找出当前目录下占空间最大的子目录，逐层往下直到找出占空间最大的文件。（要区分哪些目录是文件系统的 mount point，哪些是文件系统的子目录）删除文件，释放空间。有时删除文件后空间并不马上释放，这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放，有时甚至需要重启系统。

处理方法2：增加文件系统大小
# smitty chjfs 或 命令（速度快一些）
文件系统可以在任何时候加大，前提是卷组(VG)中有剩余空间。

2)检查文件系统的完整性

# umount filesystem_name
# fsck -y filesystem_name

注意：文件系统必须先umount，再做检查和修复，否则可导致未

知的后果。

3）查看卷组信息(lsvg -l vg_name)

有没有"stale"状态的逻辑卷。若有，用syncvg 命令修复"stale"逻辑卷。

stale [steil] n. (牲畜等的)尿 adj.不新鲜的, 陈腐的, 疲倦的, 陈旧的 vt. 使变旧, 走味 vi.变陈旧, 变无味, 失时效, 撒尿。

4）检查内存交换区(paging space)使用率(lsps -s)

使用率是否超过70% 。

若有则用

chps –sX pgname 增加X个PP

或用

mkps –a –n –sX myvg 在myvg上增加一个PP数为X的内存交换区。

在HACMP 5.2版本，以及 5.2版本以前，您可以通过查看clstrmgrES进程是否活动的方法来查看HACMP的服务是否启动。具体的方法有：

1、clshowsrv -v命令

2、smit hacmp里面的C-SPOC工具

3、l***c -g cluster命令

但在HACMP 5.3以及5.4版本中，clstrmgrES进程在机器启动以后永远是活动状态的，因此不能依靠上述方法判断HACMP的服务是否启动。可以用以下的方法判断HACMP是否启动：

/usr/es/sbin/cluster/utilities/clcheck_server grpsvcs|echo $?

如果输出为0则表示没有启动HACMP服务，如果输出为1则表示HACMP服务已经启动.

查询ＨＡＣＭＰ双机系统的状态

　　在双机系统的运行中，操作员只有知道双机系统的当前状态，才有可能对双机系统出现的异常情况进行恢复处理，保证双机系统的高可用性和高容错性。查询ＨＡＣＭＰ双机系统的状态，以ｒｏｏｔ用户身份进入需要查询的节点，用＃ｌｓｓｒｃ－ｇｃｌｕｓｔｅｒ命令检查ＨＡＣＭＰ双机软件在该节点是否已启动，系统显示３个ａｃｔｉｖｅ的信息，则说明ＨＡＣＭＰ双机软件已正常启动。

　　在确认双机软件ＨＡＣＭＰ正常启动的情况下，在命令行执行＃ /ｕｓｒ/ｓｂｉｎ/ｃｌｕｓｔｅｒ/ｃｌｓｔａｔ－ａ命令查看双机系统的当前状态。

设置交换空间(paging space)

----用以下命令察看交换空间的使用情况：

# lsps -a

Page Space Physical Volume Volume Group Size %Used Active Auto Type

paging00 hdisk1 rootvg 2048MB 5 yes yes lv

hd6 hdisk0 rootvg 2048MB 5 yes yes lv

在启动HACMP的环境中,如何检查HACMP的运行状态?

解答

使用 /usr/es/sbin/cluster/clstat 命令可以检查群集成员的运行状态.

clstat命令输出中包含有群集本身,节点,以及节点上的网络适配器的运行情况.

注:使用clstat命令时,HACMP要启动clinfo 服务.

例如:

#clstat

clstat - HACMP for AIX Cluster Status Monitor

---------------------------------------------

Cluster: ibm_26c (666) -------Thu Jul 9 18:58:33 EDT 1998

---------State: DOWN Nodes: 2

---------SubState: UNSTABLE

-------Node: poseidon ---------------------State: DOWN

-------Interface: poseidon-enboot (0) -----Address: 140.186.70.106

-------------------------------------------State: DOWN

-------Node: venus State: DOWN

-------Interface: venus-enboot (0) Address: 140.186.70.107

-------------------------------------------State: DOWN

***************** f/forward, b/back, r/refresh, q/quit **********

网络故障处理

　　（１）网络不通的诊断过程

　　ｉｆｃｏｎｆｉｇ查看网卡是否启动（ｕｐ）；ｎｅｔｓｔａｔ－ｉ查看网卡状态；Ｉｅｒｒｓ/Ｉｐｋｔｓ和Ｏｅｒｒｓ/Ｏｐｋｔｓ是否＞１％；ｐｉｎｇ本机网卡地址；ｐｉｎｇ其他机器地址，如不通，在其机器上用ｄｉａｇ检测网卡是否有问题。

（2）检查系统出错日志

　　使用ｅｒｒｐｔ｜ｍｏｒｅ命令检查，清除现有的ｌｏｇＥｒｒｃｌｅａｒ０。

　　（3）检查系统合法/非法登录情况

　　使用Ｌａｓｔ命令检查登录地点。

　　（4）检查系统是否有巨大的Ｃｏｒｅ文件生成

　　使用ｆｉｎｄ / －ｎａｍｅｃｏｒｅ－ｐｒｉｎｔ命令检查。对Ｃｏｒｅ文件，一般直接删除即可。

　　（5）系统性能检查

　　 ①ＣＰＵ性能：使用Ｖｍｓｔａｔｔｏｐａｓ命令检查。

　　 ②内存使用情况：使用ｔｏｐａｓ，ｖｍｓｔａｔ命令检查。

　　 ③检查ＩＯ平衡使用情况：使用ｉｏｓｔａｔ命令检查。

　　 ④交换空间使用情况：使用ｌｓｐｓ－ａ命令检查

1、检查系统硬件情况：设备故障灯是否有亮

2、系统错误报告(errlog)

errpt -d H -T PERM

对有怀疑的进一步:errpt -aj 错误代码|more

3、有否发给root用户的错误报告(mail)

mail

4、检查hacmp.out,smit.log,boot.log

cd /tmp

ls hacmp.out*

找到时间最近的字节不为零的文件，vi查看

如果怀疑系统曾经有调整操作，检查/smit.log

alog -ot boot

5、关键系统的文件使用率不大于80%

df -k查看%Used

6、逻辑卷有否stale

lsvg -l 卷组名称

查看状态是否有stale的逻辑卷

7、内存交换区使用率是否超过70%

lsps -a

查看占用率是否超过70%

8、内存交换区的大小是否为物理内存的1.5倍

命令同上

现在原则有所改变，2G内存以下可按照1.5倍的标准，2G内存以上如果交换区占用率不高，可用2GB标准

9、检查备份情况（有否系统备份、用户数据备份、磁带机是否需要清洗）

口头询问：系统备份、数据备份

检查磁带机面板，提醒用户清洗

10、通信（网卡、IP、路由表、ping、/etc/hosts、DNS设置等）

netstat -in

netstat -rn

netstat -i

vi /etc/hosts

检查DNS相关文件内容

11、是否有数据保护方式如RAID10/RAID5,是否有Hot spare

如果是7133，diag→Task Selection→SSA Service Aids→Link Verification，smitty ssaraid

FAStT产品使用其管理软件Storage Manager查看

ESS使用ESS控制台查看

12、系统DUMP设置是否正确

sysdumpdev -l

13、检查系统参数是否正确

1)/etc/environment中的TZ不能有夏时制

vi /etc/environment

检查环境变量TZ，其格式应该是这样：TAIST-8，而不能是TAIST-8TAIDT-7这样的格式

2)如有数据库：Aio:available

lsdev -C|grep aio

查看其状态是否available

如不是：smitty chgaio，将状态修改为available，重启系统

3)HACMP中I/O pacing:High Water Mark/Low Water MArk:33/24

如果系统中运行了HACMP

smitty chgsysy，将High/Low water mark从0/0修改为33/24

4)HACMP中Syncd:10

如果系统运行了HACMP

查看/etc/inittab，将syncd后次参数修改为10，然后telinit q，kill -9 "syncd's PID"

5)HACMP中Power Monitor off

14、检查rootvg是否有镜象

lsvg -l rootvg查看镜像

15、检查errdaemon,srcmstr是否正常运行

ps -ef|grep err

ps -ef|grep src

16、机房环境（电压、湿度）

基本要求：零地电位差不得大于1V；严格要求：零地电阻<=1Ω（国内没几个能做到，〈=3Ω就差不多了）

湿度：45%—70%

17、系统性能：有否性能瓶颈(topas,vmstat)

18、补丁程序（PTF）、微码（是否需要升级）

instfix -i|grep ML查看补丁级别及是否完整；

lscfg -vp检查所有硬件设备微码

19、HACMP测试：Cluster Verification

smitty hacmp→Cluster Configuration→Cluster Verification

20、系统硬件诊断

diag→Advanced Diagnos...→Problem Determination

21、运行#snap -ac,生成文件snap+s/n.pax.Z

22、机器清洁

AIX 5L PAGESPACE内容分析

a.当系统内存紧张时，绝大部分内存都有可能被替换出去，在PAGESPACE里占有一块空间。

b．随着系统的运行，不断有进程进进出出，这个进程列表一直在变。

c． pagespace的占用牵涉到共享部分，无法确定说是那个进程。

不过，为了说明这一点，现在让我们来看看pagespace里放了些什么：

1. 察看总数：

首先ps是看不到pagespace的使用大小的，只有ps v中可以看到PGIN，是指因缺页引起调页的I/O次数。

topas和lsps只能看到总数。

[erpd01][root][/home]>lsps -a

Page Space Physical Volume Volume Group Size %Used Active Auto Type

paging00 hdisk0 rootvg 6144MB 64 yes yes lv

hd6 hdisk0 rootvg 6144MB 64 yes yes lv

[erpd01][root][/home]topas

PAGING SPACE

Size,MB 12288

% Used 64.2

% Free 35.7

svmon 则可以看得比较准确：

svmon -G

size inuse free pin virtual

pg space 3145728 2006408

这三个结果都是吻合的，即总量12G，使用了接近8G.。

2. 分用户察看：

从中不难看出，oracle和tuxdeo均占了很大比例。

ser pagespace *4K/M percent

oraclecx 1000813 4003252 49.88%

tuxrun 841627 3366508 41.95%

root 21109 84436 1.05%

xcomprod 24034 96136 1.20%

ingres 35223 140892 1.76%

nobody 2068 8272 0.10%

daemon 2003 8012 0.10%

imnadm

转载于:https://blog.51cto.com/168ok8/1206878

你可能感兴趣的文章

springmvc Could not write content: No serializer

查看>>

新手开博

查看>>

借助开源工具高效完成Java应用的运行分析

查看>>

163 yum

查看>>

第三章：Shiro的配置——深入浅出学Shiro细粒度权限开发框架

查看>>

80后创业的经验谈（转，朴实但实用！推荐）

查看>>

让Windows图片查看器和windows资源管理器显示WebP格式

embedded linux学习中几个需要明确的概念

【Docker学习笔记（四）】通过Nginx镜像快速搭建静态网站

查看>>

ORA-12514: TNS: 监听程序当前无法识别连接描述符中请求的服务

查看>>

<转>云主机配置OpenStack使用spice的方法

查看>>

java jvm GC 各个区内存参数设置

查看>>

[使用帮助] PHPCMS V9内容模块PC标签调用说明