查看系统故障记录收集信息

errdemon 进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息。故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析。
也可以使用errpt 命令来查看(普通用户权限也可使用)
#errpt |more 列出简短出错信息
ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION
192AC071 0723100300 T 0 errdemon Error logging turned off
0E017ED1 0720131000 P H mem2 Memory failure
9DBCFDEE 0701000000 T 0 errdemon Error logging turned on
038F2580 0624131000 U H scdisk0 UNDETERMINED ERROR
AA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATION
TIMESTAMP: MMDDHHMMYY (月日时分年)
T(类型): P 永久;T 临时; U 未知(永久性的错误应引起重视)
PPermanentTTemporaryUUnknow
C(分类):H 硬件;S 软件;O 用户; U未知
HHardwareSSoftwareO:;UUnknow
#errpt -d H 列出所有硬件出错信息
#errpt -d S 列出所有软件出错信息
#errpt -aj ERROR_ID 列出详细出错信息
# errpt -aj 0502f666 <--- ERROR_ID用大小写均可
例:
LABEL: SCSI_ERR1
ID: 0502F666
Date/Time: Jun 19 22:29:51
Sequence Number: 95
Machine ID: 123456789012
Node ID: host1
Class: H
Type: PERM
Resource Name: scsi0
Resource Class: adapter
Resource Type: hscsi
Location: 00-08
VPD: <--- Virtal Product Data
Device Driver Level.........00
Diagnostic Level............00
Displayable Message.........SCSI
EC Level....................C25928
FRU Number..................30F8834
Manufacturer................IBM97F
Part Number.................59F4566
Serial Number...............00002849
ROS Level and ID............24
Read/Write Register Ptr.....0120
Description
ADAPTER ERROR
Probable Causes
ADAPTER HARDWARE CABLE
CABLE TERMINATOR DEVICE
Failure Causes
ADAPTER
CABLE LOOSE OR DEFECTIVE
Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES
CHECK CABLE AND ITS CONNECTIONS
Detail Data
SENSE DATA
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000

检查系统是否有巨大的Core文件生成

使用 find / -name core –print来检查。对Core文件,一般直接删除就可以了。

文件系统空间不够。

查看有没有“满”的文件系统。特别是/、/var、/tmp,不要超过90%。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。如/ (根文件系统)满则会导致用户不能登录。用df –k 查看。
# df -k (查看AIX的基本文件系统)
Filesystem 1024-blocks Free %Used Iused %Iused Mounted on
/dev/hd4 24576 1452 95% 2599 22% /
/dev/hd2 614400 28068 96% 22967 15% /usr
/dev/hd9var 8192 4540 45% 649 32% /var
/dev/hd3 167936 157968 6% 89 1% /tmp
/dev/hd1 16384 5332 68% 1402 35% /home
除/usr文件系统,其他文件系统都不应太满,一般不超过80%。

处理方法1:删除垃圾文件

# du -sk * |sort -rn |head
查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分哪些目录是文件系统的 mount point,哪些是文件系统的子目录)删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放,有时甚至需要重启系统。
处理方法2:增加文件系统大小
# smitty chjfs
命令(速度快一些)
文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。
2)检查文件系统的完整性
# umount filesystem_name
# fsck -y filesystem_name
注意:文件系统必须先umount,再做检查和修复,否则可导致未
知的后果。
3)查看卷组信息(lsvg -l vg_name)
有没有"stale"状态的逻辑卷。若有,用syncvg 命令修复"stale"逻辑卷。
stale [steil] n. (牲畜等的)尿 adj.不新鲜的, 陈腐的, 疲倦的, 陈旧的 vt. 使变旧, 走味 vi.变陈旧, 变无味, 失时效, 撒尿。

4)检查内存交换区(paging space)使用率(lsps -s)

使用率是否超过70%
若有则用
chps –sX pgname 增加X个PP
或用
mkps –a –n –sX myvg 在myvg上增加一个PP数为X的内存交换区。

在HACMP 5.2版本,以及 5.2版本以前,您可以通过查看clstrmgrES进程是否活动的方法来查看HACMP的服务是否启动。具体的方法有:

1、clshowsrv -v命令
2、smit hacmp里面的C-SPOC工具
3、l***c -g cluster命令
但在HACMP 5.3以及5.4版本中,clstrmgrES进程在机器启动以后永远是活动状态的,因此不能依靠上述方法判断HACMP的服务是否启动。可以用以下的方法判断HACMP是否启动:
/usr/es/sbin/cluster/utilities/clcheck_server grpsvcs|echo $?
如果输出为0则表示没有启动HACMP服务,如果输出为1则表示HACMP服务已经启动.

查询HACMP双机系统的状态

  在双机系统的运行中,操作员只有知道双机系统的当前状态,才有可能对双机系统出现的异常情况进行恢复处理,保证双机系统的高可用性和高容错性。查询HACMP双机系统的状态,以root用户身份进入需要查询的节点,用#lssrc -g cluster命令检查HACMP双机软件在该节点是否已启动,系统显示3个active的信息,则说明HACMP双机软件已正常启动。
   在确认双机软件HACMP 正常启动的情况下,在命令行执行# /usr/sbin/cluster/clstat-a命令查看双机系统的当前状态。

设置交换空间(paging space)

----用以下命令察看交换空间的使用情况:
# lsps -a
Page Space Physical Volume Volume Group Size %Used Active Auto Type
paging00 hdisk1 rootvg 2048MB 5 yes yes lv
hd6 hdisk0 rootvg 2048MB 5 yes yes lv

在启动HACMP的环境中,如何检查HACMP的运行状态?

解答

使用 /usr/es/sbin/cluster/clstat 命令可以检查群集成员的运行状态.

clstat命令输出中包含有群集本身,节点,以及节点上的网络适配器的运行情况.
注:使用clstat命令时,HACMP要启动clinfo 服务.

例如:

#clstat
clstat - HACMP for AIX Cluster Status Monitor
---------------------------------------------
Cluster: ibm_26c (666) -------Thu Jul 9 18:58:33 EDT 1998
---------State: DOWN Nodes: 2
---------SubState: UNSTABLE
-------Node: poseidon ---------------------State: DOWN
-------Interface: poseidon-enboot (0) -----Address: 140.186.70.106
-------------------------------------------State: DOWN
-------Node: venus State: DOWN
-------Interface: venus-enboot (0) Address: 140.186.70.107
-------------------------------------------State: DOWN
***************** f/forward, b/back, r/refresh, q/quit **********

网络故障处理

   (1)网络不通的诊断过程
   ifconfig查看网卡是否启动(up);netstat-i查看网卡状态;Ierrs/Ipkts和Oerrs/Opkts是否>1%;ping本机网卡地址;ping其他机器地址,如不通,在其机器上用diag检测网卡是否有问题。

(2)检查系统出错日志

   使用errpt |more命令检查,清除现有的log Errclear 0。
   (3)检查系统合法/非法登录情况
   使用Last命令检查登录地点。
   (4)检查系统是否有巨大的Core文件生成
   使用find / -name core-print命令检查。对Core文件,一般直接删除即可。
   (5)系统性能检查
   ①CPU性能:使用Vmstat topas命令检查。
   ②内存使用情况:使用topas,vmstat命令检查。
   ③检查IO平衡使用情况:使用iostat命令检查。
   ④交换空间使用情况:使用lsps -a命令检查

1、检查系统硬件情况:设备故障灯是否有亮

2、系统错误报告(errlog)
errpt -d H -T PERM
对有怀疑的进一步:errpt -aj 错误代码|more
3、有否发给root用户的错误报告(mail)
mail
4、检查hacmp.out,smit.log,boot.log
cd /tmp
ls hacmp.out*
找到时间最近的字节不为零的文件,vi查看
如果怀疑系统曾经有调整操作,检查/smit.log
alog -ot boot
5、关键系统的文件使用率不大于80%
df -k查看%Used
6、逻辑卷有否stale
lsvg -l 卷组名称
查看状态是否有stale的逻辑卷
7、内存交换区使用率是否超过70%
lsps -a
查看占用率是否超过70%
8、内存交换区的大小是否为物理内存的1.5倍
命令同上
现在原则有所改变,2G内存以下可按照1.5倍的标准,2G内存以上如果交换区占用率不高,可用2GB标准
9、检查备份情况(有否系统备份、用户数据备份、磁带机是否需要清洗)
口头询问:系统备份、数据备份
检查磁带机面板,提醒用户清洗
10、通信(网卡、IP、路由表、ping、/etc/hosts、DNS设置等)
netstat -in
netstat -rn
netstat -i
vi /etc/hosts
检查DNS相关文件内容
11、是否有数据保护方式如RAID10/RAID5,是否有Hot spare
如果是7133,diag→Task Selection→SSA Service Aids→Link Verification,smitty ssaraid
FAStT产品使用其管理软件Storage Manager查看
ESS使用ESS控制台查看
12、系统DUMP设置是否正确
sysdumpdev -l
13、检查系统参数是否正确
1)/etc/environment中的TZ不能有夏时制
vi /etc/environment
检查环境变量TZ,其格式应该是这样:TAIST-8,而不能是TAIST-8TAIDT-7这样的格式
2)如有数据库:Aio:available
lsdev -C|grep aio
查看其状态是否available
如不是:smitty chgaio,将状态修改为available,重启系统
3)HACMP中I/O pacing:High Water Mark/Low Water MArk:33/24
如果系统中运行了HACMP
smitty chgsysy,将High/Low water mark从0/0修改为33/24
4)HACMP中Syncd:10
如果系统运行了HACMP
查看/etc/inittab,将syncd后次参数修改为10,然后telinit q,kill -9 "syncd's PID"
5)HACMP中Power Monitor off
14、检查rootvg是否有镜象
lsvg -l rootvg查看镜像
15、检查errdaemon,srcmstr是否正常运行
ps -ef|grep err
ps -ef|grep src
16、机房环境(电压、湿度)
基本要求:零地电位差不得大于1V;严格要求:零地电阻<=1Ω(国内没几个能做到,〈=3Ω就差不多了)
湿度:45%—70%
17、系统性能:有否性能瓶颈(topas,vmstat)
18、补丁程序(PTF)、微码(是否需要升级)
instfix -i|grep ML查看补丁级别及是否完整;
lscfg -vp检查所有硬件设备微码
19、HACMP测试:Cluster Verification
smitty hacmp→Cluster Configuration→Cluster Verification
20、系统硬件诊断
diag→Advanced Diagnos...→Problem Determination
21、运行#snap -ac,生成文件snap+s/n.pax.Z
22、机器清洁

AIX 5L PAGESPACE内容分析

a.当系统内存紧张时,绝大部分内存都有可能被替换出去,在PAGESPACE里占有一块空间。
b. 随着系统的运行,不断有进程进进出出,这个进程列表一直在变。
c. pagespace的占用牵涉到共享部分,无法确定说是那个进程。
不过,为了说明这一点,现在让我们来看看pagespace里放了些什么:
1. 察看总数:
首先ps是看不到pagespace的使用大小的,只有ps v中可以看到PGIN,是指因缺页引起调页的I/O次数。
topas和lsps只能看到总数。
[erpd01][root][/home]>lsps -a
Page Space Physical Volume Volume Group Size %Used Active Auto Type
paging00 hdisk0 rootvg 6144MB 64 yes yes lv
hd6 hdisk0 rootvg 6144MB 64 yes yes lv
[erpd01][root][/home]topas
PAGING SPACE
Size,MB 12288
% Used 64.2
% Free 35.7
svmon 则可以看得比较准确:
svmon -G
size inuse free pin virtual
pg space 3145728 2006408
这三个结果都是吻合的,即总量12G,使用了接近8G.。
2. 分用户察看:
从中不难看出,oracle和tuxdeo均占了很大比例。
ser pagespace *4K/M percent
oraclecx 1000813 4003252 49.88%
tuxrun 841627 3366508 41.95%
root 21109 84436 1.05%
xcomprod 24034 96136 1.20%
ingres 35223 140892 1.76%
nobody 2068 8272 0.10%
daemon 2003 8012 0.10%
imnadm