Aix5300-08安装oracle10G-RAC笔记(含升级过程).txt

2010年1月12日 6921点热度 0人点赞 0条评论

◆主要的参考文档是，北京时代朝阳的系列文档：
1.系统软硬件结构.pdf
2.AIX操作系统的安装、必要文件集安装、修补、升级.pdf
3. 1.0 详细参考 - 下载AIX 5300-04 Concluding Service Pack .pdf
4. 1.1 详细参考 - 安装5300-04 CSP .pdf
5. 1.2 详细参考 - 安装xlC7 .pdf
6. 配置网络 .pdf
7. 配置安装Oracle所需的UNIX组、用户、目录、操作系统参数、网络参数 .pdf
8. 安装前运行rootpre.sh与cluvfy检查 .pdf
9. 为Oracle Clusterware和数据库配置裸磁盘设备-不使用IBM HACMP或GPFS .pdf
10. 在 IBM AIX 双机环境安装 Oracle RAC 10.2 .pdf
在此严重感谢时代朝阳公司的经验共享！链接如下：
http://www.traillab.com/showArticle.asp?Articleid=459&anclassid=45
如果无法查看，请登录。
另外，就是oracle网站的经典文档。
由于众所周知的原因，本次安装后又升级到了10.2.0.4版本，以提高数据库的稳定性。

◆本次安装环境如下：
ibm p595机器两台，操作系统版本aix 5300-08，盘阵是hp的8100。
物理上595使用两块电口的网卡，hba卡接光纤交换机连通8100。
8100的盘阵使用hp的磁盘管理软件，做raid5后可以present给rac1机和rac2机供ASM使用。
所以本次方案的特点是：不使用任何操作系统级别的双机、卷管理软件，完全使用oracle 10G的双机软件、卷管理软件，完全不同于传统的并发vg、并发lv的概念。说是完全不同，其实是很简单的，道理也很易于理解。

◆问题1：由于新装的光纤，hp厂家人员在hpeva storage management管理界面无法发现新接的595，但是在8000盘阵界面上可以看到新加的595主机，分析物理链接是没有问题的，决定采用手动添加光纤卡mac地址的方式添加host，两边来回折腾，把新主机加在了盘整管理软件的host列表里。

◆问题2：遇到无法再主机发现新增磁盘的问题，采取redev -dl光纤卡的方式删掉光纤卡，再次添加上，在cfgmgr，lsdev -Cc disk，ok，问题解决，汗。

◆ocr和voting disk新建，都是1G，冗余方式external，关键的一点是配置reserve_policy为no_reserve，这样，两个节点都可以访问，由于操作系统版本不一样，这一点与时代朝阳的指导文档有出入，5300-04版本的磁盘共享属性是reserve_lock。
有一点说明下，只要确认两边认到的共享磁盘是同一块，也可以不必清空pvid。
最后记得设置/dev/下rhdiskn的属性，此处ocr使用了disk2，voting使用了disk5，ASM使用的是disk3、disk4。
相关的操作：
chdev -l hdisk2 -a reserve_policy=no_reserve
chdev -l hdisk2 -a pv=clear
# chown root:oinstall /dev/rhdisk2
# chmod 640 /dev/rhdisk2
# chown oracle:dba /dev/rhdisk5
# chmod 644 /dev/rhdisk5
# chown oracle:dba /dev/rhdisk[3-4]
# chmod 660 /dev/rhdisk[3-4]

◆问题3：再次遇到问题，执行$ ./runcluvfy.sh comp nodecon -n sdwgrac1,sdwgrac2 -verbose时，最后一步的vipca无法执行，提示：
ERROR:
Could not find a suitable set of interfaces for VIPs.
不必理会，继续执行余下操作，在rac1执行# /u01/crs/oracle/product/10/app/root.sh正常，在rac2执行时，再次遇到错误：
Running vipca(silent) for configuring nodeapps
The given interface(s), "en0" is not public. Public interfaces should be used to configure virtual IPs.
这个问题的解决是参考了linux下安装rac的解决办法，即手动执行vipca，在第二个节点，用root用户手动执行，填写相应的vip名字，ip会自动识别出。
（注，如果遇到缺少补丁或安装包，只需安装相应的补丁或包即可，不再赘述）

◆新增vdisk后，在两个节点执行：
cfgmgr
lspv
lsattr -El hdisk6
chdev -l hdisk6 -a reserve_policy=no_reserve
如果有pvid，需要如下方式取消：chdev -l hdisk6 -a pv=clear
最后修改pv的属性：
chown oracle:dba /dev/rhdisk6
chmod 660 /dev/rhdisk6
之后在+ASM1实例执行：
$ export ORACLE_SID=+ASM1
$ sqlplus "/ as sysdba"
alter diskgroup DATA add disk '/dev/rhdisk3';

◆由于10.2.0.1版本的bug较多，下载了10.2.0.4的补丁，p6810189_10204_AIX5L.zip，1.8G，我家的2M的宽带又发挥了作用。
引用网上别人的说法：“这里值得一说的是，对于clusterware和database的补丁并不是分开的，都是同一个介质文件，只是在安装的时候注意选择安装路径，比如选择crs的路径就是给clusterware打补丁，选择database的路径就是给数据库打补丁。”

◆具体的升级步骤：（升级之前对于数据库数据进行必要的备份，采用expdp的方式备份；对于oraclehome路径、crshome路径也需要进行备份，以免升级失败可以方便的回退处理。）

0、如果em、isqlplus正在运行，需要关闭：
emctl stop dbconsole
isqlplusctl stop

1、关闭rac1、rac2数据库实例
srvctl stop database -d eoms
2、关闭rac1、rac2的ASM实例
srvctl stop asm -n sdwgrac1
srvctl stop asm -n sdwgrac2
3、关闭ons、gsd、vip、lsnr等crs资源
srvctl stop nodeapps -n sdwgrac1
srvctl stop nodeapps -n sdwgrac2
4、关闭crs（超级用户）
crsctl stop crs
注意：crs_stop|crs_start -all的方式可以停掉所有的crs资源，但是这种全部启停的方式实际上经常有报错，最好是按照一定的顺序来启停crs资源。

5、解压缩执行升级10204补丁时，务必注意选择先升级crs路径的cluster ware。
首先在rac1节点执行：
# /u01/crs/oracle/product/10/app/bin/crsctl stop crs
# /u01/crs/oracle/product/10/app/install/root102.sh
Error : Please change the CRS_ORACLE_USER id <oracle> to have the following OS capabilities :
< CAP_PROPAGATE CAP_BYPASS_RAC_VMM CAP_NUMA_ATTACH >
by running </usr/bin/chuser> command then 'crsctl stop crs' and 'crsctl start crs'.
The CSS daemon, ocssd.bin, will not run in realtime without this change
Oracle strongly recommends that the CSS daemon run realtime
Creating pre-patch directory for saving pre-patch clusterware files
Completed patching clusterware files to /u01/crs/oracle/product/10/app
Relinking some shared libraries.
Relinking of patched files is complete.
Preparing to recopy patched init and RC scripts.
Recopying init and RC scripts.
Startup will be queued to init within 30 seconds.
Starting up the CRS daemons.
Adding daemons to inittab
Waiting for the patched CRS daemons to start.
This may take a while on some systems.
.
10204 patch successfully applied.
clscfg: EXISTING configuration version 3 detected.
clscfg: version 3 is 10G Release 2.
Successfully accumulated necessary OCR keys.
Using ports: CSS=49895 CRS=49896 EVMC=49898 and EVMR=49897.
node <nodenumber>: <nodename> <private interconnect name> <hostname>
node 1: sdwgrac1 sdwgrac1-priv sdwgrac1
Creating OCR keys for user 'root', privgrp 'system'..
Operation successful.
clscfg -upgrade completed successfully
根据错误提示，执行以下：
# /usr/sbin/lsuser -a capabilities oracle
# /usr/bin/chuser capabilities=CAP_NUMA_ATTACH,CAP_BYPASS_RAC_VMM,CAP_PROPAGATE oracle

此时，rac1节点已经移动了rac1的实例、监听、nodeapps资源，并且启动了vip2。
关掉所有，再到rac2节点执行：
# /usr/sbin/lsuser -a capabilities oracle
# /usr/bin/chuser capabilities=CAP_NUMA_ATTACH,CAP_BYPASS_RAC_VMM,CAP_PROPAGATE oracle
# /u01/crs/oracle/product/10/app/bin/crsctl stop crs
Stopping resources.
Successfully stopped CRS resources
Stopping CSSD.
Shutting down CSS daemon.
Shutdown request successfully issued.
# /u01/crs/oracle/product/10/app/install/root102.sh
Creating pre-patch directory for saving pre-patch clusterware files
Completed patching clusterware files to /u01/crs/oracle/product/10/app
Relinking some shared libraries.
Relinking of patched files is complete.
Preparing to recopy patched init and RC scripts.
Recopying init and RC scripts.
Startup will be queued to init within 30 seconds.
Starting up the CRS daemons.
Adding daemons to inittab
Waiting for the patched CRS daemons to start.
This may take a while on some systems.
.
10204 patch successfully applied.
clscfg: EXISTING configuration version 3 detected.
clscfg: version 3 is 10G Release 2.
Successfully accumulated necessary OCR keys.
Using ports: CSS=49895 CRS=49896 EVMC=49898 and EVMR=49897.
node <nodenumber>: <nodename> <private interconnect name> <hostname>
node 2: sdwgrac2 sdwgrac2-priv sdwgrac2
Creating OCR keys for user 'root', privgrp 'system'..
Operation successful.
clscfg -upgrade completed successfully
结果是，在rac2节点执行完全成功。

此时可以正常启动所有的crs资源。按照之前的经验，如果此时vip起不来，可能是网关设置的问题，设置网关或者修改vip的配置文件racgvip即可，如下：
# set it to 0 for checkIf() to return success if default gateway is not found,
# otherwise set it to 1
FAIL_WHEN_DEFAULTGW_NO_FOUND=1
# otherwise set it to 1
FAIL_WHEN_DEFAULTGW_NO_FOUND=1

检查clusterware版本：
$ crsctl query crs softwareversion sdwgrac1
CRS software version on node [sdwgrac1] is [10.2.0.4.0]
$ crsctl query crs softwareversion sdwgrac2
CRS software version on node [sdwgrac2] is [10.2.0.4.0]

clusterware升级成功。

6、再升级数据库软件到10204：

关闭所有的crs资源，安全起见，也关闭crs本身。
注意一件事，在安装10204补丁时，弹出图形界面第二部选择path时，如果在环境变量里设置了CRS_HOME和ORACLE_HOME两个变量，则可以在下拉菜单直接选择。
本次选择了ORACLE_HOME对应的路径，而不是CRS_HOME。有一点需要注意，两个节点的相关路径务必保证有足够的空间用来升级。
升级时提示一个jre的文件无法写入，执行slibclean清理运行库，再次安装即可。
最后root执行提示的脚本，正常。
The iSQL*Plus URL is:
http://sdwgrac1:5560/isqlplus

The iSQL*Plus DBA URL is:
http://sdwgrac1:5560/isqlplus/dba

7、最后升级数据库本身：
仔细查看了oracle原文档，鉴于oracle明确说明，dbua支持asm和数据库升级，决定还是采用dbua升级。
启动crs及nodeapps资源，再关闭asm，执行dbua，首先升级asm，提示已经是最新版本，无需升级。
再升级database，由于数据库没有开启，没有提示rac信息，担心出现差错，谨慎运行进入下一步，收集数据库信息时间漫长，，，正确收集到。
期间退出为asm添加了recovery diskgroup，之后继续升级，熟悉的升级窗口、界面。
配置em时出错：
Enterprise Manager ConfigurationError ignored: Could not complete the Enterprise Manager configuration. Enterprise manager configuration failed due to the following error - Database instance unavailable. Refer to the log file at /u01/app/oracle/product/10.2.0/db_1/cfgtoollogs/dbua/eoms/upgrade0/emConfig.log for more details. You can retry configuring this database with Enterprise Manager later by manually running /u01/app/oracle/product/10.2.0/db_1/bin/emca script.

经验证，数据库完全正常，只需择机处理下em即可。

Aix5300-08安装oracle10G-RAC笔记(含升级过程).txt

文章评论