广州移动

20081010,今天下午到达广州,33度的高温仿佛回到了济南的一个月以前,换上短袖,幸好还穿了一条薄的长裤子,否则会热死雪人。
本次出差的任务有几个,第一个就是做windows2003的集群,这个东西以前从未接触过,呵呵,研究吧。
到达机房看了环境,两台hp proliant DL580G5的机子,内置硬盘已经做了raid1,已经安装的2003系统没有装好驱动,按照说明用设备自带的smartstart CD重做,到晚上22点,做好了一台的2003系统,上网搜了一些集群的资料。回到7天连锁宾馆,要了两罐百威、一罐王老吉、一包牛肉干、一包酒鬼老花生、一个盒面,呵呵,爽,睡觉已经1点多了。

----------------------------------------------------------

20081011,今天早上10点多到达机房,继续安装另外一台,同时看安装说明,发现没有共享磁盘的集群安装,可能是一个问题!如果用软件模拟共享磁盘,可能存在不稳定的情况,与ibmP570共享使用ibmD4700盘阵?这样的话存在一个问题:DL580没有光纤卡,无法使用盘阵。在没有共享磁盘的情况下,如何安装2003的集群???局方负责人建议使用已有的磁盘阵列,但是由于离得较远,无法接光纤交换机直连。我建议在两台机器部署应用,安装双机软件替代原来计划的集群功能,双方认可。接下来,从客户方拿到中文包、office软件进行安装,同时看看有无合适的双机软件。经过多方查询,未找到合适的双机软件。建议双机部署应用以后,如遇故障,手动切换,对于实时性要求不是特别高的本系统来讲,应该不会带来过大的负面影响。

-----------------------------------------------------------

20081012,今天全力孤岛了一下rhel5下的oracle安装,由于原来安装的reahatel5不是最新的完全版本,很多pkg都没有,在网上下载、查找各个pkg,太累了,干脆找时间下载安装最新的rh5吧。注册了一个redhat network的帐号likingzi。

---------------------------------------------------------

20081013,昨天同时研究了一下双机软件,结论如下:
电话咨询一下microsoft,没有配置共享磁盘阵列的情况下,两台主机如何安装集群?
如果是windows平台下做双机,可以推荐给你三种自己用过的第三方软件,感觉都还不错。
1、rose ha for windows(也有unix版本的),价格不贵,1万5-3万之间吧。
2、lifekeeper for windows(也有unix版本的),价格和Rose差不多。
3、legato的octopus(他可以不用盘柜做双机)
咨询本地位于天河区百脑汇的经销商,rose ha 8000元即可适合项目的版本,可以上门安装:
http://publish.it168.com/2008/0527/20080527040901.shtml

--------------------------------------------------------

20081014,集群的两台hp pc需要安装中文包、office2003、杀毒软件。
ibm小型机挂接磁盘阵列,需要联系ibm得到卷管理的操作步骤。
安装oracle软件需要得到aix版本的10G版本,拿到新到的介质,霍,有一打光盘!

1、oracle数据库数据使用的卷,建议统一划分为每个卷10G,卷号排序建议按照磁盘循环编号,使用时可以错开使用有利于提高性能,可以让ibm建好一部分,再留下建立步骤即可,后续根据实际情况再建立;
2、应用软件:100G的文件系统,挂接到/app;
备份目录:200G的文件系统,挂接到/backup;
原始数据文件:100G的文件系统,挂接到/spool;
3、oracle数据库软件:安装到本机

--------------------------------------------------------

20081015,oracle安装准备,13825040330林工,神码

lk双机软件安装:
18---host id=00215adb593e
lk
steeleye-lkwce_Chinese-26241-17464-16409-35328-64089-00272-17440-15211-01995-00963-27648-25368-27792-17243-01455-47171-32586-00708-17936-42411-25647-52674-37015-28614-30051-38

dr
steeleye-lkeme-26241-17464-16409-35328-64153-00272-17440-15211-01995-00963-35840-13037-14937-25284-55260-61459-19020-00873-58448-20494-16438-30481-44596-19812-49143-4
19---host id=001f29e2e31e
lk
steeleye-lkwce_Chinese-26241-17464-16409-35328-64089-00272-09184-31813-00988-00963-54272-40229-41118-24543-10830-21632-15690-00946-24220-07609-57811-02374-59404-42079-58964-32

dr
steeleye-lkeme-26241-17464-16409-35328-64153-00272-09184-31813-00988-00963-43008-34993-15862-19219-51960-43751-54234-00234-56636-40943-64951-61988-31377-04789-39470-10

-----------------------------------------------------

20081016/17,oracle安装、系统配置,ibm、oracle两方
1、rac安装之前需要对操作系统的安装提出明确的要求,文档模板:
2、rac相关的配置文件:/etc/hosts,hostname,vip
3、维护文档:配置文件

srvctl start instance -d ceis
srvctl start instance -d ceis -i ceis1

select instance_name from v$instance;
select * from dba_objects;

------------------------------------------------------

20081018
两天时间陪oracle工程师安装配置了oracle、rac,发现这个rac的安装还确实需要配置的东西比较多,该找个时间测试一下安装步骤,弄个linux版本的试一试吧。
周五下午总算拿到了一份可以安装的双机软件safekit7。在windows2003下安装配置了safekit,初步配置基本成功,接下来需要配置、测试一下可用性,另外从经销商处拿到了部分文档,需要研究一下。
周六和同事一起一起爬了爬山,活动了一下,晚上继续跑步,浑身出透汗的感觉真的很好啊,继续跑,嘿嘿
文档继续编写中,,,

---------------------------------------------------------

20081019,oracle10grac文档编写,并交付项目及客户。
建立tablespace的步骤:

1、由于所有的tablespace要建立在datavg上,首先确认datavg的pp大小
lsvg datavg查看pp的大小:64M,即1个pp的大小是64m,则如果建立640m的表空间的话,需要10个pp。
其中free pp即目前可用的pp数目。

2、用root用户登录系统,使用smitty建立lv
smitty mklv:10*pp,lv type和pv name不指定,由aix分配即可。本例的lv名字为testkk。

3、建立lv以后,需要在两个节点修改其属性,root用户下
cd /dev
chown oracle:dba rtestkk
chmod 660 rtestkk

4、oracle用户进入sqlplus:
CREATE TABLESPACE ts_test DATAFILE '/dev/rtestkk' size 635m;
注:实际建立tablespace时要比640m稍小。

具体建立表空间的要求,请开发负责人把关。

---------------------------------------------------------------

20081020,全力鼓捣safekit双机、集群软件

safekit的flash演示地址:http://www.evidian.com/safekit/demo1/

1.5 SafeKit Farm Cluster

1.5.1 Network Load Balancing and Failover
The farm architecture provides both network load balancing, through transparent
distribution of network traffic, and software and hardware failover.
This architecture provides a simple solution to increasing system load. The same
application runs on each server, and the load is distributed across the network
stacks of the servers by an extension of the OS.
Farm architecture is suited to front-end applications like firewalls and web
services.

1.5.2 Virtual IP Address With Network Load Balancing
All the N servers in a cluster are associated with a single virtual IP address. The
input traffic for this address is received by all the N servers and split among them
by a filter inside each server's kernel. Once accepted by one server, only the CPU
and memory of this server are used by the application responding to the client's
requests: the output messages are then sent directly from the application server to
the client. If a server fails, the SafeKit membership protocol reconfigures the filters
in the farm to re-balance the traffic on the remaining available servers.

failover已经配置完毕,loadbanlance就是无法成功!

-------------------------------------------------------

20081021,负载均衡今天务必成功
遗憾的是,只把脚本搞通,还是未能让vip起来!

-------------------------------------------------------------

20081022、23,safekit软件配置、安装、使用

1、192.168.10.19机器桌面上的safekit.xml文件是双机的gui配置文件,用safemonitor操作双机软件时,打开该配置文件,即可看到已有的双机应用配置情况。

2、在safemonitor界面上,可以看到目前配置了18、19两台机器的web应用。

3、具体的操作及配置信息可以在操作界面进行查看,详细操作请查看文档《safekit70userguide.pdf》之(3. Use the SafeMonitor Console)

4、配置我们应用的几个关键文件:prestart.cmd、start_both.cmd、stop_both.cmd、userconfig.xml,可以按照手册的指示进行相应的修改,尤其是脚本里面的路径需要与实际相符,且errd域配置的进程名字需要与实际应用相符。

4.1、prestart.cmd脚本位于c:\safekit\modules\farm\bin,内容如下:
@echo on

rem Script called on server start for stopping applications
rem before setting SafeKit resources
rem

rem ----------------------------------------------------------
rem       Logging functions
rem ----------------------------------------------------------
rem
rem   use %SAFE%\safekit printi | printe | printw      "message"
rem        printi: log I[nformative] message in SafeKit log
rem        printe: log E[vent] message
rem        printw: log W[arning] message

rem ----------------------------------------------------------
rem Main program for prestart
rem ----------------------------------------------------------

set res=0

rem graceful stop
if exist %SAFEUSERBIN%\stop_second.cmd  call %SAFEUSERBIN%\stop_second.cmd
if exist %SAFEUSERBIN%\stop_prim.cmd  call %SAFEUSERBIN%\stop_prim.cmd
if exist %SAFEUSERBIN%\stop_both.cmd  call %SAFEUSERBIN%\stop_both.cmd

rem forced stop
if exist %SAFEUSERBIN%\stop_second.cmd  call %SAFEUSERBIN%\stop_second.cmd force
if exist %SAFEUSERBIN%\stop_prim.cmd  call %SAFEUSERBIN%\stop_prim.cmd force
if exist %SAFEUSERBIN%\stop_both.cmd  call %SAFEUSERBIN%\stop_both.cmd force
rem Fill with other applications stop
rem and set res=0 if successfull
rem or set res=1 if failed

if %res% == 0 goto end

%SAFE%\safekit printi "prestart failed"

rem uncomment to stop SafeKit when critical
rem %SAFE%\safekit stop -i "prestart"

:end

4.2、start_both.cmd脚本位于c:\safekit\modules\farm\bin,内容如下:
set res=0
set JAVA_HOME=d:\java
set CATALINA_HOME=d:\tomcat-6.0.18
cd d:\
cd d:\tomcat-6.0.18\bin
call d:startup.bat

if not %errorlevel% == 0 goto stop
%SAFE%\safekit printi "7001:wsh started"
if %res% == 0 goto end

:stop
set res=%errorlevel%
%SAFE%\safekit printi "start_both failed"

:end

4.3、stop_both.cmd脚本位于c:\safekit\modules\farm\bin,内容如下:
set JAVA_HOME=d:\java
set CATALINA_HOME=d:\tomcat-6.0.18
cd d:\
cd d:\tomcat-6.0.18\bin
call d:shutdown.bat

4.4、userconfig.xml脚本位于c:\safekit\modules\farm\conf,内容如下:
<?xml version="1.0"?>
<!-- Farm Module for SafeKit -->
<!-- See Readme.txt -->
<!DOCTYPE safe>
<safe>
<service mode="farm">

<!-- Farm Configuration -->
<!-- Replace
* PHYSICAL_IP_ADDR1_TO_BE_DEFINED,
PHYSICAL_IP_ADDR2_TO_BE_DEFINED
by the IP address of your 2 servers
-->
<!-- add node tag if load-balancing on more than 2 servers -->
<farm>
<lan>
<node name="UNMP-GZ-CEIS18" addr="192.168.10.18"/>
<node name="UNMP-GZ-CEIS19" addr="192.168.10.19"/>
</lan>
</farm>

<!-- Virtual IP Configuration -->
<!-- Replace
* VIRTUAL_IP_ADDR_TO_BE_DEFINED by the IP address of your virtual server
-->
<vip>
<interface_list>
<interface check="on">
<virtual_interface type="vmac_invisible">
<virtual_addr addr="192.168.10.26" where="alias"/>
</virtual_interface>
</interface>
</interface_list>
<loadbalancing_list>
<group name="FarmProto">
<!-- Replace
* PORT_TO_BEDEFINED, PROTO_TO_BEDEFINED and FILTER_TO_BE_DEFINED
by the values suited for your application
(e.g. <rule port="80" proto="tcp" filter="on_addr"/> for a web server
-->
<rule port="7001" proto="tcp" filter="on_addr"/>
<!-- add rule tag if needed -->
</group>
</loadbalancing_list>
</vip>

<!-- Software Error Detection Configuration -->
<errd>
<proc name="java.exe" atleast="1" action="restart" class="both" />
</errd>
<!-- User scripts Configuration -->
<!-- See TODO in SAFE/modules/MODULE/bin scripts -->
<user/>

</service>
</safe>

从上述配置文件可以看出,相关的配置信息有很多,请务必保持。具体如下:
应用的服务进程名:java.exe
应用的服务端口号:7001
服务器的名字、ip地址、vip地址
tomcat、java的安装路径,java_home、catalina_home环境变量设置

5、目前18、19两台机器可以都接受来自外部的web访问,但是虚拟ip地址26还没有最后配置成功,厂家的人员远程协助了2天,还未配置成功。

6、第四天,曹杰协助查找网络原因,ip地址有误,26地址不对,汗,四天的时间,浪费在一遍遍的度文档、配置、各类沟通上,,,
更换了27地址,ok。

标签:

发表评论

电子邮件地址不会被公开。 必填项已用*标注