这是一套11g的老库,主库3节点,备库1节点。项目上于昨天晚上做某测试扩容了表空间,在其他位置新建了9个数据文件,在备库无法创建这个非标准位置的datafile,从而导致同步中断。 第二天上午才发现数据不同步,备库的只读业务受到影响。 查看alertlog看到明显的报错 ORA-01111: name for data file 41 is unknown - rename to correct file ORA-01110: data file 41: '/u01/app/oracle/product/…

2021年8月13日 1条评论 1795点热度 0人点赞 liking 阅读全文

在后期打patch时常见的一个错误是: Prerequisite check "CheckActiveFilesAndExecutables" failed. 如果在服务端有相关的进程在运行,从而占用可执行文件或运行库,会导致升级时无法更新相应的文件,从而升级失败,报出如上错误。 一般是很容易通过fuser、lsof查出相关的进程的,但有一个情形是无法查出来,只能用fuser查看指定的运行库如libclntsh.so来确定是否占用运行库,如下例。 /u01/app/oracle/product/…

2021年7月22日 0条评论 969点热度 0人点赞 liking 阅读全文

在一次adg构建过程中提示如下报错: [oracle@adg1:0 ~]$ rman target sys/"passwd#"@TESTDB_DGSRC_TNS auxiliary sys/"passwd#"@TESTDB_DGTAR_TNS Recovery Manager: Release 19.0.0.0.0 - Production on Wed Jul 21 21:47:25 2021 Version 19.8.0.0.0 Copyright (c) 1982, 2019, Oracle and/or i…

2021年7月22日 0条评论 1450点热度 0人点赞 liking 阅读全文

一套12C的数据库2节点RAC集群,节点2被down了,查看alertlog,报错如下: 2021-06-16T01:26:16.516936+08:00 Thread 2 advanced to log sequence 8611 (LGWR switch) Current log# 4 seq# 8611 mem# 0: +DATA/CB2QDB/ONLINELOG/group_4.305.992195801 Current log# 4 seq# 8611 mem# 1: +DATA/CB2QDB/ONLIN…

2021年7月6日 1条评论 1812点热度 0人点赞 liking 阅读全文

(接上文) https://liking.site/2021/06/09/大量事务并发回滚彻底堵塞数据库1/ https://liking.site/2021/06/10/大量事务并发回滚彻底堵塞数据库2/ https://liking.site/2021/06/11/大量事务并发回滚彻底堵塞数据库3/ 根据oratop的top等待事件排名,包括累积排名和实时排名,这个"wait for a undo record"已经成为了目标等待事件,是否它阻塞了正常的前滚事务呢? 根据MOS的搜索结果,当…

2021年6月12日 0条评论 1250点热度 0人点赞 liking 阅读全文

(接上文) https://liking.site/2021/06/09/大量事务并发回滚彻底堵塞数据库1/ https://liking.site/2021/06/10/大量事务并发回滚彻底堵塞数据库2/ 在后续的故障定位时,有人根据如下日志,认为是归档空间满,导致了数据库挂死。 实际不然,这个FAL报错,只是到DG的归档由于其他原因导致了报错,日志也写在了主库alertlog文件,并非是主库归档失败,对主库并无其他影响,仅仅是写了一个日志而已。事后我的详细排查也印证了这一点,当天中午12:00和18:00分别有…

2021年6月11日 0条评论 1470点热度 1人点赞 liking 阅读全文

(接上文) https://liking.site/2021/06/09/大量事务并发回滚彻底堵塞数据库1/ 在数次停库、起库的过程当中,遭遇过部分实例起在其他节点的情况,如下。 srvctl start instance -d jkdb -i jkdb1 发现实例1起在了2号节点 srvctl stop instance -d jkdb -i jkdb1 srvctl start instance -d jkdb -i jkdb3 实例3起在了3号节点 srvctl start instance -d jkdb …

2021年6月10日 0条评论 1334点热度 0人点赞 liking 阅读全文

这是一个历时5个多小时的故障处理过程,值得认真记录、反思。 事后详查发现,数据库16:00之前就出现大量锁表情况,16:07运维支撑群有用户反映系统慢,直到反馈系统彻底没法用了。下图显示,实际14:00以后就开始出现了较多的锁表情况。 只是,14:00-16:00期间由于只是后台执行任务的锁表,并未明显影响到客户感知,相关的一线业务还可正常进行。 但是当这些执行失败的定时任务一个接着一个,反复重复执行,从而导致大量锁死时,会怎样呢?这会把整个库搞瘫痪。 相关的等待事件涉及到了大量的row cache lock、gc…

2021年6月9日 0条评论 1352点热度 1人点赞 liking 阅读全文

昨天在查看一个adg备库时,偶然发现了一个oracle的大坑,就是审计日志文件(*.aud)过多的问题,在adump目录下竟然有接近500万个aud文件,经查阅资料得知,所有以sysdba用户访问数据库的情况,都会记录一个aud文件在adump目录下,即使audit_trail设置为none,也会记录aud文件。 这样的话,当某些情况频繁以sysdba登录数据库的话,经年累月的定时任务,会导致这个路径下积压大量的aud文件,可想而知,严重情况会导致inode占满,导致OS故障,后果不堪设想。 我们知道默认情况数据库…

2021年6月4日 0条评论 1851点热度 0人点赞 liking 阅读全文

某项目一个11g的老库集群3节点已运行多年,目前有一个adg备库用于读写分离。由于使用的老存储已无法扩容,主磁盘组空间捉襟见肘,不得已借用多次FRA的空间用于扩容表空间。 为临时解决空间不足的现状,临时申请1台物理主机新构建adg用于替换原有adg备库,释放存储给主集群。 新申请的主机测试不充分,后期发现与主集群之间带宽仅有50-60MB/s,为后期实施带来了困难,同时新主机未能提供同版本的CentOS6.5,而是7.4,也为后续实施造成了麻烦,尽管解决掉了问题,但是不得不说,这些时间浪费成本也不低。 本次采用du…

2021年5月27日 0条评论 1190点热度 0人点赞 liking 阅读全文
1234512