(接上文) https://liking.site/2021/06/09/大量事务并发回滚彻底堵塞数据库1/ https://liking.site/2021/06/10/大量事务并发回滚彻底堵塞数据库2/ https://liking.site/2021/06/11/大量事务并发回滚彻底堵塞数据库3/ 根据oratop的top等待事件排名,包括累积排名和实时排名,这个"wait for a undo record"已经成为了目标等待事件,是否它阻塞了正常的前滚事务呢? 根据MOS的搜索结果,当…

2021年6月12日 0条评论 979点热度 0人点赞 liking 阅读全文

(接上文) https://liking.site/2021/06/09/大量事务并发回滚彻底堵塞数据库1/ https://liking.site/2021/06/10/大量事务并发回滚彻底堵塞数据库2/ 在后续的故障定位时,有人根据如下日志,认为是归档空间满,导致了数据库挂死。 实际不然,这个FAL报错,只是到DG的归档由于其他原因导致了报错,日志也写在了主库alertlog文件,并非是主库归档失败,对主库并无其他影响,仅仅是写了一个日志而已。事后我的详细排查也印证了这一点,当天中午12:00和18:00分别有…

2021年6月11日 0条评论 1156点热度 1人点赞 liking 阅读全文

(接上文) https://liking.site/2021/06/09/大量事务并发回滚彻底堵塞数据库1/ 在数次停库、起库的过程当中,遭遇过部分实例起在其他节点的情况,如下。 srvctl start instance -d jkdb -i jkdb1 发现实例1起在了2号节点 srvctl stop instance -d jkdb -i jkdb1 srvctl start instance -d jkdb -i jkdb3 实例3起在了3号节点 srvctl start instance -d jkdb …

2021年6月10日 0条评论 1056点热度 0人点赞 liking 阅读全文

这是一个历时5个多小时的故障处理过程,值得认真记录、反思。 事后详查发现,数据库16:00之前就出现大量锁表情况,16:07运维支撑群有用户反映系统慢,直到反馈系统彻底没法用了。下图显示,实际14:00以后就开始出现了较多的锁表情况。 只是,14:00-16:00期间由于只是后台执行任务的锁表,并未明显影响到客户感知,相关的一线业务还可正常进行。 但是当这些执行失败的定时任务一个接着一个,反复重复执行,从而导致大量锁死时,会怎样呢?这会把整个库搞瘫痪。 相关的等待事件涉及到了大量的row cache lock、gc…

2021年6月9日 0条评论 1069点热度 1人点赞 liking 阅读全文

昨天在查看一个adg备库时,偶然发现了一个oracle的大坑,就是审计日志文件(*.aud)过多的问题,在adump目录下竟然有接近500万个aud文件,经查阅资料得知,所有以sysdba用户访问数据库的情况,都会记录一个aud文件在adump目录下,即使audit_trail设置为none,也会记录aud文件。 这样的话,当某些情况频繁以sysdba登录数据库的话,经年累月的定时任务,会导致这个路径下积压大量的aud文件,可想而知,严重情况会导致inode占满,导致OS故障,后果不堪设想。 我们知道默认情况数据库…

2021年6月4日 0条评论 1403点热度 0人点赞 liking 阅读全文