RAC中一节点无法启动解决步骤 荐

栏目: 数据库 · Oracle · 发布时间: 6年前

问题现象:一套两节点的 RAC 集群,其中节点 2 集群无法启动, ohas 进程已经启动但 CRS CSS 进程未启动

1 、首先查看

查看RAC中的alert日志,发现日志中一直在报如下报错:

file rotation terminated. log file: "/app/11.2.0.4/grid/log/uatdb02/client/olsnodes.log"

RAC中一节点无法启动解决步骤 荐

从日志中可以看到提示说 olsnodes.l03 owner 不是 oracle

查看后发现确实用户属主有属组有问题

RAC中一节点无法启动解决步骤 荐

修改文件属主和属组

chown root:root olsnodes.l03

修改后olsnodes.log可以被正常切割,alert日志也不再报这个错。但报错也就停止。没有日志如何继续往下查?

2 、检查 RAC 的一些配置情况,由于对于 RAC 也只限于能够根据文档搭建成功,没有太多问题处理经验只能一边查问题一边查文档和 MOS

先检查 RAC ASM 配置情况

RAC中一节点无法启动解决步骤 荐

发现与以往搭建的 RAC 查看 disk path 输出的内容不同,于是想到是使用 asmlib 搭建的 RAC

rpm -qa |grpe asm 发现确实安装了相关包,说明推测方向正确

RAC中一节点无法启动解决步骤 荐

以前都是通过UDEV的方式配置RAC的ASM共享磁盘,asmlib的方式没有用过。于是从网上找了相关的帖子查看,并找到一些命令。

oracleasm scandisks

oracleasm listdisks

但是知道这些命令还是没有办法解决问题。

尝试执行上面的命令看看输出结果

发现在 scandisks 时出现 permission denied on OCR1 的提示

于是感觉有了一个方向,是不是共享盘的权限访问导致的呢

找到共享盘的目录 /dev/oracleasm/disks 查看

RAC中一节点无法启动解决步骤 荐

节点 2 属主和属组都是 root ,如果是权限有问题,那正确的权限有又该是什么呢,好在节点 1 还在正常的跑着,查看节点 1 的共享磁盘

RAC中一节点无法启动解决步骤 荐

从上面的查看来看,正常结点的属主为 grid ,属组为 asmadmin ,是不是由于这个原因导致集群无法启动的呢?

尝试手动修改节点 2 的属主和属组

RAC中一节点无法启动解决步骤 荐

这里漏掉了对权限做修改。。。

修改后尝试重启节点 2 的集群

crsctl start crs

报错提示 ohas 已启动, crs 启动失败

仔细阅读 crsctl start 使用说明才发现 start crs 是启动 OHAS 的命令, start cluster 才是启动 CRS 的命令。看来还是对 RAC 的了解不够深入呀。。。

RAC中一节点无法启动解决步骤 荐

再次尝试启动节点 2 集群

RAC中一节点无法启动解决步骤 荐

提示 cssd 启动失败,从 alert 日志中也可以看到如下报错

RAC中一节点无法启动解决步骤 荐

于是查看 ocss.log

RAC中一节点无法启动解决步骤 荐

ocss 日志中输出的报错可以看出来是无法找到 vote disk ,集群自然是无法启动的。

但是为什么找不到磁盘,原因还不知道。于是救助于 MOS ,但查了十几篇有相关关键字的文档,与这里的问题又不太相似。也没有可用的解决办法。

于是问题限入了僵局。

下班时间到了,第二天接着搞。

第二天登录机器再次尝试 crsctl start cluster( 明知没有,但还是想试一下,侥幸心理。。 )

果然没有辜负我,依然报错找不到 vote disk

MOS 文档查到一些相关命令

crsctl query css votedisk

在节点 2 中无输出内容,节点 1 有。

kfod status=TRUE asm_diskstring='/dev/oracleasm/disks/*' disks=ALL

节点 1 很快能返回

RAC中一节点无法启动解决步骤 荐

但节点 2 hang

RAC中一节点无法启动解决步骤 荐

而且可以看到节点 2 的共享盘,权限又变回 root 了,于是又再次手动修改, ( 心想也不能每次重启机器都手动修改这个吧 )

RAC中一节点无法启动解决步骤 荐

再次执行上面的命令

RAC中一节点无法启动解决步骤 荐

出现有报错。

突然想到是不是两个节点的 asm lib 的配置不同导致的,由于对 asmlib 不熟悉,从网上帖子上看到的都是配置 asmlib 的,不知道如何查看配置

尝试执行 oracleasm configure ,发现两个节点的配置确认不一致

RAC中一节点无法启动解决步骤 荐

RAC中一节点无法启动解决步骤 荐

ORACLEASM_UID GID 配置有问题

于是进行修改

RAC中一节点无法启动解决步骤 荐

查看状态

RAC中一节点无法启动解决步骤 荐

修改完成,在scandisks时没有提示permission denied,感觉应该没有问题了

再次尝试启动 crs

crsctl start cluster

启动成功

RAC中一节点无法启动解决步骤 荐

RAC中一节点无法启动解决步骤 荐

至此集群问题解决。但从状态来看这套 RAC 集群还是存在很多的问题。

总结:加深对 RAC 的理解,各组件的作用。各命令的含义。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Beginning iPhone and iPad Web Apps

Beginning iPhone and iPad Web Apps

Chris Apers、Daniel Paterson / Apress / 2010-12-15 / USD 39.99

It seems that everyone and her sister has developed an iPhone App—everyone except you, the hard-working web professional. And now with the introduction of the iPad, you may even feel farther behind. B......一起来看看 《Beginning iPhone and iPad Web Apps》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

在线进制转换器
在线进制转换器

各进制数互转换器

HTML 编码/解码
HTML 编码/解码

HTML 编码/解码