一位资深风控人士从银行监管和银行内部管理角度来理解 数据风控模型的可解释性, 本稿为作者于自媒体发布初稿后,在读者反馈基础上的深度修改稿,特授权新流财经首次转载发布本文修改版。
来源 | 老古成都
作者 | 顾亦明
在最近一次银行行业交流会议上,有同仁提出了一个很有价值的问题:银行在推进数字化转型应用数据驱动业务经营中,信贷业务数据风控模型的可解释性是否是一个必需的刚性要求?是否只有传统逻辑回归模型才能满足银行对于风控模型的可解释性要求?
但凡在传统银行里面从事数据模型开发和管理的人,以及从事数字化信贷业务展开的人都知道,不管是自己开发或者委托第三方合作开发信贷业务数据风控模型,一直都强调最终所上线的模型是可以完全解释的,是透明的而不是一个黑匣子。
如果只是从所开发模型上线本身的需求来看,我们很好理解以前为什么一直有这个可解释性需求。因为以前模型首先是运用历史数据离线开发,然后在银行的信贷业务系统中部署上线生产。
既然需要专门的模型部署这一步,就需要将模型离线开发得出的结果,以程序的形式将从头到底每一步计算和逻辑公式很清晰地表示出来。这就是模型需要有可解释性的最原始动机。
今天算法技术有了很大的提高,数据资源有了海量的扩张,信贷业务平台已经很先进了,模型实施的环境已经很方便了,有些模型也可以不需要离线开发而实现在线自我学习了。在这种情况下,我们对待银行信贷业务应用的数据风控模型,是否必须依旧坚持需要可解释性?
基于对银行信贷业务环境和从业者综合能力的理解,笔者认为,第一、银行信贷业务目前在宏观层面依旧需要数据风控模型的可解释性;第二、数据模型可解释性的确切定义是可以进一步讨论并放宽;第三、相对宽松的可解释性定义并非仅有逻辑回归模型可以满足;第四、当前对于数据模型的实际综合管理能力依旧需要可解释性趋于从严定义。
银行信贷业务需要数据风控模型的可解释性
我们讲银行信贷业务目前在宏观层面上,是依旧需要数据风控模型的可解释性,就是指在全社会的大范畴下,对于大多数的银行,在面对企业、小微和个人客户中的主流客群提供的信贷产品中所应用的数据风控模型,至少都应该满足可解释性的需求。
不排除可以接受有部分银行对于部分客群所提供的信贷业务,其所用的数据风控模型不具备良好的可解释性,或者说目前阶段正在进行各种新的尝试。但是这种尝试目前在银行信贷业务的行业大范围中肯定尚不提倡。
为什么要强调数据风控模型的可解释性?笔者认为是要从两个方面去理解,一个是银行监管的层面,一个是银行内部管理层面。
从监管的层面,首先要防范部分银行信贷业务的失控可能给整个社会所带来的系统性风险,尤其是对主流银行及主流信贷产品,监管会更加重点关注。监管需要对于银行从事的信贷业务的相当细节,包括防范欺诈风险和信用风险的具体措施都能够有穿透式的了解和掌握。因此从宏观层面在一个整体的范畴内,监管对于银行在信贷业务中使用的数据风控模型是有着模型可解释的需求。
第二,很多银行在信贷业务中使用的数据风控模型,同时也是银行关于最小风险资本金的数据模型和关于新审计方法的数据模型。现在强调行为监管,对于资本金、流动性和全面风险管理的监督管理要求,本身都包括对于所使用的数据模型的可解释性需求。
第三、监管也承担着监督银行开展信贷服务中所涉及的消费者权益保护、社会公正维护、竞争中性原则和金融回归本源服务实体经济等的责任,必要时候需要检查和确认银行开展信贷业务的风控过程中,不存在由数据模型所导致的不合理的社会歧视、恶性竞争、脱实向虚等状况。
从银行的管理层面,首先是希望对于信贷业务的整体发展是可预测的,以保障稳健经营、适度发展,防止盲目扩张。这个预测不是在风控层面对于每个客户的预测,而是对于业务未来发展的整体预测。这种预测不可能是实时进行的预测,因此数据模型的可解释性将为业务未来发展的预测提供有效基础,并在需要的时候帮助业务部门通过预测练习对业务进行相关调整。
第二、在信贷业务开展过程中,银行管理层需要充分防范数据风险和系统安全风险。数据模型本身可以看作是业务逻辑,但其实现过程是依赖于技术系统平台。在目前银行的整体技术水平上,当一个数据风控模型是可穿透式解释的,则一旦遇到模型结果和业务预测发生偏差的时候,相关人员可以很容易鉴定究竟是业务流程的问题、进件或数据的问题还是技术系统执行发生了偏差,从而为后续的处置带来方便。
第三、在信贷业务开展过程中,银行管理层还需要充分明确各个部门的责任分工。在目前传统银行尚在逐步推进数字化转型的过程中,完善相关的统计标准和考核标准,完善人工参与时尽职免责的边界,完善流程优化等事项,都需要对于在信贷业务流程中部署的数据风控模型有比较好的解释性。
数据模型可解释性定义的讨论
目前大家所熟悉的数据模型的可解释性,大多是来自于逻辑回归模型的结果用计算和逻辑公式线性化(包括分段线性化)表示的形式。
然而笔者认为,第一,在传统银行业界应用信贷风控模型中,数据模型的可解释性从没有被严格地定义过,更多是从业人员之间的一种含糊的约定俗成;第二,如果从满足上述监管和银行内部管理需求出发,数据模型的可解释性还是可以比当前业界约定俗成的用计算和逻辑公式线性化表示的形式更为宽广一点。
从技术的层面来理解,可解释性是对于数据模型的一种信任方式,是为了有助于揭示模型的输入与输出之间的因果关系,从模型的计算过程中获取更多有用的信息,确保模型的可使用范围,以及全面了解数据分布的特征。
业界从业人员目前对于数据模型的可解释性诉求,笔者更多地是将其视作为对于数据模型的可读性和可理解性的诉求,就是为了让所有相关的人能够非常清楚地阅读并且完全理解整个的模型运算过程与结果输出之间的关系,包括每个输入数据字段在模型运算过程中所起的作用,以及模型运算每个子步骤的上下关系。
可读的可理解的模型必然是可解释的模型,但是反之则不完全是。完整线性化表示的模型是可读和可理解的,但是部分非线性化表示的模型依旧是可读和可理解的。因此,笔者将数据模型的可解释性区分为狭窄定义的和比较宽松定义的。
狭窄定义的数据模型可解释性,就是我们目前常见的用计算和逻辑公式线性化表示的形式。如果不完全是线性化的表示但是能够满足对于一般从业人员可读和可理解,则视为相对宽松的可解释性。
进一步,如果整个模型的运算过程与结果输出是可以通过一整套建立在对于原理和算法的解释逻辑上而不是一个黑匣子的方式,从而能够实现离线模拟,并且对于固定的输入所获得的结果是不变的,则可以视为是一种更为宽松的可解释性。
如果从一个更为宽松的定义出发,那么目前业界正在应用中的绝大多数建模方法,都是具备可解释性,包括传统的逻辑回归方法和决策树方法,所有的线性模型以及具有监督的机器学习方法等等。
此时论断一个数据模型的可解释性在实际应用中是否受到限制的问题,则关注点往往不在于模型的建模算法本身,而在于以此算法开发的数据模型是否能同时具备提供离线完整模拟的条件。
数据模型可解释性的实际适用性
对于银行信贷业务的数据风控模型来说,模型的可解释性究竟应该达到怎样的程度,监管部门和银行内部的管理部门,可根据具体情况来酌情决定。
所谓具体情况,包括对于数据模型计算运营和输出结果的具体监督管理需求,数据模型输出结果的误差范围对业务整体的影响程度,以及相关管理部门现有的监督管理能力可以达到的水准等。
比如从信贷产品类型来讲,对公信贷业务在应用数据风控模型中对于可解释性的要求,通常来得比零售信贷业务要高;而同样在零售信贷业务中,大额的房屋抵押贷款业务在应用数据风控模型中对于可解释性的要求,通常也要来得比小额的消费贷款业务要高;
而就线上小额信贷流程来讲,出于对于业务的实际影响的考虑,信用评估模型对于可解释性的要求通常也要比反欺诈模型来得高。
受到严监管的银行类金融机构,在开展信贷业务对风控数据模型的实际应用中,经常是不得不平衡模型的预测强度和模型的可解释性。为了尽可能满足风控数据模型的可解释性从而放弃模型的预测强度,尤其是简化和减少使用预测变量的情况还是常见的。
然而笔者认为,如果仅从预测业务发展趋势,防范系统性风险传染,识别风险苗头和处置风险暴露的角度出发,监管部门和银行内部管理部门应该是可以通过建立在对于原理和逻辑理解基础上的相应的透明的模拟数据模型计算过程的手段,包括沙盒试验和压力测试的方法,达到监督管理的效果和目的。
从这个角度来说,一个相对宽松的数据模型可解释性要求对于银行的大多数信贷业务管理应该是可以胜任。
此时模型开发者只要能够同时提供技术、程序和说明,让上线的风控模型在任何需要的情况下,管理部门可以平行进行离线模拟并得到完全相同的输出结果,则管理部门即可接受该模型是属于可解释的。
然后我们回到现实世界,我们发现,平均地讲,今天各级管理部门相应的知识能力和工作能力,包括监管部门和银行内部管理部门,离开按部就班地按照技术指导完成一个数据模型的动态模拟,并从模拟过程和结果中理解信贷风控模型的具体作用,完成学习过程,准确进行仿真预测,以及对于各项输入数据的限制和作用,都还是有着较大的距离。
也就是说,虽然从理论上讲我们可以放宽对于数据模型可解释性的定义,同时依旧能够满足各级管理部门面对银行信贷业务及其风控流程的监督管理需求,然而在实际中,还无法完美实现。
所以说,在目前和未来的一段时间内,类似于逻辑回归模型的开发上线所使用的、用计算和逻辑公式线性化表示的形式,也就是我们所说的狭窄定义的可解释性,还将是各级管理部门的直接需求。
总之,实事求是地掌握好银行信贷业务中数据风控模型的可解释性需求,鼓励创新但不追求一刀切,也是当前银行数字化转型过程中的一个必要的课题。
——————————
新流财经活动报名中:
揭秘百度营销大学| 这家金融科技公司Q1净利飙升594% | 城商行如何发力信用卡业务 | 更美上线分期产品| 流量市场的隐忧
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 未来的消费信贷是什么样的?
- 银行信贷数据集探索性数据分析
- 深度学习模型可解释性初探
- 检验机器学习可解释性的技巧
- 首席说|NLP场景应用中的可解释性
- 「AI+金融」新纪元 : 基于移动行为弱数据打造金融信贷强风控
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
信息学奥林匹克竞赛指导--组合数学的算法与程序设计PASCAL版/信息学奥林匹克竞赛指导丛书
林 生编 / 清华大学出版社 / 2002-8 / 19.00元
一起来看看 《信息学奥林匹克竞赛指导--组合数学的算法与程序设计PASCAL版/信息学奥林匹克竞赛指导丛书》 这本书的介绍吧!
CSS 压缩/解压工具
在线压缩/解压 CSS 代码
MD5 加密
MD5 加密工具