抽象性

2015至2018年冲击加纳的金融危机提出了各种问题,涉及银行效率以及银行业储户安全作为改善银行部门并恢复客户信心的措施的一部分,银行业效率和性能分析已成为热点问题这是因为利害相关方必须发现银行业效率低下的根本原因文献中建议非对称方法,如数据渗透分析,作为衡量银行效率和性能的良好尺度机器学习算法也被视为估计各种非参数和非线性问题的良好工具本文介绍DEA综合三种机器学习方法使用444加纳分行决策单元评价银行效率和性能对比结果从DEA获取的相应效率评分最后,比较了三种机器学习算法模型预测适切性结果显示决策树和C5.0算法提供最佳预测模型百分百预测134延迟样本数据集(30%存取量) 值0.00.随机森林算法密切跟踪DT98.5%预测精度 值++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ 值0.66研究得出结论,加纳银行可使用研究结果预测其各自效率所有实验均在模拟环境内进行,并使用R代码在R演播室进行

开工导 言

2015至2018年冲击加纳的金融危机提出了各种问题,涉及银行效率以及银行业储户安全作为缓解金融危机的措施,中央银行(加纳银行)采取了一些改革银行业的措施。唯一目的是向加纳经济提供高效银行服务也是为了提高本地银行在全球的竞争力最重要的是,政府决定通过调整银行资本结构避免关闭受困银行中央银行指令国有银行(加纳商业银行)2017年接管UT和Capital一号..第二,加纳银行还避免关闭银行以保护储户基金,合并五家危难银行,即Unitbank银行、Biege银行、建设银行、皇家银行和主权银行[2..设想合并过程恢复受困银行的财政生存能力最后,央行还提高加纳所有商业银行的最低资本需求至4亿GhanaCedis3..改善银行业并恢复客户信心、效率和性能分析的措施已成为热点问题这是因为银行管理者和其他利益攸关方想发现并减轻其银行业务效率低下的根本原因作为一种非参数模型,DEA模型与机器学习算法有相似点举例说 DEA和机器学习算法 都假设函数形式 连接输入输出银行分支效率也是使用多项金融变量从各种性能方面综合计量[4..这表明银行效率与多变量之间的关系高度复杂,非直向化机器学习算法也被视为近似多非参数非线性问题[5..即银行业为应用DEA和机器学习模型提供良机使用DEA和机器学习算法处理发展中国家银行分支效率的文献也少之又少本文介绍DEA和三种机器学习方法综合使用444加纳分行评价银行效率和性能对比结果还取自CRSDEA的相应效率评分最后,比较了三种机器学习算法模型预测适切性研究动机在于DEA不变属性类似于QPPeal处理像NNs等机器学习算法所要求验证理论比较纯DEA和DEA机器学习算法模型结果

其余论文组织如下段内2简单回顾专题相关工作段内3显示研究使用的方法和框架段内4提供DEA和三种机器学习算法结果分析并进一步讨论最后一节5介绍我们的结论、建议和研究报告建议的未来工作

非参数方法,如数据渗透分析6-18号以良好度量银行的效率和性能举个例子19号通过DEA模型评估IT边际利益 使用36DMUs金融机构数据研究表明,为收集IT投资,IT对组织收入产生极大影响。2004年20码并使用DEA评估27家银行的效率,建议IT对银行效率产生正面影响Chen等[21号研究中还使用27DMUs银行表示在两个高效计算阶段只有三家公司高效这项工作22号评估40家互联网公司使用DEA模型的性能研究23号尝试评价ICT对葡萄牙旅馆生产率的影响研究不仅显示信通技术在实现高生产率水平方面何等重要论坛还讨论了其他应加以考虑的明确关注问题,以便能够实现信通技术投资的积极回报率。比较而言,DEA是整理和评价数据的一个更好方法,因为它允许效率随时间变化,不需要事先假设最佳做法前沿线24码..文献中也报告[24码DEA是一个突出性能分析方法 银行业DEA边界对外部线和统计噪声的存在非常敏感无法预测其他决策单元性能24码..结果,研究开始引进机器学习 最近称做支持决策者近似效率前沿的优替代24码..举例说,[25码显示像决策树这样的机器学习算法如何与DEA合并预测IT对企业性能的影响中复工作26作者用三种决策树算法C5.0、C4.5和CART构建各种决策树预测模型研究显示C5.0算法精度达100%,CART算法精度达84.6%,C4.5算法精度平均达83.34研究建议使用C5.0预测模型预测加纳农村银行的财务性能Chen等并27号应用创新数据寄存分析法研究结果显示中国银行总体效率水平仍然很低作者认为,这在很大程度上取决于中国银行所有制架构和成本结构的背景变量27号..另一项研究28码并使用新颖方法合成少数采样技术均衡转换偏差数据作者使用Lasso回归从故障预测模型中减少冗余特征研究结果适用于股东、放款人和借款人等各种利害相关方度量银行财政压力28码..工作29发现极相似性能 两种模型随机森林显示 微优逻辑回归两种模型产生##0.65AUC,结果显示它们能正确预测##60%健康公司和财务困境公司29..研究30码并比较两种方法的精度:传统统计技巧和机器学习技巧,以预测3000美银行失灵实验结果显示人工神经网络和K近邻方法最精确归根结底4多元后勤回归选择最重要的预测变量构建神经网络模型,并显示模型在每种情况下产生偏差分类和预测精度

3级数据渗透分析基础

数据扩展分析非参数法,为所考虑的每个决策单元生成加权输出对输入的比较比31号-三十三..本研究假设有N级DMUs评估并在此例中N级=444每一DMU消费m不同的输入

具体地说,DMUj大全耗用量 输入并生成量 输出R.下一步通过 大于0 大于0面向输入效率特定dm0可变回归缩放假设下可推导出从下列初级双线性程序推导出,BCC模型由[31号..

BCC渗透模型如下: 去哪儿 系统松散

BCC乘数器形式如下:

也受此约束

确定DEA解决N级线性编程任务理想估计差θ判定DMU0所有输入量的相应缩放转入边界,即样本中高效DMU定义的封装面DMU0高效DEA 只要有理想解决方案 数组3带) 大于0 > 0, and an ideal solution ( )方程一号)如此 去哪儿 响应BCC封装形式 响应BCC乘数器表

从此端外最优值表示 .条件对 大于0 0保证DMU0高效前沿值和所有约束的松散值一号++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++模型允许可变回缩放31号..

if clixity约束 λ=1插入一号和变量 3取出,可行区域增加,结果高效DMU数目下降,所有DMU均按常数回缩操作,并产生DEA模型CR32码..

3.1.决策树算法

决策树是最顶端机器学习算法之一,它建议用图形或图解显示技术分类、预测和评价重要或关注项易常用分类法处理决策分析时使用树型结构决策及其相对潜在结果34号..节点位置决策树中每个节点,必须选择属性将节点实例分入子组

决策树接受输入全序数据集和输出轴,交付时端节点(页)为决策类,非端节点显示测试35码..决策树最常用算法是ID3、CART、CHAID和C4.5扩展C5.0C5.0扩展ID3并继承RossQuinlan1994年提议的C4.5算法36号供研究使用并用带打包C5.0的R代码在R演播室实施37号..

3.2随机森林算法

随机森林算法用于分类预测,Breiman于2001年开发并引用38号使用集合分类树三十九-41号..RF组合机学习算法三十九..RF算法的根本原理是,构建小点DT有限性从计算角度讲是一个廉价过程三十九..并合小树组成强学习者, 使用平均性能或偶或选常用树从应用和实用性看,RF算法迄今被认为是比较精确学习算法[三十九..

RF算法为Leo Breiman和Adele Cutler随机森林算法三十九,42号..R演播室使用R代码使用随机Forest打包43号,44号..随机森林模型建模预测能力更高Breiman算法的一个重要特征45码......... 可变量计算

3cm3人工神经网络

人工神经网络是一种人工智能技术模拟人脑行为46号,47..神经网络是一个大规模并行分布处理器,由简单处理器组成,自然趋向存储经验知识并供使用ANN可归为两大类:反馈前向网络和反馈网络原网络中不由网络连接组成循环圈,而后网络中可能存在一个或多个循环圈最常用进化前网络子网分层编组神经元分层并严格从一层到另一层相联48号..

NN基本系统不隐藏层仅由两层组成:输入层和输出层平面平面平面平面平面平面平面平面平面平面平面平面平面平面平面平面平面平面平面平面平面平面平面平面图输入层直接与输出层通信而不涉及隐藏层研究采用了反向剖析算法 构建神经网络模型预测线性组合函数和sigmoid转移函数使用s形或二进制函数远为最常用转移函数49号..sigmoid公式给定 .

NN模型编译代码使用RMINER演播室和NENET打包50码..这项研究采用三层网络中仅使用一个隐层五(5)新元隐藏神经元数基于方程Nh=Ni51号并引用52Nh表示隐藏神经元数Ni表示输入神经元数Ni表示内输入神经元数Ni表示内存神经元数Ni表示内存神经元数Nh表示内存神经元数Ni表示内存神经元数Ni表示内存神经元数Ni表示内存神经元数Nh表示内存神经元数Nh表示内存神经元数Ni表示内存神经元数Ni表示内存神经元数Ni表示内存神经元数Ni表示内存神经元数Ni本研究输入数为6表示Ni=6

3.4.性能计量表

评估机器学习算法有许多度量值,但为本研究目的,我们将侧重于以下几方面:精度分类.分类精度实际上是机器学习性能测量中词精度的含义53号..数学定义为机器学习算法正确预测数与总数据集之比 混淆矩阵.混淆矩阵还显示矩阵输出并定义模型综合性能混淆矩阵构成其他类型度量基础正率(敏锐度).正正率定义TP/FN+TP表示正数据点比例正确认为正数据点所有正数据点 假阳率.假阳率定义FP/(FP+TN)表示负数据点比例不正确地视为正数据点 卡帕.测量预测模型或分类器预测事件与标签为地面真象的数据相近度,控制随机分类器精度以预期精度测量

4级方法论

4.1.拟议的框架研究

本研究推荐的这个框架被用于构建预测模型由三大阶段组成:数据收集阶段(阶段一)、数据处理预处理阶段(阶段二)和预测模型开发阶段(阶段三)。表示模型开发数据集经历三个不同阶段:阶段一、阶段二和阶段三一号)

在数据收集阶段(阶段一),原始数据从银行收集收集数据后,预处理阶段二后再最终进入预测模型开发阶段,即第三阶段预处理阶段全数据集组织、转换或编码成模型易于使用的形式在本案中,金融数据,如IT开支Cedi值I、固定资产A、总存D、盈利R、执行贷款率%PL和银行雇员数CRS技术计算各种银行效率银行存款和投资阶段效率分类(A类高效和B类无效)基于效率分数(效率评分为1单元或100%)。现实环境极难单位或部门实现100%效率,加纳银行分支非例外4..

这一点在加纳银行部门也很明显,那里的中央银行(加纳银行)对在加纳营业的银行和其他金融机构始终有最低资本需求[3,54号,55号..意指银行总有一个接点实现高效并保持银行界竞争力基于这一点,作者还推断并考虑高效值达80%或以上的银行研究因此采纳并使用[DMU效率+0+0+0+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++4,25码并视高效银行为高效值+0.8效率分类(A类和B类)被用作响应变量

银行金融数据,如IT支出、固定资产等,都用作预测变量预测每个银行分支构建模型的效率分数(类数)。

效率类和预测变量组成模型数据集建模最终数据集随机划分为2 70%用于训练或建模,并使用K反转交叉验证验证模型其余30%(测试数据集)用于测试模型以银行为例,70%从总数据集随机选择的DMU用于构建验证模型模型用于预测其余30%银行的效率建模期间 数据集还穿透规则提取 并最终构建分类器

4.2双级DEA高效分析模型

在这次DEA模型中,所考虑的各个单元是加纳银行分支,其性能或生产率度量分解成输入输出以银行为例提取图中显示的模型2银行业务流程和活动被视为双重作用进程模型第一阶段(deposits阶段)包括加纳Cedi集资中度量客户使用固定资产、数名工人(单位雇员)和IT基础设施下阶段(投资阶段)这些银行使用阶段I累积存款和阶段I效率分数将存款投入证券并还贷给客户收益(利润)来自证券投资和执行贷款百分比56号-58码service状态良好标志 二级输出

DEA模型存取I级效率整个阶段使用DEA模型最终为每个DMU提供总体效率拟议的DEA框架双作用操作图解2.

存取阶段、投资阶段和最后总体阶段使用的各种变量说明如下:存取阶段I输入量 :固定资产(十亿GH)表示为AIT总开支(十亿千兆赫)指I雇员总数表示E输出 :存储器投资阶段二输入量 :效率我表示 Do存款也表示为D输出 :执行贷款百分比收益从证券投资中累积整体阶段输入二级效率表示为no固定资产(十亿GH)表示为AIT总开支(十亿千兆赫)指I雇员总数表示E输出 :性能贷款百分比等于不良贷款百分比和100%收益从证券投资中累积使用CCR经典DEA模型后,每个DUM效率评分 产生以下三种效率评分效率I级 Do效率二号整体效率G

4.3数据集样本

在研究的这一点上,作者展示了DEA如何用加纳分行评估公司效率的案例研究收集的数据集包含444个银行分支银行IT开销Cedi值、固定资产Cedi值、分行员工数、投资存款所得利润、银行分行执行贷款百分比和总存额Cedi值均取自多家DMUs具体地说,使用每家银行经审计的2016年财务报表

使用CCRDEA技术分析每个银行分支两个阶段的技术效率及其相应的整体效率效率I阶段计算使用IT支出GH++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++关于阶段二,第一阶段效率(Do)和从阶段I实现的存款(GH#)被用作输入并获取银行利润

效率总体阶段还使用固定资产计算,雇员IT支出数计算,效率二阶段计算使用DEA双阶段构建算法计算每个DMU在每个阶段的效率,该计算法已在Rminer演播室第1.2-5版实施59号并包强数据渗透分析每一个DMU总体效率评分归为高效A类或无效B类

4.3.1.预测器变量

变量也称独立变量或实验变量用于统计分析预测或预测另一个变量称目标或依存变量38号,60码,61号..本研究预测变量为固定资产、IT支出、雇员数、总存款量、性能贷款百分比和投存所得利润

4.3.2.响应变量

响应变量(银行分支总效率分数)归为高效值(A类)或无效值(B类),作为预测模型响应变量使用

5级结果与讨论

5.1.银行效率分数和类使用改编DEA二相构建Hull算法

对每个DMU(Bank),使用CCRDE双阶段BuildingHull算法分析两个阶段技术效率(deposit阶段投资阶段)及其相应的整体效率62..使用444银行分支,使用下列假想对银行分支每个阶段的效率进行分析:

假设1:当高效单元定义为效率评分为1单元或100%时

银行高效使用资源向客户提取存款,只有14家银行分支高效(效率达100%)。银行分支效率评分介于80%至99%之间,1(0.23%)银行分支效率评分介于70至79之间,21(4.73%)效率评分介于60至69之间,19(4.28%)介于50至59之间,最后356(80.18%)效率评分低于50%356分行数(80.18%)确认许多加纳银行无法高效使用资源向客户提取存款,因为大多数银行都在努力满足中央银行(加纳银行)2017年设定的最低资本需求[3,54号,55号..图中还显示沉积级效率的结果3.

图显示银行投资客户存款效率4仅有一银行(DMU200)高效投放存款为银行盈利,而只有一银行(DMU219)效率评分介于80%至100%之间。近99.5%的加纳银行分行考虑研究时对投资效率不高也证实了一些危机报告,这些危机以问题攻击加纳银行业,例如据称管理者和董事会挥霍存款者的钱而不投资[63号..2017年和2018年约7家通用银行倒闭一号,2..

图中还显示整个银行业务的总体效率579(17.79%)银行分支效率高(效率评分达100%),其中多数(290表示65.32%)效率评分在80%至99%之间。4分(0.9%)效率评分70-79%,32分(7.21%)效率评分60-69%,最后39分(8.78%)50-59%从整体效率看,图中没有银行分支显示效率评分低于50%5.

分析显示,尽管加纳大多数分行在提取存款和投资存款方面没有更高的效率百分比,但它们仍然享有最高总效率。结果表明,加纳银行应确定提高存款阶段和投资阶段效率的方法,而不仅应依赖总体效率评分来衡量业绩和成功率。

5.2机器学习算法结果和讨论

在这次研究中,机器学习算法被用来鉴别最能表现的分类模型三种机器学习算法使用:决策树、随机森林和人工神经网络确定模型与现实世界数据之精度,我们为测试目的保留数据集子集数据集划分为培训验证值(70%)和测试率30%性能分析测试数据集用于评估

5.2.1.决策树预测分析

134家银行(30%)用作测试数据集,决策树模型预测所有银行都正确(100%精度),Kappa值为1和 值1.1e-11显示模型有多大意义混淆矩阵和详细预测统计显示如下:混淆矩阵统计引用预测A类B类A类1110B类023精确度:195%CI:0.9728,1无信息率:0.8284 值[Acc>NIR:1.1e类-11卡帕:1麦克纳马尔测试 值:NA敏感度:1.0000特性:1.0000Pos预值:1.0000Neg预值:1.0000流行率:0.8284检测率:0.8284检测流行率:0.8284平衡精确度:1.0000代理类:A类

5.2.2.2随机森林预测分析

关于随机森林预测使用随机选择134(30%)数据集,随机森林预测134正确数中132(98.5%精度),Kappa值0.95和 值0.00.混淆矩阵和详细预测统计显示如下:随机森林类型分类树数:750号变量切分数 : 6OOB误差率估计:2.26%混淆矩阵统计引用预测A类B类A类1082B类024精确度:0.985074695%CI:0.947253, 0.9981873无信息率:0.805970 值[Acc>NIR: 0000001537697卡帕:0.9508437麦克纳马尔测试 值:0.479500敏感度:1.0000特性:0.9230769波斯预值: 0.9818182Neg预值:1.0000流行率:0.805970检测率:0.805970检测流行率:0.8208955平衡精确度:0.9615385代理类:A类

5.2.3神经网络预测分析

神经网络模型使用134测试数据集预测116(86.6%精度)银行效率类正确性,但kapa极低值-0.014和差 0.66值与另外两种模型比较混淆矩阵统计引用预测一二1 11617二一0精确度:0.865671695%CI:0.796034, 0.9184046无信息率:0.8731343 值[Acc>NIR:0.661479779卡帕:-0.0142977麦克纳马尔测试 值:0.000406952敏感度:0.9914530特性:0.00000Pos预值:0.8721805Neg预值:0.00000流行率:0.8731343检测率:0.8656716检测流行率:0.9925373平衡精确度:0.4957265代理类:1

5.3机器学习算法比较分析

估计三种机器学习算法模型使用 值被视为评价尺度十倍交叉验证法用于检查所有预测模型的超配和性能图中显示平均值10倍CV6并给出所有预测模型的值范围

测试数据集DT模型比其他两个模型表现优异,但DT和RF测量值差别很小。NN精度最小分析三大算法结果后,研究建议如下:预测整体效率和性能(DEA分数0.8-1归为高效银行)时,DT最优高精度预测卡帕值为1和 值1.1e类-11其次是RF98.5%精度,Kapa值0.95 值0.00.最后一个预测精度算法NN86.6%,kapa极低值-0.014和穷 0.66值对比另外两个模型

6级结论

研究中,作者将DEA与三种机器学习算法合并分析并预测加纳银行分支的效率DEA及其双级BuildingHull算法在R演播室应用R码评估444分行存入阶段和投资阶段的效率使用0.8单元或80%的常用接点计算并归为高效(A类)或低效(B类)。CCRDEA指定的高效类被用作响应变量

预测模型使用三种常用机器学习算法并用多项性能度量法对等444商业银行加纳分行参与此项研究的有70%银行分行数据集随机选择来培训并验证三大模型中的每一模型所拟模型用于预测其余30%分行的效率最佳机学习算法模型(从几度性能测量看)使用持久采样数据集测定

结果显示决策树和C5.0算法预测所有134延迟采样数据集(30%存取量)。因此DT精度达100% Kappa值为1 值0.00表示DT模型有多大下一最佳性能预测模型是随机森林算法,预测精度98.5%,Kappa值0.95 值0.00.随机森林算法预测模型后有神经网络模型,该模型还预测134个银行效率类中的116个正确值(86.6%),但kapa极低值-0.014和差 0.66值对比另外两个模型

整体而言,这些研究结果可能对加纳银行产生重要影响。分析中,我们在第一阶段(存款效率)、第二阶段(投资效率)确定每一家银行的效率,最后确定每一家银行的总体效率。根据我们的分析和发现,加纳大多数银行(369家银行代表83.1%)使用“截点 ” 高效总体银行业务。 即便这些银行大都高效总体银行业务,但它们收集存款效率(47家银行代表10.59% ), 特别是投存效率(只有2家银行代表0.45% ) 都差强人意。研究建议加纳银行管理者和其他利害相关者重新审视他们在提取存款和投资存款方面的效率和性能这就意味着管理者和其他利益攸关方不仅应依赖或过度依赖个人总体效率研究得出结论,加纳银行可使用研究结果预测其各自效率使用决策树预测模型,因为这是最佳性能预测模型未来研究可研究DEA与其他顶级机器学习算法相结合预测银行效率以及与本研究对比结果其他因素也可能影响银行效率和性能,如流动性比,也可以在今后研究中作为预测变量加以考虑。

数据可用性

研究数据取自加纳多家银行使用年度财务报表

利益冲突

作者声明他们没有利益冲突