中国德州 无障碍浏览 | 加入收藏 | 设为首页
德州市审计局
您现在的位置: 首页 > 审计文化
局部加权线性回归算法在财政审计中的应用研究
日期:2025-11-28

一、引言

财政数据的数据分析是审计工作中老生常谈的内容,但随着数据量的增长以及审计要求的提高,传统SQL数据库在数据穿透分析与数据趋势分析方面面临挑战。机器学习算法为财政审计提供了新的技术路径。局部加权线性回归(LocallyWeightedLinearRegression,LWLR)作为一种重要的回归算法,能够有效处理非线性关系和局部数据特征,在财政审计领域具有广阔的应用前景。本文深入研究LWLR算法在财政审计中的应用,提升审计效率与准确性,为财政审计创新发展提供理论与实践支持。

二、局部加权线性回归算法原理

局部加权线性回归是对传统线性回归的改进。传统线性回归试图找到一个全局最优的线性模型来拟合数据,其模型形式为,其中是因变量,是自变量,是回归系数,是误差项。而LWLR认为数据在局部区域内更符合线性关系,对于每个待预测的数据点,它会给附近的数据点赋予更高的权重,离该点越远的数据点权重越低,从而构建一个局部的线性回归模型进行预测。

LWLR算法是通过核函数来确定每个数据点权重的,其中最常用的是高斯核函数,它的表达式是。这里面是第个数据点的自变量值,是要预测点的自变量值,是带宽参数,它决定了权重随着距离变化而衰减的速度。如果值越大,权重衰减得就越慢,更多距离较远的数据点会参与到局部拟合中;如果值越小,权重衰减得越快,离预测点非常近的数据点会对局部拟合产生影响。

三、财政审计中应用局部加权线性回归算法的优势

3.1 精准识别异常数据

在财政审计中,异常数据是发现疑点问题的关键线索,LWLR算法通过对局部数据进行加权拟合计算每个数据点的预测误差,如果该点预测误差明显偏大就可以认定它是异常数据,此法利用局部数据进行判断,与全局相反,更容易找出那些凭肉眼无法识别的异常值,为以后发现异常数据提供思路与指导。

3.2 提高审计预测准确性

财政审计不仅是依据现有状况去审计财政,还要对将来可能发生的财政收支情况及存在的风险进行预测性审计。而LWLR算法是一个运用历史数据中局部规律来进行预测的方法,考虑了数据本身所具有的动态特点,在预测财政收入时可以根据各个经济周期、各项政策调整期之间局部的数据特征做出更加准确的预测,从而为我国财政政策制定与风险预警提供了有力的数据支撑。

四、局部加权线性回归算法在财政审计中的应用场景

4.1财政收支预测

数据收集与预处理。首先,收集历年的财政收入数据,如非税收入等;收集财政支出数据,如教育、社会保障支出等重点支出数据。同时,收集和财政收支相关的影响因素数据,比如地区GDP、物价指数、人口数量等。其次,进行数据清洗,处理数据缺失值和异常值,进行数据标准化、归一化处理,让不同类型、不同量级的特征数据具有可比性,方便后续模型分析。最后,模型构建与训练,以时间作为自变量,财政收支数据作为因变量,运用LWLR算法构建预测模型(构建模型时,选择合适的核函数,常用的是高斯核函数,同时确定带宽参数的值)。为提高模型对新数据的适应能力,通过交叉验证等方法来确定最优的值。然后用整理好的历史数据对模型进行训练,计算出对应的回归系数,完成模型的训练过程。

预测与结果分析,把未来时间点对应的自变量数据输入到训练好的模型中,就能得到财政收支的预测值。之后把预测结果和官方预算数据,或者其他预测方法得出的结果进行对比分析,评估这个模型预测的准确性。如预测的财政收入比预期低,可能是经济形势变差了、税收政策执行未到位等,给财政部门提前调整策略提供可靠的依据,帮助他们及时优化财政安排。

4.2财政资金使用效率方面

以财政资金投入为自变量,资金使用产生的产出指标为因变量,基于LWLR模型对这两个指标数据进行分析,得出模型预测的产出值与实际产出值差值大小评估资金使用情况的好坏,如果差异较大表示可能出现了较多的资金浪费或者管理不当问题,某一个地方或部门可能是资源分配不合理;例如通过对某一地的教育资金使用情况进行评价分析时,发现资金投入越多,并不代表学生学习效果就越好,在这种情况下,审计人员可以通过审查该地的教育资金分配与使用情况等方面判断是否存在异常情况。

除对区域或单位本身进行自评外,还需做好横向、纵向比对,对于资金使用效率相对较高的不同地区或部门,要分析其优点所在,并分享给其他地区或部门借鉴;而对同一地区的不同时期或同一部门的不同年份的资金使用情况进行纵向比较,了解这两个时期的或者当年不同月的资金使用情况,通过比较把握工作效率变化的趋势,是否因政策调整产生了良好的作用,将这些情况均反馈至后期的工作中,做出好的工作决策,有利于提高后期工作的开展效率。

4.3审计风险方面

搭建风险指标体系,形成一个较为完整财政审计的风险指标体系,主要包括三大类指标:第一类为财务指标,主要有债务负担率、预算执行偏差率等;第二类为合规性指标,主要有违规资金占比、未按规定执行的政策等;第三类为宏观经济环境指标,主要有经济增长率波动情况、利率变动情况等。用风险指标为自变量,以是否发生审计风险事件为因变量,根据风险事件的发生情况(例如:重大违规行为被公开,财政资金遭受损失或损失浪费等)将因变量设为1;如果发生上述现象之外的问题,就将其设定为0。据此构建的数据可以按照此步骤进行操作:首先,基于LWLR算法建立风险评估模型。通过对历年的样本数据进行加权拟合,使模型能够甄别出风险特征,再根据该模型对当前财政状况的风险性予以分析判断,并输出对应的风险概率值。如果某一地区运用该模型判断其财政风险概率值相对较高,则可在对该地区债务管理或重大项目资金使用等事项上加以注意并提早预防,以免因出现风险事件而给当地财政管理工作带来不必要的负面影响。

构建动态风险监测与预警,财政风险不是一成不变的,会随着时间推移和新数据的产生而变化。根据新数据的不断出现,持续更新风险评估模型,实现对财政审计风险的动态监测。通过设定风险阈值,当模型计算出的风险概率超过这个阈值时,及时发出预警信号,提醒财政部门和审计机构采取相应的措施,降低风险发生的可能性,减少风险带来的影响和损失。

五、应用案例分析

5.1案例背景

某省财政厅为加强财政资金管理,提高审计效率,引入局部加权线性回归算法对财政收支和资金使用情况进行审计分析。该省财政数据丰富,但存在数据波动大、部分关系复杂等问题,传统审计方法难以深入挖掘数据价值。

5.2数据处理与模型构建

数据收集与处理,采集该省3年的财政收入、财政支出数据,其中财政支出涵盖了教育、医疗、基础设施建设等主要领域以及同期的地区GDP、产业结构比例、人口增长等相关影响因素数据。对数据进行清洗,去除重复的数据和明显存在错误的数据,对于缺失的数据,采用插值法等合适的方法进行填补,后对所有数据进行归一化处理,消除不同数据带来的影响。

构建动态的风险监测与预警,因为财政风险并不是一成不变的,在时间节点上和已有数据的基础上也会产生新的风险情况,不断接收新的数据更新后建立的模型会对财政审计风险进行一个动态化的监测,当模型的计算结果达到了设定好的风险阈值以后会立刻发出相应的预警信号并进行提示,以此来敦促财政部门以及相关的审计机关做好工作准备,并且减少风险发生的可能,避免给财政部门和审计部门带来一些不可控的损失。

构建教育资金使用效率评估模型,用教育资金投入、学生数、教师数为自变量,以学生中考、高考平均成绩、高校录取率为反应教育产出效果的指标,建立LWLR模型,并利用不断调整带宽参数值的方法提高模型拟合度,使模型能较为精准地反映出教育资金投入与产出的关系。

5.3应用结果与分析

1. 财政收入预测方面:使用训练好的模型对未来两年的财政收入进行预测。预测结果显示,与实际财政收入数据相比,误差在可接受范围内,平均相对误差约为5%。通过对预测误差的分析,发现某些年份由于重大税收政策调整或突发经济事件,导致实际收入与预测收入有偏差,这为进一步研究政策影响和经济波动对财政收入的作用提供了方向。

2.教育资金使用效率评价:运用模型计算各地区教育资金使用效率指标值。发现部分地区的教育资金投入与产出效果不一致,有教育资金投入增多但是学生成绩没有太大的改变的情况。经过调查了解到这些地区出现这种情况的原因是该地区的教育资源分布不够合理以及教师队伍不稳定等。针对以上问题,利用审计结果,由财政部门、教育部门联合出台关于改善教育经费使用效益及加强师资队伍建设的有关措施。

六、应用中面临的挑战与应对策略

6.1 数据质量问题

财政数据来源众多,可能存在数据缺失、错误、不一致等质量问题。数据缺失会导致模型训练样本不完整,影响模型准确性;错误数据可能误导模型训练,得出错误结论;数据不一致性(如不同部门对同一指标的统计口径不同)会增加数据整合和分析的难度。

建立严格的数据质量控制机制。在数据采集阶段,明确数据标准和规范,加强数据审核,对录入数据进行实时校验,减少错误数据的进入。对于缺失数据,根据数据特点和业务逻辑,采用合适的填补方法,如均值填补、回归填补等。针对数据不一致问题,加强部门间沟通协调,统一数据统计口径,明确各指标含义和计算方法。同时,定期对数据进行质量评估,及时发现和解决数据质量问题。

6.2 算法参数调优困难

局部加权线性回归算法的带宽参数对模型的性能有很大影响,选择合适大小的带宽参数是在保证模型既不过于平滑导致偏差过大又不会过于密切拟合训练样本中局部数据而导致模型泛化能力差的基础上的一种折衷,通常情况下设置的过大会导致偏差过大,而设置得太小容易导致欠拟合问题严重化。不同财政审计的应用场景可能会用到不同的带宽参数值,没有适合所有场合的带宽参数选择方法。

采用了多种参数调优的方法,首先通过理论推导与经验法则确定参量的大致范围,再用交叉验证法针对不同的参数在训练集上的情况,选取能使模型在验证集上效果最好的参数(例如使均方误差最小,预测准确率最高)的参数值,并用网格搜索或者随机搜索等优化方法来自动寻找最优的参数。根据模型参数的动态性,在数据更新或业务发生变化后都需要对其参数进行周期性的调整。

6.3 审计人员技术能力要求高

应用局部加权线性回归算法,要求审计人员要掌握一定的数学基础(例如:线性代数、概率论等)、编程语言知识(Python、R等),还要有一定的数据分析及机器学习的知识功底,而现阶段大多数审计人员很难达到这样的专业程度水平,在算法实现、模型建立、结果分析等方面不能单独完成,导致该类算法的应用场景不多。

加强审计人员技术培养,定期开展技术培训,邀请专家教授、数据分析工程师等对审计人员进行授课,传授相关数学知识、编程语言、机器学习算法原理及应用等内容,也可以让审计人员自行利用在线学习平台的相关课程进行自主学习,并设立相应技术支持团队来帮助审计人员解决工作中遇到的相关技术问题,在招聘过程中也可以更多地招入具有一定数据分析和技术能力的人才,优化审计队伍的知识结构。

七、结论

局部加权线性回归算法能够在数据异常情况下,具有更强的适应能力与识别能力,且具有较强的精度优势,在财政收支预测、资金使用效率测评及审计风险评估等方面发挥重要作用,提高财政审计效率和质量,保证财政资金的安全与合理使用。虽然实际运行中存在数据质量差、算法参数难以调整等问题,但是通过建立完善的数据质量控制手段,利用科学合理的参数调优手段可以解决这些问题。局部加权线性回归法作为一种以机器学习为基础的算法,其在未来的应用领域十分广泛,在以后的发展趋势上会更倾向于将大数据、人工智能技术应用于财政审计工作中,进而满足财政审计现代化转型的需求。在今后的发展中还可以把局部加权线性回归法与人工智能技术相结合,使之在其他方面发挥更大作用。(闫青云、徐永健)

严禁发布涉密信息

主办单位:德州审计局

举报电话:0534-2312352   邮箱:sjjbgs@dz.shandong.cn

联系电话:0534-2312350    传真:0534-2312351    地址:德州市东风东路1566号

公安备案号:37149202000051  鲁ICP备2020047737号  政府网站标识码:3714000050