相关论文:
-
全球能源互联网
第6卷 第5期 2023年09月;页码:558-564
数据与误差驱动的典型行业用电量预测方法研究
Research on Data and Error Driven Forecasting Method of Electricity Consumption in Typical Industries
- 1.国网河北省电力有限公司经济技术研究院,河北省 石家庄市 050022
- 2.国网河北省电力有限公司,河北省 石家庄市 050011
- 3.北京清软创新科技股份有限公司,北京市 昌平区 100085
- 1.Economic and Technology Research Institute of State Grid Hebei Electric Power Co.,Ltd.,Shijiazhuang 050022,Hebei Province,China
- 2.State Grid Hebei Electric Power Co.,Ltd.,Shijiazhuang 050011,Hebei Province,China
- 3.Beijing Tsingsoft Co.,Ltd.,Changping District,Beijing 100085,China
关键词
Keywords
摘 要
Abstract
在新常态经营形势下,用电量的精细化预测对于电力系统的安全、稳定、经济运行具有重要意义。采用基于数据驱动与误差修正的递进式思路,研究行业用电量主要影响因素辨识与预测方法。首先,在数据驱动层面,从相关度和冗余度角度应用最大信息系数和最大关联-最小冗余性初步识别主要影响因素。其次,在误差驱动层面,采用随机森林方法考虑误差进行影响因素精筛。再次,构建考虑了递进式主要影响因素辨识的行业用电量预测模型。预测模型应用自组织映射方法对典型行业的细分行业用电数据样本集进行聚类,分类应用递进式影响因素辨识方法获得主要影响因素,然后同历史用电量数据一起构造误差反向传播神经网络模型进行预测,通过细分聚类、预测求和的方式获得典型行业用电量预测结果。最后,以中国北方某区域两个典型工业行业用电量为预测对象,通过算例验证该方法的适用性。
A method of identifying and forecasting the main influencing factors of industrial electricity consumption based on data driven and error correction is proposed.Firstly,at the data driven level,the maximum information coefficient and maximum correlation minimum redundancy are applied to identify the main influencing factors from the perspective of correlation and redundancy.Secondly,in the error driven level,the random forest method is used to screen the error.Thirdly,the model of industry power consumption forecasting is constructed,which uses self-organizing mapping method to cluster industrial sub-sectors,considering the identification of progressive main influencing factors and adopts BP neural network to forecast the electricity consumption of clustered sub-sectors.Finally,the electricity consumption of two typical industries in North China are taken as examples to verify the advantages of the method.
0 引言
电力电量需求预测是签订中长期合同、制定发电计划、保持系统电力电量平衡的重要基础,科学的预测方法和准确的预测结果对电力系统经济运行具有十分重要的意义[1]。地区总电量由各行业电量组成,各行业电量由行业内各个企业的用电行为所产生,不同企业生产技术的差异使其电能消费特性存在差异,而用电影响因素不同也导致各行业用电量的变化规律各有特点。在新常态经营形势下,亟需更加精细化的用电量预测模式[2]。对于第二产业用电量占比大的地区,开展典型工业行业用电量情况分析和预测方法研究,可进一步提高对地区总电量变化趋势的掌握程度,有助于电力系统经济、高效、平稳运行。
不同工业行业用户的用电行为和影响因素均具有多样性,预测模型输入变量的选择对于预测性能和精度影响较大。当前,主要有数据驱动和误差驱动两大类主流选择方法,且各有优势。数据驱动型方法基于数据间的关系选择变量,而误差驱动型方法利用预测模型误差作为选择变量集的评价指标。数据驱动型只衡量影响因素与待分析变量之间的相关性,如过滤法、相关系数法[3-6]与信息理论法[7-8]等方法,其计算过程可以独立于预测方法,且计算速度较快。误差驱动型方法一般无法独立于预测过程,为了达到较高预测精度需要多次训练预测模型,计算成本高[9]。本文将二者结合,取长补短来提高计算性能与精度。
自组织映射(self-organizing map,SOM)网络最早作为一种降维可视化技术由Kohonen提出[10],其在训练中能无监督地进行自组织学习,在数据挖掘过程中优势明显。近年来,基于一定优化算法的目标与参数间映射关系的自组织映射网络在信息决策、数据分类等过程中广泛应用[11]。结合神经网络方法改进后不仅能有效捕捉数据的非线性特性,还能有效降低算法的运算量,缩短运算时间[12]。
鉴于上述研究现状,文中提出一种数据驱动与预测误差驱动融合的典型工业行业用电量预测方法,通过粗-精两阶段的影响因素筛选,基于对细分行业用电和主要影响因素数据样本的聚类结果,构造BP网络模型进行分类预测和整合,从而获得典型行业用电量的预测结果。最后,以某地区两大典型工业行业实际用电量为预测对象进行测算,验证本方法的适用性。
1 递进式主要影响因素辨识方法
不同行业用户的用电行为及特征不同。例如,钢铁企业多为三班倒工作制的连续生产型,24 h不间断生产,其用电量与产量密切相关,受上下游产业价格、产量和经济景气程度影响。而装备制造企业是钢铁企业的下游,多为非连续生产,白天工作、夜间休息,周末及其他国家法定节假日的用电量与工作日相比明显降低,如图1所示。去除法定节假日,装备制造业用电量与钢铁行业用电量变化趋势相近,作为上、下游产业,二者之间具有一定的相关性。
图1 钢铁和装备制造企业日用电量曲线
Fig.1 Daily electricity consumption curves of steel and equipment manufacturing industry
考虑到行业用电量的影响因素种类和个数较多,且不同行业用电特点不同,本文提出一种数据驱动与误差驱动相融合的典型行业用电量影响因素选择方法,结合两种变量选择方法的优点,通过粗-精两阶段的影响因素筛选实现预测模型计算复杂度与预测精度的平衡,过程如图2所示,其中箭头代表数据流向。
图2 递进式主要影响因素辨识方法
Fig.2 Progressive identification method of main influencing factors
1.1 基于数据驱动的影响因素初筛方法
相关度是衡量影响因素与预测目标变量关联性的重要标准之一,常用相关系数、互信息表征或最大信息系数来表示。相关系数不能描述复杂非线性关系。互信息对不同类型关联关系的普适性较差。最大信息系数(maximal information coefficient,MIC)可以同时处理离散和连续变量,不限定于特定的函数类型,可检测出线性关系及非线性关系,对于复杂关联关系的描述更为精确。对于本文研究对象,只要数据能够代表近期总体信息,就可以直接用MIC计算分析。故本文采用MIC综合变量之间的相关度、冗余度与协同度,基于大规模数据集对典型工业行业日用电量预测模型的输入变量进行快速初筛,辨识影响典型行业日用电量的重要因素[13]。
假设行业日用电量值y为预测的目标变量,x为待筛选的影响因素,被筛选出的主要影响因素将作为预测模型的输入变量,D(x,y)描述了x与y构成的有限二维数据集,最大信息系数MIC(D)的定义如式(1)所示。
式中:将二维空间D的两个方向上分别划分出x和y个区间形成x×y的网格Gx×y;D|G表示数据集D在划分网格G上的分布;I(D|G)表示D|G的互信息;I*(D,x,y)=maxG∈Ω I(D|G)为不同划分方式构成的网格集合Ω 上的最大互信息值;n为数据集样本数;B(n)为网格划分数上限值,取B(n)=n0.6[14]。
根据相关度筛选出的影响因素之间可能存在冗余信息。故文中依据“最大相关-最小冗余”原则考虑冗余度进一步筛选主要影响因素。采用标准施密特正交化方法表征待选因素x独立于已选因素集S之外的信息量,用标准施密特正交化向量(gram-Schmidt orthogonalization,GSO)间接衡量冗余度,记为GSO(x,S)。其计算过程如式(2)所示。
式中:m为选择变量次数;S={x1,x2,…,xm-1}为已选变量集;v为x关于S的正交化变量;uk=xk/||xk||代表xk的单位化向量;〈·,·〉为向量内积;||·||为向量的模。
采用MIC[GSO(x,S),y]作为影响因素x与预测目标变量y的最大相关-最小冗余度衡量指标[14]。
1.2 基于误差驱动的影响因素精选方法
基于预测误差驱动的影响因素选择方法采用预测模型的性能指标作为评价指标,一般选择的准确率越高,计算的复杂度越大。为了平衡准确率和计算复杂度,在基于数据驱动的影响因素初筛结果的基础上,采用基于随机森林的预测误差驱动影响因素精选方法。通过随机重采样技术和节点随机分裂技术构建多棵决策树,对多棵决策树的结果取平均值得出预测结果,具有预测精度高、泛化误差可控等特点[15-16]。此阶段影响因素选择流程为初始化反向传播网络(back propagation network,BPN)预测模型,交叉验证训练集X,判断平均误差是否小于最小误差,小于则输出S;否则对S中变量按随机森林随机排序重要性(扰动该变量后全部子树平均精确率的减少量)进行降序排序,删除S中最后一个变量,得到新变量集S′与对应训练集X′,判断S′不是空集则循环初始化预测模型,运算流程如图3所示。
图3 基于随机森林的预测误差驱动影响因素精选流程
Fig.3 Process of prediction error driving factors selection based on random forest
2 基于SOM-BP的行业用电量预测模型
由以上分析可知,行业用电量与生产习惯和社会经济直接相关,影响因素众多、变化形式多样。如果将所有样本集中于单一模型之中,而没有考虑不同日期类型,不同上、下游行业经济情况,不同企业生产技术用电特性,会导致节假日或经济波动时的预测误差偏大。为了精细化预测建模过程,本文首先将待预测行业依据国民经济行业分类(GB/T 4754—2017)细分至中类,作为细分行业。采用自组织特征映射(self-organizing feature mapping,SOM)网络对细分行业用电量及初筛后的行业影响因素构成的数据集合进行聚类,基于聚类结果分别构建由输入层、输出层和隐藏层构成的BP神经网络预测模型,过程见图4。第一步先做数据准备和预处理以减少噪声数据对聚类效果的影响并方便建模,具体步骤包括影响因素数字化表征、不良数据辨识与修正以及部分数据的归一化处理等。主要影响因素辨识分为初筛和精选两步,其中精选步骤嵌入到BP神经网络预测过程中。搭建BP神经网络模型时,在全连接层使用Dropout方法以避免过拟合的风险。
图4 SOM-BP 预测模型框架
Fig.4 SOM-BP prediction model framework
为了更精准地捕捉各行业用电量在以d为时间尺度上的波动特性,以每个时刻为单位生成行业电量数据样本,设时刻t 对应的样本为用电量和主要影响因素构成的向量z(t),利用SOM对其进行聚类分析。考虑实际应用中可获取的量测数据,文章选取的z(t)包括时刻t 对应的日期戳、邻近日的历史经济数据和历史用电量数据。因此,不同时刻的用电量波动情况相同,但经济指标变动趋势差异较大,也会被SOM划分到不同的类别,进而采用不同的BP预测模型参数获得其未来用电量。
SOM具有较为简单的神经元网络结构,是一类“无监督学习”模型,可以将高维的输入数据在低维空间进行表示,常用于聚类和数据可视化等应用中。相较于k-means聚类算法,SOM不需要事前确定类的个数,且对于其隐藏层中的某些节点,可以没有任何输入数据属于该节点,受初始化的影响较小。SOM也不像层次聚类算法会在一个分裂或者合并被执行时因无法修正致使聚类质量容易受到限制。SOM结构如图5所示,由输入层和输出层组成,输入层对应输入的分行业历史用电量和初筛获得的影响因素数据构成分行业数据向量,输出层则由一个在二维网格中的有序节点构成,两者通过权重相连接。SOM通过欧氏距离判断样本之间的相似性。学习过程中,输入样本找到与之距离最短的竞争层单元作为获胜神经元,并更新获胜神经元和邻近区域权值,该神经元就表示了对输入向量的分类结果[17]。
图5 SOM结构
Fig.5 The structure of SOM
3 算例分析
本文采用北方某地区典型行业日用电量数据集作为数据来源,将提出的基于递进式主要影响因素辨识的SOM-BP行业用电量预测方法与未进行主要因素辨识、递进式辨识或细分行业聚类的传统预测方法进行比较,验证该方法在部分典型行业日用电量预测上的适用性。
3.1 数据集描述
数据来源为2019年1月至2020年8月中国北方某地区黑色金属冶炼及压延加工业(简称钢铁)、装备制造等行业数据集,该数据集包含该地区2019年1月至2020年8月的每日用电量信息与日期类型、经济指标等信息。本文选取2019年1月1日至2020年5月31日的行业用电量等数据作为训练集,2020年6月1日至2020年8月31日的数据作为测试集。
3.2 待选变量
变量选择前首先要确定合理的候选变量集。本文结合所选行业数据集,从趋势变量、日历变量、价格变量、历史用电量变量4个方面构建待选变量集。趋势变量主要体现国民生产水平提升带来的用电量变化。由于生产和作息习惯因素,日历变量往往与用电量存在相关性,如图6所示,随着日历变量的变化,用电量的变化呈现明显的周期性;连续生产型行业一年中用电量的变化与经济情况相关;非连续生产型行业一年中负荷的变化趋势主要与工作和休息习惯相关,节假日的影响最大。选取待选变量集合如表1所示。
表1 待选变量集合
Table 1 Set of variables selected
分类变量趋势变量Tre日历变量Mt,Wt,Hol,WD经济变量Pp t,Ptup,Etp,At d,Atfd,Etfp历史用电变量Qt,R
图6 钢铁行业日历变量与历史电量变量关系
Fig.6 Relationship between daily case variables and historical electricity variables in iron and steel industry
待选变量集中,Tre表示用电量变化趋势,为从1开始累加的线性增加变量。日历变量中,Mt是月份标识,为[1,12]之间的整数;Wt是星期标识,为[1,7]之间的整数;Hol为节假日标识;WD为周末标识。价格变量中,表示本行业产品平均价格;表示上游行业产品平均价格;分别表示历史电价和预测电价;分别表示下游行业产量和下游行业预测产量。历史用电变量包括以d为周期的行业用电量Qt和行业用电结构R(生产性负荷占比)。
3.3 评价指标
为评估预测效果,以测试集的预测误差作为预测精度的评价指标,具体为平均绝对百分误差eMAPE、绝对误差的标准差eSDAE,分别用于评价预测误差的平均大小和离散程度,计算公式如式(3)和式(4)。
式中:k为样本量;为实际行业用电量序列;为行业用电量预测序列。
3.4 结果分析
1)不同方法之间的比较。
基于第3.1节和第3.2节的数据集和待选变量,采用以下几种方法进行钢铁行业日用电量预测:①数据驱动变量选择+BP神经网络;②误差驱动变量选择+BP神经网络;③全变量+BP神经网络;④自回归-移动平均模型;⑤本文方法。
方法④为传统时间序列预测方法,未考虑时间以外的影响因素;方法③为传统BP神经网络预测方法,考虑了影响因素,未提前对主要因素进行辨识;方法②和方法①采用不同类型的辨识方法后,应用筛选出的主要影响因素构建BP神经网络预测模型;方法⑤,即本文方法,基于递进式的影响因素辨识思想,以SOM-BP作为预测模型进行钢铁行业日用电量预测。
钢铁有4个细分行业,分别为炼铁、炼钢、钢压延加工和铁合金冶炼。SOM输入层xi(i=1,2,3,4)为数据驱动变量初筛出来的6个行业影响因素(Tre、Hol、与某一细分行业电量组成的数据集合;竞争层设计为由2×3神经元组成的二维平面离散网络,与输入层之间全连接;将聚类数控制在2~4个,在保持较好的预测精准度的同时降低训练和测试模型数量。经过SOM聚类后,钢铁行业的细分行业分为2类,第一类为钢压延加工,第二类为炼铁、炼钢和铁合金冶炼。特征主要体现在:第一类多为非连续生产工作制,周末和节假日用电量低,下游行业为建筑业、装备制造业;第二类多为连续生产工作制,日用电量波动相对平稳,受上游原材料价格和下游行业产量的影响更多。
基于SOM聚类结果,构造2个BP网络模型,每个BP神经网络模型的输入层为变量初筛后的主要影响因素;输出层为分类行业日用电量预测值;隐藏层为1层,节点数设置为输入节点数与输出节点数的平均值,激活函数采用Sigmoid函数。SOM-BP方法在进行细分行业聚类后分类进行BP网络模型训练、预测与加和,得到行业用电量预测结果。表2比较了各方法对钢铁行业日用电量的预测精度。
表2 不同变量选择方法的预测误差对比
Table 2 Comparison of prediction errors of different variable selection methods
方法选择变量数目eMAPE/%eSDAE/MWh方法①62.6979.57方法②92.3673.21方法③133.61122.16方法④05.13446.28方法⑤32.0768.93
前3种方法选择出的变量数据不同。方法①筛选出6个主要影响因素,分别为Qt。方法②筛选出9个主要影响因素,分别为Tre、Mt、。方法⑤第一步初筛后选择出6个变量,分别为Qt,进一步精选后筛选出对误差影响最大的3个变量。
由表2可知,文中方法在考虑变量选择时既避免了遗漏重要变量,又减少了变量选择的冗余度。在此基础上进行预测后的预测精度说明本文方法在钢铁行业日用电量预测上的适用性,基于文中递进式主要影响因素辨识方法构成的变量集进行预测的精度最高,eMAPE=2.07%,eSDAE=68.93 MWh。本文方法的预测结果比方法③考虑了影响因素的传统BP神经网络的预测效果更好,平均绝对百分误差eMAPE减小1.54个百分点,绝对误差的标准差eSDAE降低53.23 MWh;相比方法④传统时间序列预测方法,预测精度也大幅提高,eMAPE减小3.06个百分点,eSDAE降低377.35 MWh。
2)不同类型行业之间的比较。
将测试集中的2020年7月作为夏季代表月,比较文中算法用于不同类型行业用电量预测的效果。对该月中每一日钢铁行业(连续生产型)和装备制造行业(非连续生产型)用电量分别进行预测,使用不同的评价指标对比各行业预测精度,结果如图7所示。
图7 不同行业夏季典型月预测结果比较
Fig.7 Comparison of typical monthly forecast results of different industries in summer
对于两种预测精度评价指标而言,钢铁行业预测精度均高于装备制造业。这是由于非连续生产型企业较多的装备制造业用电量比同时期连续生产型企业较多的钢铁行业用电量波动更大,且钢铁企业生产性负荷占比明显高于装备制造业企业。文中方法对于连续生产型钢铁行业的预测性能更优,对于非连续生产型装备制造行业的预测效果也在可接受范围内。
4 结语
在中国新常态经济形势下,用电情况的细致分析和预测对于电力系统运行的经济性具有重要意义。本文提出了一种典型工业行业用电量预测方法,该方法基于数据驱动与误差修正实现了递进式的主要影响因素辨识,并将误差修正过程与基于SOM-BP的预测过程相融合,构建了适用于典型行业的日用电量预测模型。该方法与其他方法预测结果的对比分析及其用于不同类型行业的预测效果,证明了该方法在部分典型行业日用电量预测上的适用性。
参考文献
-
[1]
刘培栋,刘立巍,李明,等.基于KNN和RF结合的供热机组热负荷预测研究[J].全球能源互联网,2021,4(6):595-601.LIU Peidong,LIU Liwei,LI Ming,et al.Research on heat load forecasting of heating unit based on combination of KNN and RF[J].Journal of Global Energy Interconnection,2021,4(6):595-601(in Chinese). [百度学术]
-
[2]
SUN F,LI R,HAN Y,et al.The IES dynamic time-scale scheduling strategy based on multiple load forecasting errors[J].Global Energy Interconnection,2021,4(1):58-68. [百度学术]
-
[3]
王飞,李正辉,李渝,等.基于数据序列分辨率压缩尺度优化的月度电量预测方法[J].电力系统保护与控制,2020,48(11):62-68.WANG Fei,LI Zhenghui,LI Yu,et al.Data series resolution compression scale optimization based monthly electricity consumption forecasting[J].Power System Protection and Control,2020,48(11):62-68(in Chinese). [百度学术]
-
[4]
崔佳豪,毕利.基于混合神经网络的光伏电量预测模型的研究[J].电力系统保护与控制,2021,49(13):142-149.CUI Jiahao,BI Li.Research on photovoltaic power forecasting model based on hybrid neural network[J].Power System Protection and Control,2021,49(13):142-149(in Chinese). [百度学术]
-
[5]
TRAN H D,MUTTIL N,PERERA B J C.Selection of significant input variables for time series forecasting[J].Environmental Modelling &Software,2015,64:156-163. [百度学术]
-
[6]
AMJADY N,KEYNIA F.Short-term load forecasting of power systems by combination of wavelet transform and neuro-evolutionary algorithm[J].Energy,2009,34(1):46-57. [百度学术]
-
[7]
庞传军,张波,余建明.基于LSTM循环神经网络的短期电力负荷预测[J].电力工程技术,2021,40(1):175-180.PANG Chuanjun,ZHANG Bo,YU Jianming.Short-term power load forecasting based on LSTM recurrent neural network[J].Electric Power Engineering Technology,2021,40(1):175-180(in Chinese). [百度学术]
-
[8]
AMJADY N,KEYNIA F.Day-ahead price forecasting of electricity markets by mutual information technique and cascaded neuro-evolutionary algorithm[J].IEEE Transactions on Power Systems,2009,24(1):306-318. [百度学术]
-
[9]
HU Z Y,BAO Y K,XIONG T,et al.Hybrid filter-wrapper feature selection for short-term load forecasting[J].Engineering Applications of Artificial Intelligence,2015,40:17-27. [百度学术]
-
[10]
KOHOMEN T.Self-organized formation of topologically correct feature map[J].Biological Cybernetics,1982,43(1):59-69. [百度学术]
-
[11]
杨丽,佟操.基于降维可视化与Kriging的齿轮振动可靠性分析[J].航空动力学报,2016,31(4):993-999.YANG Li,TONG Cao.Reliability analysis of gear vibration based on dimensionality reduction visualization and Kriging[J].Journal of Aerospace Power,2016,31(4):993-999(in Chinese). [百度学术]
-
[12]
张以文,项涛,郭星,等.基于SOM神经网络的服务质量预测[J].软件学报,2018,29(11):3388-3399.ZHANG Yiwen,XIANG Tao,GUO Xing,et al.Quality prediction for services based on SOM neural network[J].Journal of Software,2018,29(11):3388-3399(in Chinese). [百度学术]
-
[13]
孙广路,宋智超,刘金来,等.基于最大信息系数和近似马尔科夫毯的特征选择方法[J].自动化学报,2017,43(5):795-805.SUN Guanglu,SONG Zhichao,LIU Jinlai,et al.Feature selection method based on maximum information coefficient and approximate Markov blanket[J].Acta Automatica Sinica,2017,43(5):795-805(in Chinese). [百度学术]
-
[14]
郑睿程,顾洁,金之俭,等.数据驱动与预测误差驱动融合的短期负荷预测输入变量选择方法研究[J].中国电机工程学报,2020,40(2):487-500.ZHENG Ruicheng,GU Jie,JIN Zhijian,et al.Research on short-term load forecasting variable selection based on fusion of data driven method and forecast error driven method[J].Proceedings of the CSEE,2020,40(2):487-500(in Chinese). [百度学术]
-
[15]
王全才.随机森林特征选择[D].大连:大连理工大学,2011. [百度学术]
-
[16]
乔黎伟,王静怡,郭炜,等.基于随机森林算法的中短期用电量预测[J].电力科学与技术学报,2020,35(2):150-156.QIAO Liwei,WANG Jingyi,GUO Wei,et al.Medium and short-term electricity demand prediction based on random forests algorithm[J].Journal of Electric Power Science and Technology,2020,35(2):150-156(in Chinese). [百度学术]
-
[17]
周楠,徐潇源,严正,等.基于宽度学习系统的光伏发电功率超短期预测[J].电力系统自动化,2021,45(1):55-64.ZHOU Nan,XU Xiaoyuan,YAN Zheng,et al.Ultra-short-term forecasting of photovoltaic power generation based on broad learning system[J].Automation of Electric Power Systems,2021,45(1):55-64(in Chinese). [百度学术]
基金项目
国网河北省电力有限公司科技项目(5204JY200001);国家重点研发计划项目(2016YFB0900100)。
State Grid Hebei Electric Power Co.,Ltd.Science and Technology Project(5204JY200001);National Key Research and Development Program of China(2016YFB0900100).