• 1.33 MB
  • 65页

工程水文学 第三章 水文统计

  • 65页
  • 关注公众号即可免费下载文档
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档由网友投稿或网络整理,如有侵权请及时联系我们处理。
'水文统计基本原理及方法 内容:3.1水文统计的意义及基本概念3.2频率和概率3.3经验频率曲线3.4随机变量的统计参数3.5理论频率曲线3.6抽样误差3.7水文频率分析方法3.8相关分析重点:水文频率及水文相关分析等水文统计基本知识;水文频率及水文相关分析等水文统计计算。难点:水文频率及水文相关分析等水文统计计算 3.1水文统计的意义及基本概念3.1.1水文统计的意义水文现象具有必然性、偶然性(随机性);利用概率论和数理统计的理论和方法,研究和分析水文的随机现象(已经观测到的水文现象),找出水文现象的统计规律性;以此为基础,对水文现象未来可能的长期变化做出概率意义下的定量预估,以满足工程规划、设计、施工以及运营期间的需要。 3.1.2事件随机试验:对随机现象的观测事件:随机试验的结果。包括:1)必然事件:在一定能够的条件组合下,必然会发生的事情。2)不可能是件:在一定的条件组合下,一定不可能发生的事情。3)随机事件:在一定的条件组合下,可能发生也可能不发生的事件。 3.1.3总体、样本、样本容量随机变量:受随机因素影响,遵循统计规律的变量。通俗地讲,指在随机试验中测量到的数量。对于水文现象而言,指某种水文特征值,如某地区流域出口的年径流量和洪峰流量等。分:连续性随机变量,如水位、流量;离散性随机变量,如投掷硬币的正反面。总体:随机变量所能取值的全体,分有限和无限总体。样本:从总体中随机抽取出的一组观测值。样本容量:样本中所含随机变量的项数。 有的现象无法得到总体,例如水文现象。水文统计:各种水文现象的调查和实测过程当作随机试验,把已观测到的水文资料当作总体的一个随机样本(样本应足够大,才能比较好的反应总体的近似情况),利用数理统计的方法分析样本的统计规律,考虑抽样误差.作为总体的规律,应用到工程中去解决实际问题。 3.1.4数理统计法对水文资料的要求检查资料的可靠性;检查资料的一致性;要求所使用的资料系列必须是同一类型或者在同一条件下产生的。如:暴雨洪水和雨雪洪水;瞬时水位和日平均水位。检查资料的代表性;一般认为资料系列越长,平丰枯水段齐全,其代表性越高。检查资料的随机性;检查资料的独立性。 3.2频率和概率3.2.1概率和频率(1)频率指在具体重复的实验中,某随机事件A出现的次数(频数)m与试验总次数n的比值,即: (2)概率概率是指随即事件在客观上出现的可能性,即该事件的发生率,亦称为机率。根据事件出现的可能性是能够预先估计出来,可分为事先概率和事后概率:事先概率:试验之前某随机事件出现的可能性可以预先估计出来,如投硬币出现正面和反面的机率;事后概率:随机事件出现的可能性不能在试验之前预先估计出来,必须通过大量的重复试验之后才能估计出它出现的可能性。 (3)频率与概率的关系(表3.1)频率是经验值,概率是经验值;可以通过实测样本的频率分析来推论事件总体概率特性;样本容量越大,结果越准确;对于水文现象,只能采用有限的多年实测水文资料组成样本系列,推求频率作为概率的近似值。 3.2.2概率运算定律(1)概率相加定理互斥事件:在一次试验中,只有一个事件发生,其余事件均不能发生,这类事件称为互斥事件;概率相加定理:互斥的各事件中,至少有一个发生的概率等于各个事件发生的概率总和。(2)概率相乘定理独立事件:多个事件中,某一事件的出现并不影响其他事件的出现。概率相乘定理:几个独立事件一并出现的概率等于各事件出现概率之积。(3)条件概率 【例】某测站有40年的实测枯水位记录,各种水位出现的频率如表3.2所示,试确定水位H≥2.0m和H≥2.7m的概率?某站水位频率计算表3.2序号水位H(m)频数f(a)频率W(%)累积频率P(%)123454.03.52.72.01.921016935254022.57.55307092.5100∑—40100— 3.2.3随机变量的概率分布随机变量与其概率一一对应,这种随机变量与概率一一对应的关系称为随机变量的概率分布规律简称概率分布随机变量可分为两类:离散型随机变量和连续型随机变量水文学关心随机变量取值大于等于某一定值的概率,即P(X≥xi),而该概率是x的函数【例3.6】离散型随机变量及其概率分布Xx1x2……xi……P(X=xi)p1p2……pi…… F(X)=P(X≥x)代表X大于某一取值x的概率,其几何曲线称为概率分布曲线;如果用实测资料点绘的,水文上称为累积频率曲线。 3.2.4累积频率和重现期(1)累积频率和随机变量的关系水文特征值属于连续性随机变量在分析水文系列的概率分布时,不用单个的随机变量(x=xi)的概率,而是用x≥xi(或者x≤xi)的概率P(x≥xi)(或者P(x≤xi))。累计频率指等于或大于(等于或小于)某水文要素出现可能性的量度。一般在实际应用中,用样本的频率分析曲线代替总体系列的概率分布。累积频率 样本足够大时,可以绘出累积频率曲线。在一个确定的随机变量系列内,各个随机变量对应着一个累积频率值,随机变量的大小于累积频率成反比。工程上一般把累积频率为频率。根据选用样本的不同,频率分为年频率和次频率。 (2)重现期重现期:指等于及大于(或等于及小于)一定数量级的水文要素出现一次的平均间隔年数,以该量级频率的倒数。当洪峰流量、洪水位、暴雨时,使用的设计频率P﹤50%,则T=1/P当研究枯水流量、枯水位时,设计频率P常采用大于50%的值,则T=1/(1-P)(设计保证率)水文现象无固定的周期性。注意:累积频率是指多年平均出现的机会;重现期则是平均若干年出现一次,而不是固定的周期。**年一遇 3.2.5设计标准水文现象具有明显的地区性和随机性,因而无法用水文特征值出现的量值为工程设计的标准。主管部门根据工程的规模、工程在国民经济中的地位以及工程失事后果等因素,在各种工程设计规范中规定各种水文特征值的设计频率(或重现期)作为工程设计标准。各地工程业务部门,根据当地实测的水文资料,通过水文分析计算,求出对应于设计频率的水文特征值,作为工程设计的依据。 3.3经验频率曲线3.3.1经验频率公式我国目前采用的数学期望公式为:当m=1时,P=1/(n+1)当T=100a,则T=1/P=n+1=100m—xm在n项观测资料中按递减顺序排列的序号,即在n次观测试验中大于或等于xm的次数 3.3.2经验频率曲线的绘制和应用如果有n年的水文资料。1)将按时间顺序排列的实测资料按其数值大小进行递减顺序的排列。成x1,x2,…xn,对应序号m为1,2,…,n2)利用公式分别计算对应各个变量的经验频率。3)以实测资料为变量x作为纵坐标,以频率P为横坐标,在坐标纸上点绘经验频率点距(Pi,xi),通过点群中心,目估绘制一条光滑的曲线,该曲线为经验频率曲线。4)根据工程设计指定的频率,在该曲线上查出设计所需的相应设计频率的水文数据。将某水文变量f按递减顺序排列,排列中的序号不仅表示排列大小的次序,而且也表示变量自大到小(大于或等于)的累积次数。3.3.3经验频率曲线的外延 概率格纸水平:正态曲线的概率分布制成分格制成的。非正态曲线:两端曲线坡度变缓,有利于曲线外延 3.4随机变量的统计参数统计参数是反映随机变量系列数值大小、变化幅度、对称程度等情况的数量特征值,因而能反映水文现象基本的统计规律,概括水文现象的基本特征和分布特点,也是进行理论频率曲线估计的基础。统计参数有总体统计参数和样本统计参数。在水文学中主要应用样本统计参数,来估计总体统计参数。水文频率分析主要使用的统计参数包括均值变差系数偏态系数矩 3.4.1均值均值是反映随机变量系列平均情况的数。加权平均法算术平均法若实测系列内各随机变量很少重复出现,可以不考虑出现次数的影响,用算术平均法求均值。对于水文系列,一年内只选一个样或者几个样,水文特征值重复出现的机会很少,一般使用算术平均值,若系列内出现了相同的水文特征值,将相同值排在一起,各占一个序号。推求的是累积频率 均值特性平均数反映了随机变量的平均水平,代表整个随机变量系列的水平高低,故又称数学期望。利用均值可以推求设计频率的水文特征值。利用均值表示各种水文特征值的空间分布情况,绘制成各种等值线图。模比系数 3.4.2均方差和变差系数要反映整个系列的变化幅度,或者系列在均值两侧分布的离散程度,需要使用均方差和变差系数。(1)均方差为了避免一阶离差代数和为0,一般取的平均值的开方作为离散程度的计量标准,称为均方差。即:对于样本系列有下列修正公式: 均方差表征的意义:表示分布函数的绝对离散程度。均方差越大,系列在均值两旁分布越分散,其值变化幅度越大;反之,依然。【例】甲系列:48,49,50,51,52其均值=50;56均值51乙系列:10,30,50,70,90其均值=50;80均值55经计算后甲系列的均方差s甲=1.58,s乙=31.4。甲系列离散程度小,乙系列离散程度大。例:平均值相同,均方差不同进行比较。均方差小的均值代表性好,均方差大的系列均值代表性差 (2)变差系数均方差不仅受到系列分布的影响,也与系列的水平有关。变差系数又称离差系数或者离势系数,是一个系列的均方差与其均值的比值用模比系数带入上式有:【例】同上一例,计算得Cv甲=0.005,Cv乙=0.33,甲系列在均值两旁要集中,离散程度小【例】见教材p50例3.8【思考】一条河流上、下游断面的年平均流量的Cv值哪个大?为什么? 3.4.3偏态系数偏态系数:对系列在均值两旁的对称情况的反映。表达式(对于样本系列):当Cs=0时,系列在均值两旁对称分布;当Cs>0属正偏分布;当Cs<0属负偏分布; 一般认为没有上百年的资料,无法获得比较合理的Cs值。因此一般在实际计算中往往按照Cs和Cv的经验关系确定。设计暴雨量:Cs=3.5Cv设计最大流量:Cv<0.5Cs=(3~4)CvCv>0.5Cs=(2~3)Cv年径流及年降水:Cs=2Cv 3.5理论频率曲线经验频率曲线的缺点:由于实测系列的项数较小,所绘经验频率曲线往往不能满足推求稀遇频率特征值的要求目估定线或外延会产生较大的误差。需要借助某些数字形式的频率曲线作为定线和外延的依据。通常在实测资料中选取或者算的2~3个有代表性的特征值作参数,并据此选配一些数学方程作为总体系列频率密度曲线的假想数学模型,在按一定的方法确定累积频率曲线。这种用数学形式确定的、符合经验点据分布规律的的曲线称为理论频率曲线【外延和内插的工具】我国水文分析常用到的理论频率曲线有:皮尔逊Ⅲ型曲线;特殊情况下也可以用指数Γ分布曲线,对数Γ分布曲线,极值分布曲线,对数正态分布和威布尔分布曲线。 理论频率曲线—皮尔逊Ⅲ型曲线英国生物学家皮尔逊研究各种非正态的分布函数曲线形式,提出了13种分布曲线类型,其中第III型被引入水文学中,并被我国采纳。(1)皮尔逊Ⅲ型曲线是一条一端有限、一端无限的不对称单峰正偏曲线,数学上常称伽玛分布。 曲线特点:只有一个众数曲线的两端或一端以横轴为渐近线由此建立微分方程式求解得:Γ(α)―α的伽玛函数、、a0分别为形状参数、尺度参数和位置参数。α﹥0,β﹥0。 、、a0一经确定,PIII型密度函数随之确定。可以证明,三参数与均值、Cv、Cs有如下关系:皮尔逊Ⅲ型频率曲线的密度函数可表示为以、Cv、Cs为参数的函数y=f(,Cv,Cs,x) (2)皮尔逊Ⅲ型频率曲线及其绘制水文计算中,一般需要求出指定频率P所相应的随机变量取值xp,也就是通过对密度曲线进行积分,即:求出等于及大于xp的累积频率P值。直接由上式计算P值非常麻烦,实际做法是通过变量转换,变换成下面的积分形式离均系数 被积函数只含一个参数Cs。只要给定Cs就可以算出ФP和p的对应值,最终制定出ФP~Cs~p的对应数值表。(教材附录3)如何来绘制在频率计算中,现由已知的Cs查Ф值表得出不同频率下P的离均系数ФP,然后将ФP及已知的x,Cv带入下式,即可求得对应于频率P的水文特征值xp。由不同的P及相应的xp,可绘制出一条与参数相应的理论频率曲线 理论频率曲线绘制的步骤如下:1)由实测的资料,统计并计算x,Cv2)确定Cs3)由Cs查表,得不同的P的离均系数ФP值。4)求出Kp5)由xp=Kpx,求不同P的xp,在海森概率格纸上,以P为横坐标,xp为纵坐标,点绘理论点据(P,xp),根据理论点据分布趋势,目估并绘制一条光滑曲线【例3.9】见教材p56。 均值对频率曲线的影响当皮尔逊Ⅲ型频率曲的两个参数Cv和Cs不变时,由于均值的不同,可以使频率曲线发生很大的变化。(4)统计参数对频率曲线的影响a.Cv、Cs相同时,均值大的曲线位于均值小的曲线之上;(与均值成正比关系)b.均值大的曲线较均值小的曲线陡。c.均值不同的理论频率曲线无交点 为了消除均值的影响,以模比系数K为变量绘制频率曲线,如图所示。图中cs=1.0,cv=0时,随机变量的取值都等于均值,此时频率曲线即为k=1的一条水平线,随着cv的增大,频率曲线的偏离程度也随之增大,曲线显得越来越陡。不同Cv的曲线在Kp=1的位置处有交点变差系数对频率曲线的影响 偏态系数对频率曲线的影响正偏情况下,Cv相同时,Cs愈大,均值(即图中k=1)对应的频率愈小,频率曲线的中部愈向左偏,且上段愈陡,下段愈平缓。 3.6抽样误差用一个样本的统计参数来代替总体的统计参数是存在一定误差的,这种误差是由于从总体中随机抽取的样本与总体有差异而引起的,与计算误差不同,称为抽样误差。抽样误差的大小由均方误差来衡量。计算均方误差的公式与总体分布有关。[公式见教材p61公式3.31]抽样误差的大小,随样本项数n、Cv和Cs的大小而变化。样本容量大,对总体的代表性就好,其抽样误差就小,这就是为什么在水文计算中总是想方设法取得较长的水文系列的原因。 3.7水文频率分析方法水文频率计算的目的是选配一条与经验点配合较好的理论频率曲线,确定合适的参数作为总体参数的估计值,以推求设计频率的水文特征值,作为工程规划设计的依据。适线法先在机率格纸上按经验频率公式点绘出水文系列的经验频率点,选定频率曲线线型,取与经验点据拟合最佳的那条曲线和相应的参数,作为最终的计算结果。确定最佳拟合频率曲线,可使用不同的准则,因而有不同的方法和结果。目前常用到的适线法有两种,包括经验适线法和优化适线法。 (1)经验适线法(目估适线法)根据实测资料和经验频率数学期望公式可以绘出一条经验频率曲线,由皮尔逊Ⅲ型频率密度曲线积分,可以绘出一条理论频率曲线。由于统计参数有误差,两者不一定配合得好,必须通过试算来确定合适的统计参数.这种方法也叫试错适线法。本法是以经验频率点据为基础,给它们选配一条符合较好的理论频率曲线,并以此来估计水文要素总体的统计规律。 具体步骤如下:(1)将审核过的实测资料由大到小排列,计算各项的经验频率,在频率格纸上点绘经验点据(纵坐标为变量的取值,横坐标为对应的经验频率);(2)计算均值、变差系数,假定偏态系数;(3)确定线型(一般选用皮尔逊Ⅲ型);(4)根据拟定的统计参数查表计算理论频率曲线纵坐标,绘理论频率曲线;(5)将此线画在绘有经验点据的图上,看与经验点据配合的情况。若不理想,可通过调整统计参数重新点绘频率曲线。(6)最后根据频率曲线与经验点据的配合情况,从中选出一条与经验点据配合较好的曲线作为采用曲线,相应于该曲线的参数便看作是总体参数的估值。 【例】某站共有实测降水量资料24年,求频率为10%和90%的年降水量。计算步骤为:1.将原始资按大小次序排列,列入表(4)栏。2.计算经验频率Pm=m/(n+1)列入表(5)栏,并与xm对应点绘于概率格纸上。幻灯片463.计算出多年的平均值为666.4mm,Cv=0.234.选定CV=0.25,假定CS=0.50。查表得φP,求得xP=x(φPCV+1)幻灯片46根据表中(1)、(3)两栏的对应数值点绘曲线,发现曲线头部和尾部都偏于经验频率点据之下。 5.改变参数,选定CV=0.30,CS=0.75,查表计算出各xP值。绘制频率曲线,该线与经验点据配合较好,取为最后采用的频率曲线。 3.8相关分析3.8.1概述(1)相关分析的意义和应用自然界中有许多现象之间是有一定联系的。按数理统计法建立上述两个或多个随机变量之间的联系,称之为近似关系或相关关系。把对这种关系的分析和建立称为相关分析。相关分析可以用来延长和插补短系列。 (2)相关的种类根据变量之间相互关系的密切程度,变量之间的关系有三种情况:即完全相关、零相关、统计相关。两变量x与y之间,如果每给定一个x值,就有一个完全确定的y值与之对应,则这两个变量之间的关系就是完全相关。两变量之间毫无联系,或某一现象(变量)的变化不影响另一现象(变量)的变化,这种关系则称为零相关。 若两个变量之间的关系界于完全相关和零相关之间,则称为统计相关。当只研究两个变量的相关关系时,称为简单相关;当研究3个或3个以上变量的相关关系时,则称为复相关。在相关的形式上,又可分为直线相关和非直线相关。 (3)相关分析的内容相关分析(或回归分析)的内容一般包括三个方面:判定变量间是否存在相关关系,若存在,计算其相关系数,以判断相关的密切程度;确定变量间的数量关系――回归方程或相关线;根据自变量的值,预报或延长、插补倚变量的值,并对该估值进行误差分析。 3.8.2简单直线相关(1)相关图解法    设xi和yi代表两系列的观测值,共有n对,把对应值点绘于方格纸上,得到很多相关点。如果相关点的平均趋势近似直线,即可通过点群中间及、点绘出相关直线, (2)相关分析法直线回归方程为避免相关图解法在定线上的任意性,常采用相关计算法来确定相关线的方程,即回归方程。简直线相关方程的形式为:y=a+bx式中x ―自变量;y ―倚变量;a、b―待定常数。 待定常数a、b由观测点与直线拟合最佳,通过最小二乘进行估计。最后得到如下形式的回归方程:此式称为y倚x的回归方程,它的图形称为y倚x的回归线,如前图(a)线所示。若以y求x,则要应用x倚y的回归方程,如前图(b)线所示,方程为将上式中x,y对调。一般y倚x与x倚y的两回归线并不重合,但有一个公共交点。 相关系数与回归系数1)相关系数:反映两个变量之间关系的密切程度。相关系数越接近于1,两变量间关系越密切。 2)回归系数:回归直线的斜率在回归方程中称为回归系数。两个系列的均方差为经整理有:直线回归方程可以写成: 相关分析的误差1)回归线的误差回归线仅是观测点据的最佳配合线,通常观测点据并不完全落在回归线上,而是散布于回归线的两旁。 因此,回归线只反映两变量间的平均关系。按此关系由推求的和实际值之间存在着误差,误差大小一般采用均方误差来表示。    如用Sy表示y倚x回归线的均方误差,yi为观测值,y为回归线上的对应值,n为系列项数,则: 2)相关系数的误差在相关分析中,相关系数是根据有限的实测资料(样本)计算出来的,必然会有抽样误差。一般通过相关系数的均方误来判断样本相关系数的可靠性,按统计学原理,相关系数的均方误差为 相关分析时应注意的问题首先应分析论证两种变量间在成因上确实存在着联系。同期观测资料不能太少,n至少在10项以上,否则会影响成果的可靠性。水文计算中,一般认为相关系数∣γ∣>0.8,且回归线误差Sy不大于均值的10~15%,相关分析成果才认为可以应用。举例见教材p76页【例3.11】 本章小结(1)水文统计包括频率计算和相关分析两部分内容,是水文学的理论基础和技术工具。频率计算主要用于工程的规划和设计,可以把年降水量、年径流量、年最大洪峰流量、年最小枯水流量等看作是随机变量,求它们的频率分布-频率曲线,并以此作为总体概率分布的估计。频率曲线的推求用配线法给经验频率点群选配一条最佳的配合线。配线法需要选定一种线型,在我国主要采用皮尔逊III型曲线;还需要选定一种计算经验频率计算公式,在我国主要采用数学期望公式。矩法、三点法、权函数法等都是配线过程中初估统计参数的方法,不论采用哪一种初估方法,都不应影响配线的最后结果。 本章小结(2)频率计算中有一些重要概念应当注意,它们是:总体、样本,概率、频率,频率与重现期的关系,经验频率曲线和理论频率曲线,抽样误差,样本参数的无偏估计值,频率格纸,统计参数对频率曲线的影响等。 本章小结(3)相关分析又叫回归分析,在水利水电工程规划设计中常用于展延样本系列以提高样本的代表性,同时,也广泛应用于水文预报。相关关系有直线相关、曲线相关,又有二变量、三变量和多变量相关(一元、二元和多元回归)。相关分析方法有图解法和计算法两种。不论哪种情况,相关分析都需要求出变量间关系的表达式或图形,以及相关的密切程度。直线回归的分析方法,不论一元、二元或多元,都是基于最小二乘法原理,并提出了便于记忆的正规方程形式。'