• 1.28 MB
  • 91页

水文学-第三章课件.ppt

  • 91页
  • 关注公众号即可免费下载文档
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档由网友投稿或网络整理,如有侵权请及时联系我们处理。
'第3章水文统计的基本原理与方法3.1概述3.2概率与频率的基本概念3.3随机变量及其概率分布3.4统计参数3.5水文频率曲线线型3.6抽样误差3.7水文频率计算适线法3.8相关分析1 水文现象的统计规律水文现象是一种自然现象,它具有必然性的一面,也具有偶然性的一面。偶然现象也称随机现象;偶然现象仍然是有规律的,一般称为统计规律。水文统计及其任务数学中研究随机现象统计规律的学科称为概率论,而由随机现象的一部分试验资料去研究总体现象的数字特征和规律的学科称为数理统计学。概率论与数理统计学应用到水文分析与计算上则称为水文统计。水文统计的任务就是研究和分析水文随机现象的统计变化特性。并以此为基础对水文现象未来可能的长期变化作出在概率意义下的定量预估,以满足工程规划、设计、施工以及运营期间的需要。3.1概述2 一、概率的基本概念与定理(1)事件:是指随机试验的结果。事件有两种属性:数量性质:直接测量的量或计算的量,如年降雨量,年径流量...属性性质:直接观测到的现象,如天气的雨天和晴天,钱币的正面和背面...3.2概率与频率的基本概念3 A.必然事件B.不可能事件C.随机事件事件可以分为三种类型:(2)概率为了比较某随机事件出现(或不出现)的可能性大小,必然赋予一种量化的(以数量表示)指标,这个数量指标就是事件的概率。()4 式中,P(A):一定条件下随机事件A的概率;n:试验中所有可能的出现的结果数;m:出现随机事件A的结果数。简单的随机事件的概率定义用下式表示:随机试验是指所有试验的可能结果都是等可能的,而且试验的可能结果的总数是有限的。但水文事件不一定符合这种性质。5 对于不是古典概型事件,只能通过多次重复试验来估计事件的概率。设事件A在n次随机试验中出现了m次,则称:(3)频率为事件A在n次试验中出现的频率。注意:n不是所有可能的结果总数,仅是随机试验的次数。6 二、频率和概率的区别和联系区别:概率是抽象数.是个理论值;频率是具体数,是个经验值。联系:频率随实验次数的增多而逐渐稳定.并趋近于概率。实验者掷硬币次数正面出现的次数正面出现的频率蒲丰(Buffon)404020480.5069皮尔逊(K.Pearson)1200060190.5016皮尔逊(K.Pearson)24000120140.5005频率越接近概率0.5表6-1掷币实验出现正面的频率7 两事件和的概率:两个互斥事件A、B出现的概率P(A+B)=P(A)+P(B)条件概率P(B|A):在事件A发生的条件下发生事件B的概率。两事件积的概率:两事件同时出现的概率:P(AB)=P(A)×P(B|A)P(AB)=P(B)×P(A|B)P(A)≠0,P(B)≠0若A、B相互独立。即事件的发生互不影响,则P(B|A)=P(B),P(AB)=P(A)P(B)三、概率加法定理和乘法定理8 用以表示随机试验结果的一个数量(事先是未知的),由于它事先不能确定,是随机的,称为随机变量。水文现象中的随机变量,一般指某个水文特征值(如年径流量、年降雨量、洪峰流量等)。3.3随机变量及其概率分布9 总体在统计数学中,把某种随机变量所取数值的全体,称为总体。如年径流量的总体数是无穷的。(1)统计学中几个概念:样本从总体中不带主观成分任意抽取的一部分,称为样本。样本所包含的项数,称为样本容量。如实测的水文资料是有限的,是一样本。10 它是指随机试验结果的一个数量。在水文学中,常用大写字母表示,记作X,而随机变量的可能取的值记作x,即:X=x1,X=x2,X=xn一般称之为随机系列或随机数列。(2)随机变量的表示11 离散型随机变量随机变量仅取得区间内某些间断的离散值,则称为离散型随机变量。如洪峰次数,只能取0,1,2…,不能取相邻两数值之间的任何值。(3)随机变量的分类连续型随机变量随机变量可以取得一个有限区间内的任何数值,则称为连续型随机变量。如某河流断面的流量可以取0~极限值之间的任何实数值。12 对于离散型随机变量:随机变量的取某一可能值的机会有的大有的小,即随机变量取值都有一定的概率与之相对应,可表示为:(4)随机变量的概率分布上式中P1,P2,…Pn表示随机变量X取值x1,x2,…xn所对应的概率。13 x1x2x3x4……xn一般将这种对应关系称作随机变量的概率分布规律,简称为分布律。可以用以下的分布图形表示:XP离散型随机变量概率分布图14 由于它的所有可能取值有无限个,而取个别值的概率为零,故无法研究个别值的概率。水文学上习惯研究随机变量的取值等于或大于某个值的概率,表示为:它是x的函数,称作随机变量X的分布函数,记作F(x),即F(x)=P(Xx)表示随机变量X大于或等于值x的概率,其几何曲线称作随机变量的概率分布曲线(水文学上通常称累计频率曲线,简称频率曲线)。对于连续型随机变量:15 由图中可知,X=900,相应的P(Xx)=0.15,说明大于900mm降雨的可能性为15%;同理,大于500mm降雨的可能性为60%00.20.40.60.81.0500900年降雨量(mm)某站年雨量概率分布曲线P(Xx)16 P(Xx)=P(X>x+x)+P(x+x>Xx)P(x+x>Xx)=P(Xx)-P(X>x+x)=F(x)-F(x+x)(1)由概率的加法定理:则,降雨量落在900和500mm的可能性为:60%-15%=45%xx+xPXP(Xx)P(X>x+x)随机变量X落在(x,x+x)的概率可用下式表示:17 平均概率密度:随机变量落在区间(x,x+x)的概率与该区间长度的比值称作随机变量落在区间(x,x+x)平均概率。(5)概率密度函数:18 称f(x)为概率密度函数,简称密度函数。而密度函数的几何曲线称作密度曲线。当x0,取极限得:19 f(x)f(xi)F(x)xi密度曲线分布曲线xxdx20 通过密度函数f(x)可求出随机变量X落在(x~x+dx)区间即dx上的概率=f(x)dx,称之为概率元素,即为图中的阴影面积;通过密度函数f(x)可求出随机变量X概率分布函数F(x),其与密度函数f(x)有如下的数学关系:21 F(x)分布函数,反映随机变量X超过某个值x的概率。这两个函数能完整地描述随机变量的分布规律。f(x)密度函数,反映随机变量X落入dx区间的平均概率;可见,随机变量的二个函数:22 3.4随机变量统计参数能说明随机变量统计规律的某些特征数值,称为统计参数,或特征参数,有时为分布参数。位置特征参数均值(平均数)众值(众数)中值(中位数)离散程度特征参数均方差变差系数Cv对称程度特征参数偏态系数Cs23 (1)平均数/数学期望离散型随机变量的平均数是以概率为权重的加权平均值。若各随机变量很少重复出现,可不考虑出现次数的影响,可用算数平均法求平均值一、反映位置特征参数对于离散型随机变量:24 式中,a、b分别为随机变量X取值的上下限。数学期望或平均数代表整个随机变量的总水平的高低,它为分布的中心。对于连续的随机变量:25 表示概率密度分布峰点所对应的数。对于离散型随机变量:M0(x)是使概率P(=xi)等于最大时所相应的xi值。M0(x)=xiPi-1PiPi+1Px离散型随机变量的众数(2)众数,记为M0(x)26 M0(x)是概率密度函数f(x)等于最大时所对应的xi值M0(x)f(x)x连续的随机变量的众数对于连续型随机变量:27 把概率密度分布分为二个相等部分的数。对于离散型的随机变量:将所有变量的可能取值按大小次序排列,位置居中的数字。(3)中位数,记为Me(x)28 对于连续的随机变量中位数满足:式中,a,b分别为随机变量X取值的上下限Me(x)xf(x)1/21/2ab29 该参数用以反映随机变量分布离散程度(相对于随机变量分布中心即平均值的差距)的指标,通常有以下几种:二、反映离散特征参数值愈大,分布愈分散;值愈小,分布愈集中。(1)标准差(均方差)(Standarddeviation)122>1f(x)x标准差对密度函数的影响30 例1:两系列:甲---5,10,15; 乙---1,10,19。 比较其离散程度表明:乙系列的离散程度大于甲系列均值相同时,均方差可以反映其离散程度;但均值不同时,却无法比较-----因此,引入离差系数(变差系数)31 (2)变差系数(离差系数,离势系数〕CV1CV2CV2>CV1f(x)x变差系数对密度函数的影响CV值愈大,分布愈分散;CV值愈小,分布愈集中。对于均值不同的二个系列,用均方差来比较其离散程度就不合适,则要采用均方差和均值的比来表示:32 表明:甲系列的离散程度大于乙系列例2:比较两系列的离散程度: 甲---5,10,15;乙---995,1000,1005。33 f(x)x偏态系数对密度函数的影响Cs=0Cs>0Cs<0若不对称:CS>0,称为正偏;CS<0,称为负偏。三、反映对称特征的参数:偏态系数(偏差系数)一般有经验关系:34 当Cs>0,密度曲线峰顶在均值的左边,为左偏或正偏,概率分布曲线为向下凹曲线。当Cs<0,密度曲线峰顶在均值的右边,为右偏或负偏,概率分布曲线为向上凸曲线。当Cs=0,密度曲线峰顶在均值处,为对称分布或正态分布,概率分布曲线为一直线。35 水文现象大多属于正偏,Cs>0(PIII曲线)。当其他参数不变时,Cs值越大,则概率曲线的凹度越大,即两端都在正态直线以上,中间部分向下。36 3.5水文频率曲线线型水文频率曲线是指水文分析计算中使用的分布曲线。可分为:经验频率曲线:习惯上把由实测资料(样本)绘制的频率曲线称为经验频率曲线,理论频率曲线:而把由数学方程式所表示的频率曲线称为理论频率曲线。水文中常用的理论概率频率曲线正态分布极值分布型皮尔逊Ⅲ型分布型37 式中,:平均数;:标准差。许多随机变量如水文测量误差、抽样误差等一般服从正态分布。一、正态分布随机变量x的密度函数为38 f(x)a.单峰,只有一个众数;b.以均值为轴对称,Cs=0;c.曲线二端趋于±∞,并以x轴为渐近线;d.正态分布曲线的特点:正态分布的均值和标准差确定后,分布就唯一确定了。39 概率密度函数表达式:二、皮尔逊Ⅲ型分布式中,()~的伽玛函数,,,a0:三个参数,它们与三个统计参数有一定的关系,其表达式为:可见,当以上三个参数确定后,P-III型密度函数亦完全确定。40 f(x)皮尔逊Ⅲ型概率密度曲线a0M0(x)Me(x)xPxP-III型曲线的特点:一端有限另一端无限的不对称单峰正偏曲线41 在水文计算中,一般要求出指定概率P所相应的随机变量的取值xP,即求出的xP满足下列等式:按上式计算相当复杂,故实用中,采用标准化变换:取标准变量(离均系数),即代入上式,,,a0以相应的和关系式表示,简化后得:42 0.031.302.473.384.160.20.021.292.403.233.940.10.001.282.333.093.720.0501010.10.01P(%)pCsP-III型曲线离均系数P值表被积函数含有参数,Cs,而包含在中,制成对应关系表:43 因此,由给定的CS及P,从P-III型曲线离均系数值表,查出P,再由下式求:即求出指定概率P所相应的随机变量的取值xP44 已知:某地年平均降雨量=1000mm,CV=0.5,CS=1.0,若年降雨量符合P-III型分布试求:P=1%的年降雨量。【例】解:由CS=1.0及P=1%,查附表1得p=3.0245 引入模比系数:另一种求解方法:由由此建立的对应数值关系[P-III型曲线模比系数KP值表]上例的解法:由CV=0.5,CS=1.0=2CV,P=1%查附表2得:46 P-III型曲线模比系数KP值表(附表)P(%)CV0.010.10.20.330.512510205075909599(一)CS=CV0.051.191.161.151.141.131.121.111.091.071.041.000.970.940.920.89……………………………………1.5011.68.858.027.366.876.005.113.923.002.040.64-0.10-0.53-0.70-0.89(二)CS=1.5CV0.05(三)CS=2CV。。。。。。(三)CS=6CV47 三、统计参数对皮尔逊III型频率曲线的影响(1)均值对频率曲线的影响Cv和Cs不变时,均值不同,频率曲线不同48 (2)变差系数Cv对频率曲线的影响Cs=1时,Cv增大,频率曲线的偏离程度也随之增大,曲线越来越陡49 (3)Cs对频率曲线的影响Cv=0.1,Cs增大,均值对应的频率愈小,频率曲线的中部愈向左偏,且上段愈陡,下段愈平缓。50 3.6抽样误差由随机抽样而引起的误差,在统计学中称为抽样误差。51 52 53 54 水文随机变量的总体是无限的,这就需要在总体不知道的情况下,靠抽出的样本(观测的系列)去估计总体参数。3.7随机变量系列统计参数的估计估算方法有:矩法;矩法是用样本矩估计总体矩,并通过矩和参数之间的关系,来估计频率曲线参数的一种方法。适线法;………55 现行水文频率计算方法~配线法(适线法)是以经验频率点据为基础,在一定的适线准则下,求解与经验点据拟合最优的频率曲线参数,这是一种较好的参数估计方法,是我国估计洪水频率曲线统计参数的主要方法。56 有关的概念介绍:(1)经验频率及经验频率曲线:【例】已知某地年降雨量的观测资料(n=12),并由大到小排列,按计算频率。式中,P:大于或等于某一变量值x的经验频率;m:x由大到小排列的序号,即在n次观测资料中出现大于或等于某一值x的次数。57 经验频率计算表:n=1258 其反映年降雨量(Xx)的经验频率P(Xx)和x的关系。随着样本容量n的增加,频率P就非常接近于概率,而该经验分布曲线就非常接近于总体的分布曲线。由此得到经验分布曲线:P(Xx)x59 注意:样本的每一项的经验频率用公式P=m/n进行计算,当m=n时,P=100%,说明样本的最末项为总体的最小值,这是不合理的。故必须进行修正,中国常采用下面的公式进行计算:经验频率的计算公式:这样,当m=n=12时,该公式在水文计算中通常称为期望公式60 所谓的重现期是指某一随机事件在很长时期内平均多长时间出现一次(水文学中常称为“多少年一遇”)。即在许多试验中,某一随机事件重复出现的时间间隔的平均数,即平均的重现间隔期。在水文分析中,重现期可以等效地替代频率。(2)重现期61 频率P与重现期T关系的两种表示法:62 具体求解步骤:a根据实测样本资料进行点绘[纵坐标为随机变量X=x,横坐标为对应的经验频率P(Xx)],经验频率计算公式为:b假定一组参数,可选用矩法的估值作为的初始值,一般不求CS,假定,K为比例系数,可选K=1.5,2,2.5,3...(3)适线法(配线法)的步骤已知:经验频率分布,求:总体分布参数63 d根据选定的参数,由P-III型曲线离均系数值(附表)或P-III型曲线模比系数KP值表(附表),求出xP~P的频率曲线,将其绘在有经验点据的同一张图上,看它们的配合好坏,若不理想,则修改有关的参数(主要调整CV及K=CS/CV),重复以上的步骤,重新配线;c选定线型,对于水文的随机变量,一般选P-III型;e根据配合的情况,选出一配合最佳的频率曲线作为采用曲线,则相应的参数作为总体参数的估值。64 PxP适线法的实质是通过样本经验分布来推求总体分布,适线法的关键在于“最佳配合”的判别。经验点据理论频率曲线为避免修改参数的盲目性,要了解参数对频率曲线形状的影响:65 xPPPxPPxP66 皮尔逊Ⅲ型频率曲线计算表(例3.1)频率12.751.83121951.801.541025101.331.40933200.801.2482650-0.100.9764675-0.720.7852090-1.200.6442695-1.450.5637399-1.880.4429367 一、相关分析的意义(1)相关关系的意义与应用水文现象中许多变量不是孤立的,相互之间存在联系,则分析研究二个或二个以上随机变量之间的关系,称作相关关系。水文计算中,相关分析可以用来延长和插补短系列。如某一水文要素的实测资料系列很短,而与其相关的另一要素的资料却比较长,这样我们就可以通过相关分析来把短系列延长。水文预报中也经常采用相关分析的方法。3.8相关分析68 如果两个变量x,y,其中变量x的每一个值,变量y都有一个或多个确定值与之对应,而且x,y成函数关系,即x,y的关系点完全落在直线或曲线上,则称这二个变量是完全相关的。完全相关yx完全相关(函数关系〕直线关系曲线关系(2)相关的种类:二个随机变量之间的关系按密切关系程度有以下三种情况69 零相关YXb.零相关(没有关系)如果两个变量x,y之间互不影响互不相关,则称这二个变量没有关系或零相关。即x,y的关系点毫无规律,十分分散。70 如果两个变量x,y之间关系介于以上二者之间,x,y的关系点虽有点分散,但有明显的趋势,数学上可以用一定的表达式进行拟合。则称这二个变量关系为:统计相关或相关关系。c.统计相关(相关关系〕yx统计相关71 a.确定二个变量间相关关系的数学表达式,以相关方程或回归方程表示,用以由已知变量推求未知变量;b.判断二个变量间相关关系的密切程度,用一称为相关系数的参数来表示。(3)水文计算中的相关分析的主要任务72 水文计算中,一般处理两个变量间的相关关系,称简相关,有时也要处理三个或三个以上变量关系,称为复相关。简相关可分为直线相关和曲线相关。曲线相关直线相关二、相关分析法相关分析法可分为图解法和回归分析法。73 根据实测值,将对应点绘于方格纸上,如果点群分布平均趋势为一直线,则可以直线来近似代表这种相关关系。通过点群中心目估绘出一条直线,然后在图上量出直线的斜率a和截距b,则直线方程:y=a+bx即为所求的相关方程。该方法简便实用,而且一般情况下精度可以保证。(1)图解法74 (2)相关分析法——回归分析法若相关点分布较散,目估定线有一定任意性,为保证一定精确性,最好采用分析法来确定相关线的方程。设该直线方程形式为:y=a+bx式中,x:自变量y:倚变量a,b:分别为一常数,待定。则相关点与直线在纵轴方向必然存在离差。75 配合曲线与观测点在纵轴方向的离差为:xiy76 要求配合曲线与所有的观测点能“最佳”拟合,即满足所有的观测点的离差y的平方和为最小,即:分别对a,b求一阶偏导数,并令其为零:77 求解上列两联立方程式,可得:78 式中,:分别为x,y系列的均方差/标准差;:分别为x,y系列的平均值;:x,y系列的变差系数(按不偏估计公式计算)::相关系数;Kxi,Kyi:分别为xi,yi系列的模比系数:79 为回归线的斜率,称y为x倚的回归系数式即为y倚x的回归方程,其曲线称为(仅是对点据拟合最佳一条线),亦可表示为:将,代入y=a+bx中得:80 三、回归线的误差回归线只能反映两变量间的平均关系,由于x,y并非确定性关系,对于x=x0,无法知道其相应的真正值y0,利用回归线来插补展延短期系列时,总有一定误差。通过回归方程求到:仅仅是真正值y0的一个估计值。故其与真正值y0存在偏差。根据统计学的研究,由于随机因素的影响,y0在估计值上下波动呈正态分布,为了衡量回归线与观测点之间的误差,采用均方误,其均方误差可用公式表示。81 式中,Sy:y倚x回归线的均方误;yi:观测点的纵坐标值;y:由回归方程求到的纵坐标值;n:观测项的数目y倚x回归线的均方误估算公式:如前所述,可以用均方误进行误差分析,即对于任一固定的x=x0值,若以作为y的估值,其误差不超过Sy的可能性为68.3%;其误差不超过3Sy的可能性为99.7%。82 另外,可以证明回归线的均方误与系列标准差及相关系数有以下关系:式中,为y系列的标准差(无偏估计量)根据均方误公式,也可以用2来判断相关程度:若2=1,Sy=0,则y=yi,属函数关系;若2=0,Sy=y,误差最大,属零相关;若0<2<1,为统计相关,21,x,y关系愈密切。可知,均方误Sy值愈大,则回归方程的误差愈大。83 相关系数的均方误可用下式来估算:式中,为相关系数;n为观测项数。相关系数是根据有限的实测资料(样本)计算出来的,故相关系数也不免带有抽样误差故水文上为了推断二个变量的相关性,必须对样本相关系数作统计检验。四、相关系数显著水平84 相关系数的统计检验的思路---反证法:检验二个变量是否相关,先假定二个变量不相关,由此如果导致“不合理的现象”发生,则表明原先的假定不成立,拒绝“不相关”的假定,如果没有导致“不合理现象”发生,则原假定成立,称原假定是相容的。这里所谓的“不合理”不是指形式逻辑上的绝对矛盾,而是基于实践中广泛采用的一个原则:"小概率事件在一次观测中是不可能发生的"。相关系数的统计检验:85 -α0+αf(r)样本相关系数密度曲线示意图具体的检验步骤:假设两变量X,Y在总体上不相关;从不相关的两变量总体中抽出大量的样本(如n个),进行相关分析,并分别计算各样本的相关系数1,2,…n,由于假设总体不相关,可以判断1,2,…n,为较小值的可能性大,而较大值的可能性小,其概率分布密度曲线f(r)~r如右图所示:86 选定一个衡量事件发生可能性(概率)很小的指标(水文统计学中称显著性水平),对于容量为n的样本,则有一相应的临界值(为较大值),样本相关系数(根据原先假定应为很小的值)超过±的可能性(概率)应为较小值(水文上一般选=0.05或0.01作为小概率),即:由于值很小,故≥为一小概率事件.87 取某一个具体的样本所计算的与作比较,以判断总体是否相关:若≥,说明样本相关系数绝对值较大,且超过了临界值,说明“小概率事件”发生了,则原先的假定是不能接受的,总体很大可能性是相关的。若≤,说明样本相关系数绝对值较小,未超过临界值,则原先的假定可以成立,即总体很大可能性是不相关的。实用上,可查n~~(表),求88 不同显著性水平下所需相关系数最低值n-2(n为样本容量)0.10.050.020.0180.54940.63190.71550.764690.52140.60210.68510.7348100.49730.57600.65810.7079……………120.45750.53240.61200.6614……………1000.16380.19460.23010.254089 则上式可写成:----直线关系故可按直线相关的方法求Y与X的回归方程,再还原成y与x的函数关系。五、曲线相关1)幂函数方程二边取对数:令:90 故可按直线相关的方法求Y倚X的回归方程,再还原成y与x的函数关系则上式可写成----直线关系(2)指数函数方程二边取对数:令91'