• 31.09 KB
  • 21页

工程水文学 第章 水文统计的基本知识

  • 21页
  • 关注公众号即可免费下载文档
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档由网友投稿或网络整理,如有侵权请及时联系我们处理。
'工程水文学第4章水文统计的基本知识第四章水文统计的基本知识第一节概述..................................................................................................................2第二节概率的基本概念..............................................................................................2第三节随机变量及其概率分布..................................................................................3第四节水文频率曲线线型..........................................................................................5第五节频率曲线参数估计方法...............................................................................11第六节水文频率计算适线法....................................................................................12第七节相关分析........................................................................................................14小结............................................................................................................................18课前学习指导课程要求(1)了解概率、随机变量及其概率分布的基本概念; (2)了解水文频率曲线常用的线型,要掌握P-III型分布曲线和经验频率曲线的性质和计算方法;(3)了解频率曲线参数的估算方法,要掌握矩法估算参数的方法;(4)掌握水文频率计算适线法的具体步骤和方法,特别是参数对频率曲线的影响;(5)了解相关分析的基本概念和方法,特别要掌握两变量直线相关、曲线相关的方法和具体步骤。课时安排共需6个课内学时,10个课外学时课前思考频率与概率有何区别与联系?某水利枢纽施工期预定3年,施工用的围堰的设计标准按照20年一遇洪水设计,在施工期内发生设计洪水的概率、一次也不发生设计洪水的概率?水文变量常用线型与参数估计方法?进行回归(相关)分析,其目的是什么?如何提高参数估计的精度?学习重点掌握Pearson—III型分布曲线性质与计算方法,如何利用适线法估计水文系列参数;难点如何灵活应用概率论原理(如古典概率,概率的加法和乘法定律等) 计算事件发生的概率,如何调整参数使得水文理论频率曲线与经验点据拟合好?第一节概述一、水文现象的特性水文现象是一种自然现象,它具有必然性的一面,也具有偶然性的一面。1、必然现象是指在一定条件下,必然出现或不出现的现象;水文学中称水文现象的这种必然性为确定性。2、偶然现象是指在一定条件下,可能出现也可能不出现的现象,偶然现象也称随机现象;偶然现象仍然是有规律的,一般称为统计规律。二、水文统计规律的研究-水文统计数学中研究随机现象统计规律的学科称为概率论,而由随机现象的一部分试验资料去研究总体现象的数字特征和规律的学科称为数理统计学。概率论与数理统计学应用到水文分析与计算上则称为水文统计。三、水文统计的任务水文统计的任务就是研究和分析水文随机现象的统计变化特性。并以此为基础对水文现象未来可能的长期变化做出在概率意义下的定量预估,以满足工程规划、设计、施工以及运营期间的需要。水文统计的基本方法和内容具体有以下两点:1、根据已有的资料(样本),进行频率计算,推求指定频率的水文特征值;2、研究水文现象之间的统计关系,应用这种关系延长、插补水文特 征值和作水文预报。第二节概率的基本概念一、事件在概率论中,对随机现象的观测叫做随机试验,随机试验的结果称为事件。事件可以分为必然事件、不可能事件和随机事件三种。二、概率随机事件的概率反映事件发生的可能性大小。随机事件的概率可由下式计算:(4-2-1)式中:P(A)——在一定条件组合下,出现随机事件A的概率;k——出现随机事件A的结果数;n——在试验中所有可能出现的结果数。随机事件的概率介于0与1之间。三、频率设随机事件A在重复n次试验中出现的m次,则称为事件A在n次试验中出现的频率。注意区别概率与频率计算中n的含义不同,频率随试验次数而变,但概率是客观存在的。四、概率加法定理和乘法定理1、两事件和的概率两个互斥事件A、B出现的概率等于这两个事件的概率的和,即P(A+B)=P(A)+P(B)式中:P(A+B)-实现事件A或事件B的概率; P(A)-事件A的概率;P(B)-事件B的概率。2、条件概率两个事件A、B,在事件A发生的前提下,事件B发生的概率为事件B在条件A下事件B条件概率,记为:P(B︱A)3、两事件积的概率两事件积的概率,等于其中一事件的概率乘以另一事件在已知前一事件发生的条件下的条件概率,即P(AB)=P(A)×P(B︱A),P(A)≠0P(AB)=P(B)×P(A︱B),P(B)≠0若两个事件是相互独立的,它们共同出现的概率等于事件A的概率乘以事件B的概率,即P(AB)=P(A)×P(B)第三节随机变量及其概率分布一、随机变量随机试验的结果可以是一个数量,也有些虽然不是数量,但可以用数量来表示。这样的量随着试验的重复可以取得不同的数值,而且带有随机性,我们称这样的变量为随机变量。随机变量可分为两大类型:离散型和连续型。二、随机变量的概率分布1、离散型随机变量的概率分布 离散型随机变量的概率分布一般以分布列表示,如表4-3-1。表4-3-1n2、连续型随机变量的概率分布对于连续型随机变量,无法研究个别值的概率,只能研究某个区间的概率,或是研究事件X≥x的概率,以及事件X≤x的概率,后面二者可以相互转换,水文统计中常用X≥x的概率及其分布。3、分布函数设事件X≥x的概率用P(X≥x)来表示,它是随随机变量取值x而变化的,所以P(X≥x)是x的函数,称为随机变量x的分布函数,记为F(x),即F(x)=P(X≥x)(4-3-1)它代表随机变量X大于等于某一取值x的概率。其几何图形如图4-3-1(b)所示,图中纵坐标表示变量x,横坐标表示概率分布函数值F(x),在数学上称此曲线为分布曲线,水文统计中称为随机变量的累积频率曲线,简称频率曲线。注意在一般的概率论与数理统计的教材中,分布函数的定义为F(x)=P(X<x)。4、分布密度分布函数导数的负值称为密度函数,记为f(x),即:(4-3-2)密度函数的几何曲线称密度曲线。水文中习惯以纵坐标表示变量x,横坐标表示概率密度函数值f(x),如图4-3-1(b)所示。实际上,分布函数与密度函数是微分与积分的关系。因此,已知f(x) ,则:其对应关系可在图4-3-1中看出来。三、随机变量的统计参数说明随机变量统计规律的数字特征,称为随机变量的统计参数。统计参数有总体统计参数与样本统计参数之分。水文计算中常用的样本统计参数有均值、均方差、变差系数和偏态系数。1、均值均值表示系列中变量的平均情况。设某水文变量的观测系列(样本)为x1,x2,?,xn,则其均值为:(4-3-4)令2、均方差称模比系数,则:(4-3-5)均方差是反映系列中各变量集中或离散的程度。研究系列集中或离散程度,常采用方差Dx或均方差s,计算公式为(4-3-6)3、变差系数(4-3-7)水文计算中用均方差与均值之比作为衡量系列的相对离散程度的一个参数,称为变差系数,或称离差系数、离势系数,用Cv表示,其计算式为上式说明,Cv是变量x换算成模比系数k以后的均方差。4、偏态系数在数理统计中采用偏态系数Cs作为衡量系列不对称程度的参数,其计算式为:上式右端的分子、分母同除以,则得: 第四节水文频率曲线线型水文分析计算中使用的概率分布曲线俗称水文频率曲线,习惯上把由实测资料(样本)绘制的频率曲线称为经验频率曲线,而把由数学方程式所表示的频率曲线称为理论频率曲线。所谓水文频率分布线型是指所采用的理论频率曲线(频率函数)的型式(水文中常用线型皮尔逊Ⅲ型分布型等),它的选择主要取决于与大多数水文资料的经验频率点据的配合情况。分布线型的选择与统计参数的估算,一起构成了频率计算的两大内容。一、正态分布1、正态分布的密度函数及其参数正态分布具有如下形式的概率密度函数:(-∞﹤x﹤+∞)(4-4-1)式中----平均数;σ---标准差;2、频率格纸正态频率曲线在普通格纸上是一条规则的S形曲线,它在P=50%前后的曲线方向虽然相反,但形状完全一样。水文计算中常用的一种“频率格纸”其横坐标的分划就是按把标准正态频率曲线拉成一条直线的原理计算出来的。这种频率格纸的纵坐标仍是普通分格,但横坐标的分格是不相等的,中间分隔较密,越往两端分格越稀,其间距在P=50%的两端是对称的。现以横坐标轴的一半(0~50%)为例,说明频率格纸间距的确定。通过积分或查有关表格,可在普通格纸上绘出标准正态频率曲线(见图4-4-2中①线)。由①线知,P=50%时,x=0;P=0.01%时,x=3.72 。根据前述概念,在普通格纸上通过(50%,0)和(0.01%,3.72)两点的直线即为频率格纸上图4-4-2频率格纸的划分对应的标准正态频率曲线(见图-4-2中②线)。由①线和②线即可确定频率格纸上横坐标的分格。为醒目起见,我们将它画在横线上。例如,在普通分格(横轴)的P=1%处引垂线交S形曲线(①线)于A点,作水平线交直线(②线)于B点,再引垂线交O¢P¢轴于C点,C点即为频率格纸上P=1%的位置。同理可确定频率格纸上其他横坐标分格(P=5%,10%,20%,?)的位置。把频率曲线画在普通方格纸上,因频率曲线的两端特别陡峭,又因图幅的限制,对于特小频率或特大频率,尤其是特大频率的点子很难点在图上。现在,有了这种频率格纸,就能较好地解决这个问题,所以在频率计算时,一般都是把频率曲线点绘在频率格纸上。二、皮尔逊Ⅲ(P-Ⅲ,或Pearson--Ⅲ)型曲线1、皮尔逊Ⅲ型曲线的概率密度函数皮尔逊Ⅲ型曲线是一条一端有限一端无限的不对称单峰、正偏曲线(见图4-4-3),概率密度函数为:式中:Γ(α)―α的伽玛函数;α、β、a0―分别为皮尔逊Ⅲ型分布的形状尺度和位置未知参数,α﹥0,β﹥0。 图4-4-3皮尔逊Ⅲ型概率密度曲线显然,α、β、a0确定以后,该密度函数也随之确定。可以推证,这三个参数与总体的三个统计参数、Cv、Cs具有下列关系皮尔逊III型密度曲线的形状主要决定于参数Cs(或α),从图4-4-4可以区分为以下四种形状:(1)当0<a<1,即2<Cs<∞时,密度曲线呈乙形,以x轴和x=b直线为渐近线,如图4-4-4(a)所示。图4-4-4(a)皮尔逊密度曲线形状变化图(2)当a=1,即Cs=2时,密度曲线退化为指数曲线,仍呈乙形,但左端截止在曲线起点,右端仍伸到无限,如图4-4-4(b)所示。图4-4-4(b)皮尔逊密度曲线形状变化图(3)当1<a<2,即<Cs<2时,密度曲线呈铃形,左端截止在曲线起点,且在该处与直线x=b相切,右端无限,如图4-4-4(c)所示。图4-4-4(c)皮尔逊密度曲线形状变化图(4)当a>2,即Cs<限,如图4-4-4(d)所示。时,密度曲线呈铃形,起点处曲线与x轴相切,右端无图4-4-4(d)皮尔逊密度曲线形状变化图不同偏态系数情况下,其分布密度曲线形状差异很大,Cs大于等于2时为乙型,Cs大于零小于2时为铃形。2、皮尔逊Ⅲ型频率曲线及其绘制水文计算中,一般需要求出指定频率P所相应的随机变量取值xp ,也就是通过对密度曲线进行积分,即(4-4-4)求出等于及大于xp的累积频率P值。直接由式(4-4-4)计算P值非常麻烦,实际做法是通过变量转换,变换成下面的积分形式:(4-4-5)式(4-4-5)中被积函数只含有一个待定参数Cs,其它两个参数、Cv都包含在Φ中。Φ是标准化变量,称为离均系数。Φ的均值为0,标准差为1。因此,只需要假定一个Cs值,便可从式(4-4-5)通过积分求出P与Φ之间的关系。对于若干个给定的Cs值,Φ和P的对应数值表先后由美国福斯特和前苏联雷布京制作出来,见附表1"皮尔逊Ⅲ型频率曲线的离均系数Φ值表"。由Φ就可以求出相应频率P的x值:附表1(摘录)(4-4-6)在频率计算时,由已知的Cs值,查Φ值表得出不同的P的Φ,然后利用已知的、Cv,通过式(4-4-6)即可求出与各种P相应的x,从而可绘制出皮尔逊Ⅲ型频率曲线。三、经验频率曲线上述各种频率曲线是用数学方程式来表示的,属于理论频率曲线。在水文计算中还有一种经验频率曲线,是由实测资料绘制而成的,它是水文频率计算的基础,具有一定的实用性。1、经验频率曲线的绘制根据实测水文资料,按从大到小的顺序排列,然后用经验频率公式计算系列中各项的频率,称为经验频率。以水文变量x 为纵坐标,以经验频率P为横坐标,点绘经验频率点据,根据点群趋势绘出一条平滑的曲线,称为经验频率曲线。有了经验频率曲线,即可在曲线上求得指定频率P的水文变量值x对经验频率的计算,目前我国水文计算广泛采用的是数学期望公式:(4-4-13)式中p-等于和大于xm的经验频率;m-xm的序号,即等于或大于xm的项数;n-系列的总项数。2、经验频率曲线存在的问题经验频率曲线计算工作量小,绘制简单,查用方便,但受实测资料所限,往往难以满足设计上的需要。为此,提出用理论频率曲线来配合经验点据,这就是水文频率计算适线法。四、频率与重现期的关系频率曲线绘制后,就可在频率曲线上求出指定频率p的设计值xp。由于"频率"较为抽象,水文上常用"重现期"来代替"频率"。所谓重现期是指某随机变量的取值在长时期内平均多少年出现一次,又称多少年一遇。根据研究问题的性质不同,频率P与重现期T的关系有两种表示方法。1、当为了防洪研究暴雨洪水问题时,一般设计频率P<50%,则:T=1/P(4-4-6)式中:T―重现期,年;P―频率,%。2、水库兴利调节研究枯水问题时,设计频率P>50%,则T=1/(1-P)(4-4-7) 第五节频率曲线参数估计方法实际上,可以通过观测得到若干年份的资料(也称实测样本)。在总体线型确定的情况下,需要由某种参数估计方法依据实测样本估计总体参数,从而可以计算不同标准的设计值。目前水文中Pearson-III型参数估计方法主要有矩法、概率权重矩法、权函数法和适线法等。在我国《水利水电工程设计洪水计算规范》(1993)中要求使用目估适线法(含优化适线法)作为最终确定参数估计值的方法,而矩法、概率权重矩法、权函数法只用于适线法参数初值的估计。考虑到两种新方法概率权重矩法、权函数法较为复杂,故本节主要介绍矩法和抽样误差的概念,下节再介绍适线法。一、矩法矩法是用样本矩估计总体矩,并通过矩和参数之间的关系,来估计频率曲线参数的一种方法。前述,一阶原点矩的计算公式就是均值,均方差σ的计算式为二阶中心矩开方,偏态系数Cs计算式中的分子则为三阶中心矩。它们与相应的总体同名参数相比,不一定相等,平均上说,Cv,Cs往往会偏小。因此,需要将上述公式加以修正,修正后的参数计算式为:(4-5-1)(4-5-2)(4-5-3)二、抽样误差(4-5-4) 用一个样本的统计参数来代替总体的统计参数是存在一定误差的,这种误差是由于从总体中随机抽取的样本与总体有差异而引起的,与计算误差不同,称为抽样误差。抽样误差的大小由均方误来衡量。计算均方误的公式与总体分布有关。对于皮尔逊Ⅲ型分布且用矩法估算参数时,用、数的均方误,则它们的计算公式为(4-5-5)、、分别代表、、Cv和Cs样本参(4-5-6)(4-5-7)(4-5-8)由上述公式可见,抽样误差的大小,随样本项数n、Cv、和Cs的大小而变化。样本容量大,对总体的代表性就好,其抽样误差就小,这就是为什么在水文计算中总是想方设法取得较长的水文系列的原因。第六节水文频率计算适线法适线法(或称配线法)是以经验频率点据为基础,在一定的适线准则下,求解与经验点据拟合最优的频率曲线参数,是我国估计水文频率曲线统计参数的主要方法。适线法主要有两大类,即目估适线法和优化适线法。目估适线法1、目估配线法的作法与步骤目估配线法又称目估适线法,是以经验频率点据为基础,给它们选配一条符合较好的理论频率曲线,并以此来估计水文要素总体的统计规律。具体步骤如下:---- 将实测资料由大到小排列,计算各项的经验频率,在频率格纸上点绘经验点据(纵坐标为变量的取值,横坐标为对应的经验频率)----选定水文频率分布线型(一般选用皮尔逊Ⅲ型)。----先采用矩法或其它方法估计出频率曲线参数均值和Cv的初估值,而Cs凭经验初选为Cv的倍数,有时也直接用矩法估计。----根据拟定的均值、Cv和Cs,查附表1,计算值。以水文变量取值为纵坐标,经验频率为横坐标,即可得到频率曲线。将此线画在绘有经验点据的图上,看与经验点据配合的情况。若不理想,可通过调整Cv和Cs点绘频率曲线。----最后根据频率曲线与经验点据的配合情况,从中选出一条与经验点据配合较好的曲线作为采用曲线,相应于该曲线的参数便看作是总体参数的估值。----求指定频率的水文变量设计值。2、统计参数对频率曲线的影响为了避免配线时调整参数的盲目性,必须了解皮尔逊Ⅲ型分布的统计参数对频率曲线的影响。----均值对频率曲线的影响当皮尔逊Ⅲ型频率曲的两个参数Cv和Cs不变时,由于均值的不同,可以使频率曲线发生很大的变化,----变差系数Cv对频率曲线的影响为了消除均值的影响,我们以模比系数K为变量绘制频率曲线,如图图4-6-2Cs=1.0时,各种Cv对频率曲线的影响 4-6-2所示。图中Cs=1.0。Cv=0时,随机变量的取值都等于均值,此时频率曲线即为k=1的一条水平线,随着Cv的增大,频率曲线的偏离程度也随之增大,曲线显得越来越陡。---偏态系数Cs对频率曲线的影响图4-6-3表示Cv=0.1时种种不同的Cs对频率曲线的影响情况。从图中可以看出,正偏情况下,Cs愈大,均值(即图中k=1)对应的频率愈小,频率曲线的中部愈向左偏,且上段愈陡,下段愈平缓。应用程序实例:这是一个P-Ⅲ频率曲线目估适线的可执行程序。通过调整Cv、Cs两个参数,点线拟合状况会发生变化。第七节相关分析一、相关关系的概念1、相关的意义与应用自然界中有许多现象之间是有一定联系的。按数理统计法建立上述两个或多个随机变量之间的联系,称之为相关关系。把对这种关系的分析和建立称为相关分析。相关分析可以用来延长和插补短系列。2、相关的种类根据变量之间相互关系的密切程度,变量之间的关系有三种情况:即完全相关、零相关、统计相关。----完全相关(函数关系)两变量x与y之间,如果每给定一个x值,就有一个完全确定的y值与之对应,则这两个变量之间的关系就是完全相关(或称函数相关)。完全相关的形式有直线关系和曲线关系两种,如图4-7-1所示。 图4-7-1完全相关示意图----零相关(没有关系)两变量之间毫无联系,或某一现象(变量)的变化不影响另一现象(变量)的变化,这种关系则称为零相关或没有关系,如图4-7-2所示。图4-7-2零相关示意图---相关关系若两个变量之间的关系界于完全相关和零相关之间,则称为相关关系或统计相关。当只研究两个变量的相关关系时,称为简相关;当研究3个或3个以上变量的相关关系时,则称为复相关。在相关的形式上,又可分为直线相关和非直线相关,如图4-7-3所示。(a)直线相关(b)曲线相关图4-7-33.相关分析的内容相关分析(或回归分析)的内容一般包括三个方面:(1)判定变量间是否存在相关关系,若存在,计算其相关系数,以判断相关的密切程度;(2)确定变量间的数量关系――回归方程或相关线;(3)根据自变量的值,预报或延长、插补倚变量的值,并对该估值进行误差分析。二、一元线性相关1、相关图解法设xi和yi代表两系列的观测值,共有n 对,把对应值点绘于方格纸上,得到很多相关点。如果相关点的平均趋势近似直线,即可通过点群中间及、)点绘出相关直线,2、相关计算法为避免相关图解法在定线上的任意性,常采用相关计算法来确定相关线的方程,即回归方程。简直线相关方程的形式为:y=a+bx(4-7-1)式中x――自变量;y――倚变量;a、b―待定常数。待定常数a、b由观测点与直线拟合最佳,利用最小二乘法进行估计。最后得到如下形式的回归方程:(4-7-2)式中、――x、y系列的均方差;、――x、y系列的均值;r――相关系数,表示x、y两系列间的线性关系密切程度,计算式为(4-7-3)此式称为y倚x的回归方程,它的图形称为y倚x的回归线,如图4-7-4的(a)线所示。若以y求x,则要应用x倚y的回归方程,如图4-7-4的(b)线所示。x倚y的回归方程为:(4-7-4))。一般y倚x与x倚y 的两回归线并不重合,但有一个公共交点(3、相关分析的误差----回归线的误差回归线仅是观测点据的最佳配合线,通常观测点据并不完全落在回归线上,而是散布于回归线的两旁。因此,回归线只反映两变量间的平均关系。按此关系由推求的和实际值之间存在着误差,误差大小一般采用均方误来表示。如用Sy表示y倚x回归线的均方误,yi为观测值,为回归线上的对应值,n为系列项数,则同样,x倚y回归线的均方误Si为----相关系数误差在相关分析中,相关系数是根据有限的实测资料(样本)计算出来的,必然会有抽样误差。一般通过相关系数的均方误来判断样本相关系数的可靠性,按统计学原理,相关系数的均方误为----相关系数的统计检验总体不相关(r=0)的两变量,由于抽样原因,样本的相关系数不一定等于零。为此,需要对相关系数进行显著性检验。检验方法是:先选一个临界相关系数rα,与样本的相关系数r相比较,若r>rα,则具有相关关系;否则,无相关关系。rα可以根据样本项数n和信度α(一般采用α=0.05)从已制成的相关系数检验表中查取。三、曲线相关 许多水文现象间的关系,并不表现为直线关系而具有曲线相关的形式。水文上常采用幂函数、指数函数两种曲线,基本作法是将其转换为直线,再进行直线回归分析。1、幂函数幂函数的一般形式为y=ax(4-7-8)两边取对数logy=loga+blogx令Y=logy,A=loga,X=logx则有Y=A+bX(4-7-9)对X和Y而言就是直线关系,可对其作直线回归分析。2、指数函数指数函数的一般形式为y=Ae(4-7-10)两边取对数logy=loga+bxloge令Y=logy,A=loga,B=bloge,X=x则有Y=A+BX(4-7-11)bXb这样对X和Y同样也可作直线相关分析。小结本章是以下设计年径流及年内分配分析和不同途径推求设计洪水计算 的重要基础,考虑到学习本课程的多数同学已学过概率论与数理统计课程,因此,在学习过程中要明确它们之间的区别,即一般的概率论与数理统计重点研究正态分布,推导多且严密,而本章水文统计则更注重研究偏态分布,且注重知识的实际应用'