概率概论
概率与统计的差异:
- 概率
- 概率模型已知,要学会怎么算某些事件的概率
- Ex:已知一骰子为公平骰,看到偶数的概率为多少?
- 统计
集合论概念/名词
“学生上课不规矩”的概率 = 0.1,p(学生上课不规矩) = 0.1。
概率函数的自变量是:事件,而事件是一种集合。
概率论名词复习:
- 元素(Element)
- Ex:小黑、小冀、小湘、小鄂、小美
- 集合(Set)
- Ex:咸豆腐脑 A = {黑, 冀}
- Ex:甜豆腐脑 B = {湘, 鄂}
- 子集合(Subset)
- 嫌咸 C = {湘, 鄂, 美}
- B 是 C 的子集,表示为 \(B \subset C\)
- 全集(Universal Set)
- Ex:S = {黑, 冀, 湘, 鄂, 美}
- 空集(Empty Set)
- Ex:\(\emptyset\) = \(\{\}\)
- 交集(Intersection)
- Ex:喜欢甜豆腐脑且喜欢咸豆腐脑的人 = \(A \cap B = \{\} = \emptyset\)
- 并集(Union)
- Ex:喜欢甜豆腐脑或喜欢咸豆腐脑的人 = \(A \cup B = \{黑, 冀, 湘, 鄂\}\)
- 补集(Complement)(绝对补集)(若给定全集 U,\(A \subseteq U\))
- Ex:嫌咸 C = 咸 A 之于补集 \(C = A^C\)(博主注:叶丙成老师是台湾人,我考研的时候使用的符号好像是 \(\bar{A}\),但是由于 mathjax 好像不是完全支持 bar 符号,所以以下将会混用)
- 差集(Difference)(相对补集):X - Y = {在 X 但不在 Y 中的东西}
- 嫌咸 - 甜 = {美}
- 不相交(Disjoint):如果 \(X \cap Y = \emptyset\) => X,Y 不相交
- Ex:甜 \(\cap\) 咸 = \(\{\}\)
- 互斥(Mutually Exclusive):若有一群集合 \(X_1, X_2, \cdots, X_n\) 中任选两个集合 \(X_i, X_j\) 都不相交(\(\emptyset\)),则我们称 \(X_1, X_2, \cdots, X_n\) 这群集合互斥。
De Morgan's Law 定理:\((A \cup B)^C = A^C \cap B^C\)。证明:
概率名词
- 实验(Experiment)
- 一个概率实验包含了:步骤(procedures)、模型(model)、观察(observations)
- Ex:丢两个公平的骰子
- 步骤:……拿起两个骰子投入碗中,直到停止为止。
- 模型:(1, 1)、(1, 2)、……、(6, 6) 发生机会均等
- 观察:(6, 6)
- 结果(Outcome):是实验中可能的结果
- Ex:约心仪店员。成功/失败
- Ex:看到华南虎。立体的/平面的
- Ex:转幸运之轮
- 样本空间(Sample Space):是概率实验所有可能的结果的集合,通常用 S 表示
- Ex:约心仪店员。S = {成功, 失败}
- Ex:连丢三次铜板,记录正反面结果(正H,反T)。S = {HHH, HHT, HTH, HTT, THH, THT, TTH, TTT}
- Ex:转幸运之轮一次。S = [0, 1)
- Ex:转幸运之轮两次。S = [0, 1) * [0, 1)
- 事件(Event)
- 事件是对于实验结果的某种叙述
- 概率是在讲实验结果符合某事件叙述的机会有多大
- 在数学上,“事件”可以看成是“结果”的集合,亦是“样本空间”的子集
- Ex:台大学生上课出席情况
- 结果:准时,迟到,旷课
- 事件1:有出席;E1 = {准时, 迟到}
- 事件2:没规矩;E2 = {迟到, 旷课}
- Ex:台大学生上课出席情况
- 事件空间(Event Space)
- Ex:台大学生上课出席
- S = {准时, 迟到, 旷课}
- 事件空间 = { {}, {准时}, {迟到}, {旷课}, {准时, 迟到}, {迟到, 旷课}, {准时, 旷课}, {准时, 迟到, 旷课} }
- 事件空间是包含所有事件的集合
- 若样本空间有 S = {\(o_1, o_2, \cdots, o_n\)} n 个结果,事件空间有 \(2^n\) 个
- 概率是一个函数,其自变量是事件
- p(事件) = 0.6
- 所有概率可以看成一个映射
- Ex:台大学生上课出席
概率公理、性质
- 公理(Axioms)
- 近代数学常以数条公理作为整套理论的基石
- Ex:线性代数。8 公理,公理 1:a + b = b + a ……
- 这样的好处? 头过身就过
- 公理可否被证明?公理常是能被证明的基本性质
- 公理为何常被当废话?公理常是非常基本的性质
- 什么样的数学最厉害?公理越少条、公理越基本,越厉害!
- 近代数学常以数条公理作为整套理论的基石
概率三公理(Axioms of Probability)
- 公理 1:对任何事件 A 而言,P(A) \(\geq\) 0
- 公理 2:P(S) = 1
- 公理 3:事件 \(A_1, A_2, \cdots\) 互斥 => \(P(A_1 \cup A_2 \cup A_3 \cdots) = P(A_1) + P(A_2) + P(A_3) + \cdots\)
- 公理 3 搭起了集合运算和概率运算的桥梁
公理衍生之概率性质
- Ex:从一幅 52 张的扑克牌中抽出一张,结果为 Ace 的概率为多少?
- 考虑“抽了一张,结果为 Ace”的事件,如下图所示。由于我们只抽一次,所以不可能一次既抽到黑桃 A,又抽到红桃 A。所以可以按照公理 3 进行计算。
- 若 E = {\(o_1, o_2, \cdots, o_n\)},则 P(E) = P(\({o_1}\)) + P(\({o_2}\)) + \(\cdots\) + P(\({o_n}\))。E:事件,o:outcome。
- P(\(\emptyset\)) = 0
- P(A) = 1 - P(\(\bar{A}\))
- P(A) = P(A - B) + P(A \(\cap\) B)
- 证明:A = (A - B) \(\cup\) (A \(\cap\) B) => P(A) = P(A - B) + P(A \(\cap\) B)
- P(A \(\cup\) B) = P(A) + P(B) - P(A \(\cap\) B)
- 若 \(C_1, C_2, \cdots, C_n\) 互斥且 \(C_1 \cup C_2 \cup \cdots \cup C_n = S\),则对任何事件 A:P(A) = P(\(A \cap C_1\)) + P(\(A \cap C_2\)) + \(\cdots\) + P(\(A \cap C_n\))(切面包定理) 自证: P(A) = P(A \(\cap\) S) = \(P(A \cap (C_1 \cup C_2 \cup \cdots \cup C_n))\) = \(P((A \cap C_1) \cup (A \cap C_2) \cup \cdots \cup (A \cap C_n))\) \(\because (A \cap C_1), (A \cap C_2), \cdots, (A \cap C_n)\) 互斥 \(\therefore P((A \cap C_1) \cup (A \cap C_2) \cup \cdots \cup (A \cap C_n))\) = \(P(A \cap C_1) + P(A \cap C_2) + \cdots + P(A \cap C_n)\).
- 若 \(A \subset B\),则 P(A) < P(B)
- 证明:自证
- 证: \(\because\) (B - A) \(\cup\) A = B 则 P((B - A) \(\cup\) A) = P(B),且 (B - A) 与 A 互斥 \(\therefore\) 根据公理 3 得 P(B - A) + P(A) = P(B) \(\therefore\) P(A) \(\leq\) P(B) 又 \(\because A \subset B\),故 B 不为 \(\emptyset\),则 B - A 也不为 \(\emptyset\),即 P(B - A) > 0 \(\therefore\) P(A) < P(B)
- 对任意 n 个事件 \(A_1, A_2, \cdots, A_n\) 而言,\(P(\bigcup^n_{i=1} A_i) \leq \sum^n_{i=1} P(A_i)\)。(\(\bigcup^n_{i=1} A_i\) 表示 \(A_1 \cup A_2 \cup \cdots \cup A_n\))
- 证明:自证
- Bonferroni's 不等式:对任意 n 个事件 \(A_1, A_2, \cdots, A_n\) 而言,\(P(\bigcap^n_{i=1} A_i) \geq 1 - \sum^n_{i=1} P(\bar{A}_i)\)。
- 证明:自证
条件概率
- 条件概率的表示法:P(X|Y)
- |: given,X: 所关心的事件,Y:条件(观察到的,已发生的事件)
- 条件概率怎么算?
- 5:00
- 延伸:若某实验结果 \(o_i\) 与某条件 Y 不相交,则 P(\(o_i\)|Y) = 0
- 延伸:若某条件事件 Y 包含数个实验结果:Y = {\(o_1, o_2, \cdots, o_n\)}。\(P(o_i|Y) = \frac{P(o_i)}{P(o_1) + P(o_2) + \cdots + P(o_n)} = \frac{P(o_i)}{P(Y)}\)
- 考虑某事件 X = {\(o_1, o_2, q_1, q_2\)},已知条件事件 Y = {\(o_1, o_2, o_3\)} 发生了,则 \(P(X|Y) = P(o_1|Y) + P(o_2|Y) = \frac{P(o_1)}{P(Y)} + \frac{P(o_2)}{P(Y)} = \frac{P(\{o_1, o_2\})}{P(Y)} = \frac{P(X \cap Y)}{P(Y)}\)
- 终极延伸:若已知某条件事件 Y 发生了,则对与任何事件 X,我们可计算其条件概率:P(X|Y) = \(\frac{P(X \cap Y)}{P(Y)}\)
- \(P(X \cap Y)\) = P(X|Y) \(\cdot\) P(Y)
- \(P(X \cap Y)\) = P(Y|X) \(\cdot\) P(X)
- 5:00
- 条件概率性质:对于任何事件 X 及任何条件事件 Y,我们有:
- 性质 1:P(X|Y) = \(\frac{P(X \cap Y) \geq 0}{P(Y) \geq 0} \geq 0\)
- 性质 2:P(Y|Y) = \(\frac{P(Y \cap Y)}{P(Y)} = \frac{P(Y)}{P(Y)} = 1\)
- 性质 3:A,B 互斥 => \(P(A \cup B|Y) = \frac{P(A)}{P(Y)} + \frac{P(B)}{P(Y)}\) = P(A|Y) + P(B|Y)
- Total Probability 定理:若 \(C_1, C_2, \cdots, C_n\) 互斥且 \(C_1 \cup C_2 \cup \cdots \cup C_n = S\),则对任意事件 A,有 P(A) = P(A|\(C_1\))P(\(C_1\)) + P(A|\(C_2\))P(\(C_2\)) + \(\cdots\) + P(A|\(C_n\))P(\(C_n\))(切面包定理翻版)
- Bayes' 定理:若 \(C_1, C_2, \cdots, C_n\) 互斥且 \(C_1 \cup C_2 \cup \cdots \cup C_n = S\),则对任意事件 A,有 P(\(C_j|A\)) = \(\frac{P(A|C_j)P(C_j)}{P(A|C_1)P(C_1) + P(A|C_2)P(C_2) + \cdots + P(A|C_n)P(C_n)}\) = \(\frac{P(A|C_j)P(C_j)}{P(A)}\) (\(\frac{P(C_j \cap A)}{P(A)} = \frac{P(A|C_j) \cdot P(C_j)}{\sum^n_{i=1} P(A|C_i) \cdot P(C_i)}\),\(P(A|C_j) \cdot P(C_j) = P(A \cap C_j)\),P(A) = \(\sum^n_{i=1} P(A|C_i) \cdot P(C_i)\))
- 例子:“宪哥的逆袭”。解答:宪哥的逆袭 - 叶炳成 -概率论
概率的独立性
- 常见定义:若两事件 A、B 的概率满足: \[P(A \cap B) = P(A) \cdot P(B)
\] 则 A、B 两事件称为概率上的独立事件
- 另一个更好的定义:若两事件 A、B 的概率满足: \[P(A|B) = P(A) \] 则 A、B 两事件称为概率上的独立事件
- 在两个定义中,公式其实是一样的。\(P(A|B) = \frac{P(AB)}{P(B)} = P(A)\) => \(P(AB) = P(A) \cdot P(B)\)
- 例子:已知学生历史课作业表现与概率课作业表现相互独立。若历史课作业未做概率为 0.2,概率课作业未做概率为 0.3。问两科作业同时未做的概率为?答:0.2 \(\times\) 0.3 = 0.06
- 另外一个例子,个人认为这个例子可以比较清楚的理解独立性,并且能够体会到人类从直觉上对概率的感觉比较模糊。如下图所示(古锥姊在台湾是可爱的妹子的意思。图中有个词是“阿辈”,其实是打错了,应该是“阿伯”):
- 先介绍一下背景:台湾大学的学生骑自行车上学,但是又乱停乱放,所以有阿伯会来处理这些自行车,自行车会被阿伯回收,那么在被回收时,如果主人看到了自然会求情。已知阿伯被人求情时,会放行的概率为 0.2。
- 下图中阿伯给古锥姊的自行车放行的概率是 0.05(古锥姊在上课未能求情) 和 0.09(古锥姊及时求情),怎么看都很低。但是实际上在古锥姊求情的条件下,阿伯放行的概率高达 90%!乍一看可能无法理解到底为什么。请注意 P(古锥姊未能及时求情且车放行) = 0.05 求的是事件(古锥姊未求情)和事件(车放行)交集的概率。而(在古锥姊求情的条件下,阿伯放行的概率)是条件概率,两者所求并不相同。
- 那么如何求呢?首先在事件的概率为独立的情况下,P(古锥姊未能求情且车放行) = P(古锥姊未能求情) \(\times\) P(车放行)。但是题目中并没有说两事件独立,所以需要先计算两事件是否独立。
- 下图中已经计算出实际上两事件并不独立!那么阿宅认为阿伯在给古锥姊放水是否成立呢?只需计算在古锥姊求情的情况下,车放行的概率即可。
- 下图中其实已经计算出 P(古锥姊求情) = P(古锥姊求情且车未放行 \(\cup\) 古锥姊求情且车放行) = 0.01 + 0.09 = 0.1。故 P(车放行|古锥姊求情) = \(\frac{P(古锥姊求情且车放行)}{P(古锥姊求情)} = \frac{0.09}{0.1}\) = 0.9
- 发现居然如此的高!阿伯在放水!那么为什么呢?感觉人类无法直观的理解这一概念。其实如果无法进行直观的理解,那就别理解了。换种思维,大家看 P(古锥姊求情) = 0.1,是不是特别低?也就是说首先古锥姊不来求情,阿伯不知道车是谁的,自然大概率不会放行。其次古锥姊不经常求情,所以阿伯自然大概率也不放行。这就导致了为何下图中古锥姊放行的概率如此低,是因为样本量太大了!而其实只要古锥姊求情,阿伯 90% 都会放行。
多事件独立
- 若事件 \(A_1, A_2, \cdots, A_n\) 满足下列条件,则称此 n 事件独立(n > 2):从中任选 m 事件 \(A_{i_1}, A_{i_2}, \cdots, A_{i_m}\) 均满足 \(P(A_{i_1} \cap A_{i_2} \cap \cdots \cap A_{i_m}) = P(A_{i_1})P(A_{i_2}) \cdots P(A_{i_m})\),m = 2, 3, \(\cdots\), n.(也就是说每一种组合的事件(一种组合包含 2-n 个事件)都必须使得等式成立,才算多事件独立)
图解复杂概率
当碰到很复杂的概率问题时:
- 先观察这个问题的实验结构
- 这实验是否能分解成数个子实验
- 若可以,则利用图解法
下面给出一个例子:
解:
数数算概率
- 古典概率常假设实验结果(outcome)发生概率相同。
- Ex:包子摊肉包、菜包、豆沙包产量相同,外表一致。则 P(咸包子) = \(\frac{1}{3} \times\) 2
- 故计算某事件概率的问题等同于计算此事件包含多少实验结果(outcome)。故计算概率等价于数数问题!
- 数数基本原则
- 若某种实验有 n 种不同结果,而另一种实验有 m 种不同结果。若操作此两实验将有 nm 种不同结果
- 数数前的重要判断
- 所有的物件是否可区分?(Distinguishable)
- 实验中抽选的物件是否放回供下次抽选(With/Without Replacement?)
- 实验中被抽选的东西,抽选循序是否有差异?(Order matters or not?)
排列(Permutation)
礼拜六算一个实验,礼拜天算另一个实验
- 一般化:若有 n 异物,从中依序取出 k 物共有多少种结果?答:\(\frac{n!}{(n - k)!}\)(意味着物品的取出是具有顺序的)
重复选取(Choose with Replacements)
- 一般化:若有 n 异物,从中选取一物,每次取完放回。依序选取 k 次,共有多少种结果?答:\(n^k\)
组合(Combination)
先从 3 个人中找一个人,再从 2 个人中找一个人,共有 3 \(\times\) 2 种可能,但是由于其中有重复的组合,所以结果不是这个。一共需要选取 2 人,所以重复的组合次数为 2!,所以 3 \(\times\) 2 除以 2! 才是最后的次数。
一般化:若有 n 异物,从中选取 k 物共有多少种结果?答:\(\frac{n!}{(n - k)!k!}\)(意味着物品的取出是无序的)
- ※\(\begin{pmatrix}n\\k\\\end{pmatrix}\):二项式系数(binomial coefficients)
- 来自二项式定理:\((x + y)^n = \sum^n_{k=0} \begin{pmatrix}n\\k\\\end{pmatrix} x^k y^{n-k}\)
多项组合(Multinomial)
- 一般化:
数数如何应用在算概率上?
若一事件包含数个实验结果(outcome)且每个实验结果发生的概率都一样 - 先计算任一实验结果的概率 - 再计算该事件包含多少个实验结果 - 两者相乘便得到该事件的概率
例子
随机变量(Random Variable, R.V.)
- 0-04:56 讲了为什么要以 P(X = 1) = 0.3 来表示随机变量的概率
- 随机变量是一个用来把实验结果数字化的表现方式,目的是可以让概率的推导更数学、更简明。X 就是所谓的随机变量。
- 探究它的本质:随机变量本质是函数
随机变量的种类
- 离散随机变量(Discrete R.V.):值是有限个,或是“可数的”无穷多个
- Ex:宅 vs. 店员:X(微笑) = 0, X(不笑) = 1 => X = 0, X = 1
- Ex:小美选男友:X(明) = 0, X(华) = 1, X(袁) = 2 => X = 0, X = 1, X = 2
- Ex:小明告白多少次才成功:X(0次) = 0, X(1次) = 1, X(2次) = 2,... => X = 0, X = 1, X = 2,...
- 连续随机变量(Continuous R.V.):值有无穷多个,而且是“不可数的”无穷多个
- 幸运之轮:X 可以是 0 到 1 之间内的任意数字
什么是可数?什么是不可数?
- 可数:代表它包含的东西是可以被一个一个数的。不管用什么样的方法,它里面的东西总会被数到。比如正偶数集合。
- 不可数:代表包含的东西是无法被一个一个数的。不管用什么样的方法,它里面一定有一样你没数到。比如 0 - 1 之间所有数字的集合是不可数的。
- 证明 0-1 之间的数字集合是不可数的:
随机变量的函数
累积分布函数/分布函数(Cumulative Distribution Function)
对于任一个随机变量 X,我们定义其 CDF 为函数: \[F_X(x) = P(X \leq x) \] 函数 \(F_X(x)\) 代表随机变量 X 小于等于 x 的概率。 Ex:幸运之轮:\(F_X(0.5) = P(X \leq 0.5) = \frac{1}{2}\) - CDF 有什么用?计算 X 落在某范围内的概率 + P(3 < X \(\leq\) 5) = P(-\(\infty\) < X \(\leq\) 5) - P(-\(\infty\) < X \(\leq\) 3) = P(X \(\leq\) 5) - P(X \(\leq\) 3) = \(F_X(5) - F_X(3)\) + 一般化:P(a < X \(\leq\) b) = \(F_X(b) - F_X(a)\) * P(a \(\leq\) X \(\leq\) b) = \(F_X(b) - F_X(a)\) + P(X = a)
离散随机变量的 CDF
- 长什么样?
- Ex:X 为骰子的点数,故 P(X = 1) = P(X = 2) = \(\cdots\) = P(X = 6) = \(\frac{1}{6}\)
- CDF: \(F_X(x) = P(X \leq x)\)
- 比如 \(F_X(0.3) = 0 \quad F_X(0.8) = 0 \quad F_X(1) = \frac{1}{6} \quad F_X(1.9) = \frac{1}{6} \quad F_X(2) = \frac{2}{6} \, \cdots\)
- 计算 \(P(3 < X \leq 5) = F_X(5) - F_X(3) = \frac{5}{6} - \frac{3}{6} = \frac{2}{6}\)
- 计算 \(P(3 < X < 5) = F_X(5^-) - F_X(3) = F_X(5) - P(X = 5) - F_X(3) = \frac{1}{6}\)
- CDF 呈阶梯状
- Ex:X 为骰子的点数,故 P(X = 1) = P(X = 2) = \(\cdots\) = P(X = 6) = \(\frac{1}{6}\)
连续随机变量的 CDF
- 长什么样?
- Ex:X 为幸运之轮所停下的数字,X \(\in\) [0, 1)
- CDF: \(F_X(x) = P(X \leq x)\)
- 比如 \(F_X(-0.1) = 0 \quad F_X(0.1) = P(0 \leq X \leq 0.1) = 0.1 \quad F_X(1) = 1 \quad F_X(1.7) = 1 \, \cdots\)
- \(P(0.3 < X \leq 0.5) = F_X(0.5) - F_X(0.3)\) = 0.5 - 0.3 = 0.2
- \(P(0.3 < X < 0.5) = F_X(0.5^-) - F_X(0.3)\) = 0.5 - 0.3 = 0.2
- CDF 呈连续型
- Ex:X 为幸运之轮所停下的数字,X \(\in\) [0, 1)
CDF 性质
- 离散随机变量 CDF \[ F_X(x^+) = F_X(x) \\ F_X(x^-) = F_X(x) - P(X = x) \\ \]
- 连续随机变量 CDF \[F_X(x^-) = F_X(x) = F_X(x^+) \]
- 共同性质 \[ F_X(-\infty) = P(X \leq -\infty) = 0 \\ F_X(\infty) = P(X \leq \infty) = 1 \\ 0 \leq F_X(x) \leq 1 \\ \]
概率质量函数(Probability Mass Function)
- 对于一个整数值的离散随机变量 X,我们定义其 PMF 为函数: \[p_X(x) = P(X = x)
\]
- Ex:X 为公平骰子的点数,\(p_X(3) = P(X = 3) = \frac{1}{6}\)
- PMF 和 CDF 的关系 \[
\begin{align}
F_X(2.5) = & P(X \leq 2.5)\\
= & P(X = 2) + P(X = 1) + P(X = 0) + P(X = -1) + \cdots \\
= & \sum^{2 = \llcorner 2.5 \lrcorner}_{n = -\infty} P(X = n)
\end{align}
\]
- 对于任何 x: \[F_X(x) = \sum^{\llcorner x \lrcorner}_{n = -\infty} p_X(n) \]
- 任何一个 PMF 都称作是一种概率分布
离散概率分布
Bernoulli 概率分布/伯努利分布(0-1分布)
特点:1 次实验,2 种结果,在意某结果发生与否。 一般化:
Binomial 概率分布/二项分布(n 重伯努利分布)
特点:n 次实验,1 个概率,在意 n 次实验出现某结果 k 次的概率 - Example + 阿宅鼓起勇气搭讪 10 人,若每次搭讪成功概率为 0.6,10 次成功 8 次的概率为? + 一周 5 天午餐在&*&#%汉堡,若每次制作超时的概率为 0.9,5 天中有 3 天制作超时的概率为? + 一周有 3 晚会,乱停车 3 此,若每次被阿伯拖走的概率为 0.8,那么 3 次被拖 2 次的概率为? - 一般化:
Uniform 概率分布/均匀分布
特点:1 次实验,n 种结果,各结果概率均等,在意某结果发生与否。 - Example + 丢公平骰:1 到 6 各点数出现概率均等 + 混哥考试:作答 A,B,C,D 概率均等 + 狡兔三窟:出现在窟 1,窟 2,窟 3 概率均等 - 一般化:
Geometric 概率分布/几何分布
特点:实验中出现某结果概率已知,重复操作实验至该结果出现为止。在意某结果是在第几次实验才首次出现。 - Example + 阿宅告白:成功概率为 0.3,不成功誓不休。问第 5 次告白成功的概率为? + 孙文革命:已知革命成功的概率为 0.1,不成功誓不休。问第 11 次成功的概率为? + 六脉神剑:已知段誉打出六脉神剑的概率为 0.1。他在第 10 次才打出六脉神剑的概率为? - 一般化: - 有失忆性
Pascal 概率分布
特点:实验中出现某结果概率已知,重复实验至该结果出现第 k 次为止。在意到底第几次实验才结束。(第 n 次成功发生在第 x 次的概率)
Poisson 概率分布
未看
概率密度函数(Probability Density Function)
- 以幸运之轮为例 \(X~[0, 1)\),\(p_X(0.7) = ?\)
- [0, 1) 中每个数字发生概率均等,令其为 p
- [0, 1) 中有没有超过 \(10^6\) 个数字?有! => \(10^6 \times p \leq 1\) => \(p \leq 10^{-6}\)
- [0, 1) 中有没有超过 \(10^8\) 个数字?有! => \(10^8 \times p \leq 1\) => \(p \leq 10^{-8}\)
- 所以 \(p_X(0.7) = p = 0 ?\)
- 连续随机变量和 PMF 注定没办法在一起,每个数字发生的概率都是 0!那么还是想知道某个数字发生的机会多大,怎么办?
- 对随机变量 X 而言,其概率密度 PDF: \[ \begin{align} f_X(x) = & \lim_{\Delta \rightarrow 0} \frac{P(x \leq X \leq x + \Delta x)}{\Delta x} \\ = & \lim_{\Delta \rightarrow 0}\frac{F_X(x + \Delta x) - F_X(x)}{\Delta x} \\ = & F^{\prime}_X(x) \end{align} \] 所以 CDF 和 PDF 的关系为:
那么我们如何将它和概率联结呢? \[ \begin{align} P(a < X \leq b) = & F_X(b) - F_X(a) \\ = & \int^b_{-\infty} f_X(x)dx - \int^a_{-\infty} f_X(x)dx \\ = & \int^b_a f_X(x)dx \end{align} \]
PDF 性质
- \(f_X(x) = F^{\prime}_X(x)\)
- \(F_X(x) = \int^x_{-\infty} f_X(u)du\)
- \(P(a \leq X \leq b) = \int^b_a f_X(x)dx\)
- \(\int^{\infty}_{-\infty} f_X(x)dx = 1\)
- \(f_X(x) \geq 0\)
连续概率分布
Uniform 概率分布
Exponential 概率分布
- 有失忆性
Erlang 概率分布
未看
Normal 概率分布/正态分布
- 在自然界很常出现:
- Ex:人口身高分布、体重分布(无法证明为什么服从正太分布)
- 亦常被用作“很多随机变量的总和”的概率模型
- Ex:100 人吃饭时间总和(100 人的吃饭时间都不一样)(可以证明)
- 原因:来自最后会讲到的“中央极限定理”
- 也被称为高斯(Gaussian)分布
- X \(\sim\) Gaussian(\(\mu, \sigma\))
- PDF: \[f_X(x) = \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}} \]
- CDF:
标准正态分布
\(Z \sim Gaussian(0, 1)\) \[f_Z(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} \] CDF 表示为 \(\Phi(z) = \int^z_{-\infty} \frac{1}{\sqrt{2\pi}} e^{-\frac{u^2}{2}} du\)。\(\Phi(z)\) 一般专指标准正态分布。 \(\Phi(z)\) 性质: \[\Phi(-z) = 1 - \Phi(z) \]
任意 \(\mu\),\(\sigma\)下的 CDF:
期望值
大数法则:想知道一件事发生的概率?就做很多次实验。当实验接近无穷是,这个比例就会越来越接近实际概率。 \[P(A) = \lim_{N->\infty} \frac{N_A}{N} \] 期望值的作用:做随机实验时,我们希望能有某种估算。平均值是比较常用的估算值,但是做实验得出的值,计算出平均值之后,该平均值依旧是一个随机变量!所幸,当做实验次数接近无穷多次时,这个平均值会收敛到一个常数,我们就可以把它当做这个概率分布的估算值。
离散变量的期望值
例如:现考虑某概率分布,做很多次实验若随机变量的样本空间为 \(\{1, 2, \cdots, n\}\)。做实验 \(n\) 次,记录各结果出现的次数,分别为 \(N_1, N_2, \cdots, N_n\)。假设实验的结果为 \(3,7,3,5,\cdots,6\)。 那么平均值的计算方式是:\(mean = \frac{3+7+3+5+\cdots+6}{N} = \sum^n_{x=1} \frac{x \cdot N_x}{N}\)。 观察上式,发现它可以使用大数法则: \[\lim_{N \to \infty} \frac{N_x}{N} = P_X(x) \Rightarrow \lim_{N \to \infty} mean = \lim_{N \to \infty} \sum^n_{x=1} x \cdot \frac{N_x}{N} = \sum^n_{x=1} x \cdot P_X(x) \] 对离散随机函数而言,我们定义其期望值为: \[E[X] = \mu_X = \sum^{\infty}_{x=-\infty} x \cdot P_X(x) \] 对于任一随机变量 X 而言,其任意函数 \(g(X)\) 也是随机变量,所以也有期望值。定义为: \[E(g(X)) = \sum^{\infty}_{-\infty} g(x) \cdot P_X(x) \]
性质
\[ \begin{align} E[\alpha g(X)] & = \alpha \cdot E[g(X)] \\ E[\alpha g(X) + \beta h(X)] & = \alpha \cdot E[g(X)] + \beta \cdot E[h(X)] \\ E[\alpha] & = \alpha \end{align} \] X 的方差(variance)定义为 \(E[(X - \mu_X)^2] = \sum^{\infty}_{x=-\infty} (x - \mu_x)^2 \cdot P_X(x)\)。X 减去 X 取期望值的平方再取期望值。
Variance
Variance 通常用符号 \(\sigma^2_X = E[(X-\mu_X)^2]\) 表示。它隐含着关于随机变量 X 多“乱”的信息。 方差开根方就是标准差(standard deviation):\(\sigma_X\) 方差的便利算法: \[ \begin{align} \sigma^2_X & = E[(X - \mu_X)^2] \\ & = E[X^2 - 2\mu_X \cdot X + \mu^2_X] \end{align} \]
常见离散分布的期望值及方差
- \(X \sim POI(\alpha)\)
- \(\mu_X = \alpha\)
- \(\sigma^2_X = \alpha\)
- \(X \sim UNIF(a, b)\)
- \(\mu_X = \frac{a+b}{2}\)
- \(\sigma^2_X = \frac{1}{12}(b-a)(b-a+2)\)
连续变量的期望值
随机变量的函数
条件概率分布及失忆性
联合概率分布
什么是联合分布? - X:小美 facenook/QQ 离线时间,X~UNIF(8, 12) - Y:小华 facenook/QQ 离线时间,X~UNIF(8, 12) - Z:小袁 facenook/QQ 离线时间,X~UNIF(8, 12) - 假设 X,Y,Z 都是离散随机变量 - 若将小美离线时间 X 与小华离线时间 Z 一起看呢? - 画出 P(X=x, Z=z): - 若将小美离线时间 X 与小袁离线时间 X 一起看呢? - 赫然发现: - 同时将多个随机变量的行为一起拿来看,我们可以看出更多以往看不到的资讯!
联合 PMF
\(p_{X, Y}(x, y) = P(X=x 且 Y=y)\)。假如看上面的例子的 X,Y 变量,那么 \(P_{X, Y}(9, 10) = 0\)
性质
- \(0 \leq p_{X, Y}(x, y) \leq = 1\)
- \(\sum^{\infty}_{x=-\infty} sum^{\infty}_{y=-\infty} p_{X, Y}(x, y) = 1\)
- X,Y 独立。 \[ \begin{align} P_{X, Y}(x, y) = & P(X=x, Y=y) \\ = & P(X=x) \cdot P(Y=y) \\ = & P_X(x)P_Y(y) \\ \end{align} \]
- 对于任何事件 B:\(P(B) = \sum_{(x, y) \in B} P_{X, Y}(x, y)\)
- Ex:B:美、华下线时间不晚于 10 点
- P(B) = \(P_{X, Y} = (8, 8) + P_{X, Y} = (9, 9) + P_{X, Y} = (10, 10)\)
联合 CDF
\[F_{X, Y}(x, y) = P(X \leq x 且 Y \leq y) = P(X \leq x, Y \leq y) \] 那么如何算 \(F_{X, Y}(10, 10) = ?\),其实就是
性质
- \(0 \leq F_{X, Y}(x, y) \leq 1\)
- 若 \(x_1 \leq x_2\) 且 \(y_1 \leq y_2\),则 \(F_{X, Y}(x_1, y_1) \leq F_{X, Y}(x_2, y_2)\)
- \(F_{X, Y}(x, \infty) = P(X \leq x, Y \leq \infty) = P(X \leq x) = F_X(x)\)
- \(F_{X, Y}(\infty, y) = P(X \leq \infty, Y \leq y) = P(Y \leq y) = F_Y(y)\)
- \(F_{X, Y}(\infty, \infty) = P(X \leq \infty, Y \leq \infty) = 1\)
- \(F_{X, Y}(x, -\infty) = P(X \leq x, Y \leq -\infty) \leq P(Y \leq -\infty) = 0\)
- \(F_{X, Y}(-\infty, y) = P(X \leq -\infty, Y \leq y) \leq P(X \leq -\infty) = 0\)