概率概论

概率与统计的差异：

概率
- 概率模型已知，要学会怎么算某些事件的概率
- Ex：已知一骰子为公平骰，看到偶数的概率为多少？
统计
- 概率模型未知，要学会怎么从大量的实验结果中去建立概率模型
- Ex：不知一骰是否灌铅，欲知各点出现的概率模型？

集合论概念/名词

“学生上课不规矩”的概率 = 0.1，p(学生上课不规矩) = 0.1。

概率函数的自变量是：事件，而事件是一种集合。

概率论名词复习：

元素（Element）
- Ex：小黑、小冀、小湘、小鄂、小美
集合（Set）
- Ex：咸豆腐脑 A = {黑, 冀}
- Ex：甜豆腐脑 B = {湘, 鄂}
子集合（Subset）
- 嫌咸 C = {湘, 鄂, 美}
- B 是 C 的子集，表示为 \(B \subset C\)
全集（Universal Set）
- Ex：S = {黑, 冀, 湘, 鄂, 美}
空集（Empty Set）
- Ex：\(\emptyset\) = \(\{\}\)
交集（Intersection）
- Ex：喜欢甜豆腐脑且喜欢咸豆腐脑的人 = \(A \cap B = \{\} = \emptyset\)
并集（Union）
- Ex：喜欢甜豆腐脑或喜欢咸豆腐脑的人 = \(A \cup B = \{黑, 冀, 湘, 鄂\}\)
补集（Complement）（绝对补集）（若给定全集 U，\(A \subseteq U\)）
- Ex：嫌咸 C = 咸 A 之于补集 \(C = A^C\)（博主注：叶丙成老师是台湾人，我考研的时候使用的符号好像是 \(\bar{A}\)，但是由于 mathjax 好像不是完全支持 bar 符号，所以以下将会混用）
差集（Difference）（相对补集）：X - Y = {在 X 但不在 Y 中的东西}
- 嫌咸 - 甜 = {美}
不相交（Disjoint）：如果 \(X \cap Y = \emptyset\) => X，Y 不相交
- Ex：甜 \(\cap\) 咸 = \(\{\}\)
互斥（Mutually Exclusive）：若有一群集合 \(X_1, X_2, \cdots, X_n\) 中任选两个集合 \(X_i, X_j\) 都不相交（\(\emptyset\)），则我们称 \(X_1, X_2, \cdots, X_n\) 这群集合互斥。

De Morgan's Law 定理：\((A \cup B)^C = A^C \cap B^C\)。证明：

概率名词

实验（Experiment）
- 一个概率实验包含了：步骤（procedures）、模型（model）、观察（observations）
- Ex：丢两个公平的骰子
  - 步骤：……拿起两个骰子投入碗中，直到停止为止。
  - 模型：(1, 1)、(1, 2)、……、(6, 6) 发生机会均等
  - 观察：(6, 6)
结果（Outcome）：是实验中可能的结果
- Ex：约心仪店员。成功/失败
- Ex：看到华南虎。立体的/平面的
- Ex：转幸运之轮
样本空间（Sample Space）：是概率实验所有可能的结果的集合，通常用 S 表示
- Ex：约心仪店员。S = {成功, 失败}
- Ex：连丢三次铜板，记录正反面结果（正H，反T）。S = {HHH, HHT, HTH, HTT, THH, THT, TTH, TTT}
- Ex：转幸运之轮一次。S = [0, 1)
- Ex：转幸运之轮两次。S = [0, 1) * [0, 1)
事件（Event）
- 事件是对于实验结果的某种叙述
- 概率是在讲实验结果符合某事件叙述的机会有多大
- 在数学上，“事件”可以看成是“结果”的集合，亦是“样本空间”的子集
  - Ex：台大学生上课出席情况
    - 结果：准时，迟到，旷课
    - 事件1：有出席；E1 = {准时, 迟到}
    - 事件2：没规矩；E2 = {迟到, 旷课}
事件空间（Event Space）
- Ex：台大学生上课出席
  - S = {准时, 迟到, 旷课}
- 事件空间 = { {}, {准时}, {迟到}, {旷课}, {准时, 迟到}, {迟到, 旷课}, {准时, 旷课}, {准时, 迟到, 旷课} }
- 事件空间是包含所有事件的集合
- 若样本空间有 S = {\(o_1, o_2, \cdots, o_n\)} n 个结果，事件空间有 \(2^n\) 个
- 概率是一个函数，其自变量是事件
  - p(事件) = 0.6
- 所有概率可以看成一个映射

概率公理、性质

公理（Axioms）
- 近代数学常以数条公理作为整套理论的基石
  - Ex：线性代数。8 公理，公理 1：a + b = b + a ……
- 这样的好处？头过身就过
- 公理可否被证明？公理常是能被证明的基本性质
- 公理为何常被当废话？公理常是非常基本的性质
- 什么样的数学最厉害？公理越少条、公理越基本，越厉害！

概率三公理（Axioms of Probability）

公理 1：对任何事件 A 而言，P(A) \(\geq\) 0
公理 2：P(S) = 1
公理 3：事件 \(A_1, A_2, \cdots\) 互斥 => \(P(A_1 \cup A_2 \cup A_3 \cdots) = P(A_1) + P(A_2) + P(A_3) + \cdots\)
- 公理 3 搭起了集合运算和概率运算的桥梁

公理衍生之概率性质

Ex：从一幅 52 张的扑克牌中抽出一张，结果为 Ace 的概率为多少？
- 考虑“抽了一张，结果为 Ace”的事件，如下图所示。由于我们只抽一次，所以不可能一次既抽到黑桃 A，又抽到红桃 A。所以可以按照公理 3 进行计算。
若 E = {\(o_1, o_2, \cdots, o_n\)}，则 P(E) = P(\({o_1}\)) + P(\({o_2}\)) + \(\cdots\) + P(\({o_n}\))。E：事件，o：outcome。
P(\(\emptyset\)) = 0
P(A) = 1 - P(\(\bar{A}\))
P(A) = P(A - B) + P(A \(\cap\) B)
- 证明：A = (A - B) \(\cup\) (A \(\cap\) B) => P(A) = P(A - B) + P(A \(\cap\) B)
P(A \(\cup\) B) = P(A) + P(B) - P(A \(\cap\) B)
若 \(C_1, C_2, \cdots, C_n\) 互斥且 \(C_1 \cup C_2 \cup \cdots \cup C_n = S\)，则对任何事件 A：P(A) = P(\(A \cap C_1\)) + P(\(A \cap C_2\)) + \(\cdots\) + P(\(A \cap C_n\))（切面包定理）自证： P(A) = P(A \(\cap\) S) = \(P(A \cap (C_1 \cup C_2 \cup \cdots \cup C_n))\) = \(P((A \cap C_1) \cup (A \cap C_2) \cup \cdots \cup (A \cap C_n))\) \(\because (A \cap C_1), (A \cap C_2), \cdots, (A \cap C_n)\) 互斥 \(\therefore P((A \cap C_1) \cup (A \cap C_2) \cup \cdots \cup (A \cap C_n))\) = \(P(A \cap C_1) + P(A \cap C_2) + \cdots + P(A \cap C_n)\).
若 \(A \subset B\)，则 P(A) < P(B)
- 证明：自证
- 证： \(\because\) (B - A) \(\cup\) A = B 则 P((B - A) \(\cup\) A) = P(B)，且 (B - A) 与 A 互斥 \(\therefore\) 根据公理 3 得 P(B - A) + P(A) = P(B) \(\therefore\) P(A) \(\leq\) P(B) 又 \(\because A \subset B\)，故 B 不为 \(\emptyset\)，则 B - A 也不为 \(\emptyset\)，即 P(B - A) > 0 \(\therefore\) P(A) < P(B)
对任意 n 个事件 \(A_1, A_2, \cdots, A_n\) 而言，\(P(\bigcup^n_{i=1} A_i) \leq \sum^n_{i=1} P(A_i)\)。（\(\bigcup^n_{i=1} A_i\) 表示 \(A_1 \cup A_2 \cup \cdots \cup A_n\)）
- 证明：自证
Bonferroni's 不等式：对任意 n 个事件 \(A_1, A_2, \cdots, A_n\) 而言，\(P(\bigcap^n_{i=1} A_i) \geq 1 - \sum^n_{i=1} P(\bar{A}_i)\)。
- 证明：自证

条件概率

条件概率的表示法：P(X|Y)
- |: given，X: 所关心的事件，Y：条件（观察到的，已发生的事件）
条件概率怎么算？
- 5:00
  - 延伸：若某实验结果 \(o_i\) 与某条件 Y 不相交，则 P(\(o_i\)|Y) = 0
- 延伸：若某条件事件 Y 包含数个实验结果：Y = {\(o_1, o_2, \cdots, o_n\)}。\(P(o_i|Y) = \frac{P(o_i)}{P(o_1) + P(o_2) + \cdots + P(o_n)} = \frac{P(o_i)}{P(Y)}\)
  - 考虑某事件 X = {\(o_1, o_2, q_1, q_2\)}，已知条件事件 Y = {\(o_1, o_2, o_3\)} 发生了，则 \(P(X|Y) = P(o_1|Y) + P(o_2|Y) = \frac{P(o_1)}{P(Y)} + \frac{P(o_2)}{P(Y)} = \frac{P(\{o_1, o_2\})}{P(Y)} = \frac{P(X \cap Y)}{P(Y)}\)
- 终极延伸：若已知某条件事件 Y 发生了，则对与任何事件 X，我们可计算其条件概率：P(X|Y) = \(\frac{P(X \cap Y)}{P(Y)}\)
  - \(P(X \cap Y)\) = P(X|Y) \(\cdot\) P(Y)
  - \(P(X \cap Y)\) = P(Y|X) \(\cdot\) P(X)
条件概率性质：对于任何事件 X 及任何条件事件 Y，我们有：
- 性质 1：P(X|Y) = \(\frac{P(X \cap Y) \geq 0}{P(Y) \geq 0} \geq 0\)
- 性质 2：P(Y|Y) = \(\frac{P(Y \cap Y)}{P(Y)} = \frac{P(Y)}{P(Y)} = 1\)
- 性质 3：A，B 互斥 => \(P(A \cup B|Y) = \frac{P(A)}{P(Y)} + \frac{P(B)}{P(Y)}\) = P(A|Y) + P(B|Y)
Total Probability 定理：若 \(C_1, C_2, \cdots, C_n\) 互斥且 \(C_1 \cup C_2 \cup \cdots \cup C_n = S\)，则对任意事件 A，有 P(A) = P(A|\(C_1\))P(\(C_1\)) + P(A|\(C_2\))P(\(C_2\)) + \(\cdots\) + P(A|\(C_n\))P(\(C_n\))（切面包定理翻版）
Bayes' 定理：若 \(C_1, C_2, \cdots, C_n\) 互斥且 \(C_1 \cup C_2 \cup \cdots \cup C_n = S\)，则对任意事件 A，有 P(\(C_j|A\)) = \(\frac{P(A|C_j)P(C_j)}{P(A|C_1)P(C_1) + P(A|C_2)P(C_2) + \cdots + P(A|C_n)P(C_n)}\) = \(\frac{P(A|C_j)P(C_j)}{P(A)}\) （\(\frac{P(C_j \cap A)}{P(A)} = \frac{P(A|C_j) \cdot P(C_j)}{\sum^n_{i=1} P(A|C_i) \cdot P(C_i)}\)，\(P(A|C_j) \cdot P(C_j) = P(A \cap C_j)\)，P(A) = \(\sum^n_{i=1} P(A|C_i) \cdot P(C_i)\)）
- 例子：“宪哥的逆袭”。解答：宪哥的逆袭 - 叶炳成 -概率论

概率的独立性

常见定义：若两事件 A、B 的概率满足： \[P(A \cap B) = P(A) \cdot P(B) \] 则 A、B 两事件称为概率上的独立事件
- 另一个更好的定义：若两事件 A、B 的概率满足： \[P(A|B) = P(A) \] 则 A、B 两事件称为概率上的独立事件
在两个定义中，公式其实是一样的。\(P(A|B) = \frac{P(AB)}{P(B)} = P(A)\) => \(P(AB) = P(A) \cdot P(B)\)
例子：已知学生历史课作业表现与概率课作业表现相互独立。若历史课作业未做概率为 0.2，概率课作业未做概率为 0.3。问两科作业同时未做的概率为？答：0.2 \(\times\) 0.3 = 0.06
另外一个例子，个人认为这个例子可以比较清楚的理解独立性，并且能够体会到人类从直觉上对概率的感觉比较模糊。如下图所示（古锥姊在台湾是可爱的妹子的意思。图中有个词是“阿辈”，其实是打错了，应该是“阿伯”）：
- 先介绍一下背景：台湾大学的学生骑自行车上学，但是又乱停乱放，所以有阿伯会来处理这些自行车，自行车会被阿伯回收，那么在被回收时，如果主人看到了自然会求情。已知阿伯被人求情时，会放行的概率为 0.2。
- 下图中阿伯给古锥姊的自行车放行的概率是 0.05（古锥姊在上课未能求情）和 0.09（古锥姊及时求情），怎么看都很低。但是实际上在古锥姊求情的条件下，阿伯放行的概率高达 90%！乍一看可能无法理解到底为什么。请注意 P(古锥姊未能及时求情且车放行) = 0.05 求的是事件(古锥姊未求情)和事件(车放行)交集的概率。而(在古锥姊求情的条件下，阿伯放行的概率)是条件概率，两者所求并不相同。
- 那么如何求呢？首先在事件的概率为独立的情况下，P(古锥姊未能求情且车放行) = P(古锥姊未能求情) \(\times\) P(车放行)。但是题目中并没有说两事件独立，所以需要先计算两事件是否独立。
- 下图中已经计算出实际上两事件并不独立！那么阿宅认为阿伯在给古锥姊放水是否成立呢？只需计算在古锥姊求情的情况下，车放行的概率即可。
- 下图中其实已经计算出 P(古锥姊求情) = P(古锥姊求情且车未放行 \(\cup\) 古锥姊求情且车放行) = 0.01 + 0.09 = 0.1。故 P(车放行|古锥姊求情) = \(\frac{P(古锥姊求情且车放行)}{P(古锥姊求情)} = \frac{0.09}{0.1}\) = 0.9
- 发现居然如此的高！阿伯在放水！那么为什么呢？感觉人类无法直观的理解这一概念。其实如果无法进行直观的理解，那就别理解了。换种思维，大家看 P(古锥姊求情) = 0.1，是不是特别低？也就是说首先古锥姊不来求情，阿伯不知道车是谁的，自然大概率不会放行。其次古锥姊不经常求情，所以阿伯自然大概率也不放行。这就导致了为何下图中古锥姊放行的概率如此低，是因为样本量太大了！而其实只要古锥姊求情，阿伯 90% 都会放行。

多事件独立

若事件 \(A_1, A_2, \cdots, A_n\) 满足下列条件，则称此 n 事件独立（n > 2）：从中任选 m 事件 \(A_{i_1}, A_{i_2}, \cdots, A_{i_m}\) 均满足 \(P(A_{i_1} \cap A_{i_2} \cap \cdots \cap A_{i_m}) = P(A_{i_1})P(A_{i_2}) \cdots P(A_{i_m})\)，m = 2, 3, \(\cdots\), n.（也就是说每一种组合的事件（一种组合包含 2-n 个事件）都必须使得等式成立，才算多事件独立）

图解复杂概率

当碰到很复杂的概率问题时：

先观察这个问题的实验结构
这实验是否能分解成数个子实验
若可以，则利用图解法

下面给出一个例子：

解：

数数算概率

古典概率常假设实验结果（outcome）发生概率相同。
- Ex：包子摊肉包、菜包、豆沙包产量相同，外表一致。则 P(咸包子) = \(\frac{1}{3} \times\) 2
故计算某事件概率的问题等同于计算此事件包含多少实验结果（outcome）。故计算概率等价于数数问题！
数数基本原则
- 若某种实验有 n 种不同结果，而另一种实验有 m 种不同结果。若操作此两实验将有 nm 种不同结果
数数前的重要判断
- 所有的物件是否可区分？（Distinguishable）
- 实验中抽选的物件是否放回供下次抽选（With/Without Replacement？）
- 实验中被抽选的东西，抽选循序是否有差异？（Order matters or not？）

排列（Permutation）

礼拜六算一个实验，礼拜天算另一个实验

一般化：若有 n 异物，从中依序取出 k 物共有多少种结果？答：\(\frac{n!}{(n - k)!}\)（意味着物品的取出是具有顺序的）

重复选取（Choose with Replacements）

一般化：若有 n 异物，从中选取一物，每次取完放回。依序选取 k 次，共有多少种结果？答：\(n^k\)

组合（Combination）

先从 3 个人中找一个人，再从 2 个人中找一个人，共有 3 \(\times\) 2 种可能，但是由于其中有重复的组合，所以结果不是这个。一共需要选取 2 人，所以重复的组合次数为 2!，所以 3 \(\times\) 2 除以 2! 才是最后的次数。

一般化：若有 n 异物，从中选取 k 物共有多少种结果？答：\(\frac{n!}{(n - k)!k!}\)（意味着物品的取出是无序的）
※\(\begin{pmatrix}n\\k\\\end{pmatrix}\)：二项式系数（binomial coefficients）
- 来自二项式定理：\((x + y)^n = \sum^n_{k=0} \begin{pmatrix}n\\k\\\end{pmatrix} x^k y^{n-k}\)

多项组合（Multinomial）

一般化：

数数如何应用在算概率上？

若一事件包含数个实验结果（outcome）且每个实验结果发生的概率都一样 - 先计算任一实验结果的概率 - 再计算该事件包含多少个实验结果 - 两者相乘便得到该事件的概率

例子

随机变量（Random Variable, R.V.）

0-04:56 讲了为什么要以 P(X = 1) = 0.3 来表示随机变量的概率
随机变量是一个用来把实验结果数字化的表现方式，目的是可以让概率的推导更数学、更简明。X 就是所谓的随机变量。
探究它的本质：随机变量本质是函数

随机变量的种类

离散随机变量（Discrete R.V.）：值是有限个，或是“可数的”无穷多个
- Ex：宅 vs. 店员：X(微笑) = 0, X(不笑) = 1 => X = 0, X = 1
- Ex：小美选男友：X(明) = 0, X(华) = 1, X(袁) = 2 => X = 0, X = 1, X = 2
- Ex：小明告白多少次才成功：X(0次) = 0, X(1次) = 1, X(2次) = 2,... => X = 0, X = 1, X = 2,...
连续随机变量（Continuous R.V.）：值有无穷多个，而且是“不可数的”无穷多个
- 幸运之轮：X 可以是 0 到 1 之间内的任意数字

什么是可数？什么是不可数？

可数：代表它包含的东西是可以被一个一个数的。不管用什么样的方法，它里面的东西总会被数到。比如正偶数集合。
不可数：代表包含的东西是无法被一个一个数的。不管用什么样的方法，它里面一定有一样你没数到。比如 0 - 1 之间所有数字的集合是不可数的。
- 证明 0-1 之间的数字集合是不可数的：

随机变量的函数

累积分布函数/分布函数（Cumulative Distribution Function）

对于任一个随机变量 X，我们定义其 CDF 为函数： \[F_X(x) = P(X \leq x) \] 函数 \(F_X(x)\) 代表随机变量 X 小于等于 x 的概率。 Ex：幸运之轮：\(F_X(0.5) = P(X \leq 0.5) = \frac{1}{2}\) - CDF 有什么用？计算 X 落在某范围内的概率 + P(3 < X \(\leq\) 5) = P(-\(\infty\) < X \(\leq\) 5) - P(-\(\infty\) < X \(\leq\) 3) = P(X \(\leq\) 5) - P(X \(\leq\) 3) = \(F_X(5) - F_X(3)\) + 一般化：P(a < X \(\leq\) b) = \(F_X(b) - F_X(a)\) * P(a \(\leq\) X \(\leq\) b) = \(F_X(b) - F_X(a)\) + P(X = a)

离散随机变量的 CDF

长什么样？
- Ex：X 为骰子的点数，故 P(X = 1) = P(X = 2) = \(\cdots\) = P(X = 6) = \(\frac{1}{6}\)
  - CDF: \(F_X(x) = P(X \leq x)\)
  - 比如 \(F_X(0.3) = 0 \quad F_X(0.8) = 0 \quad F_X(1) = \frac{1}{6} \quad F_X(1.9) = \frac{1}{6} \quad F_X(2) = \frac{2}{6} \, \cdots\)
  - 计算 \(P(3 < X \leq 5) = F_X(5) - F_X(3) = \frac{5}{6} - \frac{3}{6} = \frac{2}{6}\)
  - 计算 \(P(3 < X < 5) = F_X(5^-) - F_X(3) = F_X(5) - P(X = 5) - F_X(3) = \frac{1}{6}\)
- CDF 呈阶梯状

连续随机变量的 CDF

长什么样？
- Ex：X 为幸运之轮所停下的数字，X \(\in\) [0, 1)
  - CDF: \(F_X(x) = P(X \leq x)\)
  - 比如 \(F_X(-0.1) = 0 \quad F_X(0.1) = P(0 \leq X \leq 0.1) = 0.1 \quad F_X(1) = 1 \quad F_X(1.7) = 1 \, \cdots\)
  - \(P(0.3 < X \leq 0.5) = F_X(0.5) - F_X(0.3)\) = 0.5 - 0.3 = 0.2
  - \(P(0.3 < X < 0.5) = F_X(0.5^-) - F_X(0.3)\) = 0.5 - 0.3 = 0.2
- CDF 呈连续型

CDF 性质

离散随机变量 CDF \[ F_X(x^+) = F_X(x) \\ F_X(x^-) = F_X(x) - P(X = x) \\ \]
连续随机变量 CDF \[F_X(x^-) = F_X(x) = F_X(x^+) \]
共同性质 \[ F_X(-\infty) = P(X \leq -\infty) = 0 \\ F_X(\infty) = P(X \leq \infty) = 1 \\ 0 \leq F_X(x) \leq 1 \\ \]

概率质量函数（Probability Mass Function)

对于一个整数值的离散随机变量 X，我们定义其 PMF 为函数： \[p_X(x) = P(X = x) \]
- Ex：X 为公平骰子的点数，\(p_X(3) = P(X = 3) = \frac{1}{6}\)
PMF 和 CDF 的关系 \[ \begin{align} F_X(2.5) = & P(X \leq 2.5)\\ = & P(X = 2) + P(X = 1) + P(X = 0) + P(X = -1) + \cdots \\ = & \sum^{2 = \llcorner 2.5 \lrcorner}_{n = -\infty} P(X = n) \end{align} \]
- 对于任何 x： \[F_X(x) = \sum^{\llcorner x \lrcorner}_{n = -\infty} p_X(n) \]
任何一个 PMF 都称作是一种概率分布

离散概率分布

Bernoulli 概率分布/伯努利分布（0-1分布）

特点：1 次实验，2 种结果，在意某结果发生与否。一般化:

Binomial 概率分布/二项分布（n 重伯努利分布）

特点：n 次实验，1 个概率，在意 n 次实验出现某结果 k 次的概率 - Example + 阿宅鼓起勇气搭讪 10 人，若每次搭讪成功概率为 0.6，10 次成功 8 次的概率为？ + 一周 5 天午餐在&*&#%汉堡，若每次制作超时的概率为 0.9，5 天中有 3 天制作超时的概率为？ + 一周有 3 晚会，乱停车 3 此，若每次被阿伯拖走的概率为 0.8，那么 3 次被拖 2 次的概率为？ - 一般化：

Uniform 概率分布/均匀分布

特点：1 次实验，n 种结果，各结果概率均等，在意某结果发生与否。 - Example + 丢公平骰：1 到 6 各点数出现概率均等 + 混哥考试：作答 A，B，C，D 概率均等 + 狡兔三窟：出现在窟 1，窟 2，窟 3 概率均等 - 一般化：

Geometric 概率分布/几何分布

特点：实验中出现某结果概率已知，重复操作实验至该结果出现为止。在意某结果是在第几次实验才首次出现。 - Example + 阿宅告白：成功概率为 0.3，不成功誓不休。问第 5 次告白成功的概率为？ + 孙文革命：已知革命成功的概率为 0.1，不成功誓不休。问第 11 次成功的概率为？ + 六脉神剑：已知段誉打出六脉神剑的概率为 0.1。他在第 10 次才打出六脉神剑的概率为？ - 一般化： - 有失忆性

Pascal 概率分布

特点：实验中出现某结果概率已知，重复实验至该结果出现第 k 次为止。在意到底第几次实验才结束。（第 n 次成功发生在第 x 次的概率）

Poisson 概率分布

未看

概率密度函数（Probability Density Function）

以幸运之轮为例 \(X~[0, 1)\)，\(p_X(0.7) = ?\)
- [0, 1) 中每个数字发生概率均等，令其为 p
- [0, 1) 中有没有超过 \(10^6\) 个数字？有！ => \(10^6 \times p \leq 1\) => \(p \leq 10^{-6}\)
- [0, 1) 中有没有超过 \(10^8\) 个数字？有！ => \(10^8 \times p \leq 1\) => \(p \leq 10^{-8}\)
- 所以 \(p_X(0.7) = p = 0 ?\)
连续随机变量和 PMF 注定没办法在一起，每个数字发生的概率都是 0！那么还是想知道某个数字发生的机会多大，怎么办？
对随机变量 X 而言，其概率密度 PDF： \[ \begin{align} f_X(x) = & \lim_{\Delta \rightarrow 0} \frac{P(x \leq X \leq x + \Delta x)}{\Delta x} \\ = & \lim_{\Delta \rightarrow 0}\frac{F_X(x + \Delta x) - F_X(x)}{\Delta x} \\ = & F^{\prime}_X(x) \end{align} \] 所以 CDF 和 PDF 的关系为：

那么我们如何将它和概率联结呢？ \[ \begin{align} P(a < X \leq b) = & F_X(b) - F_X(a) \\ = & \int^b_{-\infty} f_X(x)dx - \int^a_{-\infty} f_X(x)dx \\ = & \int^b_a f_X(x)dx \end{align} \]

PDF 性质

\(f_X(x) = F^{\prime}_X(x)\)
\(F_X(x) = \int^x_{-\infty} f_X(u)du\)
\(P(a \leq X \leq b) = \int^b_a f_X(x)dx\)
\(\int^{\infty}_{-\infty} f_X(x)dx = 1\)
\(f_X(x) \geq 0\)

连续概率分布

Uniform 概率分布

Exponential 概率分布

有失忆性

Erlang 概率分布

未看

Normal 概率分布/正态分布

在自然界很常出现：
- Ex：人口身高分布、体重分布（无法证明为什么服从正太分布）
亦常被用作“很多随机变量的总和”的概率模型
- Ex：100 人吃饭时间总和（100 人的吃饭时间都不一样）（可以证明）
- 原因：来自最后会讲到的“中央极限定理”
也被称为高斯（Gaussian）分布
X \(\sim\) Gaussian(\(\mu, \sigma\))
- PDF： \[f_X(x) = \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}} \]
- CDF：

标准正态分布

\(Z \sim Gaussian(0, 1)\) \[f_Z(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} \] CDF 表示为 \(\Phi(z) = \int^z_{-\infty} \frac{1}{\sqrt{2\pi}} e^{-\frac{u^2}{2}} du\)。\(\Phi(z)\) 一般专指标准正态分布。 \(\Phi(z)\) 性质： \[\Phi(-z) = 1 - \Phi(z) \]

任意 \(\mu\)，\(\sigma\)下的 CDF：

期望值

大数法则：想知道一件事发生的概率？就做很多次实验。当实验接近无穷是，这个比例就会越来越接近实际概率。 \[P(A) = \lim_{N->\infty} \frac{N_A}{N} \] 期望值的作用：做随机实验时，我们希望能有某种估算。平均值是比较常用的估算值，但是做实验得出的值，计算出平均值之后，该平均值依旧是一个随机变量！所幸，当做实验次数接近无穷多次时，这个平均值会收敛到一个常数，我们就可以把它当做这个概率分布的估算值。

离散变量的期望值

例如：现考虑某概率分布，做很多次实验若随机变量的样本空间为 \(\{1, 2, \cdots, n\}\)。做实验 \(n\) 次，记录各结果出现的次数，分别为 \(N_1, N_2, \cdots, N_n\)。假设实验的结果为 \(3,7,3,5,\cdots,6\)。那么平均值的计算方式是：\(mean = \frac{3+7+3+5+\cdots+6}{N} = \sum^n_{x=1} \frac{x \cdot N_x}{N}\)。观察上式，发现它可以使用大数法则： \[\lim_{N \to \infty} \frac{N_x}{N} = P_X(x) \Rightarrow \lim_{N \to \infty} mean = \lim_{N \to \infty} \sum^n_{x=1} x \cdot \frac{N_x}{N} = \sum^n_{x=1} x \cdot P_X(x) \] 对离散随机函数而言，我们定义其期望值为： \[E[X] = \mu_X = \sum^{\infty}_{x=-\infty} x \cdot P_X(x) \] 对于任一随机变量 X 而言，其任意函数 \(g(X)\) 也是随机变量，所以也有期望值。定义为： \[E(g(X)) = \sum^{\infty}_{-\infty} g(x) \cdot P_X(x) \]

性质

\[ \begin{align} E[\alpha g(X)] & = \alpha \cdot E[g(X)] \\ E[\alpha g(X) + \beta h(X)] & = \alpha \cdot E[g(X)] + \beta \cdot E[h(X)] \\ E[\alpha] & = \alpha \end{align} \] X 的方差（variance）定义为 \(E[(X - \mu_X)^2] = \sum^{\infty}_{x=-\infty} (x - \mu_x)^2 \cdot P_X(x)\)。X 减去 X 取期望值的平方再取期望值。

Variance

Variance 通常用符号 \(\sigma^2_X = E[(X-\mu_X)^2]\) 表示。它隐含着关于随机变量 X 多“乱”的信息。方差开根方就是标准差（standard deviation）：\(\sigma_X\) 方差的便利算法： \[ \begin{align} \sigma^2_X & = E[(X - \mu_X)^2] \\ & = E[X^2 - 2\mu_X \cdot X + \mu^2_X] \end{align} \]

常见离散分布的期望值及方差

\(X \sim POI(\alpha)\)
- \(\mu_X = \alpha\)
- \(\sigma^2_X = \alpha\)
\(X \sim UNIF(a, b)\)
- \(\mu_X = \frac{a+b}{2}\)
- \(\sigma^2_X = \frac{1}{12}(b-a)(b-a+2)\)

连续变量的期望值

随机变量的函数

条件概率分布及失忆性

联合概率分布

什么是联合分布？ - X：小美 facenook/QQ 离线时间，X~UNIF(8, 12) - Y：小华 facenook/QQ 离线时间，X~UNIF(8, 12) - Z：小袁 facenook/QQ 离线时间，X~UNIF(8, 12) - 假设 X,Y,Z 都是离散随机变量 - 若将小美离线时间 X 与小华离线时间 Z 一起看呢？ - 画出 P(X=x, Z=z)： - 若将小美离线时间 X 与小袁离线时间 X 一起看呢？ - 赫然发现： - 同时将多个随机变量的行为一起拿来看，我们可以看出更多以往看不到的资讯！

联合 PMF

\(p_{X, Y}(x, y) = P(X=x 且 Y=y)\)。假如看上面的例子的 X，Y 变量，那么 \(P_{X, Y}(9, 10) = 0\)

性质

\(0 \leq p_{X, Y}(x, y) \leq = 1\)
\(\sum^{\infty}_{x=-\infty} sum^{\infty}_{y=-\infty} p_{X, Y}(x, y) = 1\)
X，Y 独立。 \[ \begin{align} P_{X, Y}(x, y) = & P(X=x, Y=y) \\ = & P(X=x) \cdot P(Y=y) \\ = & P_X(x)P_Y(y) \\ \end{align} \]
对于任何事件 B：\(P(B) = \sum_{(x, y) \in B} P_{X, Y}(x, y)\)
- Ex：B：美、华下线时间不晚于 10 点
- P(B) = \(P_{X, Y} = (8, 8) + P_{X, Y} = (9, 9) + P_{X, Y} = (10, 10)\)

联合 CDF

\[F_{X, Y}(x, y) = P(X \leq x 且 Y \leq y) = P(X \leq x, Y \leq y) \] 那么如何算 \(F_{X, Y}(10, 10) = ?\)，其实就是

性质

\(0 \leq F_{X, Y}(x, y) \leq 1\)
若 \(x_1 \leq x_2\) 且 \(y_1 \leq y_2\)，则 \(F_{X, Y}(x_1, y_1) \leq F_{X, Y}(x_2, y_2)\)
\(F_{X, Y}(x, \infty) = P(X \leq x, Y \leq \infty) = P(X \leq x) = F_X(x)\)
\(F_{X, Y}(\infty, y) = P(X \leq \infty, Y \leq y) = P(Y \leq y) = F_Y(y)\)
\(F_{X, Y}(\infty, \infty) = P(X \leq \infty, Y \leq \infty) = 1\)
\(F_{X, Y}(x, -\infty) = P(X \leq x, Y \leq -\infty) \leq P(Y \leq -\infty) = 0\)
\(F_{X, Y}(-\infty, y) = P(X \leq -\infty, Y \leq y) \leq P(X \leq -\infty) = 0\)

概率概论

集合论概念/名词

概率名词

概率公理、性质

概率三公理（Axioms of Probability）

公理衍生之概率性质

条件概率

概率的独立性

多事件独立

图解复杂概率

数数算概率

排列（Permutation）

重复选取（Choose with Replacements）

组合（Combination）

多项组合（Multinomial）

数数如何应用在算概率上？

例子

随机变量（Random Variable, R.V.）

随机变量的种类

什么是可数？什么是不可数？

随机变量的函数

累积分布函数/分布函数（Cumulative Distribution Function）

离散随机变量的 CDF

连续随机变量的 CDF

CDF 性质

概率质量函数（Probability Mass Function)

离散概率分布

Bernoulli 概率分布/伯努利分布（0-1分布）

Binomial 概率分布/二项分布（n 重伯努利分布）

Uniform 概率分布/均匀分布

Geometric 概率分布/几何分布

Pascal 概率分布

Poisson 概率分布

概率密度函数（Probability Density Function）

PDF 性质

连续概率分布

Uniform 概率分布

Exponential 概率分布

Erlang 概率分布

Normal 概率分布/正态分布

标准正态分布

期望值

离散变量的期望值

性质

Variance

常见离散分布的期望值及方差

连续变量的期望值

随机变量的函数

条件概率分布及失忆性

联合概率分布

联合 PMF

性质

联合 CDF

性质

中央极限定理