人工智能之数学基础 信息论----公式关注公众号
信息论不仅是通信工程的基石,更在人工智能、深度学习、大数据处理中扮演关键角色。从神经网络中的嵌入表示到大模型的 Token 压缩,从变分自编码器(VAE) 到信息瓶颈理论,信息论提供了统一的数学语言。
信道是信息从发送端到接收端的传输媒介,可能引入噪声。 例如:无线信号(高斯噪声)、光纤(衰减)、神经网络层(信息瓶颈)。
2. 信道模型:离散无记忆信道(DMC)
- 输入 $ X \in \mathcal{X} $,输出 $Y \in \mathcal{Y} $
- 转移概率$ P(Y|X) $ 定义信道特性
- 无记忆:每次传输独立
输入:0 或 1以概率 $ p $ 翻转(0→1 或 1→0)转移矩阵:
P(Y|X) = \begin{bmatrix} 1-p & p \\ p & 1-p \end{bmatrix} $$
3. 信道容量定义
$$ C = 1 - H_b(p) $$
直观:
对于独立同分布(i.i.d.)信源 $ X $,其最小平均码长满足:
例:英文文本熵 ≈ 1.3 比特/字母 → 理论压缩比 ≈ 8.7:1(vs ASCII 的 8 比特)
2. 霍夫曼编码(Huffman Coding)
- 最优前缀码:高频符号用短码,低频用长码
- 构造方法:贪心合并最小概率节点
编码步骤:
- 统计符号频率
- 构建霍夫曼树
- 从根到叶分配 0/1
- 生成码表
当允许一定失真 $ D $,最小所需码率 $ R(D) $ 为:
R(D) = \min_{P(\hat{x}|x): \mathbb{E}[d(x, \hat{x})] \leq D} I(X; \hat{X}) $$
- $ d(x, \hat{x}) $:失真度量(如 MSE)
- AI 启示:表示学习本质是在率(模型大小)与失真(重构误差)间权衡
应用
实例
无损压缩
嵌入(Embedding)
Word2Vec / BERT 将词映射到低维连续空间
有损压缩
变分自编码器(VAE)
最小化 $ I(X; Z) $ 同时保证重构
信道模拟
大模型中的 BPE:
输出示例:
真实 BPE(如 GPT-2):
解释:
概念
AI/现代应用
通信速率极限
无损压缩
Tokenization (BPE, WordPiece)
JPEG, MP3
互信息
信息瓶颈、对比学习(InfoNCE)
数据不确定性
终极洞见: 深度学习 = 在计算约束下,寻找最优的信息表示与传输方案。 从输入到输出,每一层都在进行压缩(去除冗余)与扩展(提取特征)的博弈。
后续
公众号:咚咚王 gitee:https://gitee.com/wy18585051844/ai_learning
nerror="javascript:errorimg.call(this);">
《Python编程:从入门到实践》 《利用Python进行数据分析》 《算法导论中文第三版》 《概率论与数理统计(第四版) (盛骤) 》 《程序员的数学》 《线性代数应该这样学第3版》 《微积分和数学分析引论》 《(西瓜书)周志华-机器学习》 《TensorFlow机器学习实战指南》 《Sklearn与TensorFlow机器学习实用指南》 《模式识别(第四版)》 《深度学习 deep learning》伊恩·古德费洛著 花书 《Python深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》 《深入浅出神经网络与深度学习+(迈克尔·尼尔森(Michael+Nielsen)》 《自然语言处理综论 第2版》 《Natural-Language-Processing-with-PyTorch》 《计算机视觉-算法与应用(中文版)》 《Learning OpenCV 4》 《AIGC:智能创作时代》杜雨+&+张孜铭 《AIGC原理与实践:零基础学大语言模型、扩散模型和多模态模型》 《从零构建大语言模型(中文版)》 《实战AI大模型》 《AI 3.0》
热门推荐
