课程:《人工智能基础》

《人工智能基础》课程的讲义和资源,涵盖从基础概念到前沿技术的内容。

Last modified: Mon Dec 15 2025 · 9 min read


本课程 PPT 和代码参见 Github。教材参考 此链接

目录(Table of Contents)


第1–2节 导论

课程概览

本节以“什么是人工智能、它从哪里来、将到哪里去”为主线,回顾 AI 的历史与里程碑,介绍机器学习/深度学习的基本概念、优化方法与“三要素”(模型、数据、优化)。

核心要点


第3–4节 数学基础

课程概览

本节主要介绍矩阵与向量、概率统计、优化等三方面的数学基础。

核心要点


第5–6节 高维数据与维数灾难

课程概览

本节围绕高维空间数据展开,内容涵盖其在自然界中的普遍性、数据本身的关键特征,以及高维性所带来的维数灾难这一核心挑战。

核心要点


第7–8节 传统监督学习

课程概览

本节系统梳理传统监督学习的代表模型:从线性模型,到决策树,再到支持向量机

核心要点


第9–10节 传统无监督学习

课程概览

本节系统梳理传统无监督学习的代表模型:聚类数据降维

核心要点


第11–12节 全连接与残差网络

课程概览

本节介绍了全连接网络的结构以及两层神经网络的万有逼近定理,通过残差连接缓解深层网络退化与梯度消失问题。

核心要点


第13–14节 卷积神经网络

课程概览

本节先从图像数据的统计与不变性特征出发,再结合生物视觉(V1 的简单/复杂细胞与感受野)解释 CNN 的设计动机,随后介绍标准 CNN 结构及其核心算子。

核心要点


第15–17节 循环神经网络

课程概览

本节从序列建模与语言任务出发,说明语言的层次结构、长程依赖与上下文相关性对模型提出的挑战;在数据准备与词元化(BPE/WordPiece/Unigram)背景下,引入语言模型的 Next Token Prediction(NTP)框架。随后系统讲解RNN 的循环计算与 BPTT 训练、梯度消失/爆炸问题以及LSTM 的门控机制如何缓解长依赖困难,并展示Encoder–Decoder在机器翻译等可变长序列任务中的用法。

核心要点


第18–20节 Transformer

课程概览

Transformer 以注意力(Attention)为核心,替代 RNN 的顺序依赖,带来全局建模能力高并行效率。最初用于机器翻译的 Encoder–Decoder 结构,现今更常用 Decoder‑only + Next Token Prediction(NTP) 的语言建模范式,并扩展到图像(ViT)与科学计算(如蛋白质结构预测)。

核心要点


第21–22节 训练过程中的典型现象

课程概览

本节从函数空间参数空间损失景观三个视角,总结深度网络训练中常被反复观察到的规律:频率原则(F‑Principle)、凝聚现象(Condensation)、平坦最小值与稳定边缘现象。

核心要点