AI方向学习指南

对AI充满好奇，或者打算未来往AI方向深造的同学来说，AI绝对不是一个“高冷、遥不可及”的领域。只要你愿意投入时间，循序渐进地打好基础，你完全有机会在保研、考研复试或者未来求职的时候脱颖而出。

针对升学面试来说，说得直白点：一个简历上写“熟悉SpringBoot”的同学，和一个简历上写“复现CVPR论文并提出改进点”的同学，给导师的第一印象，完全不是一个量级。前者是“会用工具的人”，后者是“能做科研的人”。

接下来，我会从学习路线、实践项目、前沿方向三个层面，带你理一条尽量清晰的AI学习之路，同时也聊聊我自己的一些体会和对学弟学妹们的建议。

如果学弟学妹们有关于学习这方面内容的相关问题，欢迎给我发邮件探讨。我的联系方式：wescui@mail.nwpu.edu.cn

1、AI基础知识学习路线

学习AI切忌好高骛远，必须从基础开始打牢底子。我建议分四个阶段循序渐进地学习。

高等数学：导数和梯度是优化算法的基础。在神经网络训练中，我们通过计算损失函数对模型参数的偏导数（梯度），沿着梯度下降方向更新权重，使误差逐步减小。可以把梯度想象成山坡上的箭头，指明了“最陡的上升方向”，而我们实际上要往下走。举例来说，线性回归中损失函数
$L = (w x + b - y)^{2}$
，对权重 $w$ 求导会得到一个关于误差的表达式，这个导数告诉我们如何调整 $w$ 才能让预测值更贴近真实值。理解这背后的链式法则（反向传播）非常重要，否则调参时就像盲人摸象。同时，高等数学还能帮助你理解优化算法（如牛顿法、动量法等）与机器学习之间的联系。
线性代数：数据在AI中常以向量、矩阵甚至高阶张量的形式存在，模型的前向传播本质上是矩阵运算。比如，一张 $28 \times 28$ 的手写数字图片可以看作一个784维向量，卷积层或全连接层的作用就相当于对这个向量做加权投影。掌握矩阵乘法、矩阵分解（如特征分解、奇异值分解）、向量空间等概念非常关键。例如，主成分分析（PCA）利用特征分解将高维数据投影到方差最大的方向，这在降维和可视化中广泛使用。再比如在卷积神经网络（CNN）里，卷积操作可以通过Im2Col技巧转换成矩阵乘法，因此对线性代数的熟练掌握能让你更好地理解底层实现。
概率论与数理统计：机器学习和数据本质上都是不确定的，概率统计帮你处理这种不确定性。你需要了解概率分布、条件概率、贝叶斯定理等。例如，朴素贝叶斯分类器就是基于贝叶斯定理通过计算后验概率进行分类；高斯分布在生成模型（如变分自编码器、扩散模型）中经常假设噪声服从正态分布；交叉熵损失本质上来自于最大似然估计，对应着真实分布和预测分布之间的KL散度；期望和方差描述了随机变量的均值和波动性，在损失函数收敛分析时经常出现。换句话说，概率统计让我们能够用数学语言描述模型的“置信度”和数据的“波动性”，这对于理解深度学习模型为什么会出现过拟合、泛化等现象至关重要。

推荐资源：

课程：斯坦福大学的CS231n（主讲CNN和计算机视觉）、CS224n（主讲NLP和RNN/Transformer）是进阶神课。B站：跟着李沐学AI 的动手学深度学习课程（如果不适合听英文课程可以看着部分）另外在复试准备阶段也可以听，以便于了解深度学习相关知识。(配套资料：https://zh.d2l.ai/)
书籍：《动手学深度学习》（Dive into Deep Learning）这本书最大的优点是理论与代码结合，非常适合实践，最好是动手写代码。（事实上，就是https://zh.d2l.ai/的书籍版本）

2、机器学习理论

在具备数学基础后，要学习经典机器学习算法。这一阶段帮助你理解机器学习的基本范式和算法原理，不至于进入深度学习后迷失在黑盒调参中。

核心概念：监督学习（监督数据及标签进行分类或回归）、无监督学习（如聚类、降维）、强化学习（Agent与环境互动学习策略）；过拟合与欠拟合（模型容量太大容易记住噪声、太小则拟合不足）；训练集/验证集/测试集的划分原则；交叉验证等评估策略；损失函数（如MSE、交叉熵、hinge损失）的含义等。理解这些概念会让你明白“在什么情况下选择什么算法”、如何评价模型好坏。比如，当模型在训练集表现很好但在测试集差时，就是典型的过拟合现象，需要引入正则化或更多数据才能改进。
经典算法：熟悉一些代表性算法可以培养你对“学习”这件事的直观认识。包括线性回归（拟合回归直线）、逻辑回归（用sigmoid输出概率做二分类）、支持向量机（SVM）（找最大间隔超平面进行分类）、决策树（根据特征值递归二分数据）和K-Means聚类（无监督地将数据划分成K个簇）等。理解它们背后的原理非常重要：例如了解线性回归的最小二乘推导可以帮助你理解梯度下降的起源，掌握SVM的拉格朗日对偶形式则让你明白核函数是怎么将数据映射到高维线性可分空间的。这样，你才能在后续使用更复杂模型时依然游刃有余。

推荐资源： 吴恩达在Coursera上的《Machine Learning》课程对初学者非常友好，从线性回归、逻辑回归讲到SVM、聚类等内容，都讲解得通俗易懂；周志华老师的《机器学习》（俗称“西瓜书”）。认真学习这些内容后，你对各种算法的优缺点和适用场景都会有一个清晰的认识。

3、深度学习理论（现代AI基石）

掌握经典机器学习后，就可以进入深度学习阶段。深度学习是近几年人工智能爆发的关键，但是它依然建立在前两个阶段的基础上。重点学习神经网络模型的构造和常见结构：

神经网络基础：从最简单的感知机（Perceptron）到多层感知机（MLP），理解前向传播和反向传播的原理。前向传播是将输入通过加权和加偏置再过非线性激活函数得到输出，而反向传播则利用链式法则计算每层参数的梯度并更新。这就像我们提到的梯度方向的概念一样，层层往前计算输出误差后向反馈梯度调整权重。
核心网络结构：
- 卷积神经网络（CNN）：主要用于图像等格点数据。CNN通过卷积层提取局部特征（相当于滑动窗口的特征提取器），再用池化层降低空间维度。常见的LeNet-5、AlexNet、VGG等网络便是由多层卷积和全连接层构成。了解每种层（卷积层、池化层、全连接层）的作用，以及不同网络架构的优缺点（如VGG简单易实现但参数多、ResNet引入残差结构解决深层退化）非常重要。
- 循环神经网络（RNN）：用于处理序列数据，如文本、语音序列等。基本RNN存在长程依赖难以学习的问题，因而出现了LSTM和GRU等变种来记忆更长时序信息。了解序列展开的计算过程和梯度消失/爆炸的原因，对后续涉足NLP或时序预测很有帮助。
- Transformer：目前NLP和越来越多CV任务的主流架构，其核心是“自注意力机制（Self-Attention）”。Transformer网络摆脱了循环结构，利用注意力机制同时对输入序列中的所有位置进行关联分析。经典论文**《Attention Is All You Need》**阐述了这一架构。从BERT、GPT到Vision Transformer，学习并理解注意力机制的计算过程和优势（如并行化、长距离依赖处理能力）是必须的。

推荐资源： 如果英文水平允许，可以参加斯坦福大学的CS231n（计算机视觉与CNN，春季课程）和CS224n（自然语言处理与Transformer，春季课程）两门公开课，这两门课程深入浅出地讲解了CNN和Transformer等；

如果是中文课程，可以找李沐老师在B站上“动手学深度学习”的系列视频，课件、代码和《动手学深度学习》一书将理论和实践紧密结合，非常适合边学边敲代码。此外，《动手学深度学习》（d2l）这本书理论和代码结合，是理解深度学习原理并动手实践的好教材。建议动手写一写小项目，把理论巩固下来。

4、机器学习/深度学习框架选择

目前最流行的深度学习框架是 PyTorch 和 TensorFlow（含Keras）。二者各有优劣：

PyTorch（首选）：其API设计贴近Python原生语法，上手非常友好；采用动态图机制，代码执行即时可见，调试时无需重新构建整个计算图，极大提高了开发效率。研究界也偏爱PyTorch，最新的学术模型几乎都能在PyTorch里找到实现版本。唯一的不足是早期TensorFlow在工业部署上优势更明显，但随着TensorFlow 2.x的Eager模式上线以及PyTorch对TorchServe等部署工具的支持，这一差距已经大大缩小。对学生和研究者来说，我强烈推荐从PyTorch开始学习。
TensorFlow：TensorFlow生态在工业界十分完善，提供了TF Serving、TensorRT、TF Lite（用于移动/嵌入式）等部署方案，并且背靠Google的大力支持。在企业级项目中经常能看到TensorFlow的身影。不过TensorFlow的API相对复杂，上手曲线更陡峭，尤其是早期静态图（1.x）模式对新手不够友好。TF2已经改进并提供了类似PyTorch的动态图Eager模式，但对于初学者来说仍需要花较多精力学习框架细节。

一句话总结：PyTorch的出现让深度学习从业门槛大为降低，用起来几乎和写普通Python代码一样直观。总之，选择哪个框架并不是最关键的，关键是选一个你自己舒服、并且能快速实现算法的工具。对于初学者，我个人首推PyTorch。

5、AI项目实战案例

理论学习固然重要，但动手实践更能让你在简历上脱颖而出。项目经历不仅能证明你的动手能力，也是导师们考核科研潜力的直观指标。我建议分三个层次来做：

Level 1：入门级——“跑通一个经典模型”

目标：熟悉数据读取、预处理，模型搭建、训练、评估的完整流程，从跑通一个项目开始对流程建立信心。项目建议：

手写数字识别：使用MNIST数据集，搭建并训练一个简单的卷积神经网络来识别手写数字。这个任务的数据集小、入门简单，但能让你掌握图像数据处理和CNN基本结构的实现。
图像分类：尝试在CIFAR-10（或CIFAR-100）数据集上复现经典的CNN架构，如LeNet-5、AlexNet、VGG等。通过调参和学习这些网络结构，你会体会到网络深度、参数量和训练难度的关系。
Kaggle入门赛：“Titanic - Machine Learning from Disaster”是Kaggle上著名的入门级竞赛，它提供了泰坦尼克号沉没的乘客生存数据集，非常适合练习监督学习算法。通过这个项目，你可以体验数据清洗、特征工程（如处理缺失值、编码分类特征）、模型训练（可能是决策树、随机森林或简单的神经网）和结果评估的全流程。

产出：完成后将代码上传到你的GitHub，并在简历中描述项目背景、模型结构和性能指标。例如写上“在MNIST数据集上搭建CNN模型，准确率达到98%以上”；或者“Kaggle Titanic项目中实现了随机森林模型，预测准确率达到了80%”。这些结果既证明你会使用现有算法，也显示了你的动手能力。

Level 2：进阶级——“复现一篇顶会论文”

目标：培养阅读和理解学术论文的能力，锻炼用代码复现论文内容的习惯。复现论文是准研究生最重要的素养之一，它能让你深入理解前沿模型的细节。项目建议：

选论文：从近两年的顶会（如CVPR、ICCV、NeurIPS、ICML、ACL等）中挑一篇你感兴趣且难度适中的论文，最好找那种作者公开了代码的工作。
复现流程：先仔细阅读论文的摘要和引言，搞懂核心创新点，然后浏览全篇、注意模型架构和训练细节。接着对照论文官方代码（如果有）逐行理解实现的逻辑。最后试着关掉官方代码，自己动手在熟悉的框架中复现整个模型。这个过程可以让你对论文的算法推导和工程实现有更深刻的认识。

产出：成功复现论文后，这份经历是简历的含金量担当。你可以写道：“独立复现了CVPR 2022论文《XXX》，并在相应数据集上取得了与论文报告相当的性能”。这样的描述表明你不仅能看懂前沿工作，还能把理论付诸实践，其价值远胜于做十个简单的系统项目。

Level 3：高阶级——“做出你的创新”

目标：在复现已有工作的基础上尝试创新，体现出科研潜力和创新意识。这是项目经历中的“亮点”，能让导师看到你具备独立思考的能力。项目建议：在复现论文后，思考以下方向做改进和扩展：

模型改进：看能否对论文中的模块做替换或优化。比如把其中的某个卷积层换成更高效的可分离卷积，或者引入注意力机制。
方法融合：尝试将论文A的思路与论文B的思想结合，解决一个稍有变化的新问题。例如，将一个用于自动驾驶的目标检测模型，改用在无人机航拍图像上，并在数据标注和后处理上做针对性修改。
应用拓展：思考该方法能否迁移到其他领域。如果论文聚焦于自然场景分割，你可以试着把思路应用到医学影像分割领域，改动数据预处理、损失函数等适应新任务。

产出：在简历中强调你的改进工作：例如写道“基于复现论文的模型，我将原论文中的损失函数替换为XX损失，在XX指标上提升了X%”。即使提升不大，这种自主探索的经历本身就非常值钱。它表明你不满足于简单复制，而是愿意动脑动手去优化。能做到这一点，如果平时成绩和其他条件不错，一般就可以稳拿目标学校的offer。另外，如果你的创新点有3个，那么你可以好好包装一下，发一个二区或者三区的会议论文，这对于你的保研、考研来说也很有帮助。

前沿研究方向介绍

了解一些前沿方向和热点趋势可以让你在交流时更有共同话题，也有助于确定未来的研究兴趣领域。下面列举几个热门方向供参考：

大语言模型(Large Language Models, LLMs)：以GPT系列为代表，这类模型在海量文本上进行预训练，展现出惊人的语言理解和生成能力。近年的研究热点包括指令微调（使模型更好地执行人类指令）、模型对齐（使用RLHF让模型输出更安全、可靠）、高效训练与推理（如稀疏激活模型、量化压缩等）以及多模态大模型（例如OpenAI的GPT-4o可以同时处理文本和图像输入）。这些方向都旨在让LLM更好地“懂用户的需求”并有效扩展到新场景。

2.AIGC (AI-Generated Content)：指利用AI生成各种内容，不仅限于文本，还包括图像、音频、视频乃至3D模型等。当前最火的是图像生成方面的扩散模型（如Stable Diffusion、DALL·E等）和生成对抗网络（GANs），它们可以根据文字描述自动生成高质量图片。热点研究包括可控生成（让用户能更精细地指定风格或内容）、扩散模型加速、以及3D内容生成（如NeRF和三维扩散模型，让AI直接生成3D场景或物体）。新兴的“文本到视频”生成（比如Google的Imagen Video）也正受到关注。AIGC正在颠覆设计和创作流程，所以相关研究和应用都非常前沿。

3. 图神经网络(Graph Neural Networks, GNNs)：专门处理图结构数据的神经网络，在社交网络分析、分子属性预测、知识图谱推理等场景中非常有用。基本思想是让节点在图中彼此“传递信息”并更新表示。研究热点包括异构图（图中节点/边类型多样化的建模）、动态图（随着时间演进的图数据）、GNN可解释性（理解GNN决策依据的可视化方法），以及将GNN与大模型结合的探索（例如用图结构增强语言模型对知识的建模）。简而言之，只要数据有复杂关系，GNN就会派上用场，是一个值得关注的方向。

强化学习(Reinforcement Learning, RL)：近年来RL在很多领域都有突破性应用：比如无人车的决策规划、多智能体协作（如无人机编队）、机器人控制等。当前热点包括离线RL（从已有静态数据集学习策略，避免昂贵的在线实验）、多智能体RL（研究多个智能体协作或对抗的算法）、基于模型的RL（学出环境模型以提升数据效率）以及前面提到的RLHF（通过人类反馈奖励来训练语言模型）。比如OpenAI针对ChatGPT的优化过程就采用了RLHF：他们先收集人类标注的数据来训练一个奖励模型，然后使用PPO算法来优化语言模型的策略，以让输出更符合人类偏好。掌握这些前沿方向，可以帮助你在复试或面试时有更多话题。

强化学习 (Reinforcement Learning, RL) 深度指南

如果你对图像分类、检测等“感知”任务已得心应手，又渴望让AI具备更智能的“决策”能力，那么强化学习是一个自然的下一步。通俗地说，强化学习是研究智能体（Agent）如何通过与环境（Environment）的交互、试错学习策略的领域

想象训练一只小狗学会“坐下”。在这个过程中有这几个名词：

智能体（Agent）：小狗。
环境（Environment）：你和你的客厅。当你发出“坐下”的口令时，这就是环境给出的一个状态信号。
状态（State, S）：比如当前你举着零食说“坐下”时的情景。
动作（Action, A）：小狗此时可以选择“坐下”、“打滚”、“吠叫”等动作。
奖励（Reward, R）：如果小狗做对了（真的坐下了），你会奖励它一块零食（正奖励）；如果它做错了（比如跑来跑去），你可能不给它零食甚至摇头表示不满（零奖励或负奖励）。开始时小狗不知道“坐下”要干什么，但它会随机尝试各种动作，并根据得到的奖励调整行为。经过多次试验，小狗逐渐发现：在你发“坐下”口令（状态S）时做“屁股着地”（动作A）能得到零食（奖励R）。它就学会了在这个状态下选择动作“坐下”。正如Spinning Up教程中所述，“强化学习是关于智能体以及它们如何通过试错来学习的研究”。在上述例子中，小狗（智能体）通过不断探索和环境反馈（奖励）学习到一套策略（Policy），这个策略π(S)会告诉它在不同的状态下采取什么动作能获得最大的累积奖励。要深入理解RL，需要掌握以下核心概念：
策略（Policy, π）：策略是智能体行动的准则，可以是确定性的也可以是随机的。它本质上是一个映射函数，告诉我们在当前状态下应该采取哪个动作或以什么概率选择各个动作。策略是RL要学的目标：一个优秀的策略能让智能体获得最大的长期回报。
奖励（Reward）和回报（Return）：奖励是环境给出的即时反馈信号（标量），表示智能体当前动作的好坏。累积回报是将来所有奖励的加权和，通常用来衡量一个策略的好坏。智能体的目标是最大化累积回报。
价值函数（Value Function）：价值函数用来评估状态或状态-动作对的“好坏”。
状态价值函数 V(s)：在状态s下，按照当前策略走下去，期望能获得的累积奖励之和。它回答了“目前这个状态有多好？”
状态-动作价值函数 Q(s,a)：在状态s下执行动作a，然后继续按照当前策略行事，期望能获得的累积奖励之和。它回答了“在状态s下做动作a有多好？”。Q函数在很多算法中起关键作用，比如深度Q网络（DQN）就是直接逼近Q值函数。
环境模型（Model）：在RL中，有的算法会学习环境的动态模型（即给定当前状态和动作，预测下一个状态和奖励），称为基于模型的方法（Model-Based RL）；而不学习模型的称为无模型方法（Model-Free RL）。基于模型的优势是可以用“思考”代替部分真实交互，从而提高样本效率；缺点是在现实环境中建模往往很困难。初学者可以先从无模型方法入手。主流算法派系

强化学习算法众多，但主要可以分为以下三大类：

基于价值的方法（Value-Based）：这一类不直接学习策略，而是学习一个优化的Q值函数Q(s,a)。经典代表是Q学习（Q-Learning）和SARSA，它们使用“贝尔曼更新”迭代更新Q表，适合状态空间较小的离散问题。深度强化学习出现后，出现了深度Q网络（Deep Q-Network, DQN）*，用神经网络近似Q函数，使得智能体可以直接处理像素级的高维输入（例如《Nature》发表的DQN论文用它在Atari游戏中取得突破）。有了准确的Q值函数，一个简单的贪心策略（每次选取最大Q值的动作）就自然产生了。DQN的成功开启了深度RL时代。
基于策略的方法（Policy-Based）：这一类直接学习策略函数π(a|s)，通常使用策略梯度。策略网络接受状态作为输入，输出各个动作的概率。它的优点是可以处理连续动作空间，而且策略具有一定随机性，有助于探索。基础算法有REINFORCE（蒙特卡洛策略梯度方法）：思路是“如果一个动作序列最终获得了高回报，那么序列中出现的每个动作就应该更高概率出现”。REINFORCE算法收集一系列回报，再使用梯度估计来更新策略。另一个例子是Actor-Critic方法（下文介绍），REINFORCE实际上可以被看作只有“演员”的策略梯度方法。
演员-评论家（Actor-Critic）：将上述两类思想结合，是目前应用最广的框架。它同时训练两个网络：
演员（Actor）：策略网络，负责输出每个动作的概率（即执行策略）。
评论家（Critic）：价值网络，评估当前策略的好坏（通常估计V(s)或Q(s,a)）。
这样，演员网络尝试选动作，评论家网络给出这个选择的价值或优势，并用该价值信号来指导演员网络更新。可以把它想象成：演员在台上表演，评论家给分，演员根据分数调整表演策略。代表算法包括A2C/A3C（Advantage Actor-Critic）、PPO（Proximal Policy Optimization）和SAC（Soft Actor-Critic）等。其中PPO是OpenAI提出的一种实用性很强的策略梯度方法，它通过限制每次更新的策略变化幅度来保证训练稳定，如果你需要一个开箱就能用的算法，PPO通常是首选；而SAC在连续控制任务上表现出色，它通过最大化策略的熵来鼓励探索，使训练既稳定又高效。

强化学习实战学习路径

1.学习路线：

视频：强烈推荐David Silver的UCL强化学习课程（B站有中文字幕版），这是RL领域的“圣经”课程。另外，西湖大学的赵世钰老师的《强化学习的数学原理》讲的有关强化学习的数学原理也非常不错，由于强化学习是建立在严密的数学原理上的，所以非常推荐大家去看看，链接：【【强化学习的数学原理】课程：从零开始到透彻理解（完结）】https://www.bilibili.com/video/BV1sd4y167NS?vd_source=eb5f7f6537f36e95310081a91cdff1d4；王树森老师的强化学习课程也是强推，链接：【【王树森】深度强化学习(DRL)】https://www.bilibili.com/video/BV12o4y197US?vd_source=eb5f7f6537f36e95310081a91cdff1d4
书籍：Sutton和Barto合著的《Reinforcement Learning: An Introduction》是该领域的奠基之作，必读。
入门博客：动手学强化学习。

2.环境与工具：目前事实上的标准RL环境库是Gymnasium（原名OpenAI Gym），它提供了大量现成环境，如简单的倒立摆（CartPole）、山地车（MountainCar）等，帮助你专注在算法实现上。常用的RL算法库有Stable-Baselines3（基于PyTorch），它实现了PPO、SAC、DQN等多种算法。使用这些库，你可以几行代码就跑通一个RL任务，非常适合快速验证思路。

3.动手实践：实践是掌握RL的关键。推荐的步骤是：

Step 1：熟悉Gymnasium。先从最简单的CartPole-v1开始，学会环境的基本操作：env.reset()获得初始状态，循环执行env.step(action)获得下一个状态、奖励、完成标志等。
Step 2：从零实现经典算法。这是检验是否真正理解的试金石。

强化学习前沿热点方向

离线强化学习：传统RL需要在线和环境交互获取经验，这在实际应用中成本高且风险大（比如在现实机器人上直接试错）。离线RL只使用已经收集好的数据集来学习策略，无需再与环境交互，非常适合医疗、金融、推荐系统等领域。代表算法如BCQ、CQL等近期有很多研究成果。多智能体强化学习（Multi-Agent RL）：研究多个智能体在同一环境中协作或竞争的问题。这是实现群体智能（如无人机集群、机器人团队协作）或对抗（如多角色游戏）应用的关键方向。多智能体系统会引入新的挑战，比如非静态环境和策略的联合优化，目前也是活跃研究领域。基于模型的强化学习（Model-Based RL）：尝试先学习环境的内在动力学模型，然后利用这个模型来规划或模拟，从而大幅提高样本效率。当与真实环境交互昂贵（如机器人学习）时，基于模型的方法优势明显。最新研究往往结合深度学习和经典控制理论，比如神经网络+MPC等。强化学习与人类反馈（RLHF）：我们前面提到的大语言模型对齐就是这一方向的成功案例。RLHF在NLP领域用人类评判来训练奖励模型，再通过RL算法让模型行为更符合人类期望。除了大模型，这个思路还可以推广到其他需要人类偏好的任务。掌握强化学习不仅会在技术深度上让你超过多数同龄人，还能让你具备解决复杂决策问题的能力，这是未来很有价值的竞争力。

咱们再来聊聊深度强化学习（Deep Reinforcement Learning, DRL）。

如果你已经明白了“强化学习”是教AI“试错学习”的套路，那“深度强化学习”就很好理解了。

说白了，深度强化学习 = 强化学习 + 深度学习。这部分内容咱们留着下次再说。

#TODO：深度强化学习

给你的建议：最后给学弟学妹们几点学习建议：不必急于面面俱到，而是选择一两个自己最感兴趣的方向深入钻研。例如，如果你对自然语言处理感兴趣，可以选择阅读大语言模型的综述或开创性论文；如果喜欢计算机视觉，可以找一篇卷积网络或扩散模型的综述来读。一开始不用指望立刻写出所有领域代码，理解和消化经典综述文章往往能帮助你快速梳理思路、找准方向。保持好奇和耐心，踏实地做项目和阅读论文，你的学术视野会逐步拓宽，实力也会水到渠成。祝你学有所成！

文章最后： 我的联系方式：wescui@mail.nwpu.edu.cn 如果大家在升学路上遇到任何困惑，特别是想报考NWPU的同学，欢迎随时给我发邮件。只要我看到，都会尽力回复。祝愿各位学弟学妹都能前程似锦，最终去到自己心仪的学校！

AI方向学习指南 ​

1、AI基础知识学习路线 ​

2、机器学习理论 ​

3、深度学习理论（现代AI基石） ​

4、机器学习/深度学习框架选择 ​

5、AI项目实战案例 ​

Level 1：入门级——“跑通一个经典模型” ​

Level 2：进阶级——“复现一篇顶会论文” ​

Level 3：高阶级——“做出你的创新” ​

前沿研究方向介绍 ​

强化学习 (Reinforcement Learning, RL) 深度指南 ​

强化学习实战学习路径 ​

强化学习前沿热点方向 ​