(转自:机器之心)
知名 AI 技术博主、《Python 机器学习》作者 Sebastian Raschka 又来放福利了!
今天,他宣布,正值夏季实习和技术面试之际,自己著作《机器学习 Q 与 AI:30 个必备问答》的全部 30 章内容免费开放。他希望能为大家带来帮助,并祝面试的小伙伴好运。
这本书纸质版(+ 电子版)原价 49.99 美元(约合 358 元),电子版原价 39.9 美元(约合 286 元)。
如今,机器学习和人工智能领域正以前所未有的速度发展。研究人员和从业者常常疲于追赶层出不穷的概念与技术。
本书为你的成长旅途提供了碎片化的知识精华 —— 从机器学习新手到专家,涵盖多个领域的主题。即便是经验丰富的机器学习研究者和从业者,也能从中发现可纳入自身技能库的新内容。
评论区有人问,「这本书是用 AI 写的吗?」Sebastian 称当然不是,这样做违背他的个人伦理。有趣的是:这本书的大部分内容写于 2022 年 11 月第一版 ChatGPT 发布前的几个月,最开始是在 LeanPub 上发布,后来在 2024 年由 No Starch 出版社出版。这本书可能曾是 ChatGPT 的训练数据。
Sebastian 还链接到了自己 2023 年 1 月关于本书的一则动态,他向书中添加了很多新内容,包括无状态与有状态训练、恰当评估指标以及有限标注数据。
Sebastian 的这本书收获了很多普通读者与业界同行的好评。
《Designing Machine Learning Systems》一书的作者 Chip Huyen 表示,「Sebastian 独特地融合了学术深度、工程敏捷性以及化繁为简的能力。他能深入探讨任何理论主题,通过实验验证新想法,然后用简单的语言向你解释清楚。如果你正开启机器学习之旅,这本书就是你的向导。」
《How AI Works》一书的作者 Ronald T. Kneusel 称,Sebastian 的书籍《机器学习 Q 和 AI》,是关于大多数入门课程未涵盖的关键 AI 主题概述的一站式指南…… 如果你已经通过深度神经网络踏入了 AI 世界,那么这本书将为你提供定位和理解下一阶段所需的知识。
接下来,我们看看这本书涵盖了哪些内容。
书籍介绍
本书共有 5 大部分,30 个章节。
第一部分讲「神经网络和机器学习」,包括如下主题:
第 1 章:嵌入、隐空间与表征。
深入解析嵌入向量、隐向量与表示的异同,阐述这些概念如何帮助机器学习模型编码信息。
第 2 章:自监督学习。
聚焦自监督学习方法,该技术使神经网络能够以监督学习的方式利用大规模无标注数据集。
第 3 章:少样本学习。
介绍专为小规模训练数据集设计的监督学习技术 —— 少样本学习。
第 4 章:彩票假设。
探讨「随机初始化的神经网络中包含更小的有效子网络」这一理论。
第 5 章:利用数据减少过拟合。
针对机器学习中的过拟合问题,讨论以数据增强和无标注数据利用为核心的解决方案。
第 6 章:通过模型修改减少过拟合。
延续过拟合讨论,重点分析正则化、简化模型结构和集成学习等模型层面的解决方法。
第 7 章:多 GPU 训练范式。
详解数据并行与模型并行等多 GPU 加速训练方案。
第 8 章:Transformers 的成功。
解析 Transformer 架构流行起来的原因,包括注意力机制、并行化优势和高参数量等关键特性。
第 9 章:生成式 AI 模型。
全面综述能生成图像、文本和音频等多媒体内容的深度生成模型,分析各类模型的优缺点。
第 10 章:随机性来源。
剖析深度神经网络训练中可能导致结果不一致的随机性因素(包括训练和推理阶段)。这些随机性既可能来自意外因素,也可能是设计者有意引入。
第二部分讲「计算机视觉」,包含如下主题:
第 11 章:计算参数量。
详细解析卷积神经网络(CNN)中参数量的计算方法,该技术对于评估模型的存储与内存需求至关重要。
第 12 章:全连接层和卷积层。
探讨卷积层在何种场景下可完全替代全连接层,这对硬件优化或模型简化具有重要实践价值。
第 13 章:ViT(Vision Transformers)的大型训练集。
深入研究视觉 Transformer(ViT)相比传统卷积神经网络(CNN)为何需要更大量训练数据的内在机理。
第三部分讲「自然语言处理」,包含如下主题:
第 14 章:分布假说。
深入探讨分布假说,该语言学理论认为,出现在相同上下文中的词语往往具有相似含义,这一理论对机器学习模型的训练具有重要指导意义。
第 15 章:文本数据增强。
重点介绍文本数据增强技术,该方法通过人工扩展数据集规模,能有效提升模型性能。
第 16 章:自注意力。
解析自注意力机制,该技术使神经网络的每个输入片段都能与其他部分建立关联,是现代大语言模型的核心组件。
第 17 章:编码器 — 解码器风格的 Transformers。
详细对比编码器和解码器两类 Transformer 架构的差异,并阐明不同架构在各类语言处理任务中的适用场景。
第 18 章:使用和微调预训练 Transformers。
系统阐述预训练大语言模型的微调方法,并分析不同方法的优势与局限性。
第 19 章:评估生成式大语言模型。
列举困惑度(Perplexity)、BLEU、ROUGE 和 BERTScore 等主流语言模型评估指标。
第四部分讲「生产和部署」,包含如下主题:
第 20 章:无状态和有状态训练。
区分模型部署中使用的无状态与有状态训练方法,阐明两者在实时推理与持续学习中的不同应用场景。
第 21 章:以数据为中心的 AI。
探讨以数据为中心的 AI 范式,该范式通过优化数据集(而非调整模型架构)来提升性能,与传统以模型为中心(Model-Centric)的方法形成鲜明对比。
第 22 章:加速推理。
介绍不改变模型架构且不损失精度的推理加速方法,包括模型量化、知识蒸馏等关键技术。
第 23 章:数据分布偏移。
解析 AI 模型部署后可能面临的训练数据与实际数据分布偏移问题,系统分类并阐述以下常见偏移类型:协变量偏移、概念漂移、标签偏移和领域偏移。
第五部分讲「预测性能和模型评估」,包含如下主题:
第 24 章:泊松回归与有序回归。
重点解析泊松回归与有序回归的区别,泊松回归适用于符合泊松分布的计数数据(如飞机上感冒感染人数),而有序回归则针对有序分类数据(如疾病严重程度分级),且不预设类别间距相等。
第 25 章:置信区间。
深入探讨机器学习分类器置信区间的构建方法,首先阐述置信区间的核心作用 —— 估计未知总体参数,随后系统介绍三大关键技术:正态近似区间法、自助法以及多随机种子重训练法。
第 26 章:置信区间 vs. 保形预测。
深入辨析置信区间与保形预测的本质差异:置信区间聚焦参数估计的不确定性,而保形预测则是构建具有确定概率保证(如 95%)的预测区间,确保能够覆盖真实观测值的关键技术。
第 27 章:恰当评估指标。
着重阐释优秀评估指标在数学与计算机科学领域应具备的核心特性,并系统验证机器学习常用损失函数(如均方误差 MSE、交叉熵损失 Cross-Entropy Loss)是否符合这些特性。
第 28 章:k 折交叉验证中的 k。
深入探讨 k 折交叉验证中 k 值参数的核心作用,系统性地分析选择较大 k 值时需要权衡的利弊关系。
第 29 章:训练集与测试集分布差异。
针对模型在测试集上表现优于训练集的情况,本文提出了解决方案。通过分析训练集与测试集之间的分布差异,介绍了对抗验证的概念及其应用策略,以识别并解决两类数据集间的偏差问题。
第 30 章:有限标注数据。
介绍在数据有限的情况下提升模型性能的多种技术方法,涵盖数据标注、自助采样以及迁移学习、主动学习和多模态学习等范式,以有效应对小样本场景下的机器学习挑战。
书籍链接:https://sebastianraschka.com/books/ml-q-and-ai/#table-of-contents
GitHub 地址:https://github.com/rasbt/MachineLearning-QandAI-book