建模杂谈系列212 读后感：特征工程入门与实践_学习

创始人

2024-06-02 04:20:13

它山之石可以攻玉

最近正好打算再好好搞搞特征工程，买了本书翻翻，在飞机上就看完了，还是有点用的
在这里插入图片描述
总体上还是有用的，也没有改变我对于特征工程的一个基本理念：对一般性的特征工程而言，还没有形成一种像图像处理那样简单有效的方法。

我从三方面来稍微总结一些感受。

1 Positive

共鸣/印证

此前有一些基础的理念得到了一些印证，看起来是高度一致的。例如对定性变量的缺失值填充众数或者对定量变量填充中位数。

还唤醒了一些关于可视化方面的回忆，的确应该做一些可视化（方法很接近）

使用一些参数化的、流水线的方法来进行调优，做的更抽象、流程化一些，挺好的。

使用简单的模型来对不同的情况进行评估。

使用类似PCA的方法构造特征

将定性和定量的变量分开来处理。

触发了我一些好的想法，例如给离散变量做一些约定，只处理前十大类、不允许低于5%的分类型存在等。可以进一步的提高通用的处理能力。

验证我的衍生方法基本上是可行的，有些观点可能作者是不太对的。

不太确定，可以一试，但大概率没啥用

关于KNN的使用，我怀疑是没啥用的，而且很容易有偏，不通用

LDA的使用

RBM(受限玻尔兹曼）衍生变量

Imputer、Pipeline这些（曾经我都用过，后来放弃了）

使用概率分布来转换特征。这个书上倒是没提到，只是触发了我这方面的想法。例如将离散的变量转为泊松分布的概率密度，这样的方法。可能要花太多时间，我这次不一定有时间试。

理论上，未来都应该基于Gibbs的方法去构造、猜想数据。

比较欠缺深度思考，甚至乱指路

全书的例子都是很分散的，只是为了证明某个小观点。这样无法评估各种特征衍生的真实作用，每个数据集基本都是非常浅的碰一下，结论几乎没有啥说服力。例如数据集默认目标率0.78，特征处理完模型到了0.82，后面就在几个小数位比较优劣。

有些从实践经验来说比较荒谬的。普通决策树效果好于逻辑回归我是不太信的，GBDT肯定是更好。有很多处理过于粗糙，我觉得是随机都有可能。

更大的问题是有些章节几乎是“教你用匕首去挑战老虎”，用什么PCA、LDA、RBM去搞图像识别。CNN已经成熟的不得了了好吗？

总的说起来，很多正确的废话。然后又有不少胡话，真的是“入门与实践”，这点没乱说。我是觉得有些基础观念可以说的更多一些，例子更专注一些，把道理讲透。说了几十个例子，不如把一个例子好好说。

另外读者自己倒也要有所甄别，有些技术你硬要用不是不可以，但肯定是很傻的。

批判的眼光可能过于严厉了一些，开卷还是有益的，只要有对比，不管是好坏都对于更深刻的理解一些道理，确保事情做对做好是有正向帮助的。