它山之石可以攻玉
最近正好打算再好好搞搞特征工程,买了本书翻翻,在飞机上就看完了,还是有点用的

总体上还是有用的,也没有改变我对于特征工程的一个基本理念:对一般性的特征工程而言,还没有形成一种像图像处理那样简单有效的方法。
我从三方面来稍微总结一些感受。
共鸣/印证
此前有一些基础的理念得到了一些印证,看起来是高度一致的。例如对定性变量的缺失值填充众数或者对定量变量填充中位数。
还唤醒了一些关于可视化方面的回忆,的确应该做一些可视化(方法很接近)
使用一些参数化的、流水线的方法来进行调优,做的更抽象、流程化一些,挺好的。
使用简单的模型来对不同的情况进行评估。
使用类似PCA的方法构造特征
将定性和定量的变量分开来处理。
触发了我一些好的想法,例如给离散变量做一些约定,只处理前十大类、不允许低于5%的分类型存在等。可以进一步的提高通用的处理能力。
验证我的衍生方法基本上是可行的,有些观点可能作者是不太对的。
不太确定,可以一试,但大概率没啥用
关于KNN的使用,我怀疑是没啥用的,而且很容易有偏,不通用
LDA的使用
RBM(受限玻尔兹曼)衍生变量
Imputer、Pipeline这些(曾经我都用过,后来放弃了)
使用概率分布来转换特征。这个书上倒是没提到,只是触发了我这方面的想法。例如将离散的变量转为泊松分布的概率密度,这样的方法。可能要花太多时间,我这次不一定有时间试。
理论上,未来都应该基于Gibbs的方法去构造、猜想数据。
比较欠缺深度思考,甚至乱指路
全书的例子都是很分散的,只是为了证明某个小观点。这样无法评估各种特征衍生的真实作用,每个数据集基本都是非常浅的碰一下,结论几乎没有啥说服力。例如数据集默认目标率0.78, 特征处理完模型到了0.82,后面就在几个小数位比较优劣。
有些从实践经验来说比较荒谬的。普通决策树效果好于逻辑回归我是不太信的,GBDT肯定是更好。有很多处理过于粗糙,我觉得是随机都有可能。
更大的问题是有些章节几乎是“教你用匕首去挑战老虎”,用什么PCA、LDA、RBM去搞图像识别。CNN已经成熟的不得了了好吗?
总的说起来,很多正确的废话。然后又有不少胡话,真的是“入门与实践”,这点没乱说。我是觉得有些基础观念可以说的更多一些,例子更专注一些,把道理讲透。说了几十个例子,不如把一个例子好好说。
另外读者自己倒也要有所甄别,有些技术你硬要用不是不可以,但肯定是很傻的。
批判的眼光可能过于严厉了一些,开卷还是有益的,只要有对比,不管是好坏都对于更深刻的理解一些道理,确保事情做对做好是有正向帮助的。