建模杂谈系列212 读后感:特征工程入门与实践
创始人
2024-06-02 04:20:13

它山之石可以攻玉

最近正好打算再好好搞搞特征工程,买了本书翻翻,在飞机上就看完了,还是有点用的
在这里插入图片描述
总体上还是有用的,也没有改变我对于特征工程的一个基本理念:对一般性的特征工程而言,还没有形成一种像图像处理那样简单有效的方法。

我从三方面来稍微总结一些感受。

1 Positive

共鸣/印证

此前有一些基础的理念得到了一些印证,看起来是高度一致的。例如对定性变量的缺失值填充众数或者对定量变量填充中位数。

还唤醒了一些关于可视化方面的回忆,的确应该做一些可视化(方法很接近)

使用一些参数化的、流水线的方法来进行调优,做的更抽象、流程化一些,挺好的。

使用简单的模型来对不同的情况进行评估。

使用类似PCA的方法构造特征

将定性和定量的变量分开来处理。

触发了我一些好的想法,例如给离散变量做一些约定,只处理前十大类、不允许低于5%的分类型存在等。可以进一步的提高通用的处理能力。

验证我的衍生方法基本上是可行的,有些观点可能作者是不太对的。

2 Neutral

不太确定,可以一试,但大概率没啥用

关于KNN的使用,我怀疑是没啥用的,而且很容易有偏,不通用

LDA的使用

RBM(受限玻尔兹曼)衍生变量

Imputer、Pipeline这些(曾经我都用过,后来放弃了)

使用概率分布来转换特征。这个书上倒是没提到,只是触发了我这方面的想法。例如将离散的变量转为泊松分布的概率密度,这样的方法。可能要花太多时间,我这次不一定有时间试。

理论上,未来都应该基于Gibbs的方法去构造、猜想数据。

3 Negative

比较欠缺深度思考,甚至乱指路

全书的例子都是很分散的,只是为了证明某个小观点。这样无法评估各种特征衍生的真实作用,每个数据集基本都是非常浅的碰一下,结论几乎没有啥说服力。例如数据集默认目标率0.78, 特征处理完模型到了0.82,后面就在几个小数位比较优劣。

有些从实践经验来说比较荒谬的。普通决策树效果好于逻辑回归我是不太信的,GBDT肯定是更好。有很多处理过于粗糙,我觉得是随机都有可能。

更大的问题是有些章节几乎是“教你用匕首去挑战老虎”,用什么PCA、LDA、RBM去搞图像识别。CNN已经成熟的不得了了好吗?

4 总结

总的说起来,很多正确的废话。然后又有不少胡话,真的是“入门与实践”,这点没乱说。我是觉得有些基础观念可以说的更多一些,例子更专注一些,把道理讲透。说了几十个例子,不如把一个例子好好说。

另外读者自己倒也要有所甄别,有些技术你硬要用不是不可以,但肯定是很傻的。

批判的眼光可能过于严厉了一些,开卷还是有益的,只要有对比,不管是好坏都对于更深刻的理解一些道理,确保事情做对做好是有正向帮助的。

相关内容

热门资讯

最新或2023(历届)延迟退休... 五中全会的公报中明确提出要实行延迟退休。人社部新闻发言人李忠表示,将会以小步慢跑的方式让延迟退休政策...
男女职工延迟退休最新规定,最新...  人社部部长尹蔚民在介绍“十二五”以来就业和社会保障工作成就时,再度提到了延迟退休改革方案,并表示我...
原创 有... 有趣,勇士队队友匿名要求,如果库明加不被交易,就让他上场比赛 金州勇士队的一名成员希望球队在不交易库...
最新或2023(历届)国家农业...   编者语:最新或2023(历届),国家对农业、农村、农民的政策有非常多的政策,为便于各位朋友把握政...
最新或2023(历届)农业保险... 今年年初在全国开展的中央财政保费补贴型农业保险产品升级改造工作已经完成,涵盖15类农作物和6类养殖品...