离散特征处理
离散特征通常是可枚举的特征如类别特征,或是可推导的特征如连续自增ID,有些特征尽管在数学上是无限集合,但在实际使用过程中还是使用了有限子集,因此离散特征就是由离散值构成的有限集合
进行映射
将不同形式的离散值映射到序号(正整数,因为0通常是作为填充值)
转成向量
one-hot编码:序号映射为高维稀疏向量
embedding:序号映射为稠密向量,embedding其实可以视作参数矩阵×one-hot编码
其他编码方式:核心思路就是将序号映射为一个向量或值
连续特征处理
连续特征通常是可以直接作为模型输入的,但也需要进行一些数据处理
- 标准化(标准正态分布)
- 归一化(通常是MinMax)
- 鲁棒标准化,使用中位数与四分位距进行缩放
- 分桶,得到的桶可视为离散特征做进一步处理
- 函数变换
- 特征交叉
语义ID
语义ID是对embedding向量的量化,对于L层语义ID,每层通过聚类获得K个聚类中心,对于要量化的emb,查找当前层最近的聚类中心,它的序号即为量化后的一个索引值,将emb减去聚类中心得到残差向量进入下一层,以此类推直到结束,由此得到了量化后的语义ID,语义相近的emb在量化后在语义空间中也是相近的