Feature Hashing for Large Scale Multitask Learning

介绍

hashing-trick：将高维输入向量映射到低维特征空间。

Φ: R^d -> R^^m where m << d

优点是保留稀疏性，且没有存储成本。

sign hash函数ξ: N -> {+1/-1}的作用是消除碰撞导致的偏差，本质上是做了两次哈希。

论文中主要以个性化邮件过滤器为例，垃圾邮件的标签数据不多，无法只对每个用户训练过滤器，而是每个用户的个性化过滤器加一个全局过滤器。 φ₀为全局hash函数，φ_u为个性化hash函数。用户的个性化hash函数φ_u为hash(concat(uid,word))

如上图所示，使用22位或更多的hash-table后，个性化的过滤器减少了30％的垃圾邮件。