egolearner / paper-note

7 stars 2 forks source link

Feature Hashing for Large Scale Multitask Learning #7

Open egolearner opened 4 years ago

egolearner commented 4 years ago

2009 ICML https://arxiv.org/pdf/0902.2206.pdf

介绍

hashing-trick:将高维输入向量映射到低维特征空间。

Φ: Rd -> R^m where m << d

优点是保留稀疏性,且没有存储成本。

Hash Functions

image

sign hash函数ξ: N -> {+1/-1}的作用是消除碰撞导致的偏差,本质上是做了两次哈希。

应用

论文中主要以个性化邮件过滤器为例,垃圾邮件的标签数据不多,无法只对每个用户训练过滤器,而是每个用户的个性化过滤器加一个全局过滤器。 image φ0为全局hash函数,φu为个性化hash函数。 用户的个性化hash函数φu为hash(concat(uid,word)) image

如上图所示,使用22位或更多的hash-table后,个性化的过滤器减少了30%的垃圾邮件。