0
点赞
收藏
分享

微信扫一扫

大数据广告的关键定向技术(1)--TF-IDF 关键字标签


TF-IDF是词频与词权的组合,后者又称为逆向文本频率. 词频表示一个词语a,在文件A中的出现频率,即a的词语个数/A文件里词语总个数,词权/逆向文本频率的模型是log 文件总数S/包含a的所有文件集合(A,B,C,D…):

lgSA+B+C... l g S A + B + C . . .


并以词频与词权的乘积来描述,该

关键字a,对于该

文件A,在

所有文件系统S中的相关性


为什么拿log来做这样的模型监测呢?


首先,如果在这个文件系统中,每一个文件都包含了关键字a,那么显然大家都一样,A中包含a显然就没什么相关性了,这个时候总文件/包含a的文件数=1,所以要求

f(1)=0.


其次,假如所有文件中,只有A包含了a,即a对A的相关性取到了极强值,然后假如递增包含了a的新文件,则a对A的相关性迅速减弱,即要求f’(x)<0,加上S/A,B,C的非负属性,


显然 f(x)=logx比f(x)=x-1更加贴合


同样的模型还有 (-1/x) +1,其中x>0等……

对不同的关键字,计算对于文件A的相关性可以表示成
r=tf1*idf1 + tf2*idf2 ……
r越大,相关性越强,所以对每一个乘积,都要求该tf-idf值最大越好,一个广告的最好的标签,就是tf-idf最高的关键字,来表示,tfidf加项个数越多,该广告特征标识地更加精确


举报

相关推荐

0 条评论