0
点赞
收藏
分享

微信扫一扫

Chindle内容设计【2】


简单的词频统计并不能很好地用于知识发现,例如下面的,高频词汇基本都是垃圾信息。怎么搞?求专业人士指导 O(∩_∩)O


 


--update--


 感谢超哥给的tips,实用stopwords(停用词)果然很给力,能把大部分无意义的词汇过滤掉。


停用词:在基于词的检索系统中,停用词是指出现频率太高、没有太大检索意义的词,如“的、是、太、of、the、什么、可以”等;在基于支持向量机的自动分类中,停用词指没有实意的虚词和类别色彩不强的中性词。 参考文献: http://www.sciencetimes.com.cn/upload/blog/file/2008/10/20081024135512290497.pdf 


--update--


感谢镇锋的建议,TF/IDF应该是一个不错的解决思路。TF-IDF的关键是引入多份文件(多个微博用户/多条微博)来对关键词进行统计,然后找出其中比较具有”特色“的词汇。这些特色词汇可能是我们希望的内容。


很多不同的数学公式可以用来计算TF- IDF。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个,而词语「母牛」出现了3次,那麽「母牛」一词在该文件中的词频就是 0.03 (3/100)。一个计算文件频率 (DF) 的方法是测定有多少份文件出现过「母牛」一词,然後除以文件集里包含的文件总数。所以,如果「母牛」一词在1,000份文件出现过,而文件总数是 10,000,000份的话,其文件频率就是 0.0001 (1000/10,000,000)。最後,TF-IDF分数就可以由计算词频除以文件频率而得到。以上面的例子来说,「母牛」一词在该文件集的TF- IDF分数会是 300 (0.03/0.0001)。这条公式的另一个形式是将文件频率取对数。


参考:http://lzj0470.iteye.com/blog/306053


-update-

任务的本质是你用几个词,去描述这个人。
目标函数是:
1.尽可能多的覆盖这个人的属性
2.重要属性大字,次要属性小资
约束条件是:
有限的描述词

其中“重要”的定义,是问题的关键。
可以假设认为:
1. 词性是名词、术语、形容词通常比较重要。比如:机器学习、统计、足球、Big Table;介词可能不重要,比如:通过、因为等。
2.  有限的个数,如果词之间多一些 独立、正交、不相关 等 关系,则覆盖较全。假设限定M个关键词,我们可以先找top 2M 个关键词,然后去掉
    其中有一定语义关系的,比如“包含关系”、“近似关系”等。
3. td-idf都只根据了词出现的个数统计重要性。词出现的位置 有时更加重要。比如【又现“艳照门”】
4. 通过 词  出现的 上下文 判定词的 权重。 比如:我转发的微博中,“京东”出现了一次,但是在改微博被其他人转发的时候,也都提到了
”京东“,那么京东的权重应该大些。


这些都是 应用场景的 分析, 算法实现 可以调研下。


 




附,停用词使用前和使用后的对比:




什么 => 6


时代 => 5


这个 => 4


没有 => 4


歪脖 => 3


可以 => 3


哈哈哈 => 3


自己 => 3


每天 => 2


绝望 => 2


qq => 2


优化 => 2


今天 => 2


欢迎 => 2


因为 => 2


真是 => 2


要是 => 2


别人 => 2


一起 => 2


点点 => 2


积极 => 2


搞起 => 2


疯狂 => 2


容易 => 2


应用 => 2


北京 => 2


强大 => 2


新浪 => 2


关系 => 2


=> 2


无比 => 2


成功 => 2


不要 => 1


你们 => 1


知道 => 1


气馁 => 1


困难 => 1


谅解 => 1


承受 => 1


好事 => 1


救赎 => 1


唯一 => 1


任何 => 1


答辩 => 1


面对 => 1


所有 => 1


让人 => 1


心平气和 => 1


依靠 => 1


任何人 => 1


悲伤 => 1


痛苦 => 1


并不是 => 1


一件 => 1


真正 => 1


得到 => 1


快乐 => 1


妙手偶得 => 1


刚刚 => 1


完成 => 1


470 => 1


惊喜 => 1


谦卑 => 1


这样 => 1


带给 => 1


中期 => 1


快速 => 1


褪色 => 1


学习 => 1


加入 => 1


两点 => 1


国家 => 1


探雷 => 1


濡以 => 1


赞美 => 1


全都 => 1


出来 => 1


上传 => 1


0.5秒 => 1


试用 => 1


多谢 => 1


支持 => 1


66 => 1


大家 => 1


第一个 => 1


以内 => 1


发送 => 1


给出 => 1


提示 => 1


真是的 => 1


围观 => 1


就是 => 1


俄罗斯 => 1


均衡 => 1


消解 => 1


调度 => 1


有点 => 1


原则化 => 1


到底 => 1


绝对 => 1


毁灭 => 1


大设计 => 1


领悟 => 1


落定 => 1


江南岸 => 1


二月 => 1


之一 => 1


终将 => 1


亿万年 => 1


追求 => 1


永恒 => 1


一场 => 1


喝彩 => 1


转化 => 1


系列 => 1


忧愁 => 1


沉思 => 1


果然 => 1


值得 => 1


一个 => 1


坚定 => 1


毕业 => 1


送审 => 1


成立 => 1


不少 => 1


悔恨 => 1


试试 => 1


太帅 => 1


关注 => 1


一下 => 1


不是 => 1


没法 => 1


2010 => 1


纠正 => 1


浮沉 => 1


克服 => 1


拖延 => 1


主动 => 1


好玩 => 1


真人 => 1


免费 => 1


2011 => 1


暑期 => 1


精彩 => 1


10000张 => 1


第二季 => 1


可贵 => 1


懂得 => 1


珍惜 => 1


活动 => 1


大片 => 1


邀请 => 1


起床 => 1


戴文渊 => 1


看透 => 1


细水长流 => 1


分享 => 1


行动 => 1


每人 => 1


两张 => 1


有限 => 1


赶快 => 1


评论 => 1


转发 => 1


交互 => 1


入门 => 1


居家 => 1


必备 => 1


东西 => 1


早点 => 1


争取 => 1


纳斯达克 => 1


美股 => 1


投资 => 1


几本 => 1


酱紫 => 1


崔浩波 => 1


中午 => 1


1点10分 => 1


睡到 => 1


2点30分 => 1


空白 => 1


国内 => 1


存在 => 1


价值 => 1


一样 => 1


填补 => 1


过去 => 1


五六年 => 1


睡觉 => 1


晚安 => 1


各位 => 1


胡说 => 1


寂寞 => 1


细分 => 1


午睡 => 1


包括 => 1


按摩 => 1


小憩 => 1


四月 => 1


一日 => 1


以前 => 1


上课 => 1


现在 => 1


一晃 => 1


怀念 => 1


地方 => 1


59 => 1


永远 => 1


记忆 => 1


好美 => 1


刘瑜 => 1




 




用停用词处理后好了不少,但还是有些词比较蛋疼:




时代 => 5


歪脖 => 3


哈哈哈 => 3


绝望 => 2


qq => 2


优化 => 2


别人 => 2


点点 => 2


搞起 => 2


疯狂 => 2


北京 => 2


强大 => 2


新浪 => 2


关系 => 2


=> 2


无比 => 2


成功 => 2


气馁 => 1


困难 => 1


谅解 => 1


承受 => 1


好事 => 1


救赎 => 1


唯一 => 1


答辩 => 1


面对 => 1


让人 => 1


心平气和 => 1


任何人 => 1


悲伤 => 1


痛苦 => 1


一件 => 1


快乐 => 1


妙手偶得 => 1


刚刚 => 1


470 => 1


惊喜 => 1


谦卑 => 1


带给 => 1


中期 => 1


快速 => 1


褪色 => 1


学习 => 1


两点 => 1


国家 => 1


探雷 => 1


濡以 => 1


赞美 => 1


全都 => 1


上传 => 1


0.5秒 => 1


试用 => 1


多谢 => 1


支持 => 1


66 => 1


第一个 => 1


以内 => 1


发送 => 1


给出 => 1


提示 => 1


真是的 => 1


围观 => 1


俄罗斯 => 1


均衡 => 1


消解 => 1


调度 => 1


原则化 => 1


到底 => 1


毁灭 => 1


大设计 => 1


领悟 => 1


落定 => 1


江南岸 => 1


二月 => 1


终将 => 1


亿万年 => 1


追求 => 1


永恒 => 1


一场 => 1


喝彩 => 1


转化 => 1


系列 => 1


忧愁 => 1


沉思 => 1


值得 => 1


一个 => 1


坚定 => 1


毕业 => 1


送审 => 1


成立 => 1


不少 => 1


悔恨 => 1


试试 => 1


太帅 => 1


关注 => 1


没法 => 1


2010 => 1


纠正 => 1


浮沉 => 1


克服 => 1


拖延 => 1


主动 => 1


好玩 => 1


真人 => 1


免费 => 1


2011 => 1


暑期 => 1


精彩 => 1


10000张 => 1


第二季 => 1


可贵 => 1


懂得 => 1


珍惜 => 1


活动 => 1


大片 => 1


邀请 => 1


起床 => 1


戴文渊 => 1


看透 => 1


细水长流 => 1


分享 => 1


每人 => 1


两张 => 1


有限 => 1


赶快 => 1


评论 => 1


转发 => 1


交互 => 1


入门 => 1


居家 => 1


必备 => 1


东西 => 1


早点 => 1


纳斯达克 => 1


美股 => 1


投资 => 1


几本 => 1


酱紫 => 1


崔浩波 => 1


中午 => 1


1点10分 => 1


睡到 => 1


2点30分 => 1


空白 => 1


国内 => 1


价值 => 1


填补 => 1


五六年 => 1


睡觉 => 1


晚安 => 1


胡说 => 1


寂寞 => 1


细分 => 1


午睡 => 1


包括 => 1


按摩 => 1


小憩 => 1


四月 => 1


一日 => 1


上课 => 1


一晃 => 1


怀念 => 1


地方 => 1


59 => 1


永远 => 1


记忆 => 1


好美 => 1


刘瑜 => 1




 




较旧一篇:Chindle阅读(76)| 评论(23)| 分享(1)评论| 喜欢






Raywill 2011-10-13 00:39


@彭泽映 @熊皓




徐超 2011-10-13 00:39


stopwords 回复




Raywill 2011-10-13 00:41


回复徐超:分词是没有问题的,用的是sina的api,质量还可以。他们的分词给出了词性。




徐超 2011-10-13 00:42


回复Raywill:你要干什么? 回复




Raywill 2011-10-13 00:44


回复徐超:哈哈,我懂了。多谢多谢~ 停用词是比较给力。什么 => 6


这个 => 4


没有 => 4


可以 => 3


哈哈哈 => 3


自己 => 3


每天 => 2




这些都被干掉了。




徐超 2011-10-13 00:45


回复Raywill:词频统不能用于知识发现 => unsupervised learning 回复




Raywill 2011-10-13 00:47


回复徐超:online处理,太高级了跑不动啊。随便搞着玩,有个意思就行了。




徐超 2011-10-13 00:48


回复Raywill: unsupervised learning =>with model parameters 回复




Raywill 2011-10-13 00:48


回复徐超:求中文详解




徐超 2011-10-13 00:50


回复Raywill:google 回复




杨镇锋 2011-10-13 05:36


tf, idf? 回复




陆雪梅 2011-10-13 08:14


呃,肿么感觉你都已经搞起我们专业的东东来了,跟我们当初上的《信息组织与检索》挺像的嘛,哈哈 回复




常佳 2011-10-13 09:21


支持,我也是上次玩分词的时候知道了停用词这个东西。另外,过于过滤蛋疼词有啥新解了没?从词性角度可以吗?是不是名词更能代表个人的标签? 回复




Raywill 2011-10-13 09:33


回复常佳:清华的那个做得不错。基本都是名词。但是,名词中很多没有感情的词汇我还不知道如何过滤掉。Q聊。




Raywill 2011-10-13 09:33


回复陆雪梅:是嘛,求指导。




钟华 2011-10-13 09:37


itf不能解决问题?或者搞个正反集比较? 回复




Raywill 2011-10-13 09:42


回复钟华:ITF好像可以呢,刚才学习了下。我的理解是:TF-IDF的关键是引入多份文件(多个微博用户/多条微博)来对关键词进行统计,然后找出其中比较具有”特色“的词汇。这些特色词汇可能是我们希望的内容。不知道对不对?




钟华 2011-10-13 09:47


回复Raywill: 对的。 回复




朱亚东 2011-10-13 13:08


stopword list的过滤,是必须的;另外如果针对围脖的话,IDF是没有意义的 回复




Raywill 2011-10-13 13:25


回复朱亚东:有何好建议?




朱亚东 2011-10-13 17:01


回复Raywill:关键我不知道你想干嘛啊。。 回复




Raywill 2011-10-13 18:00


回复朱亚东:做一个跟”人人关键词“,”微博关键词“类似的应用。清华NLP实验室做了一个。你可以看看他们的效果。




熊皓 2011-10-13 19:28


关键词抽取,相关文献很多,我没研究这个,我说几个如果我去做的简单思路:


1.词性标注,去除一些ADJ,ADV之类意义不大的词


2.Topic model,用LDA跑一遍,每个topic取概率高的几个词


3.翻译模型,和检索一样,一篇文章对应若干个key words,可以建立翻译模型的。




前面两个比较容易实现


刘志远应该用了topic加上一些语义知识 回复


举报

相关推荐

0 条评论