TextAnalytics

Jun 17, 2015

paradigmatic关系，即同一类单词

同一类单词的关键是上下文相似性，评价相似性：单词出现在上下文中出现概率组成的向量相乘

减少the这样频繁出现单词的贡献度，log（the出现的文档数/总文档数）

synagmatic关系

两个单词同时出现的，即两个单词各自出现时对另一个的贡献度

熵，单词出现越容易发现规律，比如the，几乎一定会出现，熵越低

明白某个单词出现后对于预测另一个单词时会降低它的熵，让它更容易预测

mutual information相互关系，因为p（x

y)和p（x

z）不可比，所以用i(x,y)这样的形式，实际上转换成了单词对关联度的排名问题

输入:文档集合，主题集合

输出：主题集合

由每个文档关于某个主题的概率组成的向量

每个文档主题概率向量的和应该为1

topic representation：一个单词不能很好的表示一个主题，所以使用一个单词w或者词组的集合以及出现在这个主题中的概率(p w

θ)来表示一个主题，如下

text : 0.03 mining : 0.04 topic : 0.02 travel : 0.0000002 meat : 0.0000005

每个文档可能涵盖不同的主题，因此对主题θ1，θ2，θB…等主题分配一个权重p(θ)，对文本中每个单词都有P(w

θ1)*P(θ1)+P(w

θ2)*P(θ2)+….，由于P(θ)的和为1，最终要求的实际就是使所有单词得到的值的乘积最大的θ们。

θB：背景主题，类似the，a，there这样实际无意义的单词。

最大似然估计考虑找出最好模型的拟合数据，贝叶斯同时考虑模型发生的可能性和对数据的拟合度，假设θ为模型参数，X为观测到的数据

maximum likehood：使p(X

θ)最大，即在所有模型中，最终得到的模型最有可能产生观测到的输出

bayesian：使P(X

θ) * P( θ )最大

使用topic mining 的方法可以对每个文本得到一个关于k个θ的覆盖率

不同之处