Archive for May, 2018

中文词向量

Friday, May 18th, 2018

我已经把用人民日报全文数据学习的词向量上传到了GitHub,也附上了相关的代码。但是考虑到版权的原因,并没有附上人民日报全文数据。

各位可以拿来做NLP分析或者做自己的词聚类分析。

中共数十年中央委员聚类分析

Thursday, May 10th, 2018

Names

上图是我根据几十年(不含近几年)的人民日报全文数据,利用 Word2Vec 技术对中共历届中央委员的聚类分析结果。更清晰的矢量图可在此下载

需要说明的是,由于 t-SNE 将高维向量降维的过程是一个随机过程,大图和小图有少许区别,但大体相似。

我检查了几个我熟悉一点的名字,感觉主要的聚类因素是其任职的地区或单位。不知道你们能不能发现更多有趣的东西。

至于说 Word2Vec 生成的完整的词向量,我也会找时间放到 GitHub 上。