【新闻源监控系统】发布了0.3.1版本,作为技术探索性项目,本次更新在0.2.0的基础上,增加如下新特性:
- 爬虫与 API 部署到 docker 容器中
- 系统具有了人工智能 NLP 特性,包括关键字提取、新闻分类、情感评价。模型都采用 NLP 工具现成的,在情感评价和新闻分类上的准确率还有待提高。
- 关键字提取使用 HanLP
- 新闻分类使用 THUCTC
- 情感评价使用 SnowNLP
- 移植爬虫到 python scrapy 框架下
顺着新闻分类的开发,看了一下朴素贝叶斯算法,不过还需要先复习复习线性代数。
文章《我是如何用机器学习技术帮助 HR 省时间的》中,提到的三种机器学习的文本分类算法: TextGrocery,fastText,Naive Bayes都值得一一细看一下。