【新闻源监控系统】具备了自然语言处理特性

新闻源监控系统】发布了0.3.1版本,作为技术探索性项目,本次更新在0.2.0的基础上,增加如下新特性:

  • 爬虫与 API 部署到 docker 容器中
  • 系统具有了人工智能 NLP 特性,包括关键字提取、新闻分类、情感评价。模型都采用 NLP 工具现成的,在情感评价和新闻分类上的准确率还有待提高。
  • 关键字提取使用 HanLP
  • 新闻分类使用 THUCTC
  • 情感评价使用 SnowNLP
  • 移植爬虫到 python scrapy 框架下

顺着新闻分类的开发,看了一下朴素贝叶斯算法,不过还需要先复习复习线性代数。

文章《我是如何用机器学习技术帮助 HR 省时间的》中,提到的三种机器学习的文本分类算法: TextGrocery,fastText,Naive Bayes都值得一一细看一下。

【新闻源监控系统】——一位网络新闻编辑的Web全栈开发实践

在大楚网做新闻编辑的时候,我一直梦寐以求有个工具,让新闻监控和部分转载工作自动化,这样我就能更优雅的编辑标题和写Tips了,所以我开始尝试做这么个工具。

新闻源监控系统(Auto News System)

项目名暂定——新闻源监控系统(Auto News System)

现在还只是个雏形,已实现监控、记录、查询【湖报系】【长报系】【大楚网】的新闻更新。

送给所有在编辑岗位辛勤工作的编辑们。


现状

当前监控爬虫运行在自己的电脑上,偶尔会离线,应用界面右下角有标示当前监控服务器在线、离线状态。

Bug与需求请在文末留言,我会尽快反馈、处理。


动机

加过一个群,名叫”苦逼的网编停不下来”的群,是6年前我在一房产网站做编辑的时候,群里都是全国各地站点的编辑们。大家在群里讨论工作、发闹骚,最热闹时每天群里会有上千条消息。

断断续续做记者、编辑约6年时间,觉得网络编辑还算件有乐趣的工作。每天早上打开电脑,从各处搜集信息,然后筛选、编辑、归类、比较、分析、排序、制作封面配图、发布,最后得到有序的新闻条目、房产行业信息和漂亮的页面,心里有大大的满足感。

但编辑中有大量枯燥重复的工作,汇总零散信息、人工值守新闻更新、复制粘贴。3年前有过用自动采集方案来代替的想法,简单弄过一段时间”按键精灵””火车头采集”,但技术实力不过关,实际工作中并没起到什么作用。

现在虽然不做编辑工作,但作为一个 Code for a Better World 的 Web Developer,我觉得这会是一项有意义、有挑战的工作。

计算机简直是做这些辛苦工作的最佳”人选”,所以可爱的小编们就能解放生产力,将更多精力投入到思考、学习、设计、撰写等方面,将编辑工作更提高一个层次。

“苦逼的小编”也可以停下来,有更多时间优雅的喝咖啡。感觉生活都变更美好了呢:)


实践意义及技术实现

2000年接触Web页结缘Javascript,到如今NPM成为世界上最大包管理器NPMNodeJS的软件包管理器),让我发现,我能利用现有能力去解决很多以前难以解决的问题,顺便收获一些现在没有的能力。

当前的技术实现包含:

未来开发自动新闻分类的时候,还能接触些中文自然语言处理