Nodejs 文本语种识别
我们帮助客户搭建了一个信息采集系统,采集器用的nodejs,服务器端用的是我们熟悉的Drupal。我们采集的信息由于是各种语种都有的,我们系统有将其统一成英文的需求,所以我们就调用了百度的翻译API,统一翻译成为英文。
用了一段时间发现,百度翻译的接口有点小贵,考虑到大部分的文章都是英文,只需要把不是英文的翻译成英文即可。此时我们需要识别这些文本的语种,做一个判断。
我查了一下,NodeJS下面,文本的语种识别,主要有3个库可用tinyld、languagedetect、franc,下面是地址,还有最近更新时间,下载量的对比。
https://www.npmjs.com/package/tinyld 2 years ago 2.2