发 帖  
经验: 积分:378
主管 苏州树云网络科技有限公司
江苏省 苏州市 技术支持
  • 算法介绍最近要做领域概念的提取,TFIDF作为一个很经典的算法可以作为其中的一步处理。关于TFIDF算法的介绍可以参考这篇博客【http://www】.ruanyifeng.com/blog/2013/03/tf-idf...
    0
    772次阅读
    0条评论
  • 软件:IDEA2014、Maven、HanLP、JDK;用到的知识:HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition;用到的数据集:http://www.threedw...
    0
    462次阅读
    0条评论
  • 前言:文本分类任务的第1步,就是对语料进行分词。在单机模式下,可以选择python jieba分词,使用起来较方便。但是如果希望在Hadoop集群上通过mapreduce程序来进行分词,则hanLP更加胜任。一、使用介绍...
    0
    278次阅读
    0条评论
ta 的专栏
关闭

站长推荐 上一条 /6 下一条

返回顶部