一. 数据源
根据类目型号采集3C产品的标题。品牌,型号,和标题均做分词处理,英文转小写,数据如下:
一. 数据源
根据类目型号采集3C产品的标题。品牌,型号,和标题均做分词处理,英文转小写,数据如下:
类目体系:
经去重,合并,子到父类共有645个商品类目
选用Liblinear作为分类工具,相比于它的“兄弟”Libsvm,速度快很多。
程序结构
根据已有的商品类目标题库,使用Liblinear生成模型,对未知品类商品的标题分类。本文档是工程文档,分类方法的选择,算法的参数设定,benchmark参考我的另一篇博客商品标题类目预判算法调参。
工程结构:
包结构
train:训练入口
category:类目精简及映射
mode......