大文本文件处理实例

标签: 工程

做数据挖掘工作,最耗时,最费脑子的步骤应该是数据预处理了。

扫库出来格式:

类目 商品id 来源网址 标题

整个商品库扫下来的.txt很大,大约3亿条,20个G,我们的类目体系(类目树)全展开,大约15000+个类目,想在每个类目下的标题,使用topic model做一些数据挖掘工作。所以,数据预处理先得把这3亿条数据放到各自类目的.txt中。

word2vec词向量在3C产品同款检索中的应用

一. 数据源

根据类目型号采集3C产品的标题。品牌,型号,和标题均做分词处理,英文转小写,数据如下:

商品标题类目判断算法

类目体系:

经去重,合并,子到父类共有645个商品类目

选用Liblinear作为分类工具,相比于它的“兄弟”Libsvm,速度快很多。

程序结构

调参

因为对所有父级类目的训练做交叉验证非常缓慢,所以,从中随机选择了......