商品标题类目判断的实现

根据已有的商品类目标题库,使用Liblinear生成模型,对未知品类商品的标题分类。本文档是工程文档,分类方法的选择,算法的参数设定,benchmark参考我的另一篇博客商品标题类目预判算法调参。

工程结构:

包结构

train:训练入口

category:类目精简及映射

model:训练集和测试集的数据结构

examiner:训练效果检测

predict:单个商品tit......

在项目中解决python2.*中文编码问题

从用户行为日志中检测到用户的搜索行为,从而获得搜索关键词。

搜索关键词的获取

日志读取

面对海量的用户行为日志,使用Hadoop Streaming工具做初始的数据提取,根据MapReduce模型。

Map阶段输出:

用户id,网站类型,搜索关键词,跳转前出现次数,跳转后出现次数

Reduce阶段输出:

用户id,网站类型,

搜索引擎的正则表达:

根据某段时间各搜索引......

Aprior关联算法的简单应用

现有用户的浏览行为记录日志,要找出用户最习惯的,特征最明显的浏览模式,如图那个有名的“啤酒和尿布”的例子。

具体应用中,已知某guid最习惯的浏览行为是tag2->tag4->tag6,当我们检测到他有tag2->tag4的浏览行为时候,就可以给它推tag6相关的文章和广告啦!

Apriori算法的wiki:

盗图一张,万一作者看到联系马上更改: