一个flask服务,它能随时接收指定店铺id来计算交易信息,又可以在指定时间对所有店铺计算。
POST参数:
flag: #True为全部店铺,False为指定店铺
shop_id:# 可以为空,当flag=False时,必须有店铺id
随时接收POST body开始计算,半夜接收个全量......
一个flask服务,它能随时接收指定店铺id来计算交易信息,又可以在指定时间对所有店铺计算。
POST参数:
flag: #True为全部店铺,False为指定店铺
shop_id:# 可以为空,当flag=False时,必须有店铺id
随时接收POST body开始计算,半夜接收个全量......
1. 倒排表:
1. 第一列设计:
1. 跳跃表
2. Hash表 如果就中文还好说,cookie咋办冲突很大;不适合磁盘
3. B+树,叶子节点存mmap offset;因为底层叶子顺序连接,适合多路归并;
4. trie树
2. 第二列设计:倒排文件放磁盘,MMAP映射到内存
2. 文本相关性......
做数据挖掘工作,最耗时,最费脑子的步骤应该是数据预处理了。
扫库出来格式:
类目 商品id 来源网址 标题
整个商品库扫下来的.txt很大,大约3亿条,20个G,我们的类目体系(类目树)全展开,大约15000+个类目,想在每个类目下的标题,使用topic model做一些数据挖掘工作......