caomaocao的家
  • 首页
  • 归档

Flask app支持命令行输入启动

发表于 2017-01-25   |   阅读次数 2558

一个flask服务,它能随时接收指定店铺id来计算交易信息,又可以在指定时间对所有店铺计算。

POST参数:

flag: #True为全部店铺,False为指定店铺

shop_id:# 可以为空,当flag=False时,必须有店铺id

随时接收POST body开始计算,半夜接收个全量......

阅读全文 »

搜索引擎toy实现 by Python

发表于 2016-12-26   |   阅读次数 363

1. 倒排表:

1. 第一列设计:

1. 跳跃表

2. Hash表 如果就中文还好说,cookie咋办冲突很大;不适合磁盘

3. B+树,叶子节点存mmap offset;因为底层叶子顺序连接,适合多路归并;

4. trie树

2. 第二列设计:倒排文件放磁盘,MMAP映射到内存

2. 文本相关性......

阅读全文 »

大文本文件处理实例

发表于 2016-10-12   |   阅读次数 410

做数据挖掘工作,最耗时,最费脑子的步骤应该是数据预处理了。

扫库出来格式:

类目 商品id 来源网址 标题

整个商品库扫下来的.txt很大,大约3亿条,20个G,我们的类目体系(类目树)全展开,大约15000+个类目,想在每个类目下的标题,使用topic model做一些数据挖掘工作......

阅读全文 »
< 1 2 3 4 >
15 日志
5 标签
RSS
©2023
Powered By - Bitcron
Theme - NexT