面试360搜索算法，问上亿的特征向量怎么存，我说用mys…

面试360搜索算法，问上亿的特征向量怎么存，我说用mysql啊，然后就凉了[冷汗]

程序猿.朱仝：MySQL兜不住啊

前京东员工：稀疏矩阵存啊

程序猿.徐盛：稀疏矩阵怎么处理呢，不是很懂。在不能降维的情况下，我感觉这个用分词向量中的embedding是不是一种方式

前京东员工：你没做过这个，那就不知道了，做过的都知道，什么千亿样本，百亿特征，都特么唬人的

程序猿.一次改一年：你说用硬盘存

程昱：最近文本语义向量是用语义树

程序猿.简雍：会不会用分布式数据库可以，但是查询慢呀

程序猿.简雍：他说每个特征向量是100维，我没处理过这么大数据

程序猿.简雍：可是树太大，一次加载到内存是不是很麻烦

阿里巴巴员工：我们就做到了百亿，正在往千亿做，搜索广告，不唬人啊

慕容寒江：妈妈团队？

美团点评员工：m

雷横：很简单啊，用pq

前京东员工：随便交叉一下就是百亿了，还不唬人？

360员工：想确定怎么存，先确定怎么用

无限极员工：m

曲非烟：m

百度员工：m

百度员工：存参数服务器上

和你做兄弟他大舅：固态加mysql没问题

程序猿.袁尚：内存加硬盘

程序猿.无牙仔：nosql啊

程序猿.二狗你变了：用移动硬盘

程序猿.低压锅蒂亚戈：m

斯玛特：M

广州唯品会信息科技有限公司员工：你们怎么做到存那么多特征，简单说说呢

百度员工[2]：固态啊，直接生成索引

中国互联网COO俱乐部员工：去360，涉及上亿的数据是日常操作了

绿竹翁：用机械硬盘存

程序猿.何三七：旁观学习一下

南京必拓狮网络科技有限公司员工：m

阿里巴巴员工：不要小瞧交叉，效果来的猛来的直接

阿里巴巴员工：做个在线的分布式存储

程序猿.冲虚：m

美团点评员工[2]：你还不如说存电脑里[坏笑]

趣头条员工：参数服务器了解一下

红太狼：大佬考虑小厂算法岗位吗？[坏笑]我可以给推荐

广州唯品会信息科技有限公司员工：有没有用来源的框架？

前搜狗员工：存特征的生成方法，比如谁和谁交叉，用的时候根据生成方法直接生成上亿特征就行了

程序猿.丹青生：交差后训练得到的特征向量也要存储

程序猿.马良：我最近在做推荐，看你们公司发出来的技术博客，特征上千亿……我想到头爆，也才想到几十个特征域，二阶的怎么交叉组合也弄不到上亿维度啊，你们的人，物品表示都是用onehot吗？还是embedding……可以简述下嘛老哥

程序猿.马良：老哥的意思是，只存原始的特征域，等请求过来了，在拿到对应的特征做各种特征预处理，生成算法需要的特征向量吗？

程序猿.马良：我也很好奇这个……看了很多公司写的博客，也没看到说怎么做的这个

前搜狗员工：几亿维模型存储没难度的呀。。这里主要说的样本吧

前搜狗员工：对。但是一般需要公司基础设施比较完善，单个项目你要这么搞，略微有点麻烦

今日头条员工：只能自己存结构吧，mysql咋存这种东西，一行一行？

腾讯员工：1百亿float占40g? 算上特征的key的容量也能放到内存了吧

阿里巴巴员工：开源的一般都是离线训练框架，xdl、paddlepaddle之类的，在线rtp基本没开源的，跟内部的运维调度系统、基础组建关系很大，一开源就得开源整套了，没人这么干。tensorflow自带的那个tfserving性能比较龊，paddlepaddle开源一个gpu的inference lib，或者tensorrt，攒起来用白

百度员工[3]：在线分布式啊

郭嘉：你说用内存条

程序猿.一次改一年：你说用硬盘存

程序猿.朱仝：MySQL兜不住啊

前京东员工：你没做过这个，那就不知道了，做过的都知道，什么千亿样本，百亿特征，都特么唬人的

前京东员工：随便交叉一下就是百亿了，还不唬人？

面试360搜索算法，问上亿的特征向量怎么存，我说用mys…

腾讯的同事天天给我安利让我看《三体》，说马化腾和雷军也在…