面试360搜索算法,问上亿的特征向量怎么存,我说用mys…

面试360搜索算法,问上亿的特征向量怎么存,我说用mysql啊,然后就凉了[冷汗]

程序猿.朱仝:MySQL兜不住啊

前京东员工:稀疏矩阵存啊

程序猿.徐盛:稀疏矩阵怎么处理呢,不是很懂。在不能降维的情况下,我感觉这个用分词向量中的embedding是不是一种方式

前京东员工:你没做过这个,那就不知道了,做过的都知道,什么千亿样本,百亿特征,都特么唬人的

程序猿.一次改一年:你说用硬盘存

程昱:最近文本语义向量是用语义树

程序猿.简雍:会不会用分布式数据库可以,但是查询慢呀

程序猿.简雍:他说每个特征向量是100维,我没处理过这么大数据

程序猿.简雍:可是树太大,一次加载到内存是不是很麻烦

阿里巴巴员工:我们就做到了百亿,正在往千亿做,搜索广告,不唬人啊

慕容寒江:妈妈团队?

美团点评员工:m

雷横:很简单啊,用pq

前京东员工:随便交叉一下就是百亿了,还不唬人?

360员工:想确定怎么存,先确定怎么用

无限极员工:m

曲非烟:m

百度员工:m

百度员工:存参数服务器上

和你做兄弟他大舅:固态加mysql没问题

程序猿.袁尚:内存加硬盘

程序猿.无牙仔:nosql啊

程序猿.二狗你变了:用移动硬盘

程序猿.低压锅蒂亚戈:m

斯玛特:M

广州唯品会信息科技有限公司员工:你们怎么做到存那么多特征,简单说说呢

百度员工[2]:固态啊,直接生成索引

中国互联网COO俱乐部员工:去360,涉及上亿的数据是日常操作了

绿竹翁:用机械硬盘存

程序猿.何三七:旁观学习一下

南京必拓狮网络科技有限公司员工:m

阿里巴巴员工:不要小瞧交叉,效果来的猛来的直接

阿里巴巴员工:做个在线的分布式存储

程序猿.冲虚:m

美团点评员工[2]:你还不如说存电脑里[坏笑]

趣头条员工:参数服务器了解一下

红太狼:大佬考虑小厂算法岗位吗?[坏笑]我可以给推荐

广州唯品会信息科技有限公司员工:有没有用来源的框架?

前搜狗员工:存特征的生成方法,比如谁和谁交叉,用的时候根据生成方法 直接生成上亿特征就行了

程序猿.丹青生:交差后训练得到的特征向量也要存储

程序猿.马良:我最近在做推荐,看你们公司发出来的技术博客,特征上千亿……我想到头爆,也才想到几十个特征域,二阶的怎么交叉组合也弄不到上亿维度啊,你们的人,物品表示都是用onehot吗?还是embedding……可以简述下嘛老哥

程序猿.马良:老哥的意思是,只存原始的特征域,等请求过来了,在拿到对应的特征做各种特征预处理,生成算法需要的特征向量吗?

程序猿.马良:我也很好奇这个……看了很多公司写的博客,也没看到说怎么做的这个

前搜狗员工:几亿维模型存储没难度的呀。。这里主要说的样本吧

前搜狗员工:对。但是一般需要公司基础设施比较完善,单个项目你要这么搞,略微有点麻烦

今日头条员工:只能自己存结构吧,mysql咋存这种东西,一行一行?

腾讯员工:1百亿float占40g? 算上特征的key的容量也能放到内存了吧

阿里巴巴员工:开源的一般都是离线训练框架,xdl、paddlepaddle之类的,在线rtp基本没开源的,跟内部的运维调度系统、基础组建关系很大,一开源就得开源整套了,没人这么干。tensorflow自带的那个tfserving性能比较龊,paddlepaddle开源一个gpu的inference lib,或者tensorrt,攒起来用白

百度员工[3]:在线分布式啊

郭嘉:你说用内存条

程序猿.一次改一年:你说用硬盘存

程序猿.朱仝:MySQL兜不住啊

前京东员工:你没做过这个,那就不知道了,做过的都知道,什么千亿样本,百亿特征,都特么唬人的

前京东员工:随便交叉一下就是百亿了,还不唬人?