标签:爬虫

  • 求教类似天眼查,企查查等爬虫公司,他们的数据源是哪里来的?商业爬虫项目有哪些挑战?

    时间:2020-10-7

    cnscorpions:一直有一个 idea,想要开发一个类似天眼查的项目,不知道他们的数据源怎么来的?商业爬虫项目的挑战有哪些? 有了解相关情况老哥,可以报料下,爬虫经验比较丰富的老哥也说下哈 locoz:天眼查、企查查相关问题可以先看看我在知乎上的这个回答: https://www.zhihu.com/answer/1310865497 商业爬虫项目的挑 […]

  • 自己国庆没啥事,写了一个爬虫,利用接口抓取数据,可是响应很慢,有啥解决办法?

    时间:2020-10-7

    jhdrfes:利用 github 客户端抓取数据,可是响应很慢,有啥解决办法呢?用啥代理或者服务器吗? finely:牢里个个都是人才,讲话又好听,楼主不妨跟他们取取经 locoz:响应慢先尝试挂梯子或者放境外服务器看看能不能提速,还不能的话就是服务器本身的响应慢,在这种情况下你是没有办法提升单个请求的效率的。 cccp2020:大部分响应慢是自身网速和对 […]

  • 简历求 review 应届 cv 被迫转行了 我该学点啥..

    时间:2020-10-7

    NohSpec:希望没错版.. 应届渣硕 cv 方向,坐标魔都,一开始盲目 all in 算法被锤了,卷的太厉害了。眼看秋招接近尾声,同届都跑路去做 java 开发了,这时候才意识到得快点上岸了。 目前就只会这些东西,比较杂,这几年下来除了论文相关很少接触别的东西,有一些只是单纯感兴趣才了解过。大概唯一优势就是上手比较快,所以想着再补一点争取在春招之前提升一 […]

  • 吐槽一下,国内的电商网站都不怎么支持按照尺寸范围搜索

    时间:2020-10-7

    est:之前买空调,放外机的地方,被该死的开发商放了一根粗壮的下水道占用了宽度,结果导致外机不好挑,在 jd 那是人肉翻外机尺寸好不容易找了个合适的。最后安装也是千辛万苦才放下去 然后是买冰箱,开发商两堵墙就 93cm 宽,这个尺寸有一些过滤条件可以用,但也有很多问题,美的某一款的 深度 和 宽度 就特么标反了。客服还不承认。。。。。你们见过 60cm 宽 […]

  • 请教 Python 多线程内存不释放怎么排查

    时间:2020-10-6

    r150r:新手写了一个多线程的爬虫,所有线程都执行完了,但是一直占着 1.5GB 的内存(任务数越多不释放的内存越多) 不知道怎么排查哪里出问题,pympler 看不太懂问题到底出在哪里,请教该如何正确的排查问题 执行多线程函数的代码: def mainfunc(tasknum, thread): tr = tracker.SummaryTracker() […]

  • 关于滑动验证码的浏览器识别

    时间:2020-10-6

    cxbeat:爬虫萌新,大佬请轻喷 最近想用 Python 写了一个投票脚本,奈何获取 cookie 的时候发现滑动验证码(是一家叫做同盾科技的)可以识别到是否是 bot 操作 具体表现为:用正常浏览器打开可以正常完成滑动验证,用 selenium 打开后可以滑动(同样为手动操作)但显示验证失败。 想问问各路大佬有没有遇到过这种比较高级的反爬?有什么破解方法 […]

  • qq 邮箱现在还是会访问用户邮箱内的链接吗,开了日志发现大部分是上海的 ip 不停的在访问链接

    时间:2020-10-4

    paowang:我还一直很疑惑,链接明明都是私密链接,但是每次用户打开一次之后,过个 10 分钟左右,30 分钟之内,总是有一个外地 ip 再次访问,而且 ua 都还挺真,看不出是爬虫。刚开始以为是 cdn 问题,换了另一家 cdn,域名也换了,发现还是会被点,搜了下怀疑可能是 qq 邮箱的问题 这些 ip 大部分是上海的例如 61.151.x.x,其中部分 […]

  • [远程] 招 [全栈工程师] [产品经理] 10 ~ 20 USDT/h Beancount.io, 硅谷 io, Touchbase.AI, etc

    时间:2020-10-2

    puncsky:TLDR: 全栈 React, React Native, TypeScript ;产品经理; $10 ~ $20 / 小时,USDT 支付;做各种 SaaS 、爬虫、React Native Expo 、Chrome 插件 详情请见 https://guigu.io/careers 我们需要更多的小伙伴 ( 2 位全职或者兼职全栈工程师、1 […]

  • 想问下,我把爬虫脚本放到 github,别人使用了,我会受到连带责任么?

    时间:2020-9-29

    coloz:脚本包括绕过反爬、模拟用户行为等功能。 PS:自己学习研究目的写的 evill:只要你收钱,或者指使别人使用就问题难道卖菜刀给别人,别人杀了人 你有责任? thefack:反正是有责任的,就看处不处理你的问题了,这绕过反爬就是有问题 raaaaaar:@thefack #2 有什么责任,谁来处理,什么法条,说清楚。 zoharSoul:@raaa […]

  • 12306 为什么不能请一个好的产品重新设计一下?

    时间:2020-9-29

    stone0311:12306 手机 app 每次打开就得重新登陆,如果你是防止爬虫的话,你通过一些其他的手段进行搞阿,你这直接让所有人承担因为爬虫的后果,这么简单粗暴,用飞猪抢票,还没等抢票的任务开始直接就把账号给锁定,你要能做好点,谁用第三方软件抢票? 再次 diss 一下智行火车票,马旦一不小心就得踩坑,扣钱,lj 软件 补充:应该是第三方登陆给顶下来 […]