想请教大家一个关于 web 请求或者说爬虫方面的问题

lic2zac:小弟是做 python 爬虫的,用的是大家很熟悉的库 requests, 今天遇到一个很神奇的现象,在爬取一个国外网站的过程中, 它有 xx.cn 和 xx.com 这两个域名,
然后我在并发的请求 AB 两个商品数据时发生了以下状况(这几个情况我试了很多遍, 都是这样)

  1. 用同一个 session 并发请求 xx.com/A 和 xx.com/B 的时候没有问题

  2. 用同一个 session 并发请求 xx.cn/A 和 xx.cn/B 的时候发现出现了 A 的响应数据给了 B 的请求, B 的响应数据给了 A 的请求(但是大部分时候都是正确的,应该也和反爬无关)

  3. 每个请求单独生成一个 session, 并发请求 xx.com/A 和 xx.com/B 的时候没有问题, 并发请求 xx.cn/A 和 xx.cn/B 也没有问题

我想问的是:

  1. 会不会是他们.cn 和.com 用的技术不一样, 导致.cn 的有这个问题?

  2. web 服务会有 bug 导致出现这个问题么?

感谢大家 0.0

kop1989:估计是.cn 的服务器端是一个壳,通过 http 接口再去.com 的服务器去取结果。
但肯定这过程中存在异步转同步的操作,比如.com 中有个针对.cn 的请求缓存队列。
然后这个队列的返回是以 sessionkey 或者说 sessionID 或者等等特征 id 作为唯一值的。
lz 用请求工具直接调接口,导致特征 id 不唯一,就会出现内存泄漏的情况。

如何让 Web 服务器少消化一些垃圾数据?

Wizards:用 netcat 执行了如下一行命令:向某个弹幕网站的服务器端口写空字符。 dd if=/dev/zero bs=10MB count=1 | nc -n -N 120.92.174.135 80 大厂服务器可能是速战速决,直接返回了 EOF,没有标准 HTTP 响应。 对于我自己的服务器,执行相同的指令。Nginx 傻傻地接受了 10MB …

把 Python web 当 PHP web 写

abersheeran:https://github.com/Aber-s-practice/fake-php 随手建了一个项目玩玩,仅供娱乐。如果你喜欢 .py 的后缀,把 .php 改成 .py 就行了。 哈哈哈,有时候这种设计之外的用法还是蛮有意思的。

Java Web Start无法启动 - java

在Windows 7 x64计算机上,启动远程部署的Web Start应用程序时遇到问题(Web Start应用程序按预期在另一台PC上正确启动)。在IE或FF中,我单击Web Start启动链接,下载了JNLP,它似乎已执行并且什么也没有发生。我看到javaws.exe进程正在运行。我没有看到java.exe运行。我不知道它是否相关,但我也无法运行Java…

前端新手,想做个自己的个人博客网站,从哪里入手比较好

rodrick:一年传统 web 开发经验,目前刚学完 vue,node 学习中,还需要掌握什么知识,或者说要怎么上手去做比较好,是找项目跟做比较好还是完全自己规划一个比较好,因为没有个人完全独立开发的经验

如何学习数据库建表

admin7785:如题,想学习一下普通 web 项目中都需要怎么建表,例如:1. 表必需字段2. 不同的表之间应该怎么关联3. 等等...数据库包括但不限于 MySQL PgSQL 等;目前参与的项目都是半路接手的,所以在项目中还没经历过建表,想问问大家有没有什么好的渠道,资料等推荐,如有帮助,十分感谢