具有多种解析方法的草签合同 - python

为具有多种解析响应的方法的Scrapy Spider编写合同的最佳方法是什么?
我看到了这个answer,但对我来说听起来不太清楚。

我当前的示例:我有一个名为parse_product的方法,该方法可以提取页面上的信息,但是我需要为另一页面中的同一产品提取更多的数据,因此在此末尾我yield提出了一个新请求发出新请求并让新的回调提取这些字段并返回该项目的方法。

问题是,如果我为第二种方法编写合同,则它将失败,因为它没有meta属性(包含具有大多数字段的项目)。如果我为第一种方法写合同,则无法检查它是否返回字段,因为它返回的是新请求而不是项目。

def parse_product(self, response):
    il = ItemLoader(item=ProductItem(), response=response)
    # populate the item in here

    # yield the new request sending the ItemLoader to another callback
    yield scrapy.Request(new_url, callback=self.parse_images, meta={'item': il})

def parse_images(self, response):
     """
     @url http://foo.bar
     @returns items 1 1
     @scrapes field1 field2 field3
     """
     il = response.request.meta['item']
     # extract the new fields and add them to the item in here

     yield il.load_item()

在示例中,我将合同放在第二种方法中,但是它给了我KeyError上的response.request.meta['item']异常,而且,在第一种方法中填充了字段field1field2

希望它足够清楚。

参考方案

坦白说,我也不使用Scrapy合约,我也不建议任何人使用它们。他们有many issues和someday may be removed from Scrapy。

在实践中,我对蜘蛛进行单元测试的运气并不好。

为了在开发过程中测试蜘蛛,我将启用缓存,然后根据需要重新运行蜘蛛多次,以正确进行抓取。

对于回归错误,我最好使用即时进行验证的项目管道(或蜘蛛中间件)(无论如何,您只能在早期测试中发现很多东西)。制定一些恢复策略也是一个好主意。

为了保持健康的代码库,我会不断将类似库的代码从Spider本身移出,以使其更具可测试性。

抱歉,这不是您要的答案。

Python GPU资源利用 - python

我有一个Python脚本在某些深度学习模型上运行推理。有什么办法可以找出GPU资源的利用率水平?例如,使用着色器,float16乘法器等。我似乎在网上找不到太多有关这些GPU资源的文档。谢谢! 参考方案 您可以尝试在像Renderdoc这样的GPU分析器中运行pyxthon应用程序。它将分析您的跑步情况。您将能够获得有关已使用资源,已用缓冲区,不同渲染状态上…

Python sqlite3数据库已锁定 - python

我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到,如果应用程序被强制关闭(通过错误或通过任务管理器结束),则会收到sqlite3错误(sqlite3.OperationalError:数据库已锁定)。我想这是因为在应用程序关闭之前,我没有正确关闭数据库连接。我已经试过了: connectio…

python:ConfigParser对象,然后再阅读一次 - python

场景:我有一个配置文件,其中包含要执行的自动化测试的列表。这些测试是长期循环执行的。   配置文件的设计方式使ConfigParser可以读取它。由于有两个三个参数,因此我需要通过每个测试。现在,此配置文件由script(s1)调用,并且按照配置文件中的列表执行测试。Script(s1)第一次读取配置,并且在每次测试完成后都会执行。阅读两次的要求:由于可能会…

Python exchangelib在子文件夹中读取邮件 - python

我想从Outlook邮箱的子文件夹中读取邮件。Inbox ├──myfolder 我可以使用account.inbox.all()阅读收件箱,但我想阅读myfolder中的邮件我尝试了此页面folder部分中的内容,但无法正确完成https://pypi.python.org/pypi/exchangelib/ 参考方案 您需要首先掌握Folder的myfo…

Python Pickle调用构造函数 - python

我想使用Python的pickle序列化器提供缺少值的默认值。由于类很简单,因此默认值自然存在于类的__init__方法中。我从pickle documentation看到有__getnewargs__。但是,这仅适用于在“酸洗”之前存在__getnewargs__的情况。有什么方法可以让python pickle始终调用构造函数,而不是从未初始化的对象开始…