可以把一些 Python 开源项目当作第三方 Python 库来使用么?

Hlianbobo:我们使用 python 第三方库以避免自己造轮子。那么开源项目是否可以当作第三方库来使用么? 如果不能,原因是什么?举个例子。假设我想爬取大众点评的评论内容做数据分析。有两条路:

道路 1:学习 python 的爬虫知识,包括各种第三方爬虫库的使用,如何使用打码平台进行登录验证。如何做爬虫调度,如何针对目标网站的反扒机制针对性的克服反爬等等。其实就是使用他人积累的知识和写好的库实现自己的目的。你说完全可控么?好像也不尽然?那些库不支持的功能你有什么办法么?即使那些库都是开源的你会去看源码,改源码么?比较流行的库比如说 numpy 使用过程中遇到问题在网上搜索或者发帖求助应该会容易获得有用信息吧?我猜也很少有人去看 numpy 的源码寻求解决办法。

道路 2:github 上有个爬取大众点评内容的开源项目。从名字上开至少是针对大众点评开发的。按理说如何登录大众点评,如何克服反爬。包括爬下来的数据存储。这些问题都解决了。虽然未必 100%符合你的需求。但是感觉上应该比道路 1 要省心省力吧。一个硬币两面。因为他已经针对大众点评”定制化开发了“。所以也比较小众了。使用过程中遇到问题,发帖或搜索到有用相关信息的概率也比较低。大概率你要自己看源码消化吸收后自己设法解决。考虑到这些因素后于道路 1 相比,道路 2 还是好的选择么?更何况针对性这么强的一个开源项目,是否好用,也未可知,万一是个坑呢?如何识别是不是坑呢?

以上是我思考时想到的问题。想知道各位论坛大佬在面对以上问题时如何抉择?如何看待以上两条路,哪条路学习成本低?后期维护成本低?有过经历的欢迎现身说法。

以上我思考中反映出的一些认知偏差,还望各位读者指正!

Python 如何查某关键词在百度网页第几页?

cizimo:例如,在百度搜索 XXX 关键词后,想知道包含 YYY 的词在搜索结果的第几页? 这个能做到吗? 或者说有没有教程,砸一个链接给我呗,谢谢大家啦

Python 有没有监听鼠标点击网页相关元素的包呢?

18870715400:具体需求 比如说打开了 www.baidu.com ,当你鼠标点击了“百度一下”就可以获得这个对应的 id 或者是对应的 xpath 语法 如果没有对应的包,那么有什么可以具体实现的思路呢?

Python 现在最好用的包管理是啥?

maichael:最近为了给测试搭自动化测试,重新开始搞起 Python,但是整体工程结构比较苦恼。 重点是版本管理,requirements.txt 感觉不怎么好用。Pipenv? Tox? 还是其它的啥? 以及像 package.json 里 scripts 的用法,python 有类似的吗?cdyrhh:poetry

Python 如何优雅地处理子线程异常?

Te11UA:目前比较多的做法还是如下,出于担心未知异常、没有记录日志就退出子线程的情况下,在函数用一个大的 try-except 来进行 handle,或者是将主要逻辑放到 test_sth 中,使用 try-except 来捕获: def run(): try: test_sth() ... except Exception: log_exception…

Python GPU资源利用 - python

我有一个Python脚本在某些深度学习模型上运行推理。有什么办法可以找出GPU资源的利用率水平?例如,使用着色器,float16乘法器等。我似乎在网上找不到太多有关这些GPU资源的文档。谢谢! 参考方案 您可以尝试在像Renderdoc这样的GPU分析器中运行pyxthon应用程序。它将分析您的跑步情况。您将能够获得有关已使用资源,已用缓冲区,不同渲染状态上…