为什么set()构造函数比list()慢 - python

我为set()和list()构造函数计时。 set()明显慢于list()。我使用没有重复项的值对它们进行基准测试。我知道设置使用哈希表是因为它变慢吗？

截至撰写本文时（3月8日），我正在使用Windows 3.的Python 3.7.5 [MSC v.1916 64位（AMD64）]。

#No significant changed observed.
timeit set(range(10))
517 ns ± 4.91 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
timeit list(range(10))
404 ns ± 4.71 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

当大小增加时，set()变得比list()慢得多

# When size is 100
timeit set(range(100))
2.13 µs ± 12.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
timeit list(range(100))
934 ns ± 10.6 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

# when size is ten thousand.
timeit set(range(10000))
325 µs ± 2.37 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
timeit list(range(10000))
240 µs ± 2.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

# When size is one million.
timeit set(range(1000000))
86.9 ms ± 1.78 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
timeit list(range(1000000))
37.7 ms ± 396 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

他们两个都渐近地采用O(n)。如果没有重复项，则set(...)不应近似等于list(...)。

令我惊讶的是，集合理解和列表理解没有显示出set()和list()这样的巨大偏差。

# When size is 100. 
timeit {i for i in range(100)}
3.96 µs ± 858 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
timeit [i for i in range(100)]
3.01 µs ± 265 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

# When size is ten thousand.
timeit {i for i in range(10000)}
434 µs ± 5.11 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
timeit [i for i in range(10000)]
395 µs ± 13.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

# When size is one million.
timeit {i for i in range(1000000)}
95.1 ms ± 2.03 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
timeit [i for i in range(1000000)]
87.3 ms ± 760 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

参考方案

为什么它们应该相同？是的，它们都是O（n），但是set()需要对每个元素进行哈希处理，并且需要考虑不唯一的元素。这意味着每个元素的固定成本更高。

大O没有说绝对时间，只是说输入时间随着输入量的增长而增长。在给定相同输入的情况下，两种O（n）算法可能花费大量时间来完成。您只能说，当两个函数的输入大小加倍时，所花费的时间将（大约）增加一倍。

如果您想更好地理解Big O，我强烈建议Ned Batchelder’s introduction to the subject。

当没有重复项时，不应将list（...）设置为近似等于。

不，它们不相等，因为list()不散列。没有重复就没有数字。

令我惊讶的是，集合理解和列表理解并没有显示出set()和list()这样的巨大偏差。

Python解释器循环执行的附加循环会增加开销，这些开销占据了所花费的时间。这样，set()的较高固定成本就不那么突出了。

还有其他差异可能会有所不同：

给定具有已知长度的序列，list()可以预分配足够的内存以适合那些元素。集合无法预分配，因为它们不知道会有多少重复。预分配避免了必须动态增长列表的（摊销）成本。
列表和集合理解一次只能添加一个元素，因此列表对象无法进行预分配，从而稍微增加了固定的每项成本。

Python GPU资源利用 - python

我有一个Python脚本在某些深度学习模型上运行推理。有什么办法可以找出GPU资源的利用率水平？例如，使用着色器，float16乘法器等。我似乎在网上找不到太多有关这些GPU资源的文档。谢谢！参考方案您可以尝试在像Renderdoc这样的GPU分析器中运行pyxthon应用程序。它将分析您的跑步情况。您将能够获得有关已使用资源，已用缓冲区，不同渲染状态上…

Python sqlite3数据库已锁定 - python

我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到，如果应用程序被强制关闭（通过错误或通过任务管理器结束），则会收到sqlite3错误（sqlite3.OperationalError：数据库已锁定）。我想这是因为在应用程序关闭之前，我没有正确关闭数据库连接。我已经试过了： connectio…

python-docx应该在空单元格已满时返回空单元格 - python

我试图遍历文档中的所有表并从中提取文本。作为中间步骤，我只是尝试将文本打印到控制台。我在类似的帖子中已经看过scanny提供的其他代码，但是由于某种原因，它并没有提供我正在解析的文档的预期输出可以在https://www.ontario.ca/laws/regulation/140300中找到该文档from docx import Document from…

Python ThreadPoolExecutor抑制异常 - python

from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED def div_zero(x): print('In div_zero') return x / 0 with ThreadPoolExecutor(max_workers=4) as execut…

Python:集群作业管理 - python

我在具有两个阶段的计算群集（Slurm）上运行python脚本，它们是顺序的。我编写了两个python脚本，一个用于阶段1，另一个用于阶段2。每天早上，我检查所有第1阶段的工作是否都以视觉方式完成。只有这样，我才开始第二阶段。通过在单个python脚本中组合所有阶段和作业管理，是否有一种更优雅/自动化的方法？我如何知道工作是否完成？工作流程类似于以下内容：w…

为什么set()构造函数比list()慢 - python

腾讯的同事天天给我安利让我看《三体》，说马化腾和雷军也在…