登录节点如何与Slurm群集中的计算节点通信? - python

我只是开始使用随Slurm Workload Manager运行的计算集群。我对计算节点在计算时如何与登录节点通信感到好奇,因为要运行的脚本与该脚本可能读取的其他文件一起存储在登录节点中。

例如,在工作词典中,浮点列表以可以用pickle加载的格式存储。我希望在计算节点上运行的脚本如下所示:

import pickle
with open('data_list.db', 'rb') as source_file:
    data_list = pickle.load(source_file)

data_sum = sum(data_list)
print(data_sum)

如果我通过bash脚本提交此example.py脚本

#!/bin/bash
#SBATCH --job-name=test
#SBATCH --partition=the_partition
#SBATCH --nodes=1
#SBATCH --ntasks=6
python example.py

在登录节点和计算节点上究竟运行了什么?

参考方案

Slurm希望登录节点和计算节点都可以访问同一网络文件系统(通常为NFS)或并行文件系统(BeeGFS,Lustre等),以便可以在导出的任何文件中读写每个文件。任何计算节点的目录。

Python GPU资源利用 - python

我有一个Python脚本在某些深度学习模型上运行推理。有什么办法可以找出GPU资源的利用率水平?例如,使用着色器,float16乘法器等。我似乎在网上找不到太多有关这些GPU资源的文档。谢谢! 参考方案 您可以尝试在像Renderdoc这样的GPU分析器中运行pyxthon应用程序。它将分析您的跑步情况。您将能够获得有关已使用资源,已用缓冲区,不同渲染状态上…

Python:集群作业管理 - python

我在具有两个阶段的计算群集(Slurm)上运行python脚本,它们是顺序的。我编写了两个python脚本,一个用于阶段1,另一个用于阶段2。每天早上,我检查所有第1阶段的工作是否都以视觉方式完成。只有这样,我才开始第二阶段。通过在单个python脚本中组合所有阶段和作业管理,是否有一种更优雅/自动化的方法?我如何知道工作是否完成?工作流程类似于以下内容:w…

Python uuid4,如何限制唯一字符的长度 - python

在Python中,我正在使用uuid4()方法创建唯一的字符集。但是我找不到将其限制为10或8个字符的方法。有什么办法吗?uuid4()ffc69c1b-9d87-4c19-8dac-c09ca857e3fc谢谢。 参考方案 尝试:x = uuid4() str(x)[:8] 输出:"ffc69c1b" Is there a way to…

Python sqlite3数据库已锁定 - python

我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到,如果应用程序被强制关闭(通过错误或通过任务管理器结束),则会收到sqlite3错误(sqlite3.OperationalError:数据库已锁定)。我想这是因为在应用程序关闭之前,我没有正确关闭数据库连接。我已经试过了: connectio…

python:ConfigParser对象,然后再阅读一次 - python

场景:我有一个配置文件,其中包含要执行的自动化测试的列表。这些测试是长期循环执行的。   配置文件的设计方式使ConfigParser可以读取它。由于有两个三个参数,因此我需要通过每个测试。现在,此配置文件由script(s1)调用,并且按照配置文件中的列表执行测试。Script(s1)第一次读取配置,并且在每次测试完成后都会执行。阅读两次的要求:由于可能会…