通过Python从.idx3-ubyte文件或GZIP中提取图像 - python

我已经使用OpenCV中的facerecognizer创建了一个简单的人脸识别功能。它可以很好地处理人的图像。

现在,我想通过使用手写字符而不是人来进行测试。我遇到了MNIST数据集,但它们将图像存储在一个我从未见过的怪异文件中。

我只需要从中提取一些图像:

train-images.idx3-ubyte

并将它们保存为.gif

还是我误解了MNIST的事情。如果是,我在哪里可以得到这样的数据集?

编辑

我也有gzip文件:

train-images-idx3-ubyte.gz

我正在尝试阅读内容,但是show()不起作用,如果我read()会看到随机符号。

images = gzip.open("train-images-idx3-ubyte.gz", 'rb')
print images.read()

编辑

设法通过使用以下命令获得一些有用的输出:

with gzip.open('train-images-idx3-ubyte.gz','r') as fin:
    for line in fin:
        print('got line', line)

我必须以某种方式现在将其转换为图像,输出:

通过Python从.idx3-ubyte文件或GZIP中提取图像 - python

参考方案

下载培训/测试图像和标签:

train-images-idx3-ubyte.gz:训练集图像
train-labels-idx1-ubyte.gz:训练集标签
t10k-images-idx3-ubyte.gz:测试集图像
t10k-labels-idx1-ubyte.gz:测试集标签

然后将它们解压缩到工作目录中,例如samples/

从PyPi获取python-mnist软件包:

pip install python-mnist

导入mnist包并阅读训练/测试图像:

from mnist import MNIST

mndata = MNIST('samples')

images, labels = mndata.load_training()
# or
images, labels = mndata.load_testing()

要将图像显示到控制台:

index = random.randrange(0, len(images))  # choose an index ;-)
print(mndata.display(images[index]))

您将获得如下内容:

............................
............................
............................
............................
............................
.................@@.........
..............@@@@@.........
............@@@@............
..........@@................
..........@.................
...........@................
...........@................
...........@...@............
...........@@@@@.@..........
...........@@@...@@.........
...........@@.....@.........
..................@.........
..................@@........
..................@@........
..................@.........
.................@@.........
...........@.....@..........
...........@....@@..........
............@@@@............
.............@..............
............................
............................
............................

说明:

图像列表的每个图像都是无符号字节的Python list
标签是无符号字节的Python array

Python GPU资源利用 - python

我有一个Python脚本在某些深度学习模型上运行推理。有什么办法可以找出GPU资源的利用率水平?例如,使用着色器,float16乘法器等。我似乎在网上找不到太多有关这些GPU资源的文档。谢谢! 参考方案 您可以尝试在像Renderdoc这样的GPU分析器中运行pyxthon应用程序。它将分析您的跑步情况。您将能够获得有关已使用资源,已用缓冲区,不同渲染状态上…

Python sqlite3数据库已锁定 - python

我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到,如果应用程序被强制关闭(通过错误或通过任务管理器结束),则会收到sqlite3错误(sqlite3.OperationalError:数据库已锁定)。我想这是因为在应用程序关闭之前,我没有正确关闭数据库连接。我已经试过了: connectio…

python:ConfigParser对象,然后再阅读一次 - python

场景:我有一个配置文件,其中包含要执行的自动化测试的列表。这些测试是长期循环执行的。   配置文件的设计方式使ConfigParser可以读取它。由于有两个三个参数,因此我需要通过每个测试。现在,此配置文件由script(s1)调用,并且按照配置文件中的列表执行测试。Script(s1)第一次读取配置,并且在每次测试完成后都会执行。阅读两次的要求:由于可能会…

Python exchangelib在子文件夹中读取邮件 - python

我想从Outlook邮箱的子文件夹中读取邮件。Inbox ├──myfolder 我可以使用account.inbox.all()阅读收件箱,但我想阅读myfolder中的邮件我尝试了此页面folder部分中的内容,但无法正确完成https://pypi.python.org/pypi/exchangelib/ 参考方案 您需要首先掌握Folder的myfo…

python-docx应该在空单元格已满时返回空单元格 - python

我试图遍历文档中的所有表并从中提取文本。作为中间步骤,我只是尝试将文本打印到控制台。我在类似的帖子中已经看过scanny提供的其他代码,但是由于某种原因,它并没有提供我正在解析的文档的预期输出可以在https://www.ontario.ca/laws/regulation/140300中找到该文档from docx import Document from…