通过Python从.idx3-ubyte文件或GZIP中提取图像 - python

我已经使用OpenCV中的facerecognizer创建了一个简单的人脸识别功能。它可以很好地处理人的图像。

现在，我想通过使用手写字符而不是人来进行测试。我遇到了MNIST数据集，但它们将图像存储在一个我从未见过的怪异文件中。

我只需要从中提取一些图像：

train-images.idx3-ubyte

并将它们保存为.gif

还是我误解了MNIST的事情。如果是，我在哪里可以得到这样的数据集？

编辑

我也有gzip文件：

train-images-idx3-ubyte.gz

我正在尝试阅读内容，但是show()不起作用，如果我read()会看到随机符号。

images = gzip.open("train-images-idx3-ubyte.gz", 'rb')
print images.read()

编辑

设法通过使用以下命令获得一些有用的输出：

with gzip.open('train-images-idx3-ubyte.gz','r') as fin:
    for line in fin:
        print('got line', line)

我必须以某种方式现在将其转换为图像，输出：

通过Python从.idx3-ubyte文件或GZIP中提取图像 - python

参考方案

下载培训/测试图像和标签：

train-images-idx3-ubyte.gz：训练集图像
train-labels-idx1-ubyte.gz：训练集标签
t10k-images-idx3-ubyte.gz：测试集图像
t10k-labels-idx1-ubyte.gz：测试集标签

然后将它们解压缩到工作目录中，例如samples/。

从PyPi获取python-mnist软件包：

pip install python-mnist

导入mnist包并阅读训练/测试图像：

from mnist import MNIST

mndata = MNIST('samples')

images, labels = mndata.load_training()
# or
images, labels = mndata.load_testing()

要将图像显示到控制台：

index = random.randrange(0, len(images))  # choose an index ;-)
print(mndata.display(images[index]))

您将获得如下内容：

............................
............................
............................
............................
............................
.................@@.........
..............@@@@@.........
............@@@@............
..........@@................
..........@.................
...........@................
...........@................
...........@...@............
...........@@@@@.@..........
...........@@@...@@.........
...........@@.....@.........
..................@.........
..................@@........
..................@@........
..................@.........
.................@@.........
...........@.....@..........
...........@....@@..........
............@@@@............
.............@..............
............................
............................
............................

说明：

图像列表的每个图像都是无符号字节的Python list。
标签是无符号字节的Python array。

Python GPU资源利用 - python

我有一个Python脚本在某些深度学习模型上运行推理。有什么办法可以找出GPU资源的利用率水平？例如，使用着色器，float16乘法器等。我似乎在网上找不到太多有关这些GPU资源的文档。谢谢！参考方案您可以尝试在像Renderdoc这样的GPU分析器中运行pyxthon应用程序。它将分析您的跑步情况。您将能够获得有关已使用资源，已用缓冲区，不同渲染状态上…

Python sqlite3数据库已锁定 - python

我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到，如果应用程序被强制关闭（通过错误或通过任务管理器结束），则会收到sqlite3错误（sqlite3.OperationalError：数据库已锁定）。我想这是因为在应用程序关闭之前，我没有正确关闭数据库连接。我已经试过了： connectio…

python:ConfigParser对象，然后再阅读一次 - python

场景：我有一个配置文件，其中包含要执行的自动化测试的列表。这些测试是长期循环执行的。配置文件的设计方式使ConfigParser可以读取它。由于有两个三个参数，因此我需要通过每个测试。现在，此配置文件由script(s1)调用，并且按照配置文件中的列表执行测试。Script(s1)第一次读取配置，并且在每次测试完成后都会执行。阅读两次的要求：由于可能会…

Python exchangelib在子文件夹中读取邮件 - python

我想从Outlook邮箱的子文件夹中读取邮件。Inbox ├──myfolder 我可以使用account.inbox.all()阅读收件箱，但我想阅读myfolder中的邮件我尝试了此页面folder部分中的内容，但无法正确完成https://pypi.python.org/pypi/exchangelib/ 参考方案您需要首先掌握Folder的myfo…

python-docx应该在空单元格已满时返回空单元格 - python

我试图遍历文档中的所有表并从中提取文本。作为中间步骤，我只是尝试将文本打印到控制台。我在类似的帖子中已经看过scanny提供的其他代码，但是由于某种原因，它并没有提供我正在解析的文档的预期输出可以在https://www.ontario.ca/laws/regulation/140300中找到该文档from docx import Document from…

通过Python从.idx3-ubyte文件或GZIP中提取图像 - python

腾讯的同事天天给我安利让我看《三体》，说马化腾和雷军也在…