MemoryError:在python中使用word2vec时无法分配形状和数据类型为float32的数组 - python

我正在尝试从维基百科文本数据中训练word2vec模型，因为我正在使用以下代码。

import logging
import os.path
import sys
import multiprocessing

from gensim.corpora import  WikiCorpus
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence


if __name__ == '__main__':
    program = os.path.basename(sys.argv[0])
    logger = logging.getLogger(program)

    logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s')
    logging.root.setLevel(level=logging.INFO)
    logger.info("running %s" % ' '.join(sys.argv))

    # check and process input arguments

    if len(sys.argv) < 3:
        print (globals()['__doc__'])
        sys.exit(1)
    inp, outp = sys.argv[1:3]

    model = Word2Vec(LineSentence(inp), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count())

    # trim unneeded model memory = use (much) less RAM
    model.init_sims(replace=True)

    model.save(outp)

但是程序运行20分钟后，出现以下错误

Error message

python大神给出的解决方案

理想情况下，您应该将错误文本粘贴到问题中，而不是截图。但是，我看到两条关键线：

<TIMESTAMP> : INFO : estimated required memory for 2372206 words and 400 dimensions: 8777162200 bytes
...
MemoryError: unable to allocate array with shape (2372206, 400) and data type float32

经过语料库之后，该模型学会了可以保留多少个唯一的单词，这些单词报告必须分配一个模型的大小：一个单词大约占用8777162200 bytes（约8.8GB）。但是，当尝试分配所需的向量数组时，会得到一个MemoryError，它表示没有足够的计算机可寻址内存（RAM）可用。

您可以：

在可能有更多内存的地方运行，也许是通过向现有系统中添加RAM来实现；要么
减少所需的内存量，主要是通过减少您想要训练的唯一字向量的数量或尺寸大小。

您可以通过将默认的min_count=5参数增大为min_count=10或min_count=20或min_count=50来减少单词数。（您可能不需要超过200万个单词向量-仅用几万个单词的词汇量就可以实现许多有趣的结果。）

您还可以设置一个max_final_vocab值，以指定要保留的唯一单词的确切数目。例如，max_final_vocab=500000仅保留500000个最常用的单词，而忽略其余的单词。

减小size也将节省内存。对于字向量，size=300设置很受欢迎，它将使内存需求减少四分之一。

一起使用size=300, max_final_vocab=500000应该会将所需的内存减少到2GB以下。

Python sqlite3数据库已锁定 - python

我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到，如果应用程序被强制关闭（通过错误或通过任务管理器结束），则会收到sqlite3错误（sqlite3.OperationalError：数据库已锁定）。我想这是因为在应用程序关闭之前，我没有正确关闭数据库连接。我已经试过了： connectio…

用大写字母拆分字符串，但忽略AAA Python Regex - python

我的正则表达式：vendor = "MyNameIsJoe. I'mWorkerInAAAinc." ven = re.split(r'(?<=[a-z])[A-Z]|[A-Z](?=[a-z])', vendor) 以大写字母分割字符串，例如：'我的名字是乔。 I'mWorkerInAAAinc”变成…

如何打印浮点数的全精度[Python] - python

我编写了以下函数，其中传递了x，y的值：def check(x, y): print(type(x)) print(type(y)) print(x) print(y) if x == y: print "Yes" 现在当我打电话check(1.00000000000000001, 1.0000000000000002)它正在打印：<…

Python:检查新文件是否在文件夹中[重复] - python

This question already has answers here: How do I watch a file for changes? （23个答案） 3年前关闭。我是python的新手，但是我尝试创建一个自动化过程，其中我的代码将侦听目录中的新文件条目。例如，某人可以手动将zip文件复制到一个特定的文件夹中，并且我希望我的代码能够在文件完全…

子条件的python条件覆盖 - python

我试图找到一个python代码覆盖率工具，该工具可以衡量语句中是否包含子表达式：例如，我想看看下面的示例是否涵盖了condition1 / condition2 / condtion3？if condition1 or condition2 or condition3: x = true_value python大神给出的解决方案对此的唯一合理答案是：当前…

MemoryError:在python中使用word2vec时无法分配形状和数据类型为float32的数组 - python

腾讯的同事天天给我安利让我看《三体》，说马化腾和雷军也在…