我正在尝试生成一些单词级的文本,并遇到了以下问题:
我的输入看起来像这样:
tokenized_seq = [[w2v_model.wv.vocab[word].index for word in w2v_data[i]] for i in range(len(w2v_data))]
x_seq = []
y_seq = []
for seq in tokenized_seq:
x_seq.append(seq[:-1])
y_seq.append([seq[-1]])
因此,我将沿着具有固定大小滚动窗口的序列(编码的单词usnig word2vec)(标记化的_seq是具有固定长度的序列列表)。
看例子:
代码块:
print(x_seq[0], '->', y_seq[0])
print(' '.join([w2v_model.wv.index2word[i] for i in x_seq[0]]), '->', w2v_model.wv.index2word[y_seq[0].pop()])
输出:
[608, 1661, 1, 4260, 1, 3, 2978, 741, 0, 153, 740, 1, 12004] -> [109]
часть первая . i . — eh bien , mon prince . gênes -> et
因此,然后,我尝试将以上全部内容输入到Embedding层。
model = Sequential()
model.add(Embedding(input_dim=vocab_size,
output_dim=emdedding_size,
input_length=avg_sent_len-1,
weights=[predtrained_weights]
trainable=False))
model.add(Bidirectional(LSTM(units=128)))
model.add(Dense(units=vocab_size, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
history = model.fit(x_seq, y_seq,
epochs=10,
batch_size=128,
validation_split=0.2,
verbose=2)
嵌入参数为:
predtrained_weights = w2v_model.wv.vectors
vocab_size, emdedding_size = w2v_model.wv.vectors.shape
avg_sent_len
是x_seq
中每个序列的len
模型编译良好,但是拟合时出现以下错误:
ValueError: Error when checking target: expected dense_40 to have shape (31412,) but got array with shape (223396,)
(31412,)是vocab_size
223396是x_seq
或y_seq
长度(输入序列数)
那么,有人可以帮助我吗?
参考方案
您输入的x_seq
应该是一个形状为(batch_size, seq_len)
的numpy数组。尝试添加x_seq = np.array(x_seq)
。
我需要计算Lindeman-Merenda-Gold(LMG)分数,以进行回归分析。我发现R语言的relaimpo包下有该文件。不幸的是,我对R没有任何经验。我检查了互联网,但找不到。这个程序包有python端口吗?如果不存在,是否可以通过python使用该包? python参考方案 最近,我遇到了pingouin库。
python-docx应该在空单元格已满时返回空单元格 - python我试图遍历文档中的所有表并从中提取文本。作为中间步骤,我只是尝试将文本打印到控制台。我在类似的帖子中已经看过scanny提供的其他代码,但是由于某种原因,它并没有提供我正在解析的文档的预期输出可以在https://www.ontario.ca/laws/regulation/140300中找到该文档from docx import Document from…
如何用'-'解析字符串到节点js本地脚本? - python我正在使用本地节点js脚本来处理字符串。我陷入了将'-'字符串解析为本地节点js脚本的问题。render.js:#! /usr/bin/env -S node -r esm let argv = require('yargs') .usage('$0 [string]') .argv; console.log(argv…
Python:传递记录器是个好主意吗? - python我的Web服务器的API日志如下:started started succeeded failed 那是同时收到的两个请求。很难说哪一个成功或失败。为了彼此分离请求,我为每个请求创建了一个随机数,并将其用作记录器的名称logger = logging.getLogger(random_number) 日志变成[111] started [222] start…
Python-Excel导出 - python我有以下代码:import pandas as pd import requests from bs4 import BeautifulSoup res = requests.get("https://www.bankier.pl/gielda/notowania/akcje") soup = BeautifulSoup(res.cont…