输入训练和验证集后如何使用交叉验证? - python

所以我让自己有些困惑。

目前,我有大约800个实例的数据集。我将其分为训练和验证集,因为缺少值,因此我使用了来自sklearn的SimpleImputer,并使用fit_transform-ed训练集并转换了测试集。我这样做是因为,如果我要预测新实例,如果缺少值,则需要以与估算测试集相同的方式估算。

现在,我想使用交叉验证对模型进行训练和评分,但这将涉及使用整个数据集并将其分成不同的训练和测试集,因此我担心训练集会因为估算值而漏出适合吗?

python参考方案

通常,您需要将数据分为三组:训练集,测试集和验证集。测试集应该完全不参加训练(您的担心是正确的。)使用交叉验证时,您无需担心将训练和验证集分开的情况,这就是交叉验证为您服务的地方!只需将训练集传递给交叉验证器,让其在后台进行训练和验证即可,然后在测试集上测试最终模型(训练模型已完全省略了该模型)。

Python sqlite3数据库已锁定 - python

我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到,如果应用程序被强制关闭(通过错误或通过任务管理器结束),则会收到sqlite3错误(sqlite3.OperationalError:数据库已锁定)。我想这是因为在应用程序关闭之前,我没有正确关闭数据库连接。我已经试过了: connectio…

Python pytz时区函数返回的时区为9分钟 - python

由于某些原因,我无法从以下代码中找出原因:>>> from pytz import timezone >>> timezone('America/Chicago') 我得到:<DstTzInfo 'America/Chicago' LMT-1 day, 18:09:00 STD…

用大写字母拆分字符串,但忽略AAA Python Regex - python

我的正则表达式:vendor = "MyNameIsJoe. I'mWorkerInAAAinc." ven = re.split(r'(?<=[a-z])[A-Z]|[A-Z](?=[a-z])', vendor) 以大写字母分割字符串,例如:'我的名字是乔。 I'mWorkerInAAAinc”变成…

如何打印浮点数的全精度[Python] - python

我编写了以下函数,其中传递了x,y的值:def check(x, y): print(type(x)) print(type(y)) print(x) print(y) if x == y: print "Yes" 现在当我打电话check(1.00000000000000001, 1.0000000000000002)它正在打印:<…

Python:如何根据另一列元素明智地查找一列中的空单元格计数? - python

df = pd.DataFrame({'user': ['Bob', 'Jane', 'Alice','Jane', 'Alice','Bob', 'Alice'], 'income…