sklearn2pmml错误:用于构造ClassDict的预期零参数(对于pandas._libs.interval.Interval) - python

我在训练LR模型时使用sklearn2pmml.preprocessing.CutTransformer和sklearn.preprocessing.LabelEncoder编码了目标。

这是我的代码:

from sklearn2pmml.preprocessing import CutTransformer
from sklearn.preprocessing.label import LabelEncoder
income_bins = [-np.inf, 10000, 50000, 100000, 300000, 500000, 1000000, 3000000, 5000000, 10000000, np.inf]

targetDiscretizer = PMMLPipeline([('target', 
                               DataFrameMapper([
                                   (['income'], [CutTransformer(bins=income_bins), LabelEncoder()])
                               ])
                              )])
dataset['target_income_lvl'] = targetDiscretizer.fit_transform(dataset)
sklearn2pmml(targetDiscretizer, '../model/targetDiscretizer.pmml', with_repr=True )

但是我得到一个错误说:

net.razorvine.pickle.PickleException: expected zero arguments for construction of ClassDict (for pandas._libs.interval.Interval)
    at net.razorvine.pickle.objects.ClassDictConstructor.construct(ClassDictConstructor.java:23)
    at net.razorvine.pickle.Unpickler.load_reduce(Unpickler.java:732)
    at net.razorvine.pickle.Unpickler.dispatch(Unpickler.java:200)
    at net.razorvine.pickle.Unpickler.load(Unpickler.java:122)
    at numpy.core.NDArrayUtil.readObject(NDArrayUtil.java:384)
    at numpy.core.NDArrayUtil.access$700(NDArrayUtil.java:42)
    at numpy.core.NDArrayUtil$TypeDescriptor.read(NDArrayUtil.java:542)
    at numpy.core.NDArrayUtil.parseArray(NDArrayUtil.java:215)
    at numpy.core.NDArrayUtil.parseData(NDArrayUtil.java:190)
    at joblib.NumpyArrayWrapper.toArray(NumpyArrayWrapper.java:43)
    at org.jpmml.sklearn.PickleUtil$1.dispatch(PickleUtil.java:88)
    at net.razorvine.pickle.Unpickler.load(Unpickler.java:122)
    at org.jpmml.sklearn.PickleUtil.unpickle(PickleUtil.java:98)
    at org.jpmml.sklearn.Main.run(Main.java:104)
    at org.jpmml.sklearn.Main.main(Main.java:94)

Exception in thread "main" net.razorvine.pickle.PickleException: expected zero arguments for construction of ClassDict (for pandas._libs.interval.Interval)
at net.razorvine.pickle.objects.ClassDictConstructor.construct(ClassDictConstructor.java:23)
at net.razorvine.pickle.Unpickler.load_reduce(Unpickler.java:732)
at net.razorvine.pickle.Unpickler.dispatch(Unpickler.java:200)
at net.razorvine.pickle.Unpickler.load(Unpickler.java:122)
at numpy.core.NDArrayUtil.readObject(NDArrayUtil.java:384)
at numpy.core.NDArrayUtil.access$700(NDArrayUtil.java:42)
at numpy.core.NDArrayUtil$TypeDescriptor.read(NDArrayUtil.java:542)
at numpy.core.NDArrayUtil.parseArray(NDArrayUtil.java:215)
at numpy.core.NDArrayUtil.parseData(NDArrayUtil.java:190)
at joblib.NumpyArrayWrapper.toArray(NumpyArrayWrapper.java:43)
at org.jpmml.sklearn.PickleUtil$1.dispatch(PickleUtil.java:88)
at net.razorvine.pickle.Unpickler.load(Unpickler.java:122)
at org.jpmml.sklearn.PickleUtil.unpickle(PickleUtil.java:98)
at org.jpmml.sklearn.Main.run(Main.java:104)
at org.jpmml.sklearn.Main.main(Main.java:94)

我对此一无所知。有谁能够帮助我?

参考方案

默认情况下,用于Python泡菜文件的Java解析器不了解非标准CPython类,例如pandas._libs.interval.Interval。每个CPython类都需要分别教它。例如,SkLearn2PMML问题跟踪器中有一个相关的错误报告:https://github.com/jpmml/sklearn2pmml/issues/115

如果您(至少是暂时)设法抑制了pandas._libs.interval.Interval对象的生成,则该转换应该起作用。最可能的来源是自动生成的bin标签。因此,尝试使用labels参数显式提供bin标签:CutTransformer(bins = income_bins, labels = income_bin_labels)

Python GPU资源利用 - python

我有一个Python脚本在某些深度学习模型上运行推理。有什么办法可以找出GPU资源的利用率水平?例如,使用着色器,float16乘法器等。我似乎在网上找不到太多有关这些GPU资源的文档。谢谢! 参考方案 您可以尝试在像Renderdoc这样的GPU分析器中运行pyxthon应用程序。它将分析您的跑步情况。您将能够获得有关已使用资源,已用缓冲区,不同渲染状态上…

Python:图像处理可产生皱纹纸效果 - python

也许很难描述我的问题。我正在寻找Python中的算法,以在带有某些文本的白色图像上创建皱纹纸效果。我的第一个尝试是在带有文字的图像上添加一些真实的皱纹纸图像(具有透明度)。看起来不错,但副作用是文本没有真正起皱。所以我正在寻找更好的解决方案,有什么想法吗?谢谢 参考方案 除了使用透明性之外,假设您有两张相同尺寸的图像,一张在皱纹纸上明亮,一张在白色背景上有深…

Python uuid4,如何限制唯一字符的长度 - python

在Python中,我正在使用uuid4()方法创建唯一的字符集。但是我找不到将其限制为10或8个字符的方法。有什么办法吗?uuid4()ffc69c1b-9d87-4c19-8dac-c09ca857e3fc谢谢。 参考方案 尝试:x = uuid4() str(x)[:8] 输出:"ffc69c1b" Is there a way to…

Python sqlite3数据库已锁定 - python

我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到,如果应用程序被强制关闭(通过错误或通过任务管理器结束),则会收到sqlite3错误(sqlite3.OperationalError:数据库已锁定)。我想这是因为在应用程序关闭之前,我没有正确关闭数据库连接。我已经试过了: connectio…

Python exchangelib在子文件夹中读取邮件 - python

我想从Outlook邮箱的子文件夹中读取邮件。Inbox ├──myfolder 我可以使用account.inbox.all()阅读收件箱,但我想阅读myfolder中的邮件我尝试了此页面folder部分中的内容,但无法正确完成https://pypi.python.org/pypi/exchangelib/ 参考方案 您需要首先掌握Folder的myfo…