如何使用KenLM计算困惑？ - python

假设我们以此为基础建立了一个模型：

$ wget https://gist.githubusercontent.com/alvations/1c1b388456dc3760ffb487ce950712ac/raw/86cdf7de279a2b9bceeb3adb481e42691d12fbba/something.txt
$ lmplz -o 5 < something.txt > something.arpa

根据困惑度公式（https://web.stanford.edu/class/cs124/lec/languagemodeling.pdf）

应用逆对数公式的总和以获取内部变量，然后取第n个根，则困惑度异常小：

>>> import kenlm
>>> m = kenlm.Model('something.arpa')

# Sentence seen in data.
>>> s = 'The development of a forward-looking and comprehensive European migration policy,'
>>> list(m.full_scores(s))
[(-0.8502398729324341, 2, False), (-3.0185394287109375, 3, False), (-0.3004383146762848, 4, False), (-1.0249041318893433, 5, False), (-0.6545327305793762, 5, False), (-0.29304179549217224, 5, False), (-0.4497605562210083, 5, False), (-0.49850910902023315, 5, False), (-0.3856896460056305, 5, False), (-0.3572353720664978, 5, False), (-1.7523181438446045, 1, False)]
>>> n = len(s.split())
>>> sum_inv_logs = -1 * sum(score for score, _, _ in m.full_scores(s))
>>> math.pow(sum_inv_logs, 1.0/n)
1.2536033936438895

再次尝试使用数据中未找到的句子：

# Sentence not seen in data.
>>> s = 'The European developement of a forward-looking and comphrensive society is doh.'
>>> sum_inv_logs = -1 * sum(score for score, _, _ in m.full_scores(s))
>>> sum_inv_logs
35.59524390101433
>>> n = len(s.split())
>>> math.pow(sum_inv_logs, 1.0/n)
1.383679905428275

并再次尝试完全超出域的数据：

>>> s = """On the evening of 5 May 2017, just before the French Presidential Election on 7 May, it was reported that nine gigabytes of Macron's campaign emails had been anonymously posted to Pastebin, a document-sharing site. In a statement on the same evening, Macron's political movement, En Marche!, said: "The En Marche! Movement has been the victim of a massive and co-ordinated hack this evening which has given rise to the diffusion on social media of various internal information"""
>>> sum_inv_logs = -1 * sum(score for score, _, _ in m.full_scores(s))
>>> sum_inv_logs
282.61719834804535
>>> n = len(list(m.full_scores(s)))
>>> n
79
>>> math.pow(sum_inv_logs, 1.0/n)
1.0740582373271952

尽管可以预期的是，较长的句子具有较低的困惑度，但是奇怪的是，差异小于1.0且在小数范围内。

上面是用KenLM计算困惑的正确方法吗？如果不是，是否有人知道如何通过Python API与KenLM进行计算机混淆？

python参考方案

见https://github.com/kpu/kenlm/blob/master/python/kenlm.pyx#L182

import kenlm

model=kenlm.Model("something.arpa") 
per=model.perplexity("your text sentance")

print(per)

Python pytz时区函数返回的时区为9分钟 - python

由于某些原因，我无法从以下代码中找出原因：>>> from pytz import timezone >>> timezone('America/Chicago') 我得到：<DstTzInfo 'America/Chicago' LMT-1 day, 18:09:00 STD…

在Mac上的终端中停止python - python

在Mac上的终端中使用python，键入ctrl-z 将停止python，但不退出它，给出如下输出：>>> [34]+ Stopped python 如您所见，我已经停止了34个python调用。虽然我可以用>>> exit() 退出python，问题是：是否有一个快捷键可以真正在终端中退出（而不只是停止）python？而…

Python sqlite3数据库已锁定 - python

我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到，如果应用程序被强制关闭（通过错误或通过任务管理器结束），则会收到sqlite3错误（sqlite3.OperationalError：数据库已锁定）。我想这是因为在应用程序关闭之前，我没有正确关闭数据库连接。我已经试过了： connectio…

Python numpy数据指针地址无需更改即可更改 - python

编辑经过一些摆弄之后，到目前为止，我已经隔离了以下状态：一维数组在直接输入变量时提供两个不同的地址，而在使用print()时仅提供一个地址2D数组（或矩阵）在直接输入变量时提供三个不同的地址，在使用print()时提供两个地址3D数组在直接输入变量时提供两个不同的地址，而在使用print()时仅给出一个（显然与一维数组相同）像这样：>>> …

用大写字母拆分字符串，但忽略AAA Python Regex - python

我的正则表达式：vendor = "MyNameIsJoe. I'mWorkerInAAAinc." ven = re.split(r'(?<=[a-z])[A-Z]|[A-Z](?=[a-z])', vendor) 以大写字母分割字符串，例如：'我的名字是乔。 I'mWorkerInAAAinc”变成…

如何使用KenLM计算困惑？ - python

腾讯的同事天天给我安利让我看《三体》，说马化腾和雷军也在…