使用NLTK标记阿拉伯语单词 - python

我正在使用 NLTK word_tokenizer将句子拆分为单词。

我想标记这句话:

في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء

我正在编写的代码是:

import re
import nltk

lex = u" في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء"

wordsArray = nltk.word_tokenize(lex)
print " ".join(wordsArray)

问题在于word_tokenize函数不会被单词分割。相反，它按字母拆分，因此输出为:

"ف ي _ ب ي ت ن ا ك ل ش ي ل م ا ت ح ت ا ج ه ي ض ي ع ... ا د و ر ع ل ى ش ا ح ن ف ج أ ة ي خ ت ف ي .. ل د ر ج ة ا ن ي ا س و ي ن ف س ي ا د و ر ش ي ء"

有任何想法吗？

到目前为止，我已经达到了:

通过尝试here中的文本，它似乎被字母标记。但是，其他标记器也正确地标记了它。这是否意味着word_tokenize仅适用于英语？这对大多数NLTK功能都适用吗？

参考方案

我总是建议使用nltk.tokenize.wordpunct_tokenize。您可以在http://text-processing.com/demo/tokenize/上试用许多NLTK标记器，并亲自看看。

Python GPU资源利用 - python

我有一个Python脚本在某些深度学习模型上运行推理。有什么办法可以找出GPU资源的利用率水平？例如，使用着色器，float16乘法器等。我似乎在网上找不到太多有关这些GPU资源的文档。谢谢！参考方案您可以尝试在像Renderdoc这样的GPU分析器中运行pyxthon应用程序。它将分析您的跑步情况。您将能够获得有关已使用资源，已用缓冲区，不同渲染状态上…

Python:图像处理可产生皱纹纸效果 - python

也许很难描述我的问题。我正在寻找Python中的算法，以在带有某些文本的白色图像上创建皱纹纸效果。我的第一个尝试是在带有文字的图像上添加一些真实的皱纹纸图像（具有透明度）。看起来不错，但副作用是文本没有真正起皱。所以我正在寻找更好的解决方案，有什么想法吗？谢谢参考方案除了使用透明性之外，假设您有两张相同尺寸的图像，一张在皱纹纸上明亮，一张在白色背景上有深…

Python uuid4，如何限制唯一字符的长度 - python

在Python中，我正在使用uuid4（）方法创建唯一的字符集。但是我找不到将其限制为10或8个字符的方法。有什么办法吗？uuid4()ffc69c1b-9d87-4c19-8dac-c09ca857e3fc谢谢。参考方案尝试：x = uuid4() str(x)[:8] 输出："ffc69c1b" Is there a way to…

Python sqlite3数据库已锁定 - python

我在Windows上使用Python 3和sqlite3。我正在开发一个使用数据库存储联系人的小型应用程序。我注意到，如果应用程序被强制关闭（通过错误或通过任务管理器结束），则会收到sqlite3错误（sqlite3.OperationalError：数据库已锁定）。我想这是因为在应用程序关闭之前，我没有正确关闭数据库连接。我已经试过了： connectio…

python:ConfigParser对象，然后再阅读一次 - python

场景：我有一个配置文件，其中包含要执行的自动化测试的列表。这些测试是长期循环执行的。配置文件的设计方式使ConfigParser可以读取它。由于有两个三个参数，因此我需要通过每个测试。现在，此配置文件由script(s1)调用，并且按照配置文件中的列表执行测试。Script(s1)第一次读取配置，并且在每次测试完成后都会执行。阅读两次的要求：由于可能会…

使用NLTK标记阿拉伯语单词 - python

腾讯的同事天天给我安利让我看《三体》，说马化腾和雷军也在…