标签:nlp

  • Python与Java进行自然语言处理 - java

    时间:2020-9-3

    As it currently stands, this question is not a good fit for our Q&A format. We expect answers to be supported by facts, references, or expertise, but this question will likely […]

  • 在solr和java中为文档中的单词计算TF-IDF - java

    时间:2020-9-2

    我可以通过计算文档中术语的数量来轻松获得TF我想知道如何计算文件频率即包含该术语的文档数量 到目前为止,我已经实现了查询大量行的solr并将结果计数回去,但这非常耗时且占用大量内存。我只想计算条件 SolrQuery q = new SolrQuery(); q.setQuery("tweet_text:"+kw); q.addField […]

  • 最小编辑距离重建 - python

    时间:2020-8-31

    我知道在堆栈上和在线上都可以找到类似的答案,但是我感觉自己缺少一些东西。给定以下代码,我们需要重建导致最小编辑距离的事件序列。对于下面的代码,我们需要编写一个输出函数: Equal, L, L Delete, E Equal, A, A Substitute, D, S Insert, T 编辑:代码已通过我的(部分正确的)解决方案更新 这是代码,还有我的部 […]

  • 从文本Python识别和提取日期的最佳方法? - python

    时间:2020-8-25

    作为我正在从事的大型个人项目的一部分,我试图从各种文本源中分离出内联日期。 例如,我有大量的字符串(通常采用英语句子或语句的形式),并采用多种形式: 中央设计委员会会议,星期二10/22 6:30 pm 9/19 LAB:串行编码(第2.2节) 12月15日将举办另一场针对今天无法参加比赛的人。 练习册3(最低工资):到期日:星期三9/18 11:59 pm […]

  • 使用NLTK和WordNet;如何将简单的时态动词转换为现在,过去或过去分词形式? - python

    时间:2020-8-25

    使用NLTK和WordNet,如何将简单时态动词转换为现在,过去或过去分词形式? 例如: 我想编写一个函数,该函数以预期的形式给我动词,如下所示。 v = 'go' present = present_tense(v) print present # prints "going" past = past_tense(v […]

  • 使用nltk改进对人名的提取 - python

    时间:2020-8-21

    Improve this question 我正在尝试从文本中提取人名。 有人有推荐的方法吗? 这是我尝试过的(下面的代码):我正在使用nltk查找标记为人的所有东西,然后生成该人所有NNP部分的列表。我正在跳过只有一个NNP可以避免抓住一个姓氏的人。 我得到了不错的结果,但想知道是否有更好的方法来解决这个问题。 码: import nltk from na […]

  • Stanford Core NLP-了解共指解决方案 - java

    时间:2020-8-17

    我在理解斯坦福NLP工具最新版本中对coref解析器所做的更改时遇到了一些麻烦。例如,下面是一个句子和相应的CorefChainAnnotation: The atom is a basic unit of matter, it consists of a dense central nucleus surrounded by a cloud of nega […]

  • spaCy 2.0:保存和加载自定义NER模型 - python

    时间:2020-8-15

    我已经使用自定义标记器在spaCy中训练了自定义NER模型。我想保存不带分词器的NER模型。我在spaCy支持论坛中尝试了以下代码: import spacy nlp = spacy.load("en") nlp.tokenizer = some_custom_tokenizer # Train the NER model... nlp. […]

  • 为什么在for循环中将单词从复数形式转换为单数形式会花费这么长时间(Python 3)? - python

    时间:2020-8-14

    这是我的代码,用于从CSV文件读取文本并将一列中的所有单词从复数形式转换为单数形式: import pandas as pd from textblob import TextBlob as tb data = pd.read_csv(r'path\to\data.csv') for i in range(len(data)): blob […]

  • 如何评估Word2Vec模型 - python

    时间:2020-8-11

    嗨,我有自己的语料库,并在上面训练了几个Word2Vec模型。相互评估他们并选择最佳人选的最佳方法是什么? (显然不是手动进行的-我正在寻找各种措施)。 值得注意的是,嵌入是针对项目而不是文字,因此我不能使用任何现有基准。 谢谢! 参考方案 如果您甚至没有使用可以尝试针对其他任务(例如流行的类比求解)的真实单词,就没有通用的方法来评估令牌向量的质量。 如果您 […]