nlp - 45码

标签：nlp

Python与Java进行自然语言处理 - java

时间：2020-9-3

As it currently stands, this question is not a good fit for our Q&A format. We expect answers to be supported by facts, references, or expertise, but this question will likely […]

标签：java, nlp, python, similarity, text
在solr和java中为文档中的单词计算TF-IDF - java

时间：2020-9-2

我可以通过计算文档中术语的数量来轻松获得TF我想知道如何计算文件频率即包含该术语的文档数量到目前为止，我已经实现了查询大量行的solr并将结果计数回去，但这非常耗时且占用大量内存。我只想计算条件 SolrQuery q = new SolrQuery(); q.setQuery("tweet_text:"+kw); q.addField […]

标签：java, nlp, solr, tf-idf
最小编辑距离重建 - python

时间：2020-8-31

我知道在堆栈上和在线上都可以找到类似的答案，但是我感觉自己缺少一些东西。给定以下代码，我们需要重建导致最小编辑距离的事件序列。对于下面的代码，我们需要编写一个输出函数: Equal, L, L Delete, E Equal, A, A Substitute, D, S Insert, T 编辑:代码已通过我的(部分正确的)解决方案更新这是代码，还有我的部 […]

标签：dynamic-programming, matrix, nlp, python
从文本Python识别和提取日期的最佳方法？ - python

时间：2020-8-25

作为我正在从事的大型个人项目的一部分，我试图从各种文本源中分离出内联日期。例如，我有大量的字符串(通常采用英语句子或语句的形式)，并采用多种形式: 中央设计委员会会议，星期二10/22 6:30 pm 9/19 LAB:串行编码(第2.2节) 12月15日将举办另一场针对今天无法参加比赛的人。练习册3(最低工资):到期日:星期三9/18 11:59 pm […]

标签：date, nlp, parsing, python
使用NLTK和WordNet；如何将简单的时态动词转换为现在，过去或过去分词形式？ - python

时间：2020-8-25

使用NLTK和WordNet，如何将简单时态动词转换为现在，过去或过去分词形式？例如: 我想编写一个函数，该函数以预期的形式给我动词，如下所示。 v = 'go' present = present_tense(v) print present # prints "going" past = past_tense(v […]

标签：nlp, nltk, python, wordnet
使用nltk改进对人名的提取 - python

时间：2020-8-21

Improve this question 我正在尝试从文本中提取人名。有人有推荐的方法吗？这是我尝试过的(下面的代码):我正在使用nltk查找标记为人的所有东西，然后生成该人所有NNP部分的列表。我正在跳过只有一个NNP可以避免抓住一个姓氏的人。我得到了不错的结果，但想知道是否有更好的方法来解决这个问题。码: import nltk from na […]

标签：nlp, nltk, python
Stanford Core NLP-了解共指解决方案 - java

时间：2020-8-17

我在理解斯坦福NLP工具最新版本中对coref解析器所做的更改时遇到了一些麻烦。例如，下面是一个句子和相应的CorefChainAnnotation: The atom is a basic unit of matter, it consists of a dense central nucleus surrounded by a cloud of nega […]

标签：java, nlp, stanford-nlp
spaCy 2.0:保存和加载自定义NER模型 - python

时间：2020-8-15

我已经使用自定义标记器在spaCy中训练了自定义NER模型。我想保存不带分词器的NER模型。我在spaCy支持论坛中尝试了以下代码： import spacy nlp = spacy.load("en") nlp.tokenizer = some_custom_tokenizer # Train the NER model... nlp. […]

标签：nlp, python, spacy
为什么在for循环中将单词从复数形式转换为单数形式会花费这么长时间(Python 3)？ - python

时间：2020-8-14

这是我的代码，用于从CSV文件读取文本并将一列中的所有单词从复数形式转换为单数形式： import pandas as pd from textblob import TextBlob as tb data = pd.read_csv(r'path\to\data.csv') for i in range(len(data)): blob […]

标签：for-loop, nlp, pandas, python, textblob
如何评估Word2Vec模型 - python

时间：2020-8-11

嗨，我有自己的语料库，并在上面训练了几个Word2Vec模型。相互评估他们并选择最佳人选的最佳方法是什么？（显然不是手动进行的-我正在寻找各种措施）。值得注意的是，嵌入是针对项目而不是文字，因此我不能使用任何现有基准。谢谢！参考方案如果您甚至没有使用可以尝试针对其他任务（例如流行的类比求解）的真实单词，就没有通用的方法来评估令牌向量的质量。如果您 […]

标签：embedding, nlp, python, word-embedding, word2vec