在solr和java中为文档中的单词计算TF-IDF - java

我可以通过计算文档中术语的数量来轻松获得TF
我想知道如何计算文件频率
即包含该术语的文档数量

到目前为止，我已经实现了查询大量行的solr并将结果计数回去，但这非常耗时且占用大量内存。我只想计算条件

    SolrQuery q = new SolrQuery();
    q.setQuery("tweet_text:"+kw);
    q.addField("tweet_text");
    q.setRows(40000000);        
    SolrDocumentList results = null ;

    try {
        QueryResponse rsp = solrServer.query(q);
        results = rsp.getResults();
    } catch (SolrServerException e) {
        e.printStackTrace();
    }

    ArrayList<String> tweets = new ArrayList<String>();
    for (SolrDocument doc : results)
    {
        tweets.add(doc.getFieldValue("tweet_text").toString());
    }

参考方案

在SOLR中，您可以使用函数查询直接查询docFreq，如下所示:http://wiki.apache.org/solr/FunctionQuery#docfreq，

q={!func}docFreq(tweet_text, kw)

请注意，该页面上还记录了获取tf，idf和termfreq的函数查询方法，这些方法也可能对您有所帮助。

回想起来，这可能与这个问题不太相关，但我暂时将其保留，以防它对您有用。

IndexReader.docFreq(Term)可以为您提供所需的东西。

如:

reader.docFreq(new Term("tweet_text", kw));'

顺便说一句，IndexSearcher.docFreq(Term)是同一件事。

Java:正则表达式模式匹配器是否有大小限制？ - java

我的模式类似于OR:“word1 | word2 | word3”我大约有800个字。可能有问题吗？参考方案您仅受记忆和理智的限制。 :)

Java:线程池如何将线程映射到可运行对象 - java

试图绕过Java并发问题，并且很难理解线程池，线程以及它们正在执行的可运行“任务”之间的关系。如果我创建一个有10个线程的线程池，那么我是否必须将相同的任务传递给池中的每个线程，或者池化的线程实际上只是与任务无关的“工人无人机”可用于执行任何任务？无论哪种方式，Executor / ExecutorService如何将正确的任务分配给正确的线程？参考方案 …

Java:我可以在Hashmaps中使用数组吗？ - java

我可以在Hashmaps中使用数组吗？如果是这样，则声明这种哈希图的确切语法是什么？谢谢参考方案数组也是对象。甚至像int[]这样的原始数组。Map<String,String[]> map = new HashMap<String,String[]>();

JAVA:字节码和二进制有什么区别？ - java

java字节代码（已编译的语言，也称为目标代码）与机器代码（当前计算机的本机代码）之间有什么区别？我读过一些书，他们将字节码称为二进制指令，但我不知道为什么。参考方案字节码是独立于平台的，在Windows中运行的编译器编译的字节码仍将在linux / unix / mac中运行。机器代码是特定于平台的，如果在Windows x86中编译，则它将仅在Win…

java:继承 - java

有哪些替代继承的方法？ java大神给出的解决方案有效的Java：偏重于继承而不是继承。（这实际上也来自“四人帮”）。他提出的理由是，如果扩展类未明确设计为继承，则继承会引起很多不正常的副作用。例如，对super.someMethod()的任何调用都可以引导您通过未知代码的意外路径。取而代之的是，持有对本来应该扩展的类的引用，然后委托给它。这是与Eric…

腾讯的同事天天给我安利让我看《三体》，说马化腾和雷军也在…

腾讯的同事天天给我安利让我看《三体》，说马化腾和雷军也在看。自己强行看了两个月，全部给看完了。感觉这文笔也就我读初中的水平……而且写着国内的一些情况，外国人能理解吗？这书为什么会这么火？这水平我也可以去写呀[笑哭][笑哭][笑哭] 招商银行员工：可以写赶紧写一个啊，能拿科幻文学雨果奖。包清白：哦楼主：pei ！tui ！你也配姓龙楼主：@赵龙王呵呵 […]