有效地将包含字母的字符串转换为Int-Apache Spark - java

我正在使用将用户作为字符串的数据集(即B000GKXY4S)。我想将这些用户中的每一个都转换为int,因此可以在Apache Spark ALS中使用Rating(user:Int,product:Int,rating:Double)类。最有效的方法是什么?最好使用Spark Scala函数或python本机函数。

参考方案

如果只想将任何可匹配的String转换为int-String.hashCode()。但是,您将不得不处理可能的哈希冲突。或者,您必须将每个字符转换为其int值,然后将所有这些字符附加(而不是相加)。

找不到火花RDD类 - java

我是Spark的新手,并且需要有关错误的帮助:java.lang.NoClassDefFoundError: org/apache/spark/rdd/RDD$我正在Scala中创建一个独立的Spark示例。我运行了sbt clean package和sbt assembly来打包scala spark代码。两者均成功完成,没有任何错误。 RDD上的任何操作…

Apache POI背景颜色样式似乎不起作用 - java

晚上好!我在apache poi v.14版本中遇到了一些麻烦,当我使用Libreoffice或Excel打开渲染的xlsx时,样式未正确应用。我有以下代码:class... { private XSSFCellStyle doubleLockStyle; /** * Create default cell style. * * @param myWorkB…

找不到StandardAnalyzer类 - java

我已经下载了最新的Lucene 4.6.0和running it in netbeans。Lucence 3.6.x版本运行良好,但最新版本找不到org.apache.lucene.analysis.standard.StandardAnalyzer和IndexFiles.java,这行中显示错误:Analyzer analyzer = new Standa…

处理Apache Beam框架时,Python和Java有什么区别? - java

在编写我的Apache Beam管道时,我使用python。我注意到了一些限制,例如处理最新数据等。我想知道与Java相比是否还有其他限制或优势 参考方案 从2019年秋季开始,我们可以考虑使用python SDK提供Java功能的子集。您可以使用的I / O转换更少(与其他系统,数据存储,消息队列等集成的可能性)。该文档在此处提供了Java vs pyth…

Java:找到特定字符并获取子字符串 - java

我有一个字符串4.9.14_05_29_16_21,我只需要获取4.9。数字各不相同,所以我不能简单地获得此char数组的前三个元素。我必须找到最正确的.并将其子字符串化直到那里。我来自Python,因此我将展示Python的实现方法。def foobar(some_string): location = some_string.rfind('.&…