在容器里 Parse 大体积的 JSON 文件到 Postgres 有什么好办法吗?主要是内存占用还有效率问题。

nuistzhou:10+G 的 JSON 文件,大概有几千万条记录,每条记录的 fields 或多或少不太一样,现在我想把这个 json 弄到 Postgres 里,而且只想要其中的 2 个公共 fields (所有的记录都有这两个属性)。对了,容器我只给了 2G 内存,除去运行的程序,可能只剩 700MB+的空余内存了。

现在的 2 个想法是:

1 、用 Pandas 的 read_json()的 chunksize 来把 json 读取成流文件,然后一个 chunk 接一个 chunk 地读取到内存,然后写到数据库里。 但是我在容器里实现时,每次都是 python 进程被 kill 了,可能是内存问题,但我的 chunksize 填 10 也一样失败,10 行数据也不大呀,百思不得其解。

2 、想用 Bash 的 jq 来处理,但是没有经验,不知道是否可行,以及在容器上执行的效率还有内存占用问题。

不知道有没有大佬能指点一下,比如有没有更好的流处理办法,谢谢!

JSON.parse()无法正常工作 - javascript

在我的服务器(python / django)端,我有一个像这样的数组:comments = [['rwerw', '215', '/news/215/'], ['wrwerwer', '215', '/news/215/'], […

将python json.dump()转换为javascript JSON.parse() - javascript

问题摘要:无法解析从.json文件格式化为JSON对象的字符串长版:我有一些正在使用Python处理的推文,其中创建了一个我想传递到d3.js并解析的json文件。我将获得的推文写入文件中,因此在将它们写入文件之前,必须使用Python中的json.dump()命令对其进行序列化。蟒蛇def on_data(self, data): f = open(�…

一款针对 JSON 的查询语言, JSON 界的 GraphQL?

ddup:看到这个,觉得比较有意思。 https://groq.dev/ whileFalse:那个,其实早就有类似的东西了。比如 kubectl 在格式化输出时就用了 JsonPath 这种语法。再比如 aws cli 的--query 参数使用 JMESPath 语法。

PHP json_encode 问题

fangwenxue:$data = [ '0' => '单品', '1' => '多属性' ]; encode 结果 怎么得到这种结果 "data_list": { "0": "单品", "1": "多属性" },

当字段较多且经常需要新增字段时,用 JSON 代替 POJO 是否更加合适?

lauyukit:各位大佬们,小弟在重构一个项目,因为业务需要,一些 POJO 实体类有很多字段,而且随着时间和业务变化,会增加各种不同的字段,老代码里都是用 JSONObject 一把梭,我觉得这样很不好,一来没有辨识度,没法通过静态分析发现问题,二来很不优雅;可是定义 POJO 的话,又因为字段多变,可能需要成员变量里加一个 Map 来扩展,不然每新增一…