tianzhipeng-git / tianzhipeng-git.github.io

https://tianzhipeng-git.github.io/
0 stars 0 forks source link

2023/11/06/spark-bloomfilter-join #6

Open utterances-bot opened 4 months ago

utterances-bot commented 4 months ago

spark硬核优化1 布隆过滤器大join优化

借助布隆过滤器解决两个大表join的性能问题

https://tianzhipeng-git.github.io/2023/11/06/spark-bloomfilter-join.html

aiyi926 commented 4 months ago

你好,完整的代码案例能提供下吗

tianzhipeng-git commented 4 months ago

你好,完整的代码案例能提供下吗

  1. 大神对于这个的提交, 在spark3.3版本后被合并进去了, 可以搜一下文档, 什么情况下会启用.
  2. 我自己写的, 是用scala手动执行的, 我发你参考, 用法见test目录中的代码.

bloomjoindemo.zip