StarRocks / starrocks

The world's fastest open query engine for sub-second analytics both on and off the data lakehouse. With the flexibility to support nearly any scenario, StarRocks provides best-in-class performance for multi-dimensional analytics, real-time analytics, and ad-hoc queries. A Linux Foundation project.
https://starrocks.io
Apache License 2.0
9.09k stars 1.82k forks source link

主键模型持久化索引streamload导入大量数据性能剧烈波动 #45400

Open awesomeleo opened 6 months ago

awesomeleo commented 6 months ago

Enhancement

Starrocks3.1.11版本,使用DataX 10个并发导入tpch 1000g lineitem表,大概60亿行数据,导入到20亿行开始性能剧烈波动,导入速度从160MB/s 下降到20~90MB/s,一段时间后又会回升到150MB/s。 尝试调整过pindex相关的一些参数(如enable_pindex_read_by_page=true、enable_parallel_get_and_bf=false等),性能有所提升,但是还是会剧烈波动。 也测试过Doris主键模型,比较平稳,一直维持在120MB/s的导入速度。 希望这块能优化一下,实现平稳的数据导入。

sevev commented 6 months ago

给个测试环境的配置,导入频率,每次导入任务导入多少数据

sevev commented 6 months ago

Enhancement

Starrocks3.1.11版本,使用DataX 10个并发导入tpch 1000g lineitem表,大概60亿行数据,导入到20亿行开始性能剧烈波动,导入速度从160MB/s 下降到20~90MB/s,一段时间后又会回升到150MB/s。 尝试调整过pindex相关的一些参数(如enable_pindex_read_by_page=true、enable_parallel_get_and_bf=false等),性能有所提升,但是还是会剧烈波动。 也测试过Doris主键模型,比较平稳,一直维持在120MB/s的导入速度。 希望这块能优化一下,实现平稳的数据导入。

| Error: NULL value in non-nullable column 'L_ORDERKEY'. Row: [NULL, 156267372, 1267403, 1, 32, 42609.9, 0.07, 0.01, 'N', 'O', 1997-09-06, 1997-11-11, 1997-10-03, 'COLLECT COD', 'MAIL', 'ges against the quickly regula', 0], 确认下是不是有任务失败了,lineitem的标准数据集主键应该有NULL的部分数据,PK表主键不支持为NULL

awesomeleo commented 6 months ago

Enhancement

Starrocks3.1.11版本,使用DataX 10个并发导入tpch 1000g lineitem表,大概60亿行数据,导入到20亿行开始性能剧烈波动,导入速度从160MB/s 下降到20~90MB/s,一段时间后又会回升到150MB/s。 尝试调整过pindex相关的一些参数(如enable_pindex_read_by_page=true、enable_parallel_get_and_bf=false等),性能有所提升,但是还是会剧烈波动。 也测试过Doris主键模型,比较平稳,一直维持在120MB/s的导入速度。 希望这块能优化一下,实现平稳的数据导入。

| Error: NULL value in non-nullable column 'L_ORDERKEY'. Row: [NULL, 156267372, 1267403, 1, 32, 42609.9, 0.07, 0.01, 'N', 'O', 1997-09-06, 1997-11-11, 1997-10-03, 'COLLECT COD', 'MAIL', 'ges against the quickly regula', 0], 确认下是不是有任务失败了,lineitem的标准数据集主键应该有NULL的部分数据,PK表主键不支持为NULL

我是先导入MySQL,然后再从MySQL导入Starrocks,MySQL的主键保证了为非NULL

github-actions[bot] commented 1 week ago

We have marked this issue as stale because it has been inactive for 6 months. If this issue is still relevant, removing the stale label or adding a comment will keep it active. Otherwise, we'll close it in 10 days to keep the issue queue tidy. Thank you for your contribution to StarRocks!