PGroongaとpg_trgmとtextsearchのベンチマークをとる

kou commented 7 years ago

英語版Wikipediaを使う。

kou commented 7 years ago

メモリー16GB+スワップ32GB+SSDの環境での結果。

PGroongaのインデックス作成時間がすごく遅かった。（約9.5時間。33869548.323 ms）

pg_trgmは約2.5時間（9308261.242 ms）

textsearchは文字列が長すぎてエラー。

en.all.txt

kou commented 7 years ago

textsearchのエラーは↓。（↑のログにある。）

ERROR:  string is too long for tsvector (1618908 bytes, max 1048575 bytes)

s-yata commented 7 years ago

DB 構築時間の参考になるかもしれないので，こちらに貼らせていただきます．

最新の Groonga にデータを投入するとき，およびに索引を静的構築するときのメモリ使用量を調べてみました．調査した環境は Ubuntu 16.04, RAM: 32GB，スワップなしで vm.overcommit_memory=0 です． DB は SSD 上に作成しました．

$ groonga --version
Groonga 6.1.0-16-g5ebb993 [linux-gnu,x86_64,utf8,match-escalation-threshold=0,nfkc,mecab,msgpack,mruby,onigmo,zlib,lz4,epoll]

configure options: < '--with-ruby=ruby' '--enable-mruby'>

データ投入

screenshot from 2016-11-10 18-07-33

静的索引構築

screenshot from 2016-11-10 18-19-13

構築された DB のサイズは 132GB でした．

$ du -h db
132G    db

kou commented 7 years ago

メモリー64GB+SSDの環境での結果。

日本語版Wikipedia全ページと英語版Wikipedia前ページの結果。りあえずテキストでまとめる。表にするとか見やすくするのは後で。

日本語版Wikipedia:

生データ:

データ：

サイズ：6248559810バイト
レコード数: 908749
タイトルのバイト数の平均値：21.6068606402868119
タイトルのバイト数の最小値：1
タイトルのバイト数の最大値：250
タイトルの文字数の平均値：8.0879021600023769
タイトルの文字数の最小値：1
タイトルの文字数の最大値：208
本文のバイト数の平均値：6830.0723632158054644
本文のバイト数の最小値：0
本文のバイト数の最大値：692816
本文の文字数の平均値：3513.4556527710071758
本文の文字数の最小値：0
本文の文字数の最大値：629732

データのロード時間:

308811.980 ms
306331.935 ms

データロード後のDBサイズ:

5.0GB-5.1GB

PGroongaインデックス作成時間:

1282997.146 ms

PGroongaインデックスサイズ：（データ込み。zlib圧縮）

9.8GB

pg_bigmインデックス作成時間:

2393008.967 ms

pg_bigmインデックスサイズ:

4.2GB

検索時間（同じ接続で5回連続で検索して1番速いやつ）:

テレビアニメ
- PGroonga: 63.243 ms (20389件)
- PGroonga: pgroonga.command: 38.518 ms (20389件)
- pg_bigm: 2793.492 ms （20389件）
データベース
- PGroonga: 48.431 ms (14709件)
- PGroonga: pgroonga.command: 29.570 ms (14709件)
- pg_bigm: 1276.777 ms （14706件）
PostgreSQL OR MySQL
- PGroonga: 1.961 ms (316件)
- PGroonga: pgroonga.command: 1.473 ms (316件)
- pg_bigm: 46.568 ms （311件）
日本
- PGroonga: 605.996 ms (537382件)
- PGroonga: pgroonga.command: 52.634 ms (537382件)
- pg_bigm: 504.206 ms (537382件)

英語版Wikipedia:

生データ:

データ：

サイズ：34868269605B
レコード数: 5275388
タイトルのバイト数の平均値：19.6208627687669608
タイトルのバイト数の最小値：1
タイトルのバイト数の最大値：211
タイトルの文字数の平均値：19.4865215601203172
タイトルの文字数の最小値：1
タイトルの文字数の最大値：209
本文のバイト数の平均値：6555.4467967095500843
本文のバイト数の最小値：13
本文のバイト数の最大値：1047190
本文の文字数の平均値：6525.1860094461298392
本文の文字数の最小値：13
本文の文字数の最大値：1047143

データのロード時間:

1581585.723 ms
1535244.419 ms
1588336.969 ms

データロード後のDBサイズ:

20GB-21GB

PGroongaインデックス作成時間:

5887958.525 ms

PGroongaインデックスサイズ：（データ込み。zlib圧縮）

39GB（インデックスのみだと67MB（タイトル分） + 21.3544921875GB（本文分））

pg_trgmインデックス作成時間:

6696901.108 ms

pg_trgmインデックスサイズ:

7.8GB

textsearchインデックス作成時間:（本文全部を対象にすると失敗するので先頭1MBだけ）

15137931.733 ms

textsearchインデックスサイズ:

11GB

検索時間（同じ接続で5回連続で検索して1番速いやつ）:

animation
- PGroonga: 175.583 ms (40802件)
- PGroonga: pgroonga.command: 7.852 ms (40802件)
- pg_trgm: 43815.068 ms （33604件）
- textsearch: 1071.624 ms （423425件）
database
- PGroonga: 668.162 ms (209353件)
- PGroonga: pgroonga.command: 17.918 ms (209353件)
- pg_trgm: 32665.201 ms （134973件）
- textsearch: 649.102 ms （194750件）
PostgreSQL OR MySQL
- PGroonga: 3.611 ms (1636件)
- PGroonga: pgroonga.command: 3.681 ms (1636件)
- pg_trgm: 227.600 ms （1484件）
- textsearch: 2.584 ms （1506件）
America
- PGroonga: 1249.621 ms (472762件)
- PGroonga: pgroonga.command: 42.279 ms (472762件)
- pg_trgm: 91833.510 ms （1410041件）
- textsearch: 1250.692 ms （480855件）

kou commented 7 years ago

日本語版のまとめ。

環境：

スワップも書いているがスワップを使わずに済むだけメモリーが載っているので意味はない。

CPU	メモリー	スワップ	ストレージ	OS
Intel(R) Xeon(R) CPU E5-2660 v3 @ 2.60GHz （24コア）	64GiB	35GiB	SSD（500GB）	CentOS 7.2

バージョン：

PostgreSQL	PGroonga	pg_bigm
9.6.1	1.1.8	1.2-20161011

データ：

サイズ	レコード数	タイトルの平均バイト数	本文の平均バイト数
約5.9GiB	約90万件	約21.6B	約6.7KiB

データロード：

時間	サイズ
約5分	約5GB

インデックス作成：

種類	時間	サイズ	備考
PGroonga	約21分	約9.8GB	データもロードしている。データはzlibで圧縮している。
pg_bigm	約40分	約4.2GB	`maintenance_work_mem`は`512MB`。

検索：

「Groonga」はPGroonga経由でpgroonga.command('select ...')で実行したもの。
「相対時間」は一番速いケースを1としてそれよりどのくらい時間がかかったかを比率を表したもの。1に近いほど違いは少ない。「相対時間」が2なら1番速いケースよりも2倍時間がかかっている。

クエリー：テレビアニメ

種類	時間	件数	相対時間
PGroonga	約63ms	約2万件	約1.7
Groonga	約38ms	約2万件	1
pg_bigm	約2.8s	約2万件	約74

クエリー：データベース

種類	時間	件数	相対時間
PGroonga	約48ms	約1.5万件	約1.6
Groonga	約30ms	約1.5万件	1
pg_bigm	約1.3s	約1.5万件	約43

クエリー：PostgreSQL OR MySQL

種類	時間	件数	相対時間
PGroonga	約2ms	316件	約2
Groonga	約1ms	316件	1
pg_bigm	約47ms	311件	約47

クエリー：日本

種類	時間	件数	相対時間
PGroonga	約600ms	約53万件	約11
Groonga	約53ms	約53万件	1
pg_bigm	約504ms	約53万件	約10

kou commented 7 years ago

英語版のまとめ。

環境：

スワップも書いているがスワップを使わずに済むだけメモリーが載っているので意味はない。

CPU	メモリー	スワップ	ストレージ	OS
Intel(R) Xeon(R) CPU E5-2660 v3 @ 2.60GHz （24コア）	64GiB	35GiB	SSD（500GB）	CentOS 7.2

バージョン：

PostgreSQL	PGroonga
9.6.1	1.1.8

データ：

サイズ	レコード数	タイトルの平均バイト数	本文の平均バイト数
約33GiB	約530万件	約19.6B	約6.4KiB

データロード：

時間	サイズ
約26分	約21GB

インデックス作成：

種類	時間	サイズ	備考
PGroonga	約1時間38分	約39GB	データもロードしている。データはzlibで圧縮している。インデックスのみだと約21GB。
pg_trgm	約1時間52分	約7.8GB	`maintenance_work_mem`は`512MB`。
textsearch	N/A	N/A	「string is too long for tsvector (1618908 bytes, max 1048575 bytes)」というエラーがでてインデックスを作成できない。
textsearch（先頭1M文字のみ）	約4時間12分	約11GB	`maintenance_work_mem`は`512MB`。

検索：

「Groonga」はPGroonga経由でpgroonga.command('select ...')で実行したもの。
「textsearch」は先頭1M文字のみをインデックスした場合のtextsearch。
「相対時間」は一番速いケースを1としてそれよりどのくらい時間がかかったかを比率を表したもの。1に近いほど違いは少ない。「相対時間」が2なら1番速いケースよりも2倍時間がかかっている。

クエリー：animation

種類	時間	件数	相対時間	備考
PGroonga	約176ms	約4万件	約22
Groonga	約8ms	約4万件	1
pg_trgm	約44s	約3万件	約5500
textsearch	約1s	約42万件	約125	件数が1桁多いのはステミングして「anim」で検索しているから

クエリー：database

種類	時間	件数	相対時間
PGroonga	約668ms	約21万件	約37
Groonga	約18ms	約21万件	1
pg_trgm	約33s	約13万件	約1833
textsearch	約649ms	約19万件	約36

クエリー：PostgreSQL OR MySQL

種類	時間	件数	相対時間
PGroonga	約4ms	1636件	約1.3
Groonga	約4ms	1636件	約1.3
pg_trgm	約227ms	1484件	約57
textsearch	約3ms	1506件	1

クエリー：America

種類	時間	件数	相対時間
PGroonga	約1.3s	約47万件	約31
Groonga	約42ms	約47万件	1
pg_trgm	約1m32s	約141万件	約2190
textsearch	約1.3s	約48万件	約31

s-yata commented 7 years ago

メモリ使用量について気になったので， RAM 128GB の環境で追試してみました． load によるデータ投入（索引なし）では，メモリ上にすべて収まるようです．静的索引構築では約 50% まで増えて落ち着くようです．

データ投入

screenshot from 2016-11-14 13-36-04

静的索引構築

screenshot from 2016-11-14 13-36-24

RAM 32GB の環境でも 50% で頭打ちになっていたので， OS により 50% で制限されているのだと思います．怪しいのは以下です．

vm.overcommit_memory = 0
vm.overcommit_ratio = 50

kou commented 7 years ago

ありがとうございます！物理メモリーがあるともっとメモリーを使って頑張るということですね。

kou commented 7 years ago

メモリー32GBの環境で再試した。再試の理由は英語版Wikipediaをコンテンツページだけにすると、1MiB未満のバイト数におさまりそうだったからである。おさまるならsubstringする必要はない。

で、substringなしにしてみたらエラーにならなかった。

また、maintenance_work_memをさらに増やすと効果があるかを測定するためである。512MBから2GBに増やしたがあまり変わらなかった。

en.all.txt

PGroongaのインデックス構築時間がpg_trgmより遅かったのでそれは再測定する。理由は64GBの環境だとPGroongaの方が速かったからである。

kou commented 7 years ago

静的索引構築時にPostgreSQLのメモリープールを細かく解放するようにしたら使用メモリーが素のGroongaと同じくらいになった。

kou commented 7 years ago

PGroongaのインデックス作成時間を再測定した。5041785.782 ms（1時間24分）なので15分くらい速くなった。

↑↑にtextsearchの検索結果が入っていなかったのでそれも再測定した。

en.all.pgroonga.txt

kou commented 7 years ago

日本語版も再測定した。

maintenance_work_memを2GBにしたらpg_bigmのインデックス構築時間が速くなった。4o分→33分

PGroongaは多少速くなった。21分→18分

ja.all.txt

kou commented 7 years ago

再：日本語版のまとめ。

環境：

CPU	メモリー	スワップ	ストレージ	OS
Intel(R) Xeon(R) CPU E5-2660 v3 @ 2.60GHz （24コア）	32GiB	2GiB	SSD（500GB）	CentOS 7.2

バージョン：

PostgreSQL	PGroonga	pg_bigm
9.6.1	1.1.8+α	1.2-20161011

データ：

サイズ	レコード数	タイトルの平均バイト数	タイトルの最長バイト数	本文の平均バイト数	本文の最長バイト数
約5.9GiB	約90万件	約21.6B	250バイト	約6.7KiB	約677KiB

データロード：

時間	サイズ
約5分	約5GB

インデックス作成：

種類	時間	サイズ	備考
PGroonga	約19分	約9.8GB	データもロードしている。データはzlibで圧縮している。
pg_bigm	約33分	約4.2GB	`maintenance_work_mem`は`2GB`。

検索：

「Groonga」はPGroonga経由でpgroonga.command('select ...')で実行したもの。
「相対時間」は一番速いケースを1としてそれよりどのくらい時間がかかったかを比率を表したもの。1に近いほど違いは少ない。「相対時間」が2なら1番速いケースよりも2倍時間がかかっている。

クエリー：テレビアニメ

種類	時間	件数	相対時間
PGroonga	約65ms	約2万件	約1.1
Groonga	約38ms	約2万件	1
pg_bigm	約2.8s	約2万件	約48

クエリー：データベース

種類	時間	件数	相対時間
PGroonga	約49ms	約1.5万件	約1.6
Groonga	約31ms	約1.5万件	1
pg_bigm	約1.3s	約1.5万件	約41

クエリー：PostgreSQL OR MySQL

種類	時間	件数	相対時間
PGroonga	約2ms	316件	約2
Groonga	約1ms	316件	1
pg_bigm	約49ms	311件	約49

クエリー：日本

種類	時間	件数	相対時間
PGroonga	約563ms	約53万件	約10
Groonga	約59ms	約53万件	1
pg_bigm	約479ms	約53万件	約8

kou commented 7 years ago

再：英語版のまとめ。

環境：

CPU	メモリー	スワップ	ストレージ	OS
Intel(R) Xeon(R) CPU E5-2660 v3 @ 2.60GHz （24コア）	32GiB	2GiB	SSD（500GB）	CentOS 7.2

バージョン：

PostgreSQL	PGroonga
9.6.1	1.1.8+α

データ：

サイズ	レコード数	タイトルの平均バイト数	タイトルの最長バイト数	本文の平均バイト数	本文の最長バイト数
約33GiB	約530万件	約19.6B	211バイト	約6.4KiB	約1MiB（1047190B）

データロード：

時間	サイズ
約26分	約21GB

インデックス作成：

種類	時間	サイズ	備考
PGroonga	約1時間24分	約39GB	データもロードしている。データはzlibで圧縮している。インデックスのみだと約21GB。
pg_trgm	約1時間50分	約7.6GB	`maintenance_work_mem`は`2GB`。
textsearch	約2時間53分	約12GB	`maintenance_work_mem`は`2GB`。インデックスできない単語が3923個ある。(*)

(*) エラーメッセージ：

NOTICE:  word is too long to be indexed
DETAIL:  Words longer than 2047 characters are ignored.

本文の最大バイト数が1047190Bで1MiB - 1（1048576B）にギリギリ収まっている。これを超えると以下のエラーメッセージがでてインデックスを作成できない。

string is too long for tsvector (1618908 bytes, max 1048575 bytes)

検索：

「Groonga」はPGroonga経由でpgroonga.command('select ...')で実行したもの。
「textsearch」は先頭1M文字のみをインデックスした場合のtextsearch。
「相対時間」は一番速いケースを1としてそれよりどのくらい時間がかかったかを比率を表したもの。1に近いほど違いは少ない。「相対時間」が2なら1番速いケースよりも2倍時間がかかっている。

クエリー：animation

種類	時間	件数	相対時間	備考
PGroonga	約173ms	約4万件	約29
Groonga	約6ms	約4万件	1
pg_trgm	約44s	約3万件	約7333
textsearch	約1s	約42万件	約167	件数が1桁多いのはステミングして「anim」で検索しているから

クエリー：database

種類	時間	件数	相対時間
PGroonga	約698ms	約21万件	約37
Groonga	約19ms	約21万件	1
pg_trgm	約33s	約13万件	約1736
textsearch	約602ms	約19万件	約32

クエリー：PostgreSQL OR MySQL

種類	時間	件数	相対時間
PGroonga	約6ms	1636件	約2
Groonga	約3ms	1636件	1
pg_trgm	約241ms	1484件	約80
textsearch	約3ms	1506件	1

クエリー：America

種類	時間	件数	相対時間
PGroonga	約1.3s	約47万件	約29
Groonga	約45ms	約47万件	1
pg_trgm	約1m32s	約141万件	約2044
textsearch	約1.2s	約48万件	約26

kou commented 7 years ago

公式サイトにまとめた。

groonga / wikipedia-search

PGroongaとpg_trgmとtextsearchのベンチマークをとる #5