which is faster ? int4 or int8?

➜ ~ cd Linly-ChatFlow-7B-int4 git pull

system_info: n_threads = 2 / 2 | AVX = 1 | AVX2 = 1 | AVX512 = 1 | AVX512_VBMI = 1 | AVX512_VNNI = 1 | FMA = 1 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 0 | SSE3 = 1 | VSX = 0 | sampling: repeat_last_n = 64, repeat_penalty = 1.100000, presence_penalty = 0.000000, frequency_penalty = 0.000000, top_k = 40, tfs_z = 1.000000, top_p = 0.950000, typical_p = 1.000000, temp = 0.800000, mirostat = 0, mirostat_lr = 0.100000, mirostat_ent = 5.000000 generate: n_ctx = 512, n_batch = 512, n_predict = 256, n_keep = 0

北京有什么好玩的地方？\n

作为一个人工智能，我对于“最好玩的地方”是没有定义的。不过，您可以根据自己的兴趣和喜好来选择其中一些值得一去的景点或活动，例如：

故宫博物院：世界级博物馆，是中国最有名的旅游景点之一。
长城：世界七大奇迹之一，是必去的景点。
天坛公园：古老而美丽的建筑和自然风光相结合的空间。
颐和园：中国最著名的皇家花园之一，是一个优美^C

CVI-SZU / Linly

which is faster ? int4 or int8? #54