[BUG] (v1.4.2) -> WizardLM v1.0 Uncensored: 'blk.0.attn_k.weight' has wrong shape;

SabinStargem commented 1 year ago

As the title mentioned, I tried out WizardLM 34b, and it didn't boot up.

Welcome to KoboldCpp - Version 1.42.1 For command line arguments, please refer to --help

Attempting to use CuBLAS library for faster prompt ingestion. A compatible CuBLAS will be required. Initializing dynamic library: koboldcpp_cublas.dll

Overriding thread count, using 6 threads instead. Namespace(bantokens=None, blasbatchsize=2048, blasthreads=6, config=None, contextsize=16384, debugmode=False, forceversion=0, gpulayers=1, highpriority=False, hordeconfig=None, host='', launch=True, lora=None, model=None, model_param='C:/KoboldCPP/Models/wizardlm-1.0-uncensored-codellama-34b.gguf.q4_k_s.bin', noavx2=False, noblas=False, nommap=False, port=5001, port_param=5001, psutil_set_threads=True, ropeconfig=[0.0, 10000.0], skiplauncher=False, smartcontext=False, stream=False, tensor_split=None, threads=6, unbantokens=False, useclblast=None, usecublas=['normal', '0', 'mmq'], usemirostat=None, usemlock=True)

Loading model: C:\KoboldCPP\Models\wizardlm-1.0-uncensored-codellama-34b.gguf.q4_k_s.bin [Threads: 6, BlasThreads: 6, SmartContext: False]

Identified as LLAMA model: (ver 6) Attempting to Load...

Using automatic RoPE scaling System Info: AVX = 1 | AVX2 ggml_init_cublas: found 1 CUDA devices: Device 0: NVIDIA GeForce llama_model_loader: loaded llama_model_loader: - tensor 1: llama_model_loader: - tensor 2: llama_model_loader: - tensor 3: llama_model_loader: - tensor 4: llama_model_loader: - tensor 5: llama_model_loader: - tensor 6: llama_model_loader: - tensor 7: llama_model_loader: - tensor 8: llama_model_loader: - tensor 9: llama_model_loader: - tensor 10: llama_model_loader: - tensor 11: llama_model_loader: - tensor 12: llama_model_loader: - tensor 13: llama_model_loader: - tensor 14: llama_model_loader: - tensor 15: llama_model_loader: - tensor 16: llama_model_loader: - tensor 17: llama_model_loader: - tensor 18: llama_model_loader: - tensor 19: llama_model_loader: - tensor 20: llama_model_loader: - tensor 21: llama_model_loader: - tensor 22: llama_model_loader: - tensor 23: llama_model_loader: - tensor 24: llama_model_loader: - tensor 25: llama_model_loader: - tensor 26: llama_model_loader: - tensor 27: llama_model_loader: - tensor 28: llama_model_loader: - tensor 29: llama_model_loader: - tensor 30: llama_model_loader: - tensor 31: llama_model_loader: - tensor 32: llama_model_loader: - tensor 33: llama_model_loader: - tensor 34: llama_model_loader: - tensor 35: llama_model_loader: - tensor 36: llama_model_loader: - tensor 37: llama_model_loader: - tensor 38: llama_model_loader: - tensor 39: llama_model_loader: - tensor 40: llama_model_loader: - tensor 41: llama_model_loader: - tensor 42: llama_model_loader: - tensor 43: llama_model_loader: - tensor 44: llama_model_loader: - tensor 45: llama_model_loader: - tensor 46: llama_model_loader: - tensor 47: llama_model_loader: - tensor 48: llama_model_loader: - tensor 49: llama_model_loader: - tensor 50: llama_model_loader: - tensor 51: llama_model_loader: - tensor 52: llama_model_loader: - tensor 53: llama_model_loader: - tensor 54: llama_model_loader: - tensor 55: llama_model_loader: - tensor 56: llama_model_loader: - tensor 57: llama_model_loader: - tensor 58: llama_model_loader: - tensor 59: llama_model_loader: - tensor 60: llama_model_loader: - tensor 61: llama_model_loader: - tensor 62: llama_model_loader: - tensor 63: llama_model_loader: - tensor 64: llama_model_loader: - tensor 65: llama_model_loader: - tensor 66: llama_model_loader: - tensor 67: llama_model_loader: - tensor 68: llama_model_loader: - tensor 69: llama_model_loader: - tensor 70: llama_model_loader: - tensor 71: llama_model_loader: - tensor 72: llama_model_loader: - tensor 73: llama_model_loader: - tensor 74: llama_model_loader: - tensor 75: llama_model_loader: - tensor 76: llama_model_loader: - tensor 77: llama_model_loader: - tensor 78: llama_model_loader: - tensor 79: llama_model_loader: - tensor 80: llama_model_loader: - tensor 81: llama_model_loader: - tensor 82: llama_model_loader: - tensor 83: llama_model_loader: - tensor 84: llama_model_loader: - tensor 85: llama_model_loader: - tensor 86: llama_model_loader: - tensor 87: llama_model_loader: - tensor 88: llama_model_loader: - tensor 89: llama_model_loader: - tensor 90: llama_model_loader: - tensor 91: llama_model_loader: - tensor 92: llama_model_loader: - tensor 93: llama_model_loader: - tensor 94: llama_model_loader: - tensor 95: llama_model_loader: - tensor 96: llama_model_loader: - tensor 97: llama_model_loader: - tensor 98: llama_model_loader: - tensor 99: llama_model_loader: - tensor 100: llama_model_loader: - tensor 101: llama_model_loader: - tensor 102: llama_model_loader: - tensor 103: llama_model_loader: - tensor 104: llama_model_loader: - tensor 105: llama_model_loader: - tensor 106: llama_model_loader: - tensor 107: llama_model_loader: - tensor 108: llama_model_loader: - tensor 109: llama_model_loader: - tensor 110: llama_model_loader: - tensor 111: llama_model_loader: - tensor 112: llama_model_loader: - tensor 113: llama_model_loader: - tensor 114: llama_model_loader: - tensor 115: llama_model_loader: - tensor 116: llama_model_loader: - tensor 117: llama_model_loader: - tensor 118: llama_model_loader: - tensor 119: llama_model_loader: - tensor 120: llama_model_loader: - tensor 121: llama_model_loader: - tensor 122: llama_model_loader: - tensor 123: llama_model_loader: - tensor 124: llama_model_loader: - tensor 125: llama_model_loader: - tensor 126: llama_model_loader: - tensor 127: llama_model_loader: - tensor 128: llama_model_loader: - tensor 129: llama_model_loader: - tensor 130: llama_model_loader: - tensor 131: llama_model_loader: - tensor 132: llama_model_loader: - tensor 133: llama_model_loader: - tensor 134: llama_model_loader: - tensor 135: llama_model_loader: - tensor 136: llama_model_loader: - tensor 137: llama_model_loader: - tensor 138: llama_model_loader: - tensor 139: llama_model_loader: - tensor 140: llama_model_loader: - tensor 141: llama_model_loader: - tensor 142: llama_model_loader: - tensor 143: llama_model_loader: - tensor 144: llama_model_loader: - tensor 145: llama_model_loader: - tensor 146: llama_model_loader: - tensor 147: llama_model_loader: - tensor 148: llama_model_loader: - tensor 149: llama_model_loader: - tensor 150: llama_model_loader: - tensor 151: llama_model_loader: - tensor 152: llama_model_loader: - tensor 153: llama_model_loader: - tensor 154: llama_model_loader: - tensor 155: llama_model_loader: - tensor 156: llama_model_loader: - tensor 157: llama_model_loader: - tensor 158: llama_model_loader: - tensor 159: llama_model_loader: - tensor 160: llama_model_loader: - tensor 161: llama_model_loader: - tensor 162: llama_model_loader: - tensor 163: llama_model_loader: - tensor 164: llama_model_loader: - tensor 165: llama_model_loader: - tensor 166: llama_model_loader: - tensor 167: llama_model_loader: - tensor 168: llama_model_loader: - tensor 169: llama_model_loader: - tensor 170: llama_model_loader: - tensor 171: llama_model_loader: - tensor 172: llama_model_loader: - tensor 173: llama_model_loader: - tensor 174: llama_model_loader: - tensor 175: llama_model_loader: - tensor 176: llama_model_loader: - tensor 177: llama_model_loader: - tensor 178: llama_model_loader: - tensor 179: llama_model_loader: - tensor 180: llama_model_loader: - tensor 181: llama_model_loader: - tensor 182: llama_model_loader: - tensor 183: llama_model_loader: - tensor 184: llama_model_loader: - tensor 185: llama_model_loader: - tensor 186: llama_model_loader: - tensor 187: llama_model_loader: - tensor 188: llama_model_loader: - tensor 189: llama_model_loader: - tensor 190: llama_model_loader: - tensor 191: llama_model_loader: - tensor 192: llama_model_loader: - tensor 193: llama_model_loader: - tensor 194: llama_model_loader: - tensor 195: llama_model_loader: - tensor 196: llama_model_loader: - tensor 197: llama_model_loader: - tensor 198: llama_model_loader: - tensor 199: llama_model_loader: - tensor 200: llama_model_loader: - tensor 201: llama_model_loader: - tensor 202: llama_model_loader: - tensor 203: llama_model_loader: - tensor 204: llama_model_loader: - tensor 205: llama_model_loader: - tensor 206: llama_model_loader: - tensor 207: llama_model_loader: - tensor 208: llama_model_loader: - tensor 209: llama_model_loader: - tensor 210: llama_model_loader: - tensor 211: llama_model_loader: - tensor 212: llama_model_loader: - tensor 213: llama_model_loader: - tensor 214: llama_model_loader: - tensor 215: llama_model_loader: - tensor 216: llama_model_loader: - tensor 217: llama_model_loader: - tensor 218: llama_model_loader: - tensor 219: llama_model_loader: - tensor 220: llama_model_loader: - tensor 221: llama_model_loader: - tensor 222: llama_model_loader: - tensor 223: llama_model_loader: - tensor 224: llama_model_loader: - tensor 225: llama_model_loader: - tensor 226: llama_model_loader: - tensor 227: llama_model_loader: - tensor 228: llama_model_loader: - tensor 229: llama_model_loader: - tensor 230: llama_model_loader: - tensor 231: llama_model_loader: - tensor 232: llama_model_loader: - tensor 233: llama_model_loader: - tensor 234: llama_model_loader: - tensor 235: llama_model_loader: - tensor 236: llama_model_loader: - tensor 237: llama_model_loader: - tensor 238: llama_model_loader: - tensor 239: llama_model_loader: - tensor 240: llama_model_loader: - tensor 241: llama_model_loader: - tensor 242: llama_model_loader: - tensor 243: llama_model_loader: - tensor 244: llama_model_loader: - tensor 245: llama_model_loader: - tensor 246: llama_model_loader: - tensor 247: llama_model_loader: - tensor 248: llama_model_loader: - tensor 249: llama_model_loader: - tensor 250: llama_model_loader: - tensor 251: llama_model_loader: - tensor 252: llama_model_loader: - tensor 253: llama_model_loader: - tensor 254: llama_model_loader: - tensor 255: llama_model_loader: - tensor 256: llama_model_loader: - tensor 257: llama_model_loader: - tensor 258: llama_model_loader: - tensor 259: llama_model_loader: - tensor 260: llama_model_loader: - tensor 261: llama_model_loader: - tensor 262: llama_model_loader: - tensor 263: llama_model_loader: - tensor 264: llama_model_loader: - tensor 265: llama_model_loader: - tensor 266: llama_model_loader: - tensor 267: llama_model_loader: - tensor 268: llama_model_loader: - tensor 269: llama_model_loader: - tensor 270: llama_model_loader: - tensor 271: llama_model_loader: - tensor 272: llama_model_loader: - tensor 273: llama_model_loader: - tensor 274: llama_model_loader: - tensor 275: llama_model_loader: - tensor 276: llama_model_loader: - tensor 277: llama_model_loader: - tensor 278: llama_model_loader: - tensor 279: llama_model_loader: - tensor 280: llama_model_loader: - tensor 281: llama_model_loader: - tensor 282: llama_model_loader: - tensor 283: llama_model_loader: - tensor 284: llama_model_loader: - tensor 285: llama_model_loader: - tensor 286: llama_model_loader: - tensor 287: llama_model_loader: - tensor 288: llama_model_loader: - tensor 289: llama_model_loader: - tensor 290: llama_model_loader: - tensor 291: llama_model_loader: - tensor 292: llama_model_loader: - tensor 293: llama_model_loader: - tensor 294: llama_model_loader: - tensor 295: llama_model_loader: - tensor 296: llama_model_loader: - tensor 297: llama_model_loader: - tensor 298: llama_model_loader: - tensor 299: llama_model_loader: - tensor 300: llama_model_loader: - tensor 301: llama_model_loader: - tensor 302: llama_model_loader: - tensor 303: llama_model_loader: - tensor 304: llama_model_loader: - tensor 305: llama_model_loader: - tensor 306: llama_model_loader: - tensor 307: llama_model_loader: - tensor 308: llama_model_loader: - tensor 309: llama_model_loader: - tensor 310: llama_model_loader: - tensor 311: llama_model_loader: - tensor 312: llama_model_loader: - tensor 313: llama_model_loader: - tensor 314: llama_model_loader: - tensor 315: llama_model_loader: - tensor 316: llama_model_loader: - tensor 317: llama_model_loader: - tensor 318: llama_model_loader: - tensor 319: llama_model_loader: - tensor 320: llama_model_loader: - tensor 321: llama_model_loader: - tensor 322: llama_model_loader: - tensor 323: llama_model_loader: - tensor 324: llama_model_loader: - tensor 325: llama_model_loader: - tensor 326: llama_model_loader: - tensor 327: llama_model_loader: - tensor 328: llama_model_loader: - tensor 329: llama_model_loader: - tensor 330: llama_model_loader: - tensor 331: llama_model_loader: - tensor 332: llama_model_loader: - tensor 333: llama_model_loader: - tensor 334: llama_model_loader: - tensor 335: llama_model_loader: - tensor 336: llama_model_loader: - tensor 337: llama_model_loader: - tensor 338: llama_model_loader: - tensor 339: llama_model_loader: - tensor 340: llama_model_loader: - tensor 341: llama_model_loader: - tensor 342: llama_model_loader: - tensor 343: llama_model_loader: - tensor 344: llama_model_loader: - tensor 345: llama_model_loader: - tensor 346: llama_model_loader: - tensor 347: llama_model_loader: - tensor 348: llama_model_loader: - tensor 349: llama_model_loader: - tensor 350: llama_model_loader: - tensor 351: llama_model_loader: - tensor 352: llama_model_loader: - tensor 353: llama_model_loader: - tensor 354: llama_model_loader: - tensor 355: llama_model_loader: - tensor 356: llama_model_loader: - tensor 357: llama_model_loader: - tensor 358: llama_model_loader: - tensor 359: llama_model_loader: - tensor 360: llama_model_loader: - tensor 361: llama_model_loader: - tensor 362: llama_model_loader: - tensor 363: llama_model_loader: - tensor 364: llama_model_loader: - tensor 365: llama_model_loader: - tensor 366: llama_model_loader: - tensor 367: llama_model_loader: - tensor 368: llama_model_loader: - tensor 369: llama_model_loader: - tensor 370: llama_model_loader: - tensor 371: llama_model_loader: - tensor 372: llama_model_loader: - tensor 373: llama_model_loader: - tensor 374: llama_model_loader: - tensor 375: llama_model_loader: - tensor 376: llama_model_loader: - tensor 377: llama_model_loader: - tensor 378: llama_model_loader: - tensor 379: llama_model_loader: - tensor 380: llama_model_loader: - tensor 381: llama_model_loader: - tensor 382: llama_model_loader: - tensor 383: llama_model_loader: - tensor 384: llama_model_loader: - tensor 385: llama_model_loader: - tensor 386: llama_model_loader: - tensor 387: llama_model_loader: - tensor 388: llama_model_loader: - tensor 389: llama_model_loader: - tensor 390: llama_model_loader: - tensor 391: llama_model_loader: - tensor 392: llama_model_loader: - tensor 393: llama_model_loader: - tensor 394: llama_model_loader: - tensor 395: llama_model_loader: - tensor 396: llama_model_loader: - tensor 397: llama_model_loader: - tensor 398: llama_model_loader: - tensor 399: llama_model_loader: - tensor 400: llama_model_loader: - tensor 401: llama_model_loader: - tensor 402: llama_model_loader: - tensor 403: llama_model_loader: - tensor 404: llama_model_loader: - tensor 405: llama_model_loader: - tensor 406: llama_model_loader: - tensor 407: llama_model_loader: - tensor 408: llama_model_loader: - tensor 409: llama_model_loader: - tensor 410: llama_model_loader: - tensor 411: llama_model_loader: - tensor 412: llama_model_loader: - tensor 413: llama_model_loader: - tensor 414: llama_model_loader: - tensor 415: llama_model_loader: - tensor 416: llama_model_loader: - tensor 417: llama_model_loader: - tensor 418: llama_model_loader: - tensor 419: llama_model_loader: - tensor 420: llama_model_loader: - tensor 421: llama_model_loader: - tensor 422: llama_model_loader: - tensor 423: llama_model_loader: - tensor 424: llama_model_loader: - tensor 425: llama_model_loader: - tensor 426: llama_model_loader: - tensor 427: llama_model_loader: - tensor 428: llama_model_loader: - tensor 429: llama_model_loader: - tensor 430: llama_model_loader: - tensor 431: llama_model_loader: - tensor 432: llama_model_loader: - tensor 433: llama_model_loader: - tensor 434: llama_model_loader: - kv 0: llama_model_loader: - kv 1: llama_model_loader: - kv 2: llama_model_loader: - kv 3: llama_model_loader: - kv 4: llama_model_loader: - kv 5: llama_model_loader: - kv 6: llama_model_loader: - kv 7: llama_model_loader: - kv 8: llama_model_loader: - kv 9: llama_model_loader: - kv 10: llama_model_loader: - kv 11: llama_model_loader: - kv 12: llama_model_loader: - kv 13: llama_model_loader: - kv 14: llama_model_loader: - kv 15: llama_model_loader: - kv 16: llama_model_loader: - kv 17: llama_model_loader: - kv 18: llama_model_loader: - type f32: llama_model_loader: - type q4_K: llama_model_loader: - type q5_K: llama_model_loader: - type q6_K: llm_load_print_meta: format llm_load_print_meta: arch llm_load_print_meta: vocab type llm_load_print_meta: n_vocab llm_load_print_meta: n_merges = 0 llm_load_print_meta: n_ctx_train llm_load_print_meta: n_ctx llm_load_print_meta: n_embd llm_load_print_meta: n_head llm_load_print_meta: n_head_kv llm_load_print_meta: n_layer llm_load_print_meta: n_rot llm_load_print_meta: n_gqa = 1 llm_load_print_meta: f_norm_eps llm_load_print_meta: f_norm_rms_eps llm_load_print_meta: n_ff llm_load_print_meta: freq_base llm_load_print_meta: freq_scale = 1 llm_load_print_meta: model type llm_load_print_meta: model ftype llm_load_print_meta: model size llm_load_print_meta: general.name llm_load_print_meta: BOS llm_load_print_meta: EOS llm_load_print_meta: UNK llm_load_print_meta: LF token llm_load_tensors: ggml ctx size = llm_load_tensors: using CUDA error loading model: create_tensor: gpttype_load_model: error: Load Model OK: False Could not load model: C:\KoboldCPP (scale:1.000, base:200000.0) = 1 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 1 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | SSSE3 = 0 | VSX = 0 | RTX 3060, compute capability 8.6 meta data with 19 key-value pairs and 435 tensors from C:\KoboldCPP\Models\wizardlm-1.0-uncensored-coY｢\ﾂﾙtllama_model_loader: - tensor 0: token_embd.weight q4_K [ 8192, 32000, 1, 1 ] blk.0.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.0.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.0.attn_v.weight q5_K [ 8192, 1024, 1, 1 ] blk.0.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.0.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.0.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.0.ffn_down.weight q5_K [ 22016, 8192, 1, 1 ] blk.0.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.0.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.1.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.1.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.1.attn_v.weight q5_K [ 8192, 1024, 1, 1 ] blk.1.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.1.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.1.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.1.ffn_down.weight q5_K [ 22016, 8192, 1, 1 ] blk.1.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.1.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.2.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.2.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.2.attn_v.weight q5_K [ 8192, 1024, 1, 1 ] blk.2.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.2.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.2.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.2.ffn_down.weight q5_K [ 22016, 8192, 1, 1 ] blk.2.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.2.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.3.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.3.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.3.attn_v.weight q5_K [ 8192, 1024, 1, 1 ] blk.3.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.3.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.3.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.3.ffn_down.weight q5_K [ 22016, 8192, 1, 1 ] blk.3.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.3.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.4.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.4.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.4.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.4.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.4.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.4.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.4.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.4.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.4.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.5.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.5.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.5.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.5.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.5.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.5.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.5.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.5.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.5.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.6.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.6.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.6.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.6.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.6.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.6.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.6.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.6.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.6.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.7.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.7.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.7.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.7.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.7.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.7.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.7.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.7.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.7.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.8.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.8.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.8.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.8.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.8.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.8.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.8.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.8.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.8.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.9.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.9.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.9.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.9.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.9.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.9.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.9.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.9.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.9.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.10.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.10.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.10.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.10.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.10.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.10.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.10.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.10.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.10.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.11.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.11.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.11.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.11.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.11.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.11.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.11.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.11.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.11.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.12.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.12.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.12.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.12.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.12.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.12.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.12.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.12.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.12.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.13.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.13.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.13.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.13.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.13.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.13.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.13.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.13.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.13.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.14.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.14.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.14.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.14.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.14.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.14.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.14.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.14.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.14.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.15.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.15.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.15.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.15.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.15.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.15.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.15.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.15.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.15.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.16.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.16.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.16.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.16.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.16.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.16.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.16.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.16.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.16.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.17.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.17.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.17.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.17.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.17.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.17.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.17.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.17.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.17.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.18.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.18.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.18.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.18.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.18.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.18.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.18.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.18.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.18.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.19.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.19.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.19.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.19.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.19.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.19.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.19.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.19.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.19.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.20.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.20.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.20.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.20.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.20.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.20.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.20.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.20.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.20.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.21.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.21.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.21.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.21.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.21.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.21.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.21.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.21.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.21.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.22.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.22.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.22.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.22.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.22.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.22.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.22.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.22.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.22.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.23.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.23.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.23.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.23.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.23.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.23.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.23.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.23.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.23.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.24.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.24.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.24.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.24.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.24.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.24.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.24.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.24.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.24.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.25.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.25.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.25.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.25.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.25.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.25.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.25.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.25.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.25.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.26.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.26.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.26.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.26.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.26.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.26.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.26.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.26.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.26.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.27.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.27.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.27.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.27.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.27.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.27.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.27.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.27.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.27.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.28.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.28.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.28.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.28.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.28.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.28.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.28.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.28.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.28.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.29.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.29.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.29.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.29.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.29.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.29.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.29.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.29.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.29.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.30.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.30.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.30.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.30.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.30.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.30.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.30.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.30.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.30.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.31.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.31.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.31.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.31.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.31.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.31.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.31.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.31.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.31.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.32.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.32.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.32.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.32.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.32.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.32.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.32.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.32.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.32.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.33.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.33.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.33.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.33.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.33.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.33.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.33.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.33.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.33.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.34.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.34.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.34.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.34.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.34.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.34.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.34.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.34.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.34.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.35.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.35.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.35.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.35.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.35.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.35.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.35.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.35.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.35.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.36.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.36.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.36.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.36.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.36.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.36.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.36.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.36.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.36.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.37.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.37.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.37.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.37.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.37.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.37.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.37.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.37.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.37.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.38.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.38.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.38.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.38.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.38.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.38.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.38.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.38.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.38.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.39.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.39.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.39.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.39.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.39.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.39.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.39.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.39.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.39.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.40.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.40.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.40.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.40.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.40.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.40.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.40.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.40.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.40.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.41.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.41.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.41.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.41.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.41.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.41.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.41.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.41.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.41.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.42.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.42.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.42.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.42.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.42.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.42.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.42.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.42.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.42.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.43.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.43.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.43.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.43.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.43.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.43.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.43.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.43.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.43.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.44.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.44.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.44.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.44.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.44.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.44.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.44.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.44.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.44.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.45.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.45.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.45.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.45.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.45.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.45.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.45.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.45.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.45.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.46.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.46.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.46.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.46.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.46.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.46.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.46.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.46.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.46.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.47.attn_q.weight q4_K [ 8192, 8192, 1, 1 ] blk.47.attn_k.weight q4_K [ 8192, 1024, 1, 1 ] blk.47.attn_v.weight q4_K [ 8192, 1024, 1, 1 ] blk.47.attn_output.weight q4_K [ 8192, 8192, 1, 1 ] blk.47.ffn_gate.weight q4_K [ 8192, 22016, 1, 1 ] blk.47.ffn_up.weight q4_K [ 8192, 22016, 1, 1 ] blk.47.ffn_down.weight q4_K [ 22016, 8192, 1, 1 ] blk.47.attn_norm.weight f32 [ 8192, 1, 1, 1 ] blk.47.ffn_norm.weight f32 [ 8192, 1, 1, 1 ] output_norm.weight f32 [ 8192, 1, 1, 1 ] output.weight q6_K [ 8192, 32000, 1, 1 ] general.architecture str general.name str llama.context_length u32 llama.embedding_length u32 llama.block_count u32 llama.feed_forward_length u32 llama.rope.dimension_count u32 llama.attention.head_count u32 llama.attention.head_count_kv u32 llama.attention.layer_norm_rms_epsilon f32 general.file_type u32 tokenizer.ggml.model str tokenizer.ggml.tokens arr tokenizer.ggml.scores arr tokenizer.ggml.token_type arr tokenizer.ggml.bos_token_id u32 tokenizer.ggml.eos_token_id u32 tokenizer.ggml.unknown_token_id u32 general.quantization_version u32 97 tensors 329 tensors 8 tensors 1 tensors = GGUF V2 (latest) = llama = SPM = 32000 = 4096 = 16384 = 8192 = 64 = 64 = 48 = 128 = 1.0e-05 = 1.0e-05 = 22016 = 200000.0 = 34B = mostly Q4_K - Small = 33.74 B = LLaMA v2 token = 1 '~~' token = 2 '~~' token = 0 '' = 13 '<0x0A>' 0.14 MB for GPU acceleration tensor 'blk.0.attn_k.weight' has wrong shape; expected 8192, 8192, got 8192, 1024, 1\ﾂﾙtllama_load_model_from_file: failed to load model failed to load model 'C:\KoboldCPP\Models\wizardlm-1.0-uncensored-codellama-34b.gguf.q4_k_s.bin' \Models\wizardlm-1.0-uncensored-codellama-34b.gguf.q4_k_s.bin

[process exited with code 3 (0x00000003)]

LostRuins commented 1 year ago

Who converted this model? n_gqa should be 8 for this model I think.

SabinStargem commented 1 year ago

Venketh. They are probably still learning the ropes, I am guessing? Anyhow, I reported your solution on their model repository. With any luck, this would be fixed up in a jiffy.

https://huggingface.co/venketh/WizardLM-1.0-Uncensored-CodeLlama-34b-GGUF/tree/main

LostRuins commented 1 year ago

I am not entirely sure as 34B was only added upstream recently, and I have not tried running it myself. Lets see what they say first

SabinStargem commented 1 year ago

I tried out The Bloke's version of the model, and it works fine. I am closing this issue, since it was a mishapen model and not a KoboldCPP problem.

LostRuins / koboldcpp

[BUG] (v1.4.2) -> WizardLM v1.0 Uncensored: 'blk.0.attn_k.weight' has wrong shape; #419

Attempting to use CuBLAS library for faster prompt ingestion. A compatible CuBLAS will be required. Initializing dynamic library: koboldcpp_cublas.dll

Identified as LLAMA model: (ver 6) Attempting to Load...