On 2/2/2024 11:10 PM, Li, Pan2 wrote:
Hi Edwin

I believe the only problematic failures are the 5 vls calling convention
ones where only 24 ld\\s+a[0-1],\\s*[0-9]+\\(sp\\) are found.

Does this "only 24" comes from calling-convention-1.c?

Oops sorry about that. I said I would include all the 7 failures and ended up not doing that. The failures are here FAIL: gcc.target/riscv/rvv/autovec/vls/calling-convention-1.c -O3 -ftree-vectorize --param riscv-autovec-preference=scalable scan-assembler-times ld\\s+a[0-1],\\s*[0-9]+\\(sp\\) 35 FAIL: gcc.target/riscv/rvv/autovec/vls/calling-convention-2.c -O3 -ftree-vectorize --param riscv-autovec-preference=scalable scan-assembler-times ld\\s+a[0-1],\\s*[0-9]+\\(sp\\) 33 FAIL: gcc.target/riscv/rvv/autovec/vls/calling-convention-3.c -O3 -ftree-vectorize --param riscv-autovec-preference=scalable scan-assembler-times ld\\s+a[0-1],\\s*[0-9]+\\(sp\\) 31 FAIL: gcc.target/riscv/rvv/autovec/vls/calling-convention-4.c -O3 -ftree-vectorize --param riscv-autovec-preference=scalable scan-assembler-times ld\\s+a[0-1],\\s*[0-9]+\\(sp\\) 29 FAIL: gcc.target/riscv/rvv/autovec/vls/calling-convention-7.c -O3 -ftree-vectorize --param riscv-autovec-preference=scalable scan-assembler-times ld\\s+a[0-1],\\s*[0-9]+\\(sp\\) 29

These all have the problem of only 24 ld\\s+a[0-1],\\s*[0-9]+\\(sp\\) being found. So that is calling-conventions 1, 2, 3, 4, 7 with only 24 matching RE.

FAIL: gcc.target/riscv/rvv/base/vcreate.c scan-assembler-times vmv1r.v\\s+v[0-9]+,\\s*v[0-9]+ 24 <-- found 36 times FAIL: gcc.target/riscv/rvv/base/vcreate.c scan-assembler-times vmv2r.v\\s+v[0-9]+,\\s*v[0-9]+ 12 <-- found 28 times FAIL: gcc.target/riscv/rvv/base/vcreate.c scan-assembler-times vmv4r.v\\s+v[0-9]+,\\s*v[0-9]+ 16 <-- found 19 times

These find more vmv's than expected

FAIL: gcc.target/riscv/rvv/vsetvl/avl_single-107.c -O2 scan-assembler-times vsetvli\\tzero,zero,e32,m1,t[au],m[au] 1 <-- found 0 times FAIL: gcc.target/riscv/rvv/vsetvl/avl_single-107.c -O2 -flto -fno-use-linker-plugin -flto-partition=none scan-assembler-times vsetvli\\tzero,zero,e32,m1,t[au],m[au] 1 <-- found 0 times FAIL: gcc.target/riscv/rvv/vsetvl/avl_single-107.c -O2 -flto -fuse-linker-plugin -fno-fat-lto-objects scan-assembler-times vsetvli\\tzero,zero,e32,m1,t[au],m[au] 1 <-- found 0 times

These failures are from vsetvli zero,a0,e2,m1,ta,ma being found instead. I believe these should be fine.


This is what I'm getting locally (first instance of wrong match):
v32qi_RET1_ARG8:
.LFB109:

V32qi will pass the args by reference instead of GPR(s), thus It is expected. I 
think we need to diff the asm code before and after the patch for the whole 
test-file.
The RE "ld\\s+a[0-1],\\s*[0-9]+\\(sp\\)" would like to check vls mode values 
are returned by a[0-1].


I've been using this https://godbolt.org/z/vdxTY3rc7 (calling convention 1) as my comparison to what I have compiled locally (included as attachment). From what I see, the differences, aside from reordering due to latency, are that the ld insns use a5 (for 32-512) or t4 (for 1024-2048) or t5 (for 4096) for ARG8 and ARG9. Is there something else that I might be missing?

Edwin

        .file   "calling-convention-1.c"
        .option nopic
        .attribute arch, 
"rv64i2p1_m2p0_a2p1_f2p2_d2p2_c2p0_v1p0_zicsr2p0_zifencei2p0_zve32f1p0_zve32x1p0_zve64d1p0_zve64f1p0_zve64x1p0_zvl1024b1p0_zvl128b1p0_zvl2048b1p0_zvl256b1p0_zvl32b1p0_zvl4096b1p0_zvl512b1p0_zvl64b1p0"
        .attribute unaligned_access, 0
        .attribute stack_align, 16
        .text
        .align  1
        .globl  v1qi_RET1_ARG0
        .type   v1qi_RET1_ARG0, @function
v1qi_RET1_ARG0:
.LFB0:
        .cfi_startproc
        li      a0,0
        ret
        .cfi_endproc
.LFE0:
        .size   v1qi_RET1_ARG0, .-v1qi_RET1_ARG0
        .align  1
        .globl  v2qi_RET1_ARG0
        .type   v2qi_RET1_ARG0, @function
v2qi_RET1_ARG0:
.LFB1:
        .cfi_startproc
        li      a0,0
        ret
        .cfi_endproc
.LFE1:
        .size   v2qi_RET1_ARG0, .-v2qi_RET1_ARG0
        .align  1
        .globl  v4qi_RET1_ARG0
        .type   v4qi_RET1_ARG0, @function
v4qi_RET1_ARG0:
.LFB2:
        .cfi_startproc
        li      a0,0
        ret
        .cfi_endproc
.LFE2:
        .size   v4qi_RET1_ARG0, .-v4qi_RET1_ARG0
        .align  1
        .globl  v8qi_RET1_ARG0
        .type   v8qi_RET1_ARG0, @function
v8qi_RET1_ARG0:
.LFB3:
        .cfi_startproc
        li      a0,0
        ret
        .cfi_endproc
.LFE3:
        .size   v8qi_RET1_ARG0, .-v8qi_RET1_ARG0
        .align  1
        .globl  v16qi_RET1_ARG0
        .type   v16qi_RET1_ARG0, @function
v16qi_RET1_ARG0:
.LFB4:
        .cfi_startproc
        li      a0,0
        li      a1,0
        ret
        .cfi_endproc
.LFE4:
        .size   v16qi_RET1_ARG0, .-v16qi_RET1_ARG0
        .align  1
        .globl  v32qi_RET1_ARG0
        .type   v32qi_RET1_ARG0, @function
v32qi_RET1_ARG0:
.LFB5:
        .cfi_startproc
        li      a5,32
        vsetvli zero,a5,e8,mf8,ta,ma
        vmv.v.i v1,0
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE5:
        .size   v32qi_RET1_ARG0, .-v32qi_RET1_ARG0
        .align  1
        .globl  v64qi_RET1_ARG0
        .type   v64qi_RET1_ARG0, @function
v64qi_RET1_ARG0:
.LFB6:
        .cfi_startproc
        li      a5,64
        vsetvli zero,a5,e8,mf8,ta,ma
        vmv.v.i v1,0
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE6:
        .size   v64qi_RET1_ARG0, .-v64qi_RET1_ARG0
        .align  1
        .globl  v128qi_RET1_ARG0
        .type   v128qi_RET1_ARG0, @function
v128qi_RET1_ARG0:
.LFB7:
        .cfi_startproc
        li      a5,128
        vsetvli zero,a5,e8,mf4,ta,ma
        vmv.v.i v1,0
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE7:
        .size   v128qi_RET1_ARG0, .-v128qi_RET1_ARG0
        .align  1
        .globl  v256qi_RET1_ARG0
        .type   v256qi_RET1_ARG0, @function
v256qi_RET1_ARG0:
.LFB8:
        .cfi_startproc
        li      a5,256
        vsetvli zero,a5,e8,mf2,ta,ma
        vmv.v.i v1,0
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE8:
        .size   v256qi_RET1_ARG0, .-v256qi_RET1_ARG0
        .align  1
        .globl  v512qi_RET1_ARG0
        .type   v512qi_RET1_ARG0, @function
v512qi_RET1_ARG0:
.LFB9:
        .cfi_startproc
        li      a5,512
        vsetvli zero,a5,e8,m1,ta,ma
        vmv.v.i v1,0
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE9:
        .size   v512qi_RET1_ARG0, .-v512qi_RET1_ARG0
        .align  1
        .globl  v1024qi_RET1_ARG0
        .type   v1024qi_RET1_ARG0, @function
v1024qi_RET1_ARG0:
.LFB10:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        li      a2,1024
        li      a1,0
        sd      s0,0(sp)
        sd      ra,8(sp)
        .cfi_offset 8, -16
        .cfi_offset 1, -8
        mv      s0,a0
        call    memset
        mv      a0,s0
        ld      ra,8(sp)
        .cfi_restore 1
        ld      s0,0(sp)
        .cfi_restore 8
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE10:
        .size   v1024qi_RET1_ARG0, .-v1024qi_RET1_ARG0
        .align  1
        .globl  v2048qi_RET1_ARG0
        .type   v2048qi_RET1_ARG0, @function
v2048qi_RET1_ARG0:
.LFB11:
        .cfi_startproc
        li      a2,4096
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        addi    a2,a2,-2048
        li      a1,0
        sd      s0,0(sp)
        sd      ra,8(sp)
        .cfi_offset 8, -16
        .cfi_offset 1, -8
        mv      s0,a0
        call    memset
        mv      a0,s0
        ld      ra,8(sp)
        .cfi_restore 1
        ld      s0,0(sp)
        .cfi_restore 8
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE11:
        .size   v2048qi_RET1_ARG0, .-v2048qi_RET1_ARG0
        .align  1
        .globl  v4096qi_RET1_ARG0
        .type   v4096qi_RET1_ARG0, @function
v4096qi_RET1_ARG0:
.LFB12:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        li      a2,4096
        li      a1,0
        sd      s0,0(sp)
        sd      ra,8(sp)
        .cfi_offset 8, -16
        .cfi_offset 1, -8
        mv      s0,a0
        call    memset
        mv      a0,s0
        ld      ra,8(sp)
        .cfi_restore 1
        ld      s0,0(sp)
        .cfi_restore 8
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE12:
        .size   v4096qi_RET1_ARG0, .-v4096qi_RET1_ARG0
        .align  1
        .globl  v1qi_RET1_ARG1
        .type   v1qi_RET1_ARG1, @function
v1qi_RET1_ARG1:
.LFB13:
        .cfi_startproc
        ret
        .cfi_endproc
.LFE13:
        .size   v1qi_RET1_ARG1, .-v1qi_RET1_ARG1
        .align  1
        .globl  v2qi_RET1_ARG1
        .type   v2qi_RET1_ARG1, @function
v2qi_RET1_ARG1:
.LFB14:
        .cfi_startproc
        ret
        .cfi_endproc
.LFE14:
        .size   v2qi_RET1_ARG1, .-v2qi_RET1_ARG1
        .align  1
        .globl  v4qi_RET1_ARG1
        .type   v4qi_RET1_ARG1, @function
v4qi_RET1_ARG1:
.LFB15:
        .cfi_startproc
        ret
        .cfi_endproc
.LFE15:
        .size   v4qi_RET1_ARG1, .-v4qi_RET1_ARG1
        .align  1
        .globl  v8qi_RET1_ARG1
        .type   v8qi_RET1_ARG1, @function
v8qi_RET1_ARG1:
.LFB16:
        .cfi_startproc
        ret
        .cfi_endproc
.LFE16:
        .size   v8qi_RET1_ARG1, .-v8qi_RET1_ARG1
        .align  1
        .globl  v16qi_RET1_ARG1
        .type   v16qi_RET1_ARG1, @function
v16qi_RET1_ARG1:
.LFB17:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        sd      a0,0(sp)
        sd      a1,8(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE17:
        .size   v16qi_RET1_ARG1, .-v16qi_RET1_ARG1
        .align  1
        .globl  v32qi_RET1_ARG1
        .type   v32qi_RET1_ARG1, @function
v32qi_RET1_ARG1:
.LFB18:
        .cfi_startproc
        li      a5,32
        vsetvli zero,a5,e8,mf8,ta,ma
        vle8.v  v1,0(a1)
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE18:
        .size   v32qi_RET1_ARG1, .-v32qi_RET1_ARG1
        .align  1
        .globl  v64qi_RET1_ARG1
        .type   v64qi_RET1_ARG1, @function
v64qi_RET1_ARG1:
.LFB19:
        .cfi_startproc
        li      a5,64
        vsetvli zero,a5,e8,mf8,ta,ma
        vle8.v  v1,0(a1)
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE19:
        .size   v64qi_RET1_ARG1, .-v64qi_RET1_ARG1
        .align  1
        .globl  v128qi_RET1_ARG1
        .type   v128qi_RET1_ARG1, @function
v128qi_RET1_ARG1:
.LFB20:
        .cfi_startproc
        li      a5,128
        vsetvli zero,a5,e8,mf4,ta,ma
        vle8.v  v1,0(a1)
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE20:
        .size   v128qi_RET1_ARG1, .-v128qi_RET1_ARG1
        .align  1
        .globl  v256qi_RET1_ARG1
        .type   v256qi_RET1_ARG1, @function
v256qi_RET1_ARG1:
.LFB21:
        .cfi_startproc
        li      a5,256
        vsetvli zero,a5,e8,mf2,ta,ma
        vle8.v  v1,0(a1)
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE21:
        .size   v256qi_RET1_ARG1, .-v256qi_RET1_ARG1
        .align  1
        .globl  v512qi_RET1_ARG1
        .type   v512qi_RET1_ARG1, @function
v512qi_RET1_ARG1:
.LFB22:
        .cfi_startproc
        li      a5,512
        vsetvli zero,a5,e8,m1,ta,ma
        vle8.v  v1,0(a1)
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE22:
        .size   v512qi_RET1_ARG1, .-v512qi_RET1_ARG1
        .align  1
        .globl  v1024qi_RET1_ARG1
        .type   v1024qi_RET1_ARG1, @function
v1024qi_RET1_ARG1:
.LFB23:
        .cfi_startproc
        li      a5,128
        vsetvli zero,a5,e64,m8,ta,ma
        vle64.v v8,0(a1)
        vse64.v v8,0(a0)
        ret
        .cfi_endproc
.LFE23:
        .size   v1024qi_RET1_ARG1, .-v1024qi_RET1_ARG1
        .align  1
        .globl  v2048qi_RET1_ARG1
        .type   v2048qi_RET1_ARG1, @function
v2048qi_RET1_ARG1:
.LFB24:
        .cfi_startproc
        li      a5,256
        vsetvli zero,a5,e64,m8,ta,ma
        vle64.v v8,0(a1)
        vse64.v v8,0(a0)
        ret
        .cfi_endproc
.LFE24:
        .size   v2048qi_RET1_ARG1, .-v2048qi_RET1_ARG1
        .align  1
        .globl  v4096qi_RET1_ARG1
        .type   v4096qi_RET1_ARG1, @function
v4096qi_RET1_ARG1:
.LFB25:
        .cfi_startproc
        li      a5,512
        vsetvli zero,a5,e64,m8,ta,ma
        vle64.v v8,0(a1)
        vse64.v v8,0(a0)
        ret
        .cfi_endproc
.LFE25:
        .size   v4096qi_RET1_ARG1, .-v4096qi_RET1_ARG1
        .align  1
        .globl  v1qi_RET1_ARG2
        .type   v1qi_RET1_ARG2, @function
v1qi_RET1_ARG2:
.LFB26:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,1,e8,mf8,ta,ma
        sb      a1,15(sp)
        addi    a5,sp,15
        sb      a0,14(sp)
        vle8.v  v1,0(a5)
        addi    a5,sp,14
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a5)
        lbu     a0,14(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE26:
        .size   v1qi_RET1_ARG2, .-v1qi_RET1_ARG2
        .align  1
        .globl  v2qi_RET1_ARG2
        .type   v2qi_RET1_ARG2, @function
v2qi_RET1_ARG2:
.LFB27:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,2,e8,mf8,ta,ma
        sh      a1,14(sp)
        addi    a5,sp,14
        sh      a0,12(sp)
        vle8.v  v1,0(a5)
        addi    a5,sp,12
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a5)
        lhu     a0,12(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE27:
        .size   v2qi_RET1_ARG2, .-v2qi_RET1_ARG2
        .align  1
        .globl  v4qi_RET1_ARG2
        .type   v4qi_RET1_ARG2, @function
v4qi_RET1_ARG2:
.LFB28:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,4,e8,mf8,ta,ma
        sw      a1,12(sp)
        addi    a5,sp,12
        sw      a0,8(sp)
        vle8.v  v1,0(a5)
        addi    a5,sp,8
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a5)
        lw      a0,8(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE28:
        .size   v4qi_RET1_ARG2, .-v4qi_RET1_ARG2
        .align  1
        .globl  v8qi_RET1_ARG2
        .type   v8qi_RET1_ARG2, @function
v8qi_RET1_ARG2:
.LFB29:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        sd      a0,0(sp)
        vsetivli        zero,8,e8,mf8,ta,ma
        sd      a1,8(sp)
        addi    a5,sp,8
        vle8.v  v2,0(sp)
        vle8.v  v1,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(sp)
        ld      a0,0(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE29:
        .size   v8qi_RET1_ARG2, .-v8qi_RET1_ARG2
        .align  1
        .globl  v16qi_RET1_ARG2
        .type   v16qi_RET1_ARG2, @function
v16qi_RET1_ARG2:
.LFB30:
        .cfi_startproc
        addi    sp,sp,-32
        .cfi_def_cfa_offset 32
        sd      a0,0(sp)
        sd      a1,8(sp)
        vsetivli        zero,16,e8,mf8,ta,ma
        sd      a2,16(sp)
        sd      a3,24(sp)
        addi    a5,sp,16
        vle8.v  v2,0(sp)
        vle8.v  v1,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(sp)
        ld      a0,0(sp)
        ld      a1,8(sp)
        addi    sp,sp,32
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE30:
        .size   v16qi_RET1_ARG2, .-v16qi_RET1_ARG2
        .align  1
        .globl  v32qi_RET1_ARG2
        .type   v32qi_RET1_ARG2, @function
v32qi_RET1_ARG2:
.LFB31:
        .cfi_startproc
        li      a5,32
        vsetvli zero,a5,e8,mf8,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a2)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE31:
        .size   v32qi_RET1_ARG2, .-v32qi_RET1_ARG2
        .align  1
        .globl  v64qi_RET1_ARG2
        .type   v64qi_RET1_ARG2, @function
v64qi_RET1_ARG2:
.LFB32:
        .cfi_startproc
        li      a5,64
        vsetvli zero,a5,e8,mf8,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a2)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE32:
        .size   v64qi_RET1_ARG2, .-v64qi_RET1_ARG2
        .align  1
        .globl  v128qi_RET1_ARG2
        .type   v128qi_RET1_ARG2, @function
v128qi_RET1_ARG2:
.LFB33:
        .cfi_startproc
        li      a5,128
        vsetvli zero,a5,e8,mf4,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a2)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE33:
        .size   v128qi_RET1_ARG2, .-v128qi_RET1_ARG2
        .align  1
        .globl  v256qi_RET1_ARG2
        .type   v256qi_RET1_ARG2, @function
v256qi_RET1_ARG2:
.LFB34:
        .cfi_startproc
        li      a5,256
        vsetvli zero,a5,e8,mf2,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a2)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE34:
        .size   v256qi_RET1_ARG2, .-v256qi_RET1_ARG2
        .align  1
        .globl  v512qi_RET1_ARG2
        .type   v512qi_RET1_ARG2, @function
v512qi_RET1_ARG2:
.LFB35:
        .cfi_startproc
        li      a5,512
        vsetvli zero,a5,e8,m1,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a2)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE35:
        .size   v512qi_RET1_ARG2, .-v512qi_RET1_ARG2
        .align  1
        .globl  v1024qi_RET1_ARG2
        .type   v1024qi_RET1_ARG2, @function
v1024qi_RET1_ARG2:
.LFB36:
        .cfi_startproc
        li      a5,512
        vsetvli zero,a5,e8,m1,ta,ma
        vle8.v  v2,0(a2)
        vle8.v  v1,0(a1)
        add     a2,a2,a5
        add     a1,a1,a5
        add     a3,a0,a5
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a2)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a3)
        ret
        .cfi_endproc
.LFE36:
        .size   v1024qi_RET1_ARG2, .-v1024qi_RET1_ARG2
        .align  1
        .globl  v2048qi_RET1_ARG2
        .type   v2048qi_RET1_ARG2, @function
v2048qi_RET1_ARG2:
.LFB37:
        .cfi_startproc
        li      a5,512
        vsetvli zero,a5,e8,m1,ta,ma
        vle8.v  v2,0(a2)
        vle8.v  v1,0(a1)
        add     t6,a1,a5
        add     a3,a2,a5
        add     t4,a0,a5
        addi    t3,a1,1024
        addi    t1,a2,1024
        vadd.vv v1,v1,v2
        addi    a6,a0,1024
        addi    a1,a1,1536
        vse8.v  v1,0(a0)
        addi    a2,a2,1536
        addi    a4,a0,1536
        vle8.v  v2,0(a3)
        vle8.v  v1,0(t6)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t4)
        vle8.v  v2,0(t1)
        vle8.v  v1,0(t3)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a6)
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a2)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a4)
        ret
        .cfi_endproc
.LFE37:
        .size   v2048qi_RET1_ARG2, .-v2048qi_RET1_ARG2
        .align  1
        .globl  v4096qi_RET1_ARG2
        .type   v4096qi_RET1_ARG2, @function
v4096qi_RET1_ARG2:
.LFB38:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        li      a5,512
        vsetvli zero,a5,e8,m1,ta,ma
        sd      s1,0(sp)
        sd      s0,8(sp)
        .cfi_offset 9, -16
        .cfi_offset 8, -8
        vle8.v  v2,0(a2)
        vle8.v  v1,0(a1)
        add     a6,a1,a5
        add     a3,a2,a5
        add     t2,a0,a5
        addi    t0,a1,1024
        addi    t6,a2,1024
        vadd.vv v1,v1,v2
        addi    t4,a0,1024
        addi    t3,a1,1536
        vse8.v  v1,0(a0)
        addi    t1,a2,1536
        vle8.v  v2,0(a3)
        vle8.v  v1,0(a6)
        addi    a6,a0,1536
        li      a3,4096
        add     a1,a1,a3
        add     a2,a2,a3
        add     a4,a0,a3
        vadd.vv v1,v1,v2
        addi    s1,a1,-2048
        addi    a3,a2,-2048
        vse8.v  v1,0(t2)
        addi    t2,a4,-2048
        vle8.v  v2,0(t6)
        vle8.v  v1,0(t0)
        addi    t6,a2,-1536
        addi    t0,a1,-1536
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t4)
        addi    t4,a4,-1536
        vle8.v  v2,0(t1)
        vle8.v  v1,0(t3)
        addi    t1,a2,-1024
        addi    t3,a1,-1024
        addi    a2,a2,-512
        addi    a1,a1,-512
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a6)
        addi    a6,a4,-1024
        addi    a4,a4,-512
        vle8.v  v1,0(s1)
        vle8.v  v2,0(a3)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t2)
        vle8.v  v2,0(t6)
        vle8.v  v1,0(t0)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t4)
        vle8.v  v2,0(t1)
        vle8.v  v1,0(t3)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a6)
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a2)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a4)
        ld      s0,8(sp)
        .cfi_restore 8
        ld      s1,0(sp)
        .cfi_restore 9
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE38:
        .size   v4096qi_RET1_ARG2, .-v4096qi_RET1_ARG2
        .align  1
        .globl  v1qi_RET1_ARG3
        .type   v1qi_RET1_ARG3, @function
v1qi_RET1_ARG3:
.LFB39:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,1,e8,mf8,ta,ma
        sb      a1,15(sp)
        addi    a5,sp,15
        sb      a0,14(sp)
        vle8.v  v1,0(a5)
        addi    a5,sp,14
        vle8.v  v2,0(a5)
        sb      a2,14(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a5)
        lbu     a0,14(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE39:
        .size   v1qi_RET1_ARG3, .-v1qi_RET1_ARG3
        .align  1
        .globl  v2qi_RET1_ARG3
        .type   v2qi_RET1_ARG3, @function
v2qi_RET1_ARG3:
.LFB40:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,2,e8,mf8,ta,ma
        sh      a1,14(sp)
        addi    a5,sp,14
        sh      a0,12(sp)
        vle8.v  v1,0(a5)
        addi    a5,sp,12
        vle8.v  v2,0(a5)
        sh      a2,12(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a5)
        lhu     a0,12(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE40:
        .size   v2qi_RET1_ARG3, .-v2qi_RET1_ARG3
        .align  1
        .globl  v4qi_RET1_ARG3
        .type   v4qi_RET1_ARG3, @function
v4qi_RET1_ARG3:
.LFB41:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,4,e8,mf8,ta,ma
        sw      a1,12(sp)
        addi    a5,sp,12
        sw      a0,8(sp)
        vle8.v  v1,0(a5)
        addi    a5,sp,8
        vle8.v  v2,0(a5)
        sw      a2,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a5)
        lw      a0,8(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE41:
        .size   v4qi_RET1_ARG3, .-v4qi_RET1_ARG3
        .align  1
        .globl  v8qi_RET1_ARG3
        .type   v8qi_RET1_ARG3, @function
v8qi_RET1_ARG3:
.LFB42:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        sd      a0,0(sp)
        vsetivli        zero,8,e8,mf8,ta,ma
        sd      a1,8(sp)
        addi    a5,sp,8
        vle8.v  v2,0(sp)
        vle8.v  v1,0(a5)
        sd      a2,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(sp)
        ld      a0,0(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE42:
        .size   v8qi_RET1_ARG3, .-v8qi_RET1_ARG3
        .align  1
        .globl  v16qi_RET1_ARG3
        .type   v16qi_RET1_ARG3, @function
v16qi_RET1_ARG3:
.LFB43:
        .cfi_startproc
        addi    sp,sp,-32
        .cfi_def_cfa_offset 32
        sd      a0,0(sp)
        sd      a1,8(sp)
        vsetivli        zero,16,e8,mf8,ta,ma
        sd      a3,24(sp)
        sd      a2,16(sp)
        addi    a3,sp,16
        vle8.v  v2,0(sp)
        vle8.v  v1,0(a3)
        sd      a4,0(sp)
        sd      a5,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(sp)
        ld      a0,0(sp)
        ld      a1,8(sp)
        addi    sp,sp,32
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE43:
        .size   v16qi_RET1_ARG3, .-v16qi_RET1_ARG3
        .align  1
        .globl  v32qi_RET1_ARG3
        .type   v32qi_RET1_ARG3, @function
v32qi_RET1_ARG3:
.LFB44:
        .cfi_startproc
        li      a5,32
        vsetvli zero,a5,e8,mf8,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v3,0(a2)
        vle8.v  v2,0(a3)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE44:
        .size   v32qi_RET1_ARG3, .-v32qi_RET1_ARG3
        .align  1
        .globl  v64qi_RET1_ARG3
        .type   v64qi_RET1_ARG3, @function
v64qi_RET1_ARG3:
.LFB45:
        .cfi_startproc
        li      a5,64
        vsetvli zero,a5,e8,mf8,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v3,0(a2)
        vle8.v  v2,0(a3)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE45:
        .size   v64qi_RET1_ARG3, .-v64qi_RET1_ARG3
        .align  1
        .globl  v128qi_RET1_ARG3
        .type   v128qi_RET1_ARG3, @function
v128qi_RET1_ARG3:
.LFB46:
        .cfi_startproc
        li      a5,128
        vsetvli zero,a5,e8,mf4,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v3,0(a2)
        vle8.v  v2,0(a3)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE46:
        .size   v128qi_RET1_ARG3, .-v128qi_RET1_ARG3
        .align  1
        .globl  v256qi_RET1_ARG3
        .type   v256qi_RET1_ARG3, @function
v256qi_RET1_ARG3:
.LFB47:
        .cfi_startproc
        li      a5,256
        vsetvli zero,a5,e8,mf2,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v3,0(a2)
        vle8.v  v2,0(a3)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE47:
        .size   v256qi_RET1_ARG3, .-v256qi_RET1_ARG3
        .align  1
        .globl  v512qi_RET1_ARG3
        .type   v512qi_RET1_ARG3, @function
v512qi_RET1_ARG3:
.LFB48:
        .cfi_startproc
        li      a5,512
        vsetvli zero,a5,e8,m1,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v3,0(a2)
        vle8.v  v2,0(a3)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE48:
        .size   v512qi_RET1_ARG3, .-v512qi_RET1_ARG3
        .align  1
        .globl  v1024qi_RET1_ARG3
        .type   v1024qi_RET1_ARG3, @function
v1024qi_RET1_ARG3:
.LFB49:
        .cfi_startproc
        li      a5,512
        vsetvli zero,a5,e8,m1,ta,ma
        vle8.v  v3,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a3)
        add     a1,a1,a5
        add     a2,a2,a5
        add     a3,a3,a5
        add     a4,a0,a5
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        vle8.v  v1,0(a1)
        vle8.v  v3,0(a2)
        vle8.v  v2,0(a3)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a4)
        ret
        .cfi_endproc
.LFE49:
        .size   v1024qi_RET1_ARG3, .-v1024qi_RET1_ARG3
        .align  1
        .globl  v2048qi_RET1_ARG3
        .type   v2048qi_RET1_ARG3, @function
v2048qi_RET1_ARG3:
.LFB50:
        .cfi_startproc
        li      a5,512
        vsetvli zero,a5,e8,m1,ta,ma
        vle8.v  v3,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a3)
        add     t5,a1,a5
        add     t4,a2,a5
        add     t3,a3,a5
        add     a6,a0,a5
        vadd.vv v1,v1,v3
        addi    t0,a1,1024
        addi    t6,a2,1024
        vadd.vv v1,v1,v2
        addi    t1,a0,1024
        addi    a1,a1,1536
        vse8.v  v1,0(a0)
        addi    a2,a2,1536
        addi    a4,a0,1536
        vle8.v  v1,0(t5)
        vle8.v  v3,0(t4)
        vle8.v  v2,0(t3)
        addi    t5,a3,1024
        addi    a3,a3,1536
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a6)
        vle8.v  v3,0(t6)
        vle8.v  v1,0(t0)
        vle8.v  v2,0(t5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t1)
        vle8.v  v1,0(a1)
        vle8.v  v3,0(a2)
        vle8.v  v2,0(a3)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a4)
        ret
        .cfi_endproc
.LFE50:
        .size   v2048qi_RET1_ARG3, .-v2048qi_RET1_ARG3
        .align  1
        .globl  v4096qi_RET1_ARG3
        .type   v4096qi_RET1_ARG3, @function
v4096qi_RET1_ARG3:
.LFB51:
        .cfi_startproc
        addi    sp,sp,-32
        .cfi_def_cfa_offset 32
        li      a5,512
        vsetvli zero,a5,e8,m1,ta,ma
        sd      s0,24(sp)
        sd      s1,16(sp)
        sd      s2,8(sp)
        .cfi_offset 8, -8
        .cfi_offset 9, -16
        .cfi_offset 18, -24
        vle8.v  v3,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a3)
        add     t5,a1,a5
        add     t4,a2,a5
        add     a6,a3,a5
        add     a7,a0,a5
        vadd.vv v1,v1,v3
        addi    t2,a1,1024
        addi    t0,a2,1024
        vadd.vv v1,v1,v2
        addi    s2,a1,1536
        addi    s1,a2,1536
        vse8.v  v1,0(a0)
        addi    t3,a3,1536
        addi    s0,a0,1536
        vle8.v  v3,0(t4)
        vle8.v  v1,0(t5)
        vle8.v  v2,0(a6)
        addi    a6,a3,1024
        addi    t4,a0,1024
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a7)
        vle8.v  v3,0(t0)
        vle8.v  v1,0(t2)
        vle8.v  v2,0(a6)
        li      a6,4096
        add     a1,a1,a6
        add     a2,a2,a6
        addi    t2,a1,-2048
        vadd.vv v1,v1,v3
        addi    t0,a2,-2048
        add     a3,a3,a6
        vadd.vv v1,v1,v2
        addi    t6,a3,-2048
        add     a4,a0,a6
        vse8.v  v1,0(t4)
        addi    t1,a2,-1536
        addi    a7,a3,-1536
        addi    t5,a3,-1024
        addi    a3,a3,-512
        vle8.v  v3,0(s1)
        vle8.v  v1,0(s2)
        vle8.v  v2,0(t3)
        addi    t3,a4,-2048
        addi    s1,a1,-1536
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(s0)
        vle8.v  v3,0(t0)
        vle8.v  v1,0(t2)
        vle8.v  v2,0(t6)
        addi    t2,a4,-1536
        addi    t0,a1,-1024
        addi    t6,a2,-1024
        addi    a1,a1,-512
        vadd.vv v1,v1,v3
        addi    a2,a2,-512
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        vle8.v  v3,0(t1)
        vle8.v  v1,0(s1)
        vle8.v  v2,0(a7)
        addi    t1,a4,-1024
        addi    a4,a4,-512
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t2)
        vle8.v  v1,0(t0)
        vle8.v  v3,0(t6)
        vle8.v  v2,0(t5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t1)
        vle8.v  v1,0(a1)
        vle8.v  v3,0(a2)
        vle8.v  v2,0(a3)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a4)
        ld      s0,24(sp)
        .cfi_restore 8
        ld      s1,16(sp)
        .cfi_restore 9
        ld      s2,8(sp)
        .cfi_restore 18
        addi    sp,sp,32
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE51:
        .size   v4096qi_RET1_ARG3, .-v4096qi_RET1_ARG3
        .align  1
        .globl  v1qi_RET1_ARG4
        .type   v1qi_RET1_ARG4, @function
v1qi_RET1_ARG4:
.LFB52:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,1,e8,mf8,ta,ma
        sb      a1,15(sp)
        addi    a5,sp,15
        sb      a0,14(sp)
        vle8.v  v1,0(a5)
        addi    a5,sp,14
        vle8.v  v2,0(a5)
        sb      a2,14(sp)
        sb      a3,15(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,15
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,14
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a5)
        lbu     a0,14(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE52:
        .size   v1qi_RET1_ARG4, .-v1qi_RET1_ARG4
        .align  1
        .globl  v2qi_RET1_ARG4
        .type   v2qi_RET1_ARG4, @function
v2qi_RET1_ARG4:
.LFB53:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,2,e8,mf8,ta,ma
        sh      a1,14(sp)
        addi    a5,sp,14
        sh      a0,12(sp)
        vle8.v  v1,0(a5)
        addi    a5,sp,12
        vle8.v  v2,0(a5)
        sh      a2,12(sp)
        sh      a3,14(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,14
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,12
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a5)
        lhu     a0,12(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE53:
        .size   v2qi_RET1_ARG4, .-v2qi_RET1_ARG4
        .align  1
        .globl  v4qi_RET1_ARG4
        .type   v4qi_RET1_ARG4, @function
v4qi_RET1_ARG4:
.LFB54:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,4,e8,mf8,ta,ma
        sw      a1,12(sp)
        addi    a5,sp,12
        sw      a0,8(sp)
        vle8.v  v1,0(a5)
        addi    a5,sp,8
        vle8.v  v2,0(a5)
        sw      a2,8(sp)
        sw      a3,12(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,12
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,8
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a5)
        lw      a0,8(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE54:
        .size   v4qi_RET1_ARG4, .-v4qi_RET1_ARG4
        .align  1
        .globl  v8qi_RET1_ARG4
        .type   v8qi_RET1_ARG4, @function
v8qi_RET1_ARG4:
.LFB55:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,8,e8,mf8,ta,ma
        sd      a0,0(sp)
        sd      a1,8(sp)
        addi    a5,sp,8
        vle8.v  v2,0(sp)
        vle8.v  v1,0(a5)
        sd      a2,0(sp)
        sd      a3,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(sp)
        ld      a0,0(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE55:
        .size   v8qi_RET1_ARG4, .-v8qi_RET1_ARG4
        .align  1
        .globl  v16qi_RET1_ARG4
        .type   v16qi_RET1_ARG4, @function
v16qi_RET1_ARG4:
.LFB56:
        .cfi_startproc
        addi    sp,sp,-32
        .cfi_def_cfa_offset 32
        sd      a0,0(sp)
        sd      a1,8(sp)
        vsetivli        zero,16,e8,mf8,ta,ma
        sd      a3,24(sp)
        sd      a2,16(sp)
        addi    a3,sp,16
        vle8.v  v2,0(sp)
        vle8.v  v1,0(a3)
        sd      a4,0(sp)
        sd      a5,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        sd      a6,0(sp)
        sd      a7,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(sp)
        ld      a0,0(sp)
        ld      a1,8(sp)
        addi    sp,sp,32
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE56:
        .size   v16qi_RET1_ARG4, .-v16qi_RET1_ARG4
        .align  1
        .globl  v32qi_RET1_ARG4
        .type   v32qi_RET1_ARG4, @function
v32qi_RET1_ARG4:
.LFB57:
        .cfi_startproc
        li      a5,32
        vsetvli zero,a5,e8,mf8,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v3,0(a3)
        vle8.v  v2,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE57:
        .size   v32qi_RET1_ARG4, .-v32qi_RET1_ARG4
        .align  1
        .globl  v64qi_RET1_ARG4
        .type   v64qi_RET1_ARG4, @function
v64qi_RET1_ARG4:
.LFB58:
        .cfi_startproc
        li      a5,64
        vsetvli zero,a5,e8,mf8,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v3,0(a3)
        vle8.v  v2,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE58:
        .size   v64qi_RET1_ARG4, .-v64qi_RET1_ARG4
        .align  1
        .globl  v128qi_RET1_ARG4
        .type   v128qi_RET1_ARG4, @function
v128qi_RET1_ARG4:
.LFB59:
        .cfi_startproc
        li      a5,128
        vsetvli zero,a5,e8,mf4,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v3,0(a3)
        vle8.v  v2,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE59:
        .size   v128qi_RET1_ARG4, .-v128qi_RET1_ARG4
        .align  1
        .globl  v256qi_RET1_ARG4
        .type   v256qi_RET1_ARG4, @function
v256qi_RET1_ARG4:
.LFB60:
        .cfi_startproc
        li      a5,256
        vsetvli zero,a5,e8,mf2,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v3,0(a3)
        vle8.v  v2,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE60:
        .size   v256qi_RET1_ARG4, .-v256qi_RET1_ARG4
        .align  1
        .globl  v512qi_RET1_ARG4
        .type   v512qi_RET1_ARG4, @function
v512qi_RET1_ARG4:
.LFB61:
        .cfi_startproc
        li      a5,512
        vsetvli zero,a5,e8,m1,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v3,0(a3)
        vle8.v  v2,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE61:
        .size   v512qi_RET1_ARG4, .-v512qi_RET1_ARG4
        .align  1
        .globl  v1024qi_RET1_ARG4
        .type   v1024qi_RET1_ARG4, @function
v1024qi_RET1_ARG4:
.LFB62:
        .cfi_startproc
        li      a5,512
        vsetvli zero,a5,e8,m1,ta,ma
        vle8.v  v2,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v3,0(a3)
        add     a1,a1,a5
        add     a2,a2,a5
        add     a3,a3,a5
        add     a6,a0,a5
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a4)
        add     a4,a4,a5
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v3,0(a3)
        vle8.v  v2,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a6)
        ret
        .cfi_endproc
.LFE62:
        .size   v1024qi_RET1_ARG4, .-v1024qi_RET1_ARG4
        .align  1
        .globl  v2048qi_RET1_ARG4
        .type   v2048qi_RET1_ARG4, @function
v2048qi_RET1_ARG4:
.LFB63:
        .cfi_startproc
        li      a5,512
        vsetvli zero,a5,e8,m1,ta,ma
        vle8.v  v2,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v3,0(a3)
        add     t0,a1,a5
        add     t6,a2,a5
        add     t4,a3,a5
        add     t3,a4,a5
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a4)
        addi    t2,a1,1024
        vadd.vv v1,v1,v3
        addi    t1,a3,1024
        addi    a7,a4,1024
        addi    a1,a1,1536
        vadd.vv v1,v1,v2
        addi    a3,a3,1536
        addi    a4,a4,1536
        vse8.v  v1,0(a0)
        addi    a6,a0,1536
        vle8.v  v4,0(t6)
        vle8.v  v1,0(t0)
        vle8.v  v3,0(t4)
        vle8.v  v2,0(t3)
        add     t4,a0,a5
        addi    t3,a2,1024
        addi    a2,a2,1536
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t4)
        addi    t4,a0,1024
        vle8.v  v4,0(t3)
        vle8.v  v1,0(t2)
        vle8.v  v3,0(t1)
        vle8.v  v2,0(a7)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t4)
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v3,0(a3)
        vle8.v  v2,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a6)
        ret
        .cfi_endproc
.LFE63:
        .size   v2048qi_RET1_ARG4, .-v2048qi_RET1_ARG4
        .align  1
        .globl  v4096qi_RET1_ARG4
        .type   v4096qi_RET1_ARG4, @function
v4096qi_RET1_ARG4:
.LFB64:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        li      a5,512
        vsetvli zero,a5,e8,m1,ta,ma
        sd      s0,8(sp)
        sd      s1,0(sp)
        .cfi_offset 8, -8
        .cfi_offset 9, -16
        vle8.v  v2,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v3,0(a3)
        add     t0,a1,a5
        add     t6,a2,a5
        add     t5,a3,a5
        add     a7,a4,a5
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a4)
        addi    s1,a1,1024
        vadd.vv v1,v1,v3
        addi    s0,a1,1536
        addi    t2,a2,1536
        addi    t3,a0,1536
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        vle8.v  v4,0(t6)
        vle8.v  v1,0(t0)
        vle8.v  v3,0(t5)
        vle8.v  v2,0(a7)
        add     a7,a0,a5
        addi    t0,a2,1024
        addi    t6,a3,1024
        vadd.vv v1,v1,v4
        addi    t5,a4,1024
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a7)
        addi    a7,a0,1024
        vle8.v  v4,0(t0)
        vle8.v  v1,0(s1)
        vle8.v  v3,0(t6)
        vle8.v  v2,0(t5)
        addi    t0,a3,1536
        addi    t6,a4,1536
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a7)
        li      a7,4096
        add     a1,a1,a7
        add     a2,a2,a7
        addi    s1,a1,-2048
        add     a3,a3,a7
        vle8.v  v4,0(t2)
        vle8.v  v1,0(s0)
        vle8.v  v3,0(t0)
        vle8.v  v2,0(t6)
        addi    s0,a2,-2048
        addi    t6,a3,-2048
        add     a4,a4,a7
        vadd.vv v1,v1,v4
        addi    t5,a4,-2048
        add     a6,a0,a7
        vadd.vv v1,v1,v3
        addi    t2,a1,-1536
        addi    t0,a2,-1536
        vadd.vv v1,v1,v2
        addi    t1,a4,-1536
        addi    a7,a4,-1024
        vse8.v  v1,0(t3)
        addi    t3,a6,-2048
        addi    t4,a6,-1024
        addi    a4,a4,-512
        vle8.v  v4,0(s0)
        vle8.v  v1,0(s1)
        vle8.v  v3,0(t6)
        vle8.v  v2,0(t5)
        addi    t6,a3,-1536
        addi    s0,a1,-1024
        addi    a1,a1,-512
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        addi    t3,a6,-1536
        addi    a6,a6,-512
        vle8.v  v1,0(t2)
        vle8.v  v4,0(t0)
        vle8.v  v3,0(t6)
        vle8.v  v2,0(t1)
        addi    t2,a2,-1024
        addi    t1,a3,-1024
        addi    a2,a2,-512
        vadd.vv v1,v1,v4
        addi    a3,a3,-512
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        vle8.v  v1,0(s0)
        vle8.v  v4,0(t2)
        vle8.v  v3,0(t1)
        vle8.v  v2,0(a7)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t4)
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v3,0(a3)
        vle8.v  v2,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a6)
        ld      s0,8(sp)
        .cfi_restore 8
        ld      s1,0(sp)
        .cfi_restore 9
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE64:
        .size   v4096qi_RET1_ARG4, .-v4096qi_RET1_ARG4
        .align  1
        .globl  v1qi_RET1_ARG5
        .type   v1qi_RET1_ARG5, @function
v1qi_RET1_ARG5:
.LFB65:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,1,e8,mf8,ta,ma
        sb      a1,15(sp)
        addi    a5,sp,15
        sb      a0,14(sp)
        vle8.v  v1,0(a5)
        addi    a5,sp,14
        vle8.v  v2,0(a5)
        sb      a2,14(sp)
        sb      a3,15(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,15
        sb      a4,14(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,14
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a5)
        lbu     a0,14(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE65:
        .size   v1qi_RET1_ARG5, .-v1qi_RET1_ARG5
        .align  1
        .globl  v2qi_RET1_ARG5
        .type   v2qi_RET1_ARG5, @function
v2qi_RET1_ARG5:
.LFB66:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,2,e8,mf8,ta,ma
        sh      a1,14(sp)
        addi    a5,sp,14
        sh      a0,12(sp)
        vle8.v  v1,0(a5)
        addi    a5,sp,12
        vle8.v  v2,0(a5)
        sh      a2,12(sp)
        sh      a3,14(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,14
        sh      a4,12(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,12
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a5)
        lhu     a0,12(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE66:
        .size   v2qi_RET1_ARG5, .-v2qi_RET1_ARG5
        .align  1
        .globl  v4qi_RET1_ARG5
        .type   v4qi_RET1_ARG5, @function
v4qi_RET1_ARG5:
.LFB67:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,4,e8,mf8,ta,ma
        sw      a1,12(sp)
        addi    a5,sp,12
        sw      a0,8(sp)
        vle8.v  v1,0(a5)
        addi    a5,sp,8
        vle8.v  v2,0(a5)
        sw      a2,8(sp)
        sw      a3,12(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,12
        sw      a4,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,8
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a5)
        lw      a0,8(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE67:
        .size   v4qi_RET1_ARG5, .-v4qi_RET1_ARG5
        .align  1
        .globl  v8qi_RET1_ARG5
        .type   v8qi_RET1_ARG5, @function
v8qi_RET1_ARG5:
.LFB68:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,8,e8,mf8,ta,ma
        sd      a0,0(sp)
        sd      a1,8(sp)
        addi    a5,sp,8
        vle8.v  v2,0(sp)
        vle8.v  v1,0(a5)
        sd      a2,0(sp)
        sd      a3,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        sd      a4,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(sp)
        ld      a0,0(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE68:
        .size   v8qi_RET1_ARG5, .-v8qi_RET1_ARG5
        .align  1
        .globl  v16qi_RET1_ARG5
        .type   v16qi_RET1_ARG5, @function
v16qi_RET1_ARG5:
.LFB69:
        .cfi_startproc
        addi    sp,sp,-32
        .cfi_def_cfa_offset 32
        vsetivli        zero,16,e8,mf8,ta,ma
        sd      a0,0(sp)
        sd      a1,8(sp)
        sd      a3,24(sp)
        sd      a2,16(sp)
        addi    a3,sp,16
        vle8.v  v2,0(sp)
        vle8.v  v1,0(a3)
        sd      a5,8(sp)
        sd      a4,0(sp)
        ld      a5,32(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        sd      a6,0(sp)
        sd      a7,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(sp)
        ld      a0,0(sp)
        ld      a1,8(sp)
        addi    sp,sp,32
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE69:
        .size   v16qi_RET1_ARG5, .-v16qi_RET1_ARG5
        .align  1
        .globl  v32qi_RET1_ARG5
        .type   v32qi_RET1_ARG5, @function
v32qi_RET1_ARG5:
.LFB70:
        .cfi_startproc
        li      a6,32
        vsetvli zero,a6,e8,mf8,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v2,0(a3)
        vle8.v  v3,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE70:
        .size   v32qi_RET1_ARG5, .-v32qi_RET1_ARG5
        .align  1
        .globl  v64qi_RET1_ARG5
        .type   v64qi_RET1_ARG5, @function
v64qi_RET1_ARG5:
.LFB71:
        .cfi_startproc
        li      a6,64
        vsetvli zero,a6,e8,mf8,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v2,0(a3)
        vle8.v  v3,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE71:
        .size   v64qi_RET1_ARG5, .-v64qi_RET1_ARG5
        .align  1
        .globl  v128qi_RET1_ARG5
        .type   v128qi_RET1_ARG5, @function
v128qi_RET1_ARG5:
.LFB72:
        .cfi_startproc
        li      a6,128
        vsetvli zero,a6,e8,mf4,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v2,0(a3)
        vle8.v  v3,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE72:
        .size   v128qi_RET1_ARG5, .-v128qi_RET1_ARG5
        .align  1
        .globl  v256qi_RET1_ARG5
        .type   v256qi_RET1_ARG5, @function
v256qi_RET1_ARG5:
.LFB73:
        .cfi_startproc
        li      a6,256
        vsetvli zero,a6,e8,mf2,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v2,0(a3)
        vle8.v  v3,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE73:
        .size   v256qi_RET1_ARG5, .-v256qi_RET1_ARG5
        .align  1
        .globl  v512qi_RET1_ARG5
        .type   v512qi_RET1_ARG5, @function
v512qi_RET1_ARG5:
.LFB74:
        .cfi_startproc
        li      a6,512
        vsetvli zero,a6,e8,m1,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v2,0(a3)
        vle8.v  v3,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE74:
        .size   v512qi_RET1_ARG5, .-v512qi_RET1_ARG5
        .align  1
        .globl  v1024qi_RET1_ARG5
        .type   v1024qi_RET1_ARG5, @function
v1024qi_RET1_ARG5:
.LFB75:
        .cfi_startproc
        li      a6,512
        vsetvli zero,a6,e8,m1,ta,ma
        vle8.v  v3,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a3)
        add     a1,a1,a6
        add     a2,a2,a6
        add     a3,a3,a6
        add     a7,a0,a6
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a4)
        add     a4,a4,a6
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        add     a5,a5,a6
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        vle8.v  v1,0(a1)
        vle8.v  v5,0(a2)
        vle8.v  v4,0(a3)
        vle8.v  v3,0(a4)
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v5
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a7)
        ret
        .cfi_endproc
.LFE75:
        .size   v1024qi_RET1_ARG5, .-v1024qi_RET1_ARG5
        .align  1
        .globl  v2048qi_RET1_ARG5
        .type   v2048qi_RET1_ARG5, @function
v2048qi_RET1_ARG5:
.LFB76:
        .cfi_startproc
        li      a6,512
        vsetvli zero,a6,e8,m1,ta,ma
        vle8.v  v3,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a3)
        add     t2,a1,a6
        add     t0,a2,a6
        add     t6,a3,a6
        add     t4,a4,a6
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a4)
        add     t3,a5,a6
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        add     t1,a0,a6
        addi    t5,a4,1024
        vadd.vv v1,v1,v3
        addi    a4,a4,1536
        addi    a7,a0,1536
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        vle8.v  v5,0(t0)
        vle8.v  v1,0(t2)
        vle8.v  v4,0(t6)
        vle8.v  v3,0(t4)
        vle8.v  v2,0(t3)
        addi    t2,a1,1024
        addi    t0,a2,1024
        vadd.vv v1,v1,v5
        addi    t6,a3,1024
        addi    a1,a1,1536
        vadd.vv v1,v1,v4
        addi    a2,a2,1536
        addi    a3,a3,1536
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t1)
        addi    t1,a5,1024
        addi    a5,a5,1536
        vle8.v  v5,0(t0)
        vle8.v  v1,0(t2)
        vle8.v  v4,0(t6)
        vle8.v  v3,0(t5)
        vle8.v  v2,0(t1)
        addi    t6,a0,1024
        vadd.vv v1,v1,v5
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t6)
        vle8.v  v1,0(a1)
        vle8.v  v5,0(a2)
        vle8.v  v4,0(a3)
        vle8.v  v3,0(a4)
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v5
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a7)
        ret
        .cfi_endproc
.LFE76:
        .size   v2048qi_RET1_ARG5, .-v2048qi_RET1_ARG5
        .align  1
        .globl  v4096qi_RET1_ARG5
        .type   v4096qi_RET1_ARG5, @function
v4096qi_RET1_ARG5:
.LFB77:
        .cfi_startproc
        li      a6,512
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetvli zero,a6,e8,m1,ta,ma
        sd      s0,8(sp)
        sd      s1,0(sp)
        .cfi_offset 8, -8
        .cfi_offset 9, -16
        vle8.v  v3,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a3)
        add     t2,a1,a6
        add     t0,a2,a6
        add     t6,a3,a6
        add     t4,a4,a6
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a4)
        add     t3,a5,a6
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        add     t1,a0,a6
        addi    s1,a1,1024
        vadd.vv v1,v1,v3
        addi    s0,a2,1024
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        vle8.v  v5,0(t0)
        vle8.v  v1,0(t2)
        vle8.v  v4,0(t6)
        vle8.v  v3,0(t4)
        vle8.v  v2,0(t3)
        addi    t2,a3,1024
        addi    t0,a4,1024
        vadd.vv v1,v1,v5
        addi    t3,a4,1536
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t1)
        addi    t1,a5,1024
        vle8.v  v5,0(s0)
        vle8.v  v1,0(s1)
        vle8.v  v4,0(t2)
        vle8.v  v3,0(t0)
        vle8.v  v2,0(t1)
        addi    t1,a0,1024
        addi    s1,a1,1536
        vadd.vv v1,v1,v5
        addi    s0,a2,1536
        addi    t2,a3,1536
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t1)
        addi    t1,a5,1536
        vle8.v  v5,0(s0)
        vle8.v  v1,0(s1)
        vle8.v  v4,0(t2)
        vle8.v  v3,0(t3)
        vle8.v  v2,0(t1)
        addi    t3,a0,1536
        li      t1,4096
        vadd.vv v1,v1,v5
        add     a1,a1,t1
        add     a2,a2,t1
        vadd.vv v1,v1,v4
        addi    t2,a1,-2048
        addi    t0,a2,-2048
        vadd.vv v1,v1,v3
        add     a3,a3,t1
        addi    t4,a3,-2048
        vadd.vv v1,v1,v2
        add     a4,a4,t1
        add     a5,a5,t1
        vse8.v  v1,0(t3)
        addi    t3,a4,-2048
        add     a7,a0,t1
        addi    t1,a5,-2048
        addi    s1,a1,-1536
        addi    s0,a2,-1536
        vle8.v  v5,0(t0)
        vle8.v  v1,0(t2)
        vle8.v  v4,0(t4)
        vle8.v  v3,0(t3)
        vle8.v  v2,0(t1)
        addi    t1,a7,-2048
        addi    t2,a3,-1536
        vadd.vv v1,v1,v5
        addi    t0,a4,-1536
        addi    t6,a4,-1024
        vadd.vv v1,v1,v4
        addi    t5,a5,-1024
        addi    a4,a4,-512
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t1)
        addi    t1,a5,-1536
        addi    a5,a5,-512
        vle8.v  v1,0(s1)
        vle8.v  v5,0(s0)
        vle8.v  v4,0(t2)
        vle8.v  v3,0(t0)
        vle8.v  v2,0(t1)
        addi    t1,a7,-1536
        addi    s0,a1,-1024
        vadd.vv v1,v1,v5
        addi    t2,a2,-1024
        addi    t0,a3,-1024
        vadd.vv v1,v1,v4
        addi    a1,a1,-512
        addi    a2,a2,-512
        vadd.vv v1,v1,v3
        addi    a3,a3,-512
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t1)
        vle8.v  v1,0(s0)
        vle8.v  v5,0(t2)
        vle8.v  v4,0(t0)
        vle8.v  v3,0(t6)
        vle8.v  v2,0(t5)
        addi    t6,a7,-1024
        addi    a7,a7,-512
        vadd.vv v1,v1,v5
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t6)
        vle8.v  v1,0(a1)
        vle8.v  v5,0(a2)
        vle8.v  v4,0(a3)
        vle8.v  v3,0(a4)
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v5
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a7)
        ld      s0,8(sp)
        .cfi_restore 8
        ld      s1,0(sp)
        .cfi_restore 9
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE77:
        .size   v4096qi_RET1_ARG5, .-v4096qi_RET1_ARG5
        .align  1
        .globl  v1qi_RET1_ARG6
        .type   v1qi_RET1_ARG6, @function
v1qi_RET1_ARG6:
.LFB78:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,1,e8,mf8,ta,ma
        sb      a1,14(sp)
        addi    a1,sp,14
        sb      a0,13(sp)
        vle8.v  v1,0(a1)
        addi    a1,sp,13
        vle8.v  v2,0(a1)
        sb      a2,13(sp)
        sb      a5,15(sp)
        sb      a3,14(sp)
        addi    a5,sp,14
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        sb      a4,13(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,15
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a1)
        lbu     a0,13(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE78:
        .size   v1qi_RET1_ARG6, .-v1qi_RET1_ARG6
        .align  1
        .globl  v2qi_RET1_ARG6
        .type   v2qi_RET1_ARG6, @function
v2qi_RET1_ARG6:
.LFB79:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,2,e8,mf8,ta,ma
        sh      a1,12(sp)
        addi    a1,sp,12
        sh      a0,10(sp)
        vle8.v  v1,0(a1)
        addi    a1,sp,10
        vle8.v  v2,0(a1)
        sh      a2,10(sp)
        sh      a5,14(sp)
        sh      a3,12(sp)
        addi    a5,sp,12
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        sh      a4,10(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,14
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a1)
        lhu     a0,10(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE79:
        .size   v2qi_RET1_ARG6, .-v2qi_RET1_ARG6
        .align  1
        .globl  v4qi_RET1_ARG6
        .type   v4qi_RET1_ARG6, @function
v4qi_RET1_ARG6:
.LFB80:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,4,e8,mf8,ta,ma
        sw      a1,8(sp)
        addi    a1,sp,8
        sw      a0,4(sp)
        vle8.v  v1,0(a1)
        addi    a1,sp,4
        vle8.v  v2,0(a1)
        sw      a2,4(sp)
        sw      a5,12(sp)
        sw      a3,8(sp)
        addi    a5,sp,8
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        sw      a4,4(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,12
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a1)
        lw      a0,4(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE80:
        .size   v4qi_RET1_ARG6, .-v4qi_RET1_ARG6
        .align  1
        .globl  v8qi_RET1_ARG6
        .type   v8qi_RET1_ARG6, @function
v8qi_RET1_ARG6:
.LFB81:
        .cfi_startproc
        addi    sp,sp,-32
        .cfi_def_cfa_offset 32
        vsetivli        zero,8,e8,mf8,ta,ma
        sd      a1,16(sp)
        addi    a1,sp,16
        sd      a0,8(sp)
        vle8.v  v1,0(a1)
        addi    a1,sp,8
        vle8.v  v2,0(a1)
        sd      a2,8(sp)
        sd      a5,24(sp)
        sd      a3,16(sp)
        addi    a5,sp,16
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        sd      a4,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,24
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a1)
        ld      a0,8(sp)
        addi    sp,sp,32
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE81:
        .size   v8qi_RET1_ARG6, .-v8qi_RET1_ARG6
        .align  1
        .globl  v16qi_RET1_ARG6
        .type   v16qi_RET1_ARG6, @function
v16qi_RET1_ARG6:
.LFB82:
        .cfi_startproc
        addi    sp,sp,-32
        .cfi_def_cfa_offset 32
        vsetivli        zero,16,e8,mf8,ta,ma
        sd      a0,0(sp)
        sd      a1,8(sp)
        sd      a3,24(sp)
        sd      a2,16(sp)
        addi    a3,sp,16
        vle8.v  v2,0(sp)
        vle8.v  v1,0(a3)
        sd      a5,8(sp)
        sd      a4,0(sp)
        ld      a5,32(sp)
        vle8.v  v3,0(a5)
        ld      a5,40(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        sd      a6,0(sp)
        sd      a7,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(sp)
        ld      a0,0(sp)
        ld      a1,8(sp)
        addi    sp,sp,32
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE82:
        .size   v16qi_RET1_ARG6, .-v16qi_RET1_ARG6
        .align  1
        .globl  v32qi_RET1_ARG6
        .type   v32qi_RET1_ARG6, @function
v32qi_RET1_ARG6:
.LFB83:
        .cfi_startproc
        li      a7,32
        vsetvli zero,a7,e8,mf8,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v3,0(a3)
        vle8.v  v2,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a6)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE83:
        .size   v32qi_RET1_ARG6, .-v32qi_RET1_ARG6
        .align  1
        .globl  v64qi_RET1_ARG6
        .type   v64qi_RET1_ARG6, @function
v64qi_RET1_ARG6:
.LFB84:
        .cfi_startproc
        li      a7,64
        vsetvli zero,a7,e8,mf8,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v3,0(a3)
        vle8.v  v2,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a6)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE84:
        .size   v64qi_RET1_ARG6, .-v64qi_RET1_ARG6
        .align  1
        .globl  v128qi_RET1_ARG6
        .type   v128qi_RET1_ARG6, @function
v128qi_RET1_ARG6:
.LFB85:
        .cfi_startproc
        li      a7,128
        vsetvli zero,a7,e8,mf4,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v3,0(a3)
        vle8.v  v2,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a6)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE85:
        .size   v128qi_RET1_ARG6, .-v128qi_RET1_ARG6
        .align  1
        .globl  v256qi_RET1_ARG6
        .type   v256qi_RET1_ARG6, @function
v256qi_RET1_ARG6:
.LFB86:
        .cfi_startproc
        li      a7,256
        vsetvli zero,a7,e8,mf2,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v3,0(a3)
        vle8.v  v2,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a6)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE86:
        .size   v256qi_RET1_ARG6, .-v256qi_RET1_ARG6
        .align  1
        .globl  v512qi_RET1_ARG6
        .type   v512qi_RET1_ARG6, @function
v512qi_RET1_ARG6:
.LFB87:
        .cfi_startproc
        li      a7,512
        vsetvli zero,a7,e8,m1,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v3,0(a3)
        vle8.v  v2,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a6)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE87:
        .size   v512qi_RET1_ARG6, .-v512qi_RET1_ARG6
        .align  1
        .globl  v1024qi_RET1_ARG6
        .type   v1024qi_RET1_ARG6, @function
v1024qi_RET1_ARG6:
.LFB88:
        .cfi_startproc
        li      a7,512
        vsetvli zero,a7,e8,m1,ta,ma
        vle8.v  v2,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v3,0(a3)
        add     a1,a1,a7
        add     a2,a2,a7
        add     a3,a3,a7
        add     t1,a0,a7
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a4)
        add     a4,a4,a7
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        add     a5,a5,a7
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a6)
        add     a6,a6,a7
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        vle8.v  v2,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v5,0(a3)
        vle8.v  v4,0(a4)
        vle8.v  v3,0(a5)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a6)
        vadd.vv v1,v1,v5
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t1)
        ret
        .cfi_endproc
.LFE88:
        .size   v1024qi_RET1_ARG6, .-v1024qi_RET1_ARG6
        .align  1
        .globl  v2048qi_RET1_ARG6
        .type   v2048qi_RET1_ARG6, @function
v2048qi_RET1_ARG6:
.LFB89:
        .cfi_startproc
        li      a7,512
        vsetvli zero,a7,e8,m1,ta,ma
        vle8.v  v2,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v3,0(a3)
        add     t2,a1,a7
        add     t0,a2,a7
        add     t6,a3,a7
        add     t3,a4,a7
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a4)
        add     t5,a6,a7
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        addi    t1,a0,1536
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a6)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        vle8.v  v2,0(t0)
        vle8.v  v1,0(t2)
        vle8.v  v5,0(t6)
        vle8.v  v4,0(t3)
        add     t3,a5,a7
        vle8.v  v3,0(t3)
        add     t3,a0,a7
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t5)
        addi    t2,a1,1024
        vadd.vv v1,v1,v5
        addi    t0,a2,1024
        addi    t6,a3,1024
        vadd.vv v1,v1,v4
        addi    t5,a6,1024
        addi    a1,a1,1536
        vadd.vv v1,v1,v3
        addi    a2,a2,1536
        addi    a3,a3,1536
        vadd.vv v1,v1,v2
        addi    a6,a6,1536
        vse8.v  v1,0(t3)
        addi    t3,a4,1024
        addi    a4,a4,1536
        vle8.v  v2,0(t0)
        vle8.v  v1,0(t2)
        vle8.v  v5,0(t6)
        vle8.v  v4,0(t3)
        addi    t3,a5,1024
        vle8.v  v3,0(t3)
        addi    t3,a0,1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t5)
        addi    a5,a5,1536
        vadd.vv v1,v1,v5
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        vle8.v  v1,0(a1)
        vle8.v  v6,0(a2)
        vle8.v  v5,0(a3)
        vle8.v  v4,0(a4)
        vle8.v  v3,0(a5)
        vle8.v  v2,0(a6)
        vadd.vv v1,v1,v6
        vadd.vv v1,v1,v5
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t1)
        ret
        .cfi_endproc
.LFE89:
        .size   v2048qi_RET1_ARG6, .-v2048qi_RET1_ARG6
        .align  1
        .globl  v4096qi_RET1_ARG6
        .type   v4096qi_RET1_ARG6, @function
v4096qi_RET1_ARG6:
.LFB90:
        .cfi_startproc
        li      a7,512
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetvli zero,a7,e8,m1,ta,ma
        sd      s0,8(sp)
        sd      s1,0(sp)
        .cfi_offset 8, -8
        .cfi_offset 9, -16
        vle8.v  v2,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v3,0(a3)
        add     t2,a1,a7
        add     t0,a2,a7
        add     t6,a3,a7
        add     t1,a4,a7
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a4)
        add     t5,a6,a7
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        addi    s1,a1,1024
        addi    s0,a2,1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a6)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        vle8.v  v2,0(t0)
        vle8.v  v1,0(t2)
        vle8.v  v5,0(t6)
        vle8.v  v4,0(t1)
        add     t1,a5,a7
        vle8.v  v3,0(t1)
        add     t1,a0,a7
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t5)
        addi    t2,a3,1024
        vadd.vv v1,v1,v5
        addi    t0,a4,1024
        addi    t5,a5,1024
        vadd.vv v1,v1,v4
        addi    t6,a4,1536
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t1)
        addi    t1,a0,1024
        vle8.v  v6,0(s0)
        vle8.v  v1,0(s1)
        vle8.v  v5,0(t2)
        vle8.v  v4,0(t0)
        vle8.v  v3,0(t5)
        addi    t5,a6,1024
        vle8.v  v2,0(t5)
        vadd.vv v1,v1,v6
        addi    s1,a1,1536
        addi    s0,a2,1536
        vadd.vv v1,v1,v5
        addi    t2,a3,1536
        addi    t5,a5,1536
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t1)
        li      t1,4096
        add     a1,a1,t1
        add     a2,a2,t1
        addi    t0,a1,-2048
        add     a3,a3,t1
        vle8.v  v6,0(s0)
        vle8.v  v1,0(s1)
        vle8.v  v5,0(t2)
        vle8.v  v4,0(t6)
        vle8.v  v3,0(t5)
        addi    t5,a6,1536
        vle8.v  v2,0(t5)
        vadd.vv v1,v1,v6
        addi    t5,a0,1536
        addi    t6,a2,-2048
        vadd.vv v1,v1,v5
        addi    t4,a3,-2048
        add     a4,a4,t1
        vadd.vv v1,v1,v4
        add     a5,a5,t1
        add     a6,a6,t1
        vadd.vv v1,v1,v3
        add     t3,a0,t1
        addi    t1,a4,-2048
        vadd.vv v1,v1,v2
        addi    s0,a1,-1536
        addi    t2,a2,-1536
        vse8.v  v1,0(t5)
        addi    t5,a6,-1024
        vle8.v  v3,0(t6)
        vle8.v  v1,0(t0)
        vle8.v  v2,0(t4)
        vle8.v  v4,0(t1)
        addi    t1,a5,-2048
        addi    t4,a6,-2048
        addi    t0,a3,-1536
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t1)
        addi    t1,t3,-2048
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t4)
        addi    t6,a4,-1536
        vadd.vv v1,v1,v4
        addi    t4,a5,-1536
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t1)
        addi    t1,t3,-1536
        vle8.v  v2,0(t2)
        vle8.v  v1,0(s0)
        vle8.v  v5,0(t0)
        vle8.v  v4,0(t6)
        vle8.v  v3,0(t4)
        addi    t4,a6,-1536
        addi    t2,a1,-1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t4)
        addi    t0,a2,-1024
        vadd.vv v1,v1,v5
        addi    t6,a3,-1024
        addi    a1,a1,-512
        vadd.vv v1,v1,v4
        addi    a2,a2,-512
        addi    a3,a3,-512
        vadd.vv v1,v1,v3
        addi    a6,a6,-512
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t1)
        addi    t1,a4,-1024
        addi    a4,a4,-512
        vle8.v  v2,0(t0)
        vle8.v  v1,0(t2)
        vle8.v  v5,0(t6)
        vle8.v  v4,0(t1)
        addi    t1,a5,-1024
        vle8.v  v3,0(t1)
        addi    t1,t3,-1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t5)
        addi    a5,a5,-512
        vadd.vv v1,v1,v5
        addi    t3,t3,-512
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t1)
        vle8.v  v1,0(a1)
        vle8.v  v6,0(a2)
        vle8.v  v5,0(a3)
        vle8.v  v4,0(a4)
        vle8.v  v3,0(a5)
        vle8.v  v2,0(a6)
        vadd.vv v1,v1,v6
        vadd.vv v1,v1,v5
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        ld      s0,8(sp)
        .cfi_restore 8
        ld      s1,0(sp)
        .cfi_restore 9
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE90:
        .size   v4096qi_RET1_ARG6, .-v4096qi_RET1_ARG6
        .align  1
        .globl  v1qi_RET1_ARG7
        .type   v1qi_RET1_ARG7, @function
v1qi_RET1_ARG7:
.LFB91:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,1,e8,mf8,ta,ma
        sb      a1,14(sp)
        addi    a1,sp,14
        sb      a0,13(sp)
        vle8.v  v1,0(a1)
        addi    a1,sp,13
        vle8.v  v2,0(a1)
        sb      a2,13(sp)
        sb      a3,14(sp)
        sb      a5,15(sp)
        addi    a5,sp,14
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        sb      a4,13(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,15
        sb      a6,14(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,14
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a1)
        lbu     a0,13(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE91:
        .size   v1qi_RET1_ARG7, .-v1qi_RET1_ARG7
        .align  1
        .globl  v2qi_RET1_ARG7
        .type   v2qi_RET1_ARG7, @function
v2qi_RET1_ARG7:
.LFB92:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,2,e8,mf8,ta,ma
        sh      a1,12(sp)
        addi    a1,sp,12
        sh      a0,10(sp)
        vle8.v  v1,0(a1)
        addi    a1,sp,10
        vle8.v  v2,0(a1)
        sh      a2,10(sp)
        sh      a3,12(sp)
        sh      a5,14(sp)
        addi    a5,sp,12
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        sh      a4,10(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,14
        sh      a6,12(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,12
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a1)
        lhu     a0,10(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE92:
        .size   v2qi_RET1_ARG7, .-v2qi_RET1_ARG7
        .align  1
        .globl  v4qi_RET1_ARG7
        .type   v4qi_RET1_ARG7, @function
v4qi_RET1_ARG7:
.LFB93:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,4,e8,mf8,ta,ma
        sw      a1,8(sp)
        addi    a1,sp,8
        sw      a0,4(sp)
        vle8.v  v1,0(a1)
        addi    a1,sp,4
        vle8.v  v2,0(a1)
        sw      a2,4(sp)
        sw      a3,8(sp)
        sw      a5,12(sp)
        addi    a5,sp,8
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        sw      a4,4(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,12
        sw      a6,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,8
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a1)
        lw      a0,4(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE93:
        .size   v4qi_RET1_ARG7, .-v4qi_RET1_ARG7
        .align  1
        .globl  v8qi_RET1_ARG7
        .type   v8qi_RET1_ARG7, @function
v8qi_RET1_ARG7:
.LFB94:
        .cfi_startproc
        addi    sp,sp,-32
        .cfi_def_cfa_offset 32
        vsetivli        zero,8,e8,mf8,ta,ma
        sd      a1,16(sp)
        addi    a1,sp,16
        sd      a0,8(sp)
        vle8.v  v1,0(a1)
        addi    a1,sp,8
        vle8.v  v2,0(a1)
        sd      a2,8(sp)
        sd      a3,16(sp)
        sd      a5,24(sp)
        addi    a5,sp,16
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        sd      a4,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,24
        sd      a6,16(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,16
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a1)
        ld      a0,8(sp)
        addi    sp,sp,32
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE94:
        .size   v8qi_RET1_ARG7, .-v8qi_RET1_ARG7
        .align  1
        .globl  v16qi_RET1_ARG7
        .type   v16qi_RET1_ARG7, @function
v16qi_RET1_ARG7:
.LFB95:
        .cfi_startproc
        addi    sp,sp,-32
        .cfi_def_cfa_offset 32
        vsetivli        zero,16,e8,mf8,ta,ma
        sd      a0,0(sp)
        sd      a1,8(sp)
        sd      a3,24(sp)
        sd      a2,16(sp)
        addi    a3,sp,16
        vle8.v  v2,0(sp)
        vle8.v  v1,0(a3)
        sd      a5,8(sp)
        sd      a4,0(sp)
        ld      a5,32(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        sd      a6,0(sp)
        sd      a7,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        ld      a5,40(sp)
        vle8.v  v3,0(a5)
        ld      a5,48(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(sp)
        ld      a0,0(sp)
        ld      a1,8(sp)
        addi    sp,sp,32
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE95:
        .size   v16qi_RET1_ARG7, .-v16qi_RET1_ARG7
        .align  1
        .globl  v32qi_RET1_ARG7
        .type   v32qi_RET1_ARG7, @function
v32qi_RET1_ARG7:
.LFB96:
        .cfi_startproc
        li      t1,32
        vsetvli zero,t1,e8,mf8,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v2,0(a3)
        vle8.v  v3,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a6)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a7)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE96:
        .size   v32qi_RET1_ARG7, .-v32qi_RET1_ARG7
        .align  1
        .globl  v64qi_RET1_ARG7
        .type   v64qi_RET1_ARG7, @function
v64qi_RET1_ARG7:
.LFB97:
        .cfi_startproc
        li      t1,64
        vsetvli zero,t1,e8,mf8,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v2,0(a3)
        vle8.v  v3,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a6)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a7)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE97:
        .size   v64qi_RET1_ARG7, .-v64qi_RET1_ARG7
        .align  1
        .globl  v128qi_RET1_ARG7
        .type   v128qi_RET1_ARG7, @function
v128qi_RET1_ARG7:
.LFB98:
        .cfi_startproc
        li      t1,128
        vsetvli zero,t1,e8,mf4,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v2,0(a3)
        vle8.v  v3,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a6)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a7)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE98:
        .size   v128qi_RET1_ARG7, .-v128qi_RET1_ARG7
        .align  1
        .globl  v256qi_RET1_ARG7
        .type   v256qi_RET1_ARG7, @function
v256qi_RET1_ARG7:
.LFB99:
        .cfi_startproc
        li      t1,256
        vsetvli zero,t1,e8,mf2,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v2,0(a3)
        vle8.v  v3,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a6)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a7)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE99:
        .size   v256qi_RET1_ARG7, .-v256qi_RET1_ARG7
        .align  1
        .globl  v512qi_RET1_ARG7
        .type   v512qi_RET1_ARG7, @function
v512qi_RET1_ARG7:
.LFB100:
        .cfi_startproc
        li      t1,512
        vsetvli zero,t1,e8,m1,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v2,0(a3)
        vle8.v  v3,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a6)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a7)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE100:
        .size   v512qi_RET1_ARG7, .-v512qi_RET1_ARG7
        .align  1
        .globl  v1024qi_RET1_ARG7
        .type   v1024qi_RET1_ARG7, @function
v1024qi_RET1_ARG7:
.LFB101:
        .cfi_startproc
        li      t1,512
        vsetvli zero,t1,e8,m1,ta,ma
        vle8.v  v3,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a3)
        add     a1,a1,t1
        add     a2,a2,t1
        add     a3,a3,t1
        add     t3,a0,t1
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a4)
        add     a4,a4,t1
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        add     a5,a5,t1
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a6)
        add     a6,a6,t1
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a7)
        add     a7,a7,t1
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        vle8.v  v3,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a3)
        vle8.v  v5,0(a4)
        vle8.v  v4,0(a5)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a6)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a7)
        vadd.vv v1,v1,v5
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        ret
        .cfi_endproc
.LFE101:
        .size   v1024qi_RET1_ARG7, .-v1024qi_RET1_ARG7
        .align  1
        .globl  v2048qi_RET1_ARG7
        .type   v2048qi_RET1_ARG7, @function
v2048qi_RET1_ARG7:
.LFB102:
        .cfi_startproc
        li      t1,512
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetvli zero,t1,e8,m1,ta,ma
        sd      s0,8(sp)
        .cfi_offset 8, -8
        vle8.v  v3,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a3)
        add     s0,a1,t1
        add     t2,a2,t1
        add     t0,a3,t1
        add     t6,a4,t1
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a4)
        add     t5,a6,t1
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        add     t4,a0,t1
        addi    t3,a0,1536
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a6)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a7)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        vle8.v  v3,0(t2)
        vle8.v  v1,0(s0)
        vle8.v  v5,0(t0)
        vle8.v  v2,0(t6)
        add     t6,a5,t1
        vle8.v  v4,0(t6)
        addi    t2,a1,1024
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t5)
        add     t5,a7,t1
        vadd.vv v1,v1,v5
        addi    t0,a2,1024
        addi    t6,a3,1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t5)
        addi    t5,a4,1024
        vadd.vv v1,v1,v4
        addi    a1,a1,1536
        addi    a2,a2,1536
        vadd.vv v1,v1,v3
        addi    a3,a3,1536
        addi    a4,a4,1536
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t4)
        addi    t4,a6,1024
        addi    a6,a6,1536
        vle8.v  v5,0(t0)
        vle8.v  v1,0(t2)
        vle8.v  v3,0(t6)
        vle8.v  v2,0(t5)
        addi    t5,a5,1024
        vle8.v  v4,0(t5)
        addi    t5,a7,1024
        vadd.vv v1,v1,v5
        addi    a5,a5,1536
        addi    a7,a7,1536
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t4)
        addi    t4,a0,1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t5)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t4)
        vle8.v  v1,0(a1)
        vle8.v  v7,0(a2)
        vle8.v  v6,0(a3)
        vle8.v  v5,0(a4)
        vle8.v  v4,0(a5)
        vle8.v  v3,0(a6)
        vle8.v  v2,0(a7)
        vadd.vv v1,v1,v7
        vadd.vv v1,v1,v6
        vadd.vv v1,v1,v5
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        ld      s0,8(sp)
        .cfi_restore 8
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE102:
        .size   v2048qi_RET1_ARG7, .-v2048qi_RET1_ARG7
        .align  1
        .globl  v4096qi_RET1_ARG7
        .type   v4096qi_RET1_ARG7, @function
v4096qi_RET1_ARG7:
.LFB103:
        .cfi_startproc
        li      t1,512
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetvli zero,t1,e8,m1,ta,ma
        sd      s0,8(sp)
        sd      s1,0(sp)
        .cfi_offset 8, -8
        .cfi_offset 9, -16
        vle8.v  v3,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a3)
        add     s0,a1,t1
        add     t2,a2,t1
        add     t0,a3,t1
        add     t6,a4,t1
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a4)
        add     t5,a6,t1
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        add     t3,a0,t1
        addi    s1,a1,1024
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a6)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a7)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        vle8.v  v3,0(t2)
        vle8.v  v1,0(s0)
        vle8.v  v5,0(t0)
        vle8.v  v2,0(t6)
        add     t6,a5,t1
        vle8.v  v4,0(t6)
        addi    s0,a2,1024
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t5)
        add     t5,a7,t1
        vadd.vv v1,v1,v5
        addi    t2,a3,1024
        addi    t6,a7,1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t5)
        addi    t5,a4,1024
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        addi    t3,a5,1024
        vle8.v  v3,0(s0)
        vle8.v  v1,0(s1)
        vle8.v  v2,0(t2)
        vle8.v  v5,0(t5)
        vle8.v  v4,0(t3)
        addi    t3,a6,1024
        addi    s1,a1,1536
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t3)
        addi    t3,a0,1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t6)
        addi    s0,a2,1536
        vadd.vv v1,v1,v5
        addi    t2,a3,1536
        addi    t5,a4,1536
        vadd.vv v1,v1,v4
        addi    t6,a7,1536
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        addi    t3,a5,1536
        vle8.v  v3,0(s0)
        vle8.v  v1,0(s1)
        vle8.v  v2,0(t2)
        vle8.v  v5,0(t5)
        vle8.v  v4,0(t3)
        addi    t3,a6,1536
        addi    t5,a0,1536
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t3)
        li      t3,4096
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t6)
        add     a1,a1,t3
        vadd.vv v1,v1,v5
        add     a2,a2,t3
        addi    t0,a1,-2048
        vadd.vv v1,v1,v4
        addi    t6,a2,-2048
        add     a3,a3,t3
        vadd.vv v1,v1,v3
        add     a4,a4,t3
        add     a5,a5,t3
        vadd.vv v1,v1,v2
        add     a6,a6,t3
        add     a7,a7,t3
        vse8.v  v1,0(t5)
        addi    t5,a3,-2048
        add     t4,a0,t3
        addi    t3,t4,-2048
        addi    s0,a1,-1536
        addi    t2,a2,-1536
        vle8.v  v2,0(t6)
        vle8.v  v1,0(t0)
        vle8.v  v4,0(t5)
        addi    t5,a4,-2048
        vle8.v  v3,0(t5)
        addi    t6,a5,-2048
        addi    t5,a6,-2048
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t6)
        addi    t0,a3,-1536
        vadd.vv v1,v1,v4
        addi    t6,a4,-1536
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t5)
        addi    t5,a7,-2048
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t5)
        addi    t5,a6,-1536
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        addi    t3,t4,-1536
        vle8.v  v3,0(t2)
        vle8.v  v1,0(s0)
        vle8.v  v5,0(t0)
        vle8.v  v2,0(t6)
        addi    t6,a5,-1536
        vle8.v  v4,0(t6)
        addi    t2,a1,-1024
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t5)
        addi    t5,a7,-1536
        vadd.vv v1,v1,v5
        addi    t0,a2,-1024
        addi    t6,a3,-1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t5)
        addi    t5,a4,-1024
        vadd.vv v1,v1,v4
        addi    a1,a1,-512
        addi    a2,a2,-512
        vadd.vv v1,v1,v3
        addi    a3,a3,-512
        addi    a4,a4,-512
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        addi    t3,a6,-1024
        addi    a6,a6,-512
        vle8.v  v5,0(t0)
        vle8.v  v1,0(t2)
        vle8.v  v3,0(t6)
        vle8.v  v2,0(t5)
        addi    t5,a5,-1024
        vle8.v  v4,0(t5)
        addi    t5,a7,-1024
        vadd.vv v1,v1,v5
        addi    a5,a5,-512
        addi    a7,a7,-512
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t3)
        addi    t3,t4,-1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t5)
        addi    t4,t4,-512
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        vle8.v  v1,0(a1)
        vle8.v  v7,0(a2)
        vle8.v  v6,0(a3)
        vle8.v  v5,0(a4)
        vle8.v  v4,0(a5)
        vle8.v  v3,0(a6)
        vle8.v  v2,0(a7)
        vadd.vv v1,v1,v7
        vadd.vv v1,v1,v6
        vadd.vv v1,v1,v5
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t4)
        ld      s0,8(sp)
        .cfi_restore 8
        ld      s1,0(sp)
        .cfi_restore 9
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE103:
        .size   v4096qi_RET1_ARG7, .-v4096qi_RET1_ARG7
        .align  1
        .globl  v1qi_RET1_ARG8
        .type   v1qi_RET1_ARG8, @function
v1qi_RET1_ARG8:
.LFB104:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,1,e8,mf8,ta,ma
        sb      a1,13(sp)
        addi    a1,sp,13
        sb      a0,12(sp)
        vle8.v  v1,0(a1)
        addi    a1,sp,12
        vle8.v  v2,0(a1)
        sb      a2,12(sp)
        sb      a3,13(sp)
        sb      a5,14(sp)
        addi    a5,sp,13
        sb      a7,15(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        sb      a4,12(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,14
        sb      a6,13(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,13
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,15
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a1)
        lbu     a0,12(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE104:
        .size   v1qi_RET1_ARG8, .-v1qi_RET1_ARG8
        .align  1
        .globl  v2qi_RET1_ARG8
        .type   v2qi_RET1_ARG8, @function
v2qi_RET1_ARG8:
.LFB105:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,2,e8,mf8,ta,ma
        sh      a1,10(sp)
        addi    a1,sp,10
        sh      a0,8(sp)
        vle8.v  v1,0(a1)
        addi    a1,sp,8
        vle8.v  v2,0(a1)
        sh      a2,8(sp)
        sh      a3,10(sp)
        sh      a5,12(sp)
        addi    a5,sp,10
        sh      a7,14(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        sh      a4,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,12
        sh      a6,10(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,10
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,14
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a1)
        lhu     a0,8(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE105:
        .size   v2qi_RET1_ARG8, .-v2qi_RET1_ARG8
        .align  1
        .globl  v4qi_RET1_ARG8
        .type   v4qi_RET1_ARG8, @function
v4qi_RET1_ARG8:
.LFB106:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,4,e8,mf8,ta,ma
        sw      a0,0(sp)
        sw      a1,4(sp)
        addi    a1,sp,4
        vle8.v  v2,0(sp)
        vle8.v  v1,0(a1)
        sw      a2,0(sp)
        sw      a3,4(sp)
        sw      a5,8(sp)
        addi    a5,sp,8
        sw      a7,12(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        sw      a4,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        sw      a6,4(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,12
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(sp)
        lw      a0,0(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE106:
        .size   v4qi_RET1_ARG8, .-v4qi_RET1_ARG8
        .align  1
        .globl  v8qi_RET1_ARG8
        .type   v8qi_RET1_ARG8, @function
v8qi_RET1_ARG8:
.LFB107:
        .cfi_startproc
        addi    sp,sp,-32
        .cfi_def_cfa_offset 32
        vsetivli        zero,8,e8,mf8,ta,ma
        sd      a0,0(sp)
        sd      a1,8(sp)
        addi    a1,sp,8
        vle8.v  v2,0(sp)
        vle8.v  v1,0(a1)
        sd      a2,0(sp)
        sd      a3,8(sp)
        sd      a5,16(sp)
        addi    a5,sp,16
        sd      a7,24(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        sd      a4,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        sd      a6,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,24
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v2
        vse8.v  v1,0(sp)
        ld      a0,0(sp)
        addi    sp,sp,32
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE107:
        .size   v8qi_RET1_ARG8, .-v8qi_RET1_ARG8
        .align  1
        .globl  v16qi_RET1_ARG8
        .type   v16qi_RET1_ARG8, @function
v16qi_RET1_ARG8:
.LFB108:
        .cfi_startproc
        addi    sp,sp,-32
        .cfi_def_cfa_offset 32
        vsetivli        zero,16,e8,mf8,ta,ma
        sd      a0,0(sp)
        sd      a1,8(sp)
        sd      a3,24(sp)
        sd      a2,16(sp)
        addi    a3,sp,16
        vle8.v  v2,0(sp)
        vle8.v  v1,0(a3)
        sd      a5,8(sp)
        sd      a4,0(sp)
        ld      a5,32(sp)
        vle8.v  v3,0(a5)
        ld      a5,40(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        sd      a6,0(sp)
        sd      a7,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        ld      a5,48(sp)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        ld      a5,56(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(sp)
        ld      a0,0(sp)
        ld      a1,8(sp)
        addi    sp,sp,32
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE108:
        .size   v16qi_RET1_ARG8, .-v16qi_RET1_ARG8
        .align  1
        .globl  v32qi_RET1_ARG8
        .type   v32qi_RET1_ARG8, @function
v32qi_RET1_ARG8:
.LFB109:
        .cfi_startproc
        li      t1,32
        vsetvli zero,t1,e8,mf8,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v3,0(a3)
        vle8.v  v2,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        ld      a5,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a6)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a7)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE109:
        .size   v32qi_RET1_ARG8, .-v32qi_RET1_ARG8
        .align  1
        .globl  v64qi_RET1_ARG8
        .type   v64qi_RET1_ARG8, @function
v64qi_RET1_ARG8:
.LFB110:
        .cfi_startproc
        li      t1,64
        vsetvli zero,t1,e8,mf8,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v3,0(a3)
        vle8.v  v2,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        ld      a5,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a6)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a7)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE110:
        .size   v64qi_RET1_ARG8, .-v64qi_RET1_ARG8
        .align  1
        .globl  v128qi_RET1_ARG8
        .type   v128qi_RET1_ARG8, @function
v128qi_RET1_ARG8:
.LFB111:
        .cfi_startproc
        li      t1,128
        vsetvli zero,t1,e8,mf4,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v3,0(a3)
        vle8.v  v2,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        ld      a5,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a6)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a7)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE111:
        .size   v128qi_RET1_ARG8, .-v128qi_RET1_ARG8
        .align  1
        .globl  v256qi_RET1_ARG8
        .type   v256qi_RET1_ARG8, @function
v256qi_RET1_ARG8:
.LFB112:
        .cfi_startproc
        li      t1,256
        vsetvli zero,t1,e8,mf2,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v3,0(a3)
        vle8.v  v2,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        ld      a5,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a6)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a7)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE112:
        .size   v256qi_RET1_ARG8, .-v256qi_RET1_ARG8
        .align  1
        .globl  v512qi_RET1_ARG8
        .type   v512qi_RET1_ARG8, @function
v512qi_RET1_ARG8:
.LFB113:
        .cfi_startproc
        li      t1,512
        vsetvli zero,t1,e8,m1,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v3,0(a3)
        vle8.v  v2,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        ld      a5,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a6)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a7)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE113:
        .size   v512qi_RET1_ARG8, .-v512qi_RET1_ARG8
        .align  1
        .globl  v1024qi_RET1_ARG8
        .type   v1024qi_RET1_ARG8, @function
v1024qi_RET1_ARG8:
.LFB114:
        .cfi_startproc
        li      t1,512
        vsetvli zero,t1,e8,m1,ta,ma
        vle8.v  v2,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v3,0(a3)
        ld      t4,0(sp)
        add     a1,a1,t1
        add     a2,a2,t1
        add     a3,a3,t1
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a4)
        add     a4,a4,t1
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        add     a5,a5,t1
        add     t3,a0,t1
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a6)
        add     a6,a6,t1
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a7)
        add     a7,a7,t1
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t4)
        add     t4,t4,t1
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        vle8.v  v4,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v3,0(a3)
        vle8.v  v5,0(a4)
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v4
        vle8.v  v4,0(a6)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a7)
        vadd.vv v1,v1,v5
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        ret
        .cfi_endproc
.LFE114:
        .size   v1024qi_RET1_ARG8, .-v1024qi_RET1_ARG8
        .align  1
        .globl  v2048qi_RET1_ARG8
        .type   v2048qi_RET1_ARG8, @function
v2048qi_RET1_ARG8:
.LFB115:
        .cfi_startproc
        li      t1,512
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetvli zero,t1,e8,m1,ta,ma
        sd      s0,8(sp)
        .cfi_offset 8, -8
        vle8.v  v2,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v3,0(a3)
        ld      t4,16(sp)
        add     s0,a1,t1
        add     t2,a2,t1
        add     t0,a3,t1
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a4)
        add     t6,a4,t1
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        add     t5,a6,t1
        addi    t3,a0,1536
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a6)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a7)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t4)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        vle8.v  v5,0(t2)
        vle8.v  v1,0(s0)
        vle8.v  v2,0(t0)
        vle8.v  v3,0(t6)
        add     t6,a5,t1
        vle8.v  v4,0(t6)
        add     t6,a7,t1
        vadd.vv v1,v1,v5
        addi    t2,a1,1024
        addi    a1,a1,1536
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t5)
        add     t5,t4,t1
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t6)
        addi    t6,a2,1024
        vadd.vv v1,v1,v4
        addi    a2,a2,1536
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t5)
        add     t5,a0,t1
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t5)
        addi    t5,a3,1024
        addi    a3,a3,1536
        vle8.v  v3,0(t6)
        vle8.v  v1,0(t2)
        vle8.v  v2,0(t5)
        addi    t5,a4,1024
        vle8.v  v4,0(t5)
        addi    t5,a5,1024
        addi    t6,a6,1024
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t5)
        addi    t5,a7,1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t6)
        addi    a4,a4,1536
        vadd.vv v1,v1,v4
        addi    a5,a5,1536
        addi    a6,a6,1536
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t5)
        addi    t5,t4,1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t5)
        addi    t5,a0,1024
        addi    a7,a7,1536
        vadd.vv v1,v1,v3
        addi    t4,t4,1536
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t5)
        vle8.v  v3,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a3)
        vle8.v  v6,0(a4)
        vle8.v  v5,0(a5)
        vle8.v  v4,0(a6)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a7)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t4)
        vadd.vv v1,v1,v6
        vadd.vv v1,v1,v5
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        ld      s0,8(sp)
        .cfi_restore 8
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE115:
        .size   v2048qi_RET1_ARG8, .-v2048qi_RET1_ARG8
        .align  1
        .globl  v4096qi_RET1_ARG8
        .type   v4096qi_RET1_ARG8, @function
v4096qi_RET1_ARG8:
.LFB116:
        .cfi_startproc
        li      t1,512
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetvli zero,t1,e8,m1,ta,ma
        sd      s0,8(sp)
        sd      s1,0(sp)
        .cfi_offset 8, -8
        .cfi_offset 9, -16
        vle8.v  v2,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v3,0(a3)
        ld      t5,16(sp)
        add     s0,a1,t1
        add     t2,a2,t1
        add     t0,a3,t1
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a4)
        add     t6,a4,t1
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        add     t3,a6,t1
        addi    s1,a1,1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a6)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a7)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        vle8.v  v5,0(t2)
        vle8.v  v1,0(s0)
        vle8.v  v2,0(t0)
        vle8.v  v3,0(t6)
        add     t6,a5,t1
        vle8.v  v4,0(t6)
        add     t6,a7,t1
        vadd.vv v1,v1,v5
        addi    s0,a2,1024
        addi    t2,a3,1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t3)
        add     t3,t5,t1
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t6)
        addi    t0,a4,1024
        vadd.vv v1,v1,v4
        addi    t6,a6,1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t3)
        add     t3,a0,t1
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        addi    t3,a7,1024
        vle8.v  v4,0(s0)
        vle8.v  v1,0(s1)
        vle8.v  v5,0(t2)
        vle8.v  v3,0(t0)
        addi    t0,a5,1024
        vle8.v  v2,0(t0)
        addi    s1,a1,1536
        vadd.vv v1,v1,v4
        vle8.v  v4,0(t6)
        addi    t6,t5,1024
        vadd.vv v1,v1,v5
        addi    s0,a2,1536
        addi    t2,a3,1536
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t3)
        addi    t3,a0,1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t6)
        addi    t0,a4,1536
        vadd.vv v1,v1,v4
        addi    t6,a6,1536
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        addi    t3,a7,1536
        vle8.v  v4,0(s0)
        vle8.v  v1,0(s1)
        vle8.v  v5,0(t2)
        vle8.v  v3,0(t0)
        addi    t0,a5,1536
        vle8.v  v2,0(t0)
        vadd.vv v1,v1,v4
        vle8.v  v4,0(t6)
        addi    t6,t5,1536
        vadd.vv v1,v1,v5
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t3)
        li      t3,4096
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t6)
        addi    t6,a0,1536
        vadd.vv v1,v1,v4
        add     a1,a1,t3
        add     a2,a2,t3
        vadd.vv v1,v1,v3
        addi    t0,a1,-2048
        add     a3,a3,t3
        vadd.vv v1,v1,v2
        add     a4,a4,t3
        add     a5,a5,t3
        vse8.v  v1,0(t6)
        addi    t6,a2,-2048
        add     a6,a6,t3
        add     a7,a7,t3
        add     t5,t5,t3
        add     t4,a0,t3
        vle8.v  v4,0(t6)
        vle8.v  v1,0(t0)
        addi    t6,a3,-2048
        vle8.v  v3,0(t6)
        addi    t0,a4,-2048
        vle8.v  v2,0(t0)
        addi    t6,a5,-2048
        vadd.vv v1,v1,v4
        addi    t3,t4,-2048
        addi    s0,a1,-1536
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t6)
        addi    t6,a6,-2048
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t6)
        addi    t6,a7,-2048
        addi    t2,a2,-1536
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t6)
        addi    t6,t5,-2048
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t6)
        addi    t0,a3,-1536
        addi    t6,a4,-1536
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        addi    t3,a6,-1536
        vle8.v  v5,0(t2)
        vle8.v  v1,0(s0)
        vle8.v  v2,0(t0)
        vle8.v  v3,0(t6)
        addi    t6,a5,-1536
        vle8.v  v4,0(t6)
        addi    t6,a7,-1536
        vadd.vv v1,v1,v5
        addi    t2,a1,-1024
        addi    a1,a1,-512
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t3)
        addi    t3,t5,-1536
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t6)
        addi    t6,a2,-1024
        vadd.vv v1,v1,v4
        addi    a2,a2,-512
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t3)
        addi    t3,t4,-1536
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        addi    t3,a3,-1024
        addi    a3,a3,-512
        vle8.v  v3,0(t6)
        vle8.v  v1,0(t2)
        vle8.v  v2,0(t3)
        addi    t3,a4,-1024
        vle8.v  v4,0(t3)
        addi    t3,a5,-1024
        addi    t6,a6,-1024
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t3)
        addi    t3,a7,-1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t6)
        addi    a4,a4,-512
        vadd.vv v1,v1,v4
        addi    a5,a5,-512
        addi    a6,a6,-512
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t3)
        addi    t3,t5,-1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t3)
        addi    t3,t4,-1024
        addi    a7,a7,-512
        vadd.vv v1,v1,v3
        addi    t4,t4,-512
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        addi    t3,t5,-512
        vle8.v  v3,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a3)
        vle8.v  v6,0(a4)
        vle8.v  v5,0(a5)
        vle8.v  v4,0(a6)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a7)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t3)
        vadd.vv v1,v1,v6
        vadd.vv v1,v1,v5
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t4)
        ld      s0,8(sp)
        .cfi_restore 8
        ld      s1,0(sp)
        .cfi_restore 9
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE116:
        .size   v4096qi_RET1_ARG8, .-v4096qi_RET1_ARG8
        .align  1
        .globl  v1qi_RET1_ARG9
        .type   v1qi_RET1_ARG9, @function
v1qi_RET1_ARG9:
.LFB117:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,1,e8,mf8,ta,ma
        sb      a1,13(sp)
        addi    a1,sp,13
        sb      a0,12(sp)
        vle8.v  v1,0(a1)
        addi    a1,sp,12
        vle8.v  v2,0(a1)
        sb      a2,12(sp)
        sb      a3,13(sp)
        sb      a5,14(sp)
        addi    a5,sp,13
        sb      a7,15(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        sb      a4,12(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        ld      a5,16(sp)
        sb      a6,13(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,14
        vle8.v  v3,0(a5)
        addi    a5,sp,13
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        addi    a5,sp,15
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a1)
        lbu     a0,12(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE117:
        .size   v1qi_RET1_ARG9, .-v1qi_RET1_ARG9
        .align  1
        .globl  v2qi_RET1_ARG9
        .type   v2qi_RET1_ARG9, @function
v2qi_RET1_ARG9:
.LFB118:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,2,e8,mf8,ta,ma
        sh      a1,10(sp)
        addi    a1,sp,10
        sh      a0,8(sp)
        vle8.v  v1,0(a1)
        addi    a1,sp,8
        vle8.v  v2,0(a1)
        sh      a2,8(sp)
        sh      a3,10(sp)
        sh      a5,12(sp)
        addi    a5,sp,10
        sh      a7,14(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        sh      a4,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        ld      a5,16(sp)
        sh      a6,10(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,12
        vle8.v  v3,0(a5)
        addi    a5,sp,10
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        addi    a5,sp,14
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a1)
        lhu     a0,8(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE118:
        .size   v2qi_RET1_ARG9, .-v2qi_RET1_ARG9
        .align  1
        .globl  v4qi_RET1_ARG9
        .type   v4qi_RET1_ARG9, @function
v4qi_RET1_ARG9:
.LFB119:
        .cfi_startproc
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetivli        zero,4,e8,mf8,ta,ma
        sw      a0,0(sp)
        sw      a1,4(sp)
        addi    a1,sp,4
        vle8.v  v2,0(sp)
        vle8.v  v1,0(a1)
        sw      a2,0(sp)
        sw      a3,4(sp)
        sw      a5,8(sp)
        ld      a5,16(sp)
        sw      a7,12(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        sw      a4,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        sw      a6,4(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,8
        vle8.v  v3,0(a5)
        addi    a5,sp,12
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a1)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(sp)
        lw      a0,0(sp)
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE119:
        .size   v4qi_RET1_ARG9, .-v4qi_RET1_ARG9
        .align  1
        .globl  v8qi_RET1_ARG9
        .type   v8qi_RET1_ARG9, @function
v8qi_RET1_ARG9:
.LFB120:
        .cfi_startproc
        addi    sp,sp,-32
        .cfi_def_cfa_offset 32
        vsetivli        zero,8,e8,mf8,ta,ma
        sd      a0,0(sp)
        sd      a1,8(sp)
        addi    a1,sp,8
        vle8.v  v2,0(sp)
        vle8.v  v1,0(a1)
        sd      a2,0(sp)
        sd      a3,8(sp)
        sd      a5,16(sp)
        ld      a5,32(sp)
        sd      a7,24(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        sd      a4,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a1)
        sd      a6,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        addi    a5,sp,16
        vle8.v  v3,0(a5)
        addi    a5,sp,24
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a1)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(sp)
        ld      a0,0(sp)
        addi    sp,sp,32
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE120:
        .size   v8qi_RET1_ARG9, .-v8qi_RET1_ARG9
        .align  1
        .globl  v16qi_RET1_ARG9
        .type   v16qi_RET1_ARG9, @function
v16qi_RET1_ARG9:
.LFB121:
        .cfi_startproc
        addi    sp,sp,-32
        .cfi_def_cfa_offset 32
        vsetivli        zero,16,e8,mf8,ta,ma
        sd      a0,0(sp)
        sd      a1,8(sp)
        sd      a3,24(sp)
        sd      a2,16(sp)
        addi    a3,sp,16
        vle8.v  v2,0(sp)
        vle8.v  v1,0(a3)
        sd      a5,8(sp)
        sd      a4,0(sp)
        ld      a5,32(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        sd      a6,0(sp)
        sd      a7,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        ld      a5,40(sp)
        vle8.v  v3,0(a5)
        ld      a5,48(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        ld      a5,56(sp)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        ld      a5,64(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(sp)
        ld      a0,0(sp)
        ld      a1,8(sp)
        addi    sp,sp,32
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE121:
        .size   v16qi_RET1_ARG9, .-v16qi_RET1_ARG9
        .align  1
        .globl  v32qi_RET1_ARG9
        .type   v32qi_RET1_ARG9, @function
v32qi_RET1_ARG9:
.LFB122:
        .cfi_startproc
        li      t1,32
        vsetvli zero,t1,e8,mf8,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v2,0(a3)
        vle8.v  v3,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        ld      a5,0(sp)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a6)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a7)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        ld      a5,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE122:
        .size   v32qi_RET1_ARG9, .-v32qi_RET1_ARG9
        .align  1
        .globl  v64qi_RET1_ARG9
        .type   v64qi_RET1_ARG9, @function
v64qi_RET1_ARG9:
.LFB123:
        .cfi_startproc
        li      t1,64
        vsetvli zero,t1,e8,mf8,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v2,0(a3)
        vle8.v  v3,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        ld      a5,0(sp)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a6)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a7)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        ld      a5,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE123:
        .size   v64qi_RET1_ARG9, .-v64qi_RET1_ARG9
        .align  1
        .globl  v128qi_RET1_ARG9
        .type   v128qi_RET1_ARG9, @function
v128qi_RET1_ARG9:
.LFB124:
        .cfi_startproc
        li      t1,128
        vsetvli zero,t1,e8,mf4,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v2,0(a3)
        vle8.v  v3,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        ld      a5,0(sp)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a6)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a7)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        ld      a5,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE124:
        .size   v128qi_RET1_ARG9, .-v128qi_RET1_ARG9
        .align  1
        .globl  v256qi_RET1_ARG9
        .type   v256qi_RET1_ARG9, @function
v256qi_RET1_ARG9:
.LFB125:
        .cfi_startproc
        li      t1,256
        vsetvli zero,t1,e8,mf2,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v2,0(a3)
        vle8.v  v3,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        ld      a5,0(sp)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a6)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a7)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        ld      a5,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE125:
        .size   v256qi_RET1_ARG9, .-v256qi_RET1_ARG9
        .align  1
        .globl  v512qi_RET1_ARG9
        .type   v512qi_RET1_ARG9, @function
v512qi_RET1_ARG9:
.LFB126:
        .cfi_startproc
        li      t1,512
        vsetvli zero,t1,e8,m1,ta,ma
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a2)
        vle8.v  v2,0(a3)
        vle8.v  v3,0(a4)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        ld      a5,0(sp)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a6)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a7)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a5)
        ld      a5,8(sp)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        ret
        .cfi_endproc
.LFE126:
        .size   v512qi_RET1_ARG9, .-v512qi_RET1_ARG9
        .align  1
        .globl  v1024qi_RET1_ARG9
        .type   v1024qi_RET1_ARG9, @function
v1024qi_RET1_ARG9:
.LFB127:
        .cfi_startproc
        li      t1,512
        vsetvli zero,t1,e8,m1,ta,ma
        vle8.v  v3,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a3)
        ld      t5,0(sp)
        ld      t4,8(sp)
        add     a1,a1,t1
        add     a2,a2,t1
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a4)
        add     a3,a3,t1
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        add     a4,a4,t1
        add     a5,a5,t1
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a6)
        add     a6,a6,t1
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a7)
        add     a7,a7,t1
        add     t3,a0,t1
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t5)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t4)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        vle8.v  v2,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v4,0(a3)
        vle8.v  v5,0(a4)
        vle8.v  v3,0(a5)
        add     a4,t5,t1
        add     a5,t4,t1
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a6)
        vadd.vv v1,v1,v4
        vle8.v  v4,0(a7)
        vadd.vv v1,v1,v5
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a4)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        ret
        .cfi_endproc
.LFE127:
        .size   v1024qi_RET1_ARG9, .-v1024qi_RET1_ARG9
        .align  1
        .globl  v2048qi_RET1_ARG9
        .type   v2048qi_RET1_ARG9, @function
v2048qi_RET1_ARG9:
.LFB128:
        .cfi_startproc
        li      t1,512
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetvli zero,t1,e8,m1,ta,ma
        sd      s0,8(sp)
        sd      s1,0(sp)
        .cfi_offset 8, -8
        .cfi_offset 9, -16
        vle8.v  v3,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a3)
        ld      t5,16(sp)
        ld      t4,24(sp)
        add     s1,a1,t1
        add     s0,a2,t1
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a4)
        add     t2,a3,t1
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        add     t0,a4,t1
        add     t6,a6,t1
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a6)
        addi    t3,a0,1536
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a7)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t5)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t4)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        vle8.v  v5,0(s0)
        vle8.v  v1,0(s1)
        vle8.v  v3,0(t2)
        vle8.v  v2,0(t0)
        add     t0,a5,t1
        vle8.v  v4,0(t0)
        add     t0,a7,t1
        vadd.vv v1,v1,v5
        addi    s0,a1,1024
        addi    t2,a2,1024
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t6)
        add     t6,t5,t1
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t0)
        addi    t0,a5,1024
        vadd.vv v1,v1,v4
        addi    a1,a1,1536
        addi    a2,a2,1536
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t6)
        add     t6,t4,t1
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t6)
        add     t6,a0,t1
        addi    a5,a5,1536
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t6)
        addi    t6,a3,1024
        addi    a3,a3,1536
        vle8.v  v1,0(s0)
        vle8.v  v2,0(t2)
        vle8.v  v4,0(t6)
        addi    t6,a4,1024
        vle8.v  v3,0(t6)
        addi    t6,a6,1024
        addi    a4,a4,1536
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t0)
        addi    a6,a6,1536
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t6)
        addi    t6,a7,1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t6)
        addi    t6,t5,1024
        addi    a7,a7,1536
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t6)
        addi    t6,t4,1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t6)
        addi    t6,a0,1024
        addi    t5,t5,1536
        vadd.vv v1,v1,v3
        addi    t4,t4,1536
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t6)
        vle8.v  v4,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v3,0(a3)
        vle8.v  v2,0(a4)
        vle8.v  v6,0(a5)
        vle8.v  v5,0(a6)
        vadd.vv v1,v1,v4
        vle8.v  v4,0(a7)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t5)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t4)
        vadd.vv v1,v1,v6
        vadd.vv v1,v1,v5
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        ld      s0,8(sp)
        .cfi_restore 8
        ld      s1,0(sp)
        .cfi_restore 9
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE128:
        .size   v2048qi_RET1_ARG9, .-v2048qi_RET1_ARG9
        .align  1
        .globl  v4096qi_RET1_ARG9
        .type   v4096qi_RET1_ARG9, @function
v4096qi_RET1_ARG9:
.LFB129:
        .cfi_startproc
        li      t1,512
        addi    sp,sp,-16
        .cfi_def_cfa_offset 16
        vsetvli zero,t1,e8,m1,ta,ma
        sd      s0,8(sp)
        sd      s1,0(sp)
        .cfi_offset 8, -8
        .cfi_offset 9, -16
        vle8.v  v3,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v2,0(a3)
        ld      t5,16(sp)
        ld      t6,24(sp)
        add     s1,a1,t1
        add     s0,a2,t1
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a4)
        add     t2,a3,t1
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a5)
        add     t0,a4,t1
        add     t3,a6,t1
        vadd.vv v1,v1,v3
        vle8.v  v3,0(a6)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(a7)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t5)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t6)
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(a0)
        vle8.v  v5,0(s0)
        vle8.v  v1,0(s1)
        vle8.v  v3,0(t2)
        vle8.v  v2,0(t0)
        add     t0,a5,t1
        vle8.v  v4,0(t0)
        add     t0,a7,t1
        vadd.vv v1,v1,v5
        addi    s1,a1,1024
        addi    s0,a2,1024
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t3)
        add     t3,t5,t1
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t0)
        addi    t2,a3,1024
        vadd.vv v1,v1,v4
        addi    t0,a4,1024
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t3)
        add     t3,t6,t1
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t3)
        add     t3,a0,t1
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        addi    t3,a6,1024
        vle8.v  v5,0(s0)
        vle8.v  v1,0(s1)
        vle8.v  v3,0(t2)
        vle8.v  v2,0(t0)
        addi    t0,a5,1024
        vle8.v  v4,0(t0)
        addi    t0,a7,1024
        vadd.vv v1,v1,v5
        addi    s1,a1,1536
        addi    s0,a2,1536
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t3)
        addi    t3,t5,1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t0)
        addi    t2,a3,1536
        vadd.vv v1,v1,v4
        addi    t0,a4,1536
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t3)
        addi    t3,t6,1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t3)
        addi    t3,a0,1024
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        addi    t3,a6,1536
        vle8.v  v5,0(s0)
        vle8.v  v1,0(s1)
        vle8.v  v3,0(t2)
        vle8.v  v2,0(t0)
        addi    t0,a5,1536
        vle8.v  v4,0(t0)
        addi    t0,a7,1536
        vadd.vv v1,v1,v5
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t3)
        addi    t3,t5,1536
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t0)
        addi    t0,a0,1536
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t3)
        addi    t3,t6,1536
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t3)
        li      t3,4096
        add     a1,a1,t3
        vadd.vv v1,v1,v3
        add     a2,a2,t3
        addi    t2,a1,-2048
        vadd.vv v1,v1,v2
        add     a3,a3,t3
        add     a4,a4,t3
        vse8.v  v1,0(t0)
        addi    t0,a2,-2048
        add     a5,a5,t3
        add     a6,a6,t3
        add     a7,a7,t3
        add     t5,t5,t3
        vle8.v  v4,0(t0)
        vle8.v  v1,0(t2)
        addi    t0,a3,-2048
        vle8.v  v2,0(t0)
        addi    t2,a4,-2048
        vle8.v  v3,0(t2)
        addi    t0,a5,-2048
        vadd.vv v1,v1,v4
        add     t6,t6,t3
        add     t4,a0,t3
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t0)
        addi    t0,a6,-2048
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t0)
        addi    t0,a7,-2048
        addi    t3,t4,-2048
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t0)
        addi    t0,t5,-2048
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t0)
        addi    t0,t6,-2048
        addi    s1,a1,-1536
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t0)
        addi    s0,a2,-1536
        vadd.vv v1,v1,v3
        addi    t2,a3,-1536
        addi    t0,a4,-1536
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        addi    t3,a6,-1536
        vle8.v  v5,0(s0)
        vle8.v  v1,0(s1)
        vle8.v  v3,0(t2)
        vle8.v  v2,0(t0)
        addi    t0,a5,-1536
        vle8.v  v4,0(t0)
        addi    t0,a7,-1536
        vadd.vv v1,v1,v5
        addi    s0,a1,-1024
        addi    t2,a2,-1024
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t3)
        addi    t3,t5,-1536
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t0)
        addi    t0,a5,-1024
        vadd.vv v1,v1,v4
        addi    a1,a1,-512
        addi    a2,a2,-512
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t3)
        addi    t3,t6,-1536
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t3)
        addi    t3,t4,-1536
        addi    a5,a5,-512
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        addi    t3,a3,-1024
        addi    a3,a3,-512
        vle8.v  v1,0(s0)
        vle8.v  v2,0(t2)
        vle8.v  v4,0(t3)
        addi    t3,a4,-1024
        vle8.v  v3,0(t3)
        addi    t3,a6,-1024
        addi    a4,a4,-512
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t0)
        addi    a6,a6,-512
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t3)
        addi    t3,a7,-1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t3)
        addi    t3,t5,-1024
        addi    a7,a7,-512
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t3)
        addi    t3,t6,-1024
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t3)
        addi    t3,t4,-1024
        addi    t5,t5,-512
        vadd.vv v1,v1,v3
        addi    t4,t4,-512
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t3)
        addi    t3,t6,-512
        vle8.v  v4,0(a2)
        vle8.v  v1,0(a1)
        vle8.v  v3,0(a3)
        vle8.v  v2,0(a4)
        vle8.v  v6,0(a5)
        vle8.v  v5,0(a6)
        vadd.vv v1,v1,v4
        vle8.v  v4,0(a7)
        vadd.vv v1,v1,v3
        vle8.v  v3,0(t5)
        vadd.vv v1,v1,v2
        vle8.v  v2,0(t3)
        vadd.vv v1,v1,v6
        vadd.vv v1,v1,v5
        vadd.vv v1,v1,v4
        vadd.vv v1,v1,v3
        vadd.vv v1,v1,v2
        vse8.v  v1,0(t4)
        ld      s0,8(sp)
        .cfi_restore 8
        ld      s1,0(sp)
        .cfi_restore 9
        addi    sp,sp,16
        .cfi_def_cfa_offset 0
        jr      ra
        .cfi_endproc
.LFE129:
        .size   v4096qi_RET1_ARG9, .-v4096qi_RET1_ARG9
        .section        .note.GNU-stack,"",@progbits

Reply via email to