https://github.com/jacquesguan updated https://github.com/llvm/llvm-project/pull/172813
>From c2bd9feeb6ff3b79b3196248e54d07ffe149f083 Mon Sep 17 00:00:00 2001 From: Jianjian GUAN <[email protected]> Date: Thu, 18 Dec 2025 15:52:04 +0800 Subject: [PATCH 1/2] [CIR][X86] Add CIR codegen support for fpclass x86 builtins --- clang/lib/CIR/CodeGen/CIRGenBuiltinX86.cpp | 94 +++++++++ .../X86/avx10_2_512bf16-builtins.c | 39 ++++ .../X86/avx10_2bf16-builtins.c | 78 ++++++++ .../CodeGenBuiltins/X86/avx512dq-builtins.c | 79 +++++++- .../CodeGenBuiltins/X86/avx512fp16-builtins.c | 40 ++++ .../CodeGenBuiltins/X86/avx512vldq-builtins.c | 189 +++++++++++++++++- 6 files changed, 517 insertions(+), 2 deletions(-) diff --git a/clang/lib/CIR/CodeGen/CIRGenBuiltinX86.cpp b/clang/lib/CIR/CodeGen/CIRGenBuiltinX86.cpp index 1c87e945de846..c50c1cdb82868 100644 --- a/clang/lib/CIR/CodeGen/CIRGenBuiltinX86.cpp +++ b/clang/lib/CIR/CodeGen/CIRGenBuiltinX86.cpp @@ -501,6 +501,95 @@ static mlir::Value emitX86vpcom(CIRGenBuilderTy &builder, mlir::Location loc, return builder.createVecCompare(loc, pred, op0, op1); } +// Emits masked result similar to EmitX86MaskedCompareResult in +// clang/lib/CodeGen/TargetBuiltins/X86.cpp +static mlir::Value emitX86MaskedResult(CIRGenBuilderTy &builder, + mlir::Location loc, mlir::Value cmp, + unsigned numElts, mlir::Value maskIn) { + if (maskIn) { + auto constOp = + mlir::dyn_cast_or_null<cir::ConstantOp>(maskIn.getDefiningOp()); + if (!constOp || !constOp.isAllOnesValue()) { + mlir::Value maskVec = getMaskVecValue(builder, loc, maskIn, numElts); + cmp = builder.createAnd(loc, cmp, maskVec); + } + } + + // If we have less than 8 elements, we need to pad the result. + if (numElts < 8) { + SmallVector<mlir::Attribute> indices; + mlir::Type i32Ty = builder.getSInt32Ty(); + for (auto i : llvm::seq<unsigned>(0, numElts)) + indices.push_back(cir::IntAttr::get(i32Ty, i)); + for (auto i : llvm::seq<unsigned>(numElts, 8)) + indices.push_back(cir::IntAttr::get(i32Ty, i % numElts + numElts)); + + mlir::Value zero = builder.getNullValue(cmp.getType(), loc); + cmp = builder.createVecShuffle(loc, cmp, zero, indices); + } + + // Bitcast the result to integer type + unsigned resultWidth = std::max(numElts, 8U); + cir::IntType resultTy = builder.getUIntNTy(resultWidth); + return builder.createBitcast(cmp, resultTy); +} + +static mlir::Value emitX86Fpclass(CIRGenBuilderTy &builder, mlir::Location loc, + unsigned builtinID, + SmallVectorImpl<mlir::Value> &ops) { + unsigned numElts = cast<cir::VectorType>(ops[0].getType()).getSize(); + mlir::Value maskIn = ops[2]; + ops.erase(ops.begin() + 2); + + StringRef intrinsicName; + switch (builtinID) { + default: + llvm_unreachable("Unsupported fpclass builtin"); + case X86::BI__builtin_ia32_vfpclassbf16128_mask: + intrinsicName = "x86.avx10.fpclass.bf16.128"; + break; + case X86::BI__builtin_ia32_vfpclassbf16256_mask: + intrinsicName = "x86.avx10.fpclass.bf16.256"; + break; + case X86::BI__builtin_ia32_vfpclassbf16512_mask: + intrinsicName = "x86.avx10.fpclass.bf16.512"; + break; + case X86::BI__builtin_ia32_fpclassph128_mask: + intrinsicName = "x86.avx512fp16.fpclass.ph.128"; + break; + case X86::BI__builtin_ia32_fpclassph256_mask: + intrinsicName = "x86.avx512fp16.fpclass.ph.256"; + break; + case X86::BI__builtin_ia32_fpclassph512_mask: + intrinsicName = "x86.avx512fp16.fpclass.ph.512"; + break; + case X86::BI__builtin_ia32_fpclassps128_mask: + intrinsicName = "x86.avx512.fpclass.ps.128"; + break; + case X86::BI__builtin_ia32_fpclassps256_mask: + intrinsicName = "x86.avx512.fpclass.ps.256"; + break; + case X86::BI__builtin_ia32_fpclassps512_mask: + intrinsicName = "x86.avx512.fpclass.ps.512"; + break; + case X86::BI__builtin_ia32_fpclasspd128_mask: + intrinsicName = "x86.avx512.fpclass.pd.128"; + break; + case X86::BI__builtin_ia32_fpclasspd256_mask: + intrinsicName = "x86.avx512.fpclass.pd.256"; + break; + case X86::BI__builtin_ia32_fpclasspd512_mask: + intrinsicName = "x86.avx512.fpclass.pd.512"; + break; + } + + cir::BoolType boolTy = builder.getBoolTy(); + auto cmpResultTy = cir::VectorType::get(boolTy, numElts); + mlir::Value fpclass = + emitIntrinsicCallOp(builder, loc, intrinsicName, cmpResultTy, ops); + return emitX86MaskedResult(builder, loc, fpclass, numElts, maskIn); +} + std::optional<mlir::Value> CIRGenFunction::emitX86BuiltinExpr(unsigned builtinID, const CallExpr *expr) { if (builtinID == Builtin::BI__builtin_cpu_is) { @@ -1748,6 +1837,10 @@ CIRGenFunction::emitX86BuiltinExpr(unsigned builtinID, const CallExpr *expr) { case X86::BI__builtin_ia32_addcarryx_u64: case X86::BI__builtin_ia32_subborrow_u32: case X86::BI__builtin_ia32_subborrow_u64: + cgm.errorNYI(expr->getSourceRange(), + std::string("unimplemented X86 builtin call: ") + + getContext().BuiltinInfo.getName(builtinID)); + return mlir::Value{}; case X86::BI__builtin_ia32_fpclassps128_mask: case X86::BI__builtin_ia32_fpclassps256_mask: case X86::BI__builtin_ia32_fpclassps512_mask: @@ -1760,6 +1853,7 @@ CIRGenFunction::emitX86BuiltinExpr(unsigned builtinID, const CallExpr *expr) { case X86::BI__builtin_ia32_fpclasspd128_mask: case X86::BI__builtin_ia32_fpclasspd256_mask: case X86::BI__builtin_ia32_fpclasspd512_mask: + return emitX86Fpclass(builder, getLoc(expr->getExprLoc()), builtinID, ops); case X86::BI__builtin_ia32_vp2intersect_q_512: case X86::BI__builtin_ia32_vp2intersect_q_256: case X86::BI__builtin_ia32_vp2intersect_q_128: diff --git a/clang/test/CIR/CodeGenBuiltins/X86/avx10_2_512bf16-builtins.c b/clang/test/CIR/CodeGenBuiltins/X86/avx10_2_512bf16-builtins.c index e4501889c2d60..6c825af295643 100644 --- a/clang/test/CIR/CodeGenBuiltins/X86/avx10_2_512bf16-builtins.c +++ b/clang/test/CIR/CodeGenBuiltins/X86/avx10_2_512bf16-builtins.c @@ -26,3 +26,42 @@ __m512bh test_mm512_undefined_pbh(void) { // OGCG: ret <32 x bfloat> zeroinitializer return _mm512_undefined_pbh(); } + +__mmask32 test_mm512_mask_fpclass_pbh_mask(__mmask32 __U, __m512bh __A) { + // CIR-LABEL: _mm512_mask_fpclass_pbh_mask + // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx10.fpclass.bf16.512" + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u32i -> !cir.vector<32 x !cir.bool> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<32 x !cir.bool> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<32 x !cir.bool> -> !u32i + + // LLVM-LABEL: test_mm512_mask_fpclass_pbh_mask + // LLVM: %[[A:.*]] = call <32 x i1> @llvm.x86.avx10.fpclass.bf16.512 + // LLVM: %[[B:.*]] = bitcast i32 {{.*}} to <32 x i1> + // LLVM: %[[C:.*]] = and <32 x i1> %[[A]], %[[B]] + // LLVM: bitcast <32 x i1> %[[C]] to i32 + + // OGCG-LABEL: test_mm512_mask_fpclass_pbh_mask + // OGCG: %[[A:.*]] = call <32 x i1> @llvm.x86.avx10.fpclass.bf16.512 + // OGCG: %[[B:.*]] = bitcast i32 {{.*}} to <32 x i1> + // OGCG: %[[C:.*]] = and <32 x i1> %[[A]], %[[B]] + // OGCG: bitcast <32 x i1> %[[C]] to i32 + return _mm512_mask_fpclass_pbh_mask(__U, __A, 4); +} + +__mmask32 test_mm512_fpclass_pbh_mask(__m512bh __A) { + // CIR-LABEL: _mm512_fpclass_pbh_mask + // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx10.fpclass.bf16.512" + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u32i -> !cir.vector<32 x !cir.bool> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<32 x !cir.bool> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<32 x !cir.bool> -> !u32i + + // LLVM-LABEL: test_mm512_fpclass_pbh_mask + // LLVM: %[[A:.*]] = call <32 x i1> @llvm.x86.avx10.fpclass.bf16.512 + // LLVM: %[[B:.*]] = and <32 x i1> %[[A]], splat (i1 true) + // LLVM: bitcast <32 x i1> %[[B]] to i32 + + // OGCG-LABEL: test_mm512_fpclass_pbh_mask + // OGCG: %[[A:.*]] = call <32 x i1> @llvm.x86.avx10.fpclass.bf16.512 + // OGCG: bitcast <32 x i1> %[[A]] to i32 + return _mm512_fpclass_pbh_mask(__A, 4); +} diff --git a/clang/test/CIR/CodeGenBuiltins/X86/avx10_2bf16-builtins.c b/clang/test/CIR/CodeGenBuiltins/X86/avx10_2bf16-builtins.c index 4dac4fa2fe811..00469a092a1ef 100644 --- a/clang/test/CIR/CodeGenBuiltins/X86/avx10_2bf16-builtins.c +++ b/clang/test/CIR/CodeGenBuiltins/X86/avx10_2bf16-builtins.c @@ -44,4 +44,82 @@ __m256bh test_mm256_undefined_pbh(void) { // OGCG-LABEL: test_mm256_undefined_pbh // OGCG: ret <16 x bfloat> zeroinitializer return _mm256_undefined_pbh(); +} + +__mmask16 test_mm256_mask_fpclass_pbh_mask(__mmask16 __U, __m256bh __A) { + // CIR-LABEL: _mm256_mask_fpclass_pbh_mask + // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx10.fpclass.bf16.256" + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u16i -> !cir.vector<16 x !cir.bool> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<16 x !cir.bool> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<16 x !cir.bool> -> !u16i + + // LLVM-LABEL: test_mm256_mask_fpclass_pbh_mask + // LLVM: %[[A:.*]] = call <16 x i1> @llvm.x86.avx10.fpclass.bf16.256 + // LLVM: %[[B:.*]] = bitcast i16 {{.*}} to <16 x i1> + // LLVM: %[[C:.*]] = and <16 x i1> %[[A]], %[[B]] + // LLVM: bitcast <16 x i1> %[[C]] to i16 + + // OGCG-LABEL: test_mm256_mask_fpclass_pbh_mask + // OGCG: %[[A:.*]] = call <16 x i1> @llvm.x86.avx10.fpclass.bf16.256 + // OGCG: %[[B:.*]] = bitcast i16 {{.*}} to <16 x i1> + // OGCG: %[[C:.*]] = and <16 x i1> %[[A]], %[[B]] + // OGCG: bitcast <16 x i1> %[[C]] to i16 + return _mm256_mask_fpclass_pbh_mask(__U, __A, 4); +} + +__mmask16 test_mm256_fpclass_pbh_mask(__m256bh __A) { + // CIR-LABEL: _mm256_fpclass_pbh_mask + // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx10.fpclass.bf16.256" + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u16i -> !cir.vector<16 x !cir.bool> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<16 x !cir.bool> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<16 x !cir.bool> -> !u16i + + // LLVM-LABEL: test_mm256_fpclass_pbh_mask + // LLVM: %[[A:.*]] = call <16 x i1> @llvm.x86.avx10.fpclass.bf16.256 + // LLVM: %[[B:.*]] = and <16 x i1> %[[A]], splat (i1 true) + // LLVM: bitcast <16 x i1> %[[B]] to i16 + + // OGCG-LABEL: test_mm256_fpclass_pbh_mask + // OGCG: %[[A:.*]] = call <16 x i1> @llvm.x86.avx10.fpclass.bf16.256 + // OGCG: bitcast <16 x i1> %[[A]] to i16 + return _mm256_fpclass_pbh_mask(__A, 4); +} + +__mmask8 test_mm_mask_fpclass_pbh_mask(__mmask8 __U, __m128bh __A) { + // CIR-LABEL: _mm_mask_fpclass_pbh_mask + // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx10.fpclass.bf16.128" + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<8 x !cir.bool> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<8 x !cir.bool> -> !u8i + + // LLVM-LABEL: test_mm_mask_fpclass_pbh_mask + // LLVM: %[[A:.*]] = call <8 x i1> @llvm.x86.avx10.fpclass.bf16.128 + // LLVM: %[[B:.*]] = bitcast i8 {{.*}} to <8 x i1> + // LLVM: %[[C:.*]] = and <8 x i1> %[[A]], %[[B]] + // LLVM: bitcast <8 x i1> %[[C]] to i8 + + // OGCG-LABEL: test_mm_mask_fpclass_pbh_mask + // OGCG: %[[A:.*]] = call <8 x i1> @llvm.x86.avx10.fpclass.bf16.128 + // OGCG: %[[B:.*]] = bitcast i8 {{.*}} to <8 x i1> + // OGCG: %[[C:.*]] = and <8 x i1> %[[A]], %[[B]] + // OGCG: bitcast <8 x i1> %[[C]] to i8 + return _mm_mask_fpclass_pbh_mask(__U, __A, 4); +} + +__mmask8 test_mm_fpclass_pbh_mask(__m128bh __A) { + // CIR-LABEL: _mm_fpclass_pbh_mask + // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx10.fpclass.bf16.128" + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<8 x !cir.bool> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<8 x !cir.bool> -> !u8i + + // LLVM-LABEL: test_mm_fpclass_pbh_mask + // LLVM: %[[A:.*]] = call <8 x i1> @llvm.x86.avx10.fpclass.bf16.128 + // LLVM: %[[B:.*]] = and <8 x i1> %[[A]], splat (i1 true) + // LLVM: bitcast <8 x i1> %[[B]] to i8 + + // OGCG-LABEL: test_mm_fpclass_pbh_mask + // OGCG: %[[A:.*]] = call <8 x i1> @llvm.x86.avx10.fpclass.bf16.128 + // OGCG: bitcast <8 x i1> %[[A]] to i8 + return _mm_fpclass_pbh_mask(__A, 4); } \ No newline at end of file diff --git a/clang/test/CIR/CodeGenBuiltins/X86/avx512dq-builtins.c b/clang/test/CIR/CodeGenBuiltins/X86/avx512dq-builtins.c index e49a4bd04956e..9f9f997a5e052 100644 --- a/clang/test/CIR/CodeGenBuiltins/X86/avx512dq-builtins.c +++ b/clang/test/CIR/CodeGenBuiltins/X86/avx512dq-builtins.c @@ -369,4 +369,81 @@ __mmask8 test_mm512_movepi64_mask(__m512i __A) { // OGCG: [[CMP:%.*]] = icmp slt <8 x i64> %{{.*}}, zeroinitializer // OGCG: bitcast <8 x i1> [[CMP]] to i8 return _mm512_movepi64_mask(__A); -} \ No newline at end of file +} +__mmask8 test_mm512_mask_fpclass_pd_mask(__mmask8 __U, __m512d __A) { + // CIR-LABEL: _mm512_mask_fpclass_pd_mask + // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.pd.512" + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<8 x !cir.bool> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<8 x !cir.bool> -> !u8i + + // LLVM-LABEL: test_mm512_mask_fpclass_pd_mask + // LLVM: %[[A:.*]] = call <8 x i1> @llvm.x86.avx512.fpclass.pd.512 + // LLVM: %[[B:.*]] = bitcast i8 {{.*}} to <8 x i1> + // LLVM: %[[C:.*]] = and <8 x i1> %[[A]], %[[B]] + // LLVM: bitcast <8 x i1> %[[C]] to i8 + + // OGCG-LABEL: test_mm512_mask_fpclass_pd_mask + // OGCG: %[[A:.*]] = call <8 x i1> @llvm.x86.avx512.fpclass.pd.512 + // OGCG: %[[B:.*]] = bitcast i8 {{.*}} to <8 x i1> + // OGCG: %[[C:.*]] = and <8 x i1> %[[A]], %[[B]] + // OGCG: bitcast <8 x i1> %[[C]] to i8 + return _mm512_mask_fpclass_pd_mask(__U, __A, 4); +} + +__mmask8 test_mm512_fpclass_pd_mask(__m512d __A) { + // CIR-LABEL: _mm512_fpclass_pd_mask + // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.pd.512" + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<8 x !cir.bool> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<8 x !cir.bool> -> !u8i + + // LLVM-LABEL: test_mm512_fpclass_pd_mask + // LLVM: %[[A:.*]] = call <8 x i1> @llvm.x86.avx512.fpclass.pd.512 + // LLVM: %[[B:.*]] = and <8 x i1> %[[A]], splat (i1 true) + // LLVM: bitcast <8 x i1> %[[B]] to i8 + + // OGCG-LABEL: test_mm512_fpclass_pd_mask + // OGCG: %[[A:.*]] = call <8 x i1> @llvm.x86.avx512.fpclass.pd.512 + // OGCG: bitcast <8 x i1> %[[A]] to i8 + return _mm512_fpclass_pd_mask(__A, 4); +} + +__mmask16 test_mm512_mask_fpclass_ps_mask(__mmask16 __U, __m512 __A) { + // CIR-LABEL: _mm512_mask_fpclass_ps_mask + // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.ps.512" + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u16i -> !cir.vector<16 x !cir.bool> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<16 x !cir.bool> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<16 x !cir.bool> -> !u16i + + // LLVM-LABEL: test_mm512_mask_fpclass_ps_mask + // LLVM: %[[A:.*]] = call <16 x i1> @llvm.x86.avx512.fpclass.ps.512 + // LLVM: %[[B:.*]] = bitcast i16 {{.*}} to <16 x i1> + // LLVM: %[[C:.*]] = and <16 x i1> %[[A]], %[[B]] + // LLVM: bitcast <16 x i1> %[[C]] to i16 + + // OGCG-LABEL: test_mm512_mask_fpclass_ps_mask + // OGCG: %[[A:.*]] = call <16 x i1> @llvm.x86.avx512.fpclass.ps.512 + // OGCG: %[[B:.*]] = bitcast i16 {{.*}} to <16 x i1> + // OGCG: %[[C:.*]] = and <16 x i1> %[[A]], %[[B]] + // OGCG: bitcast <16 x i1> %[[C]] to i16 + return _mm512_mask_fpclass_ps_mask(__U, __A, 4); +} + +__mmask16 test_mm512_fpclass_ps_mask(__m512 __A) { + // CIR-LABEL: _mm512_fpclass_ps_mask + // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.ps.512" + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u16i -> !cir.vector<16 x !cir.bool> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<16 x !cir.bool> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<16 x !cir.bool> -> !u16i + + // LLVM-LABEL: test_mm512_fpclass_ps_mask + // LLVM: %[[A:.*]] = call <16 x i1> @llvm.x86.avx512.fpclass.ps.512 + // LLVM: %[[B:.*]] = and <16 x i1> %[[A]], splat (i1 true) + // LLVM: bitcast <16 x i1> %[[B]] to i16 + + // OGCG-LABEL: test_mm512_fpclass_ps_mask + // OGCG: %[[A:.*]] = call <16 x i1> @llvm.x86.avx512.fpclass.ps.512 + // OGCG: bitcast <16 x i1> %[[A]] to i16 + return _mm512_fpclass_ps_mask(__A, 4); +} diff --git a/clang/test/CIR/CodeGenBuiltins/X86/avx512fp16-builtins.c b/clang/test/CIR/CodeGenBuiltins/X86/avx512fp16-builtins.c index 464fa29fffc20..bea5c249b3c0b 100644 --- a/clang/test/CIR/CodeGenBuiltins/X86/avx512fp16-builtins.c +++ b/clang/test/CIR/CodeGenBuiltins/X86/avx512fp16-builtins.c @@ -124,3 +124,43 @@ _Float16 test_mm512_reduce_min_ph(__m512h __W) { // OGCG: call nnan {{.*}}half @llvm.vector.reduce.fmin.v32f16(<32 x half> %{{.*}}) return _mm512_reduce_min_ph(__W); } + + +__mmask32 test_mm512_mask_fpclass_ph_mask(__mmask32 __U, __m512h __A) { + // CIR-LABEL: _mm512_mask_fpclass_ph_mask + // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512fp16.fpclass.ph.512" + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u32i -> !cir.vector<32 x !cir.bool> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<32 x !cir.bool> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<32 x !cir.bool> -> !u32i + + // LLVM-LABEL: test_mm512_mask_fpclass_ph_mask + // LLVM: %[[A:.*]] = call <32 x i1> @llvm.x86.avx512fp16.fpclass.ph.512 + // LLVM: %[[B:.*]] = bitcast i32 {{.*}} to <32 x i1> + // LLVM: %[[C:.*]] = and <32 x i1> %[[A]], %[[B]] + // LLVM: bitcast <32 x i1> %[[C]] to i32 + + // OGCG-LABEL: test_mm512_mask_fpclass_ph_mask + // OGCG: %[[A:.*]] = call <32 x i1> @llvm.x86.avx512fp16.fpclass.ph.512 + // OGCG: %[[B:.*]] = bitcast i32 {{.*}} to <32 x i1> + // OGCG: %[[C:.*]] = and <32 x i1> %[[A]], %[[B]] + // OGCG: bitcast <32 x i1> %[[C]] to i32 + return _mm512_mask_fpclass_ph_mask(__U, __A, 4); +} + +__mmask32 test_mm512_fpclass_ph_mask(__m512h __A) { + // CIR-LABEL: _mm512_fpclass_ph_mask + // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512fp16.fpclass.ph.512" + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u32i -> !cir.vector<32 x !cir.bool> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<32 x !cir.bool> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<32 x !cir.bool> -> !u32i + + // LLVM-LABEL: test_mm512_fpclass_ph_mask + // LLVM: %[[A:.*]] = call <32 x i1> @llvm.x86.avx512fp16.fpclass.ph.512 + // LLVM: %[[B:.*]] = and <32 x i1> %[[A]], splat (i1 true) + // LLVM: bitcast <32 x i1> %[[B]] to i32 + + // OGCG-LABEL: test_mm512_fpclass_ph_mask + // OGCG: %[[A:.*]] = call <32 x i1> @llvm.x86.avx512fp16.fpclass.ph.512 + // OGCG: bitcast <32 x i1> %[[A]] to i32 + return _mm512_fpclass_ph_mask(__A, 4); +} \ No newline at end of file diff --git a/clang/test/CIR/CodeGenBuiltins/X86/avx512vldq-builtins.c b/clang/test/CIR/CodeGenBuiltins/X86/avx512vldq-builtins.c index 9461dde257799..fad7a3a0d0f13 100644 --- a/clang/test/CIR/CodeGenBuiltins/X86/avx512vldq-builtins.c +++ b/clang/test/CIR/CodeGenBuiltins/X86/avx512vldq-builtins.c @@ -140,4 +140,191 @@ __mmask8 test_mm256_movepi64_mask(__m256i __A) { // OGCG: [[SHUF:%.*]] = shufflevector <4 x i1> [[CMP]], <4 x i1> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7> // OGCG: bitcast <8 x i1> [[SHUF]] to i8 return _mm256_movepi64_mask(__A); -} \ No newline at end of file +} + +__mmask8 test_mm_mask_fpclass_pd_mask(__mmask8 __U, __m128d __A) { + // CIR-LABEL: _mm_mask_fpclass_pd_mask + // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.pd.128" + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> + // CIR: %[[SHUF:.*]] = cir.vec.shuffle(%[[B]], %[[B]] : !cir.vector<8 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i] : !cir.vector<2 x !cir.bool> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[SHUF]]) : !cir.vector<2 x !cir.bool> + // CIR: %[[D:.*]] = cir.const #cir.zero : !cir.vector<2 x !cir.bool> + // CIR: %[[E:.*]] = cir.vec.shuffle(%[[C]], %[[D]] : !cir.vector<2 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i] : !cir.vector<8 x !cir.bool> + // CIR: cir.cast bitcast %[[E]] : !cir.vector<8 x !cir.bool> -> !u8i + + // LLVM-LABEL: test_mm_mask_fpclass_pd_mask + // LLVM: %[[A:.*]] = call <2 x i1> @llvm.x86.avx512.fpclass.pd.128 + // LLVM: %[[B:.*]] = bitcast i8 {{.*}} to <8 x i1> + // LLVM: %[[C:.*]] = shufflevector <8 x i1> %[[B]], <8 x i1> %[[B]], <2 x i32> <i32 0, i32 1> + // LLVM: %[[D:.*]] = and <2 x i1> %[[A]], %[[C]] + // LLVM: %[[E:.*]] = shufflevector <2 x i1> %[[D]], <2 x i1> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 2, i32 3, i32 2, i32 3> + // LLVM: bitcast <8 x i1> %[[E]] to i8 + + // OGCG-LABEL: test_mm_mask_fpclass_pd_mask + // OGCG: %[[A:.*]] = call <2 x i1> @llvm.x86.avx512.fpclass.pd.128 + // OGCG: and <2 x i1> + // OGCG: shufflevector + // OGCG: bitcast <8 x i1> {{.*}} to i8 + return _mm_mask_fpclass_pd_mask(__U, __A, 2); +} + +__mmask8 test_mm_fpclass_pd_mask(__m128d __A) { + // CIR-LABEL: _mm_fpclass_pd_mask + // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.pd.128" + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> + // CIR: %[[SHUF:.*]] = cir.vec.shuffle(%[[B]], %[[B]] : !cir.vector<8 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i] : !cir.vector<2 x !cir.bool> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[SHUF]]) : !cir.vector<2 x !cir.bool> + // CIR: %[[D:.*]] = cir.const #cir.zero : !cir.vector<2 x !cir.bool> + // CIR: %[[E:.*]] = cir.vec.shuffle(%[[C]], %[[D]] : !cir.vector<2 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i] : !cir.vector<8 x !cir.bool> + // CIR: cir.cast bitcast %[[E]] : !cir.vector<8 x !cir.bool> -> !u8i + + // LLVM-LABEL: test_mm_fpclass_pd_mask + // LLVM: %[[A:.*]] = call <2 x i1> @llvm.x86.avx512.fpclass.pd.128 + // LLVM: %[[B:.*]] = and <2 x i1> %[[A]], splat (i1 true) + // LLVM: %[[C:.*]] = shufflevector <2 x i1> %[[B]], <2 x i1> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 2, i32 3, i32 2, i32 3> + // LLVM: bitcast <8 x i1> %[[C]] to i8 + + // OGCG-LABEL: test_mm_fpclass_pd_mask + // OGCG: %[[A:.*]] = call <2 x i1> @llvm.x86.avx512.fpclass.pd.128 + // OGCG: shufflevector + // OGCG: bitcast <8 x i1> {{.*}} to i8 + return _mm_fpclass_pd_mask(__A, 2); +} + +__mmask8 test_mm256_mask_fpclass_pd_mask(__mmask8 __U, __m256d __A) { + // CIR-LABEL: _mm256_mask_fpclass_pd_mask + // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.pd.256" + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> + // CIR: %[[SHUF:.*]] = cir.vec.shuffle(%[[B]], %[[B]] : !cir.vector<8 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i] : !cir.vector<4 x !cir.bool> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[SHUF]]) : !cir.vector<4 x !cir.bool> + // CIR: %[[D:.*]] = cir.const #cir.zero : !cir.vector<4 x !cir.bool> + // CIR: %[[E:.*]] = cir.vec.shuffle(%[[C]], %[[D]] : !cir.vector<4 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i, #cir.int<4> : !s32i, #cir.int<5> : !s32i, #cir.int<6> : !s32i, #cir.int<7> : !s32i] : !cir.vector<8 x !cir.bool> + // CIR: cir.cast bitcast %[[E]] : !cir.vector<8 x !cir.bool> -> !u8i + + // LLVM-LABEL: test_mm256_mask_fpclass_pd_mask + // LLVM: %[[A:.*]] = call <4 x i1> @llvm.x86.avx512.fpclass.pd.256 + // LLVM: %[[B:.*]] = bitcast i8 {{.*}} to <8 x i1> + // LLVM: %[[C:.*]] = shufflevector <8 x i1> %[[B]], <8 x i1> %[[B]], <4 x i32> <i32 0, i32 1, i32 2, i32 3> + // LLVM: %[[D:.*]] = and <4 x i1> %[[A]], %[[C]] + // LLVM: %[[E:.*]] = shufflevector <4 x i1> %[[D]], <4 x i1> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7> + // LLVM: bitcast <8 x i1> %[[E]] to i8 + + // OGCG-LABEL: test_mm256_mask_fpclass_pd_mask + // OGCG: %[[A:.*]] = call <4 x i1> @llvm.x86.avx512.fpclass.pd.256 + // OGCG: and <4 x i1> + // OGCG: shufflevector + // OGCG: bitcast <8 x i1> {{.*}} to i8 + return _mm256_mask_fpclass_pd_mask(__U, __A, 2); +} + +__mmask8 test_mm256_fpclass_pd_mask(__m256d __A) { + // CIR-LABEL: _mm256_fpclass_pd_mask + // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.pd.256" + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> + // CIR: %[[SHUF:.*]] = cir.vec.shuffle(%[[B]], %[[B]] : !cir.vector<8 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i] : !cir.vector<4 x !cir.bool> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[SHUF]]) : !cir.vector<4 x !cir.bool> + // CIR: %[[D:.*]] = cir.const #cir.zero : !cir.vector<4 x !cir.bool> + // CIR: %[[E:.*]] = cir.vec.shuffle(%[[C]], %[[D]] : !cir.vector<4 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i, #cir.int<4> : !s32i, #cir.int<5> : !s32i, #cir.int<6> : !s32i, #cir.int<7> : !s32i] : !cir.vector<8 x !cir.bool> + // CIR: cir.cast bitcast %[[E]] : !cir.vector<8 x !cir.bool> -> !u8i + + // LLVM-LABEL: test_mm256_fpclass_pd_mask + // LLVM: %[[A:.*]] = call <4 x i1> @llvm.x86.avx512.fpclass.pd.256 + // LLVM: %[[B:.*]] = and <4 x i1> %[[A]], splat (i1 true) + // LLVM: %[[C:.*]] = shufflevector <4 x i1> %[[B]], <4 x i1> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7> + // LLVM: bitcast <8 x i1> %[[C]] to i8 + + // OGCG-LABEL: test_mm256_fpclass_pd_mask + // OGCG: %[[A:.*]] = call <4 x i1> @llvm.x86.avx512.fpclass.pd.256 + // OGCG: shufflevector + // OGCG: bitcast <8 x i1> {{.*}} to i8 + return _mm256_fpclass_pd_mask(__A, 2); +} + +__mmask8 test_mm_mask_fpclass_ps_mask(__mmask8 __U, __m128 __A) { + // CIR-LABEL: _mm_mask_fpclass_ps_mask + // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.ps.128" + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> + // CIR: %[[SHUF:.*]] = cir.vec.shuffle(%[[B]], %[[B]] : !cir.vector<8 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i] : !cir.vector<4 x !cir.bool> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[SHUF]]) : !cir.vector<4 x !cir.bool> + // CIR: %[[D:.*]] = cir.const #cir.zero : !cir.vector<4 x !cir.bool> + // CIR: %[[E:.*]] = cir.vec.shuffle(%[[C]], %[[D]] : !cir.vector<4 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i, #cir.int<4> : !s32i, #cir.int<5> : !s32i, #cir.int<6> : !s32i, #cir.int<7> : !s32i] : !cir.vector<8 x !cir.bool> + // CIR: cir.cast bitcast %[[E]] : !cir.vector<8 x !cir.bool> -> !u8i + + // LLVM-LABEL: test_mm_mask_fpclass_ps_mask + // LLVM: %[[A:.*]] = call <4 x i1> @llvm.x86.avx512.fpclass.ps.128 + // LLVM: %[[B:.*]] = bitcast i8 {{.*}} to <8 x i1> + // LLVM: %[[C:.*]] = shufflevector <8 x i1> %[[B]], <8 x i1> %[[B]], <4 x i32> <i32 0, i32 1, i32 2, i32 3> + // LLVM: %[[D:.*]] = and <4 x i1> %[[A]], %[[C]] + // LLVM: %[[E:.*]] = shufflevector <4 x i1> %[[D]], <4 x i1> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7> + // LLVM: bitcast <8 x i1> %[[E]] to i8 + + // OGCG-LABEL: test_mm_mask_fpclass_ps_mask + // OGCG: %[[A:.*]] = call <4 x i1> @llvm.x86.avx512.fpclass.ps.128 + // OGCG: and <4 x i1> + // OGCG: shufflevector + // OGCG: bitcast <8 x i1> {{.*}} to i8 + return _mm_mask_fpclass_ps_mask(__U, __A, 2); +} + +__mmask8 test_mm_fpclass_ps_mask(__m128 __A) { + // CIR-LABEL: _mm_fpclass_ps_mask + // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.ps.128" + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> + // CIR: %[[SHUF:.*]] = cir.vec.shuffle(%[[B]], %[[B]] : !cir.vector<8 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i] : !cir.vector<4 x !cir.bool> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[SHUF]]) : !cir.vector<4 x !cir.bool> + // CIR: %[[D:.*]] = cir.const #cir.zero : !cir.vector<4 x !cir.bool> + // CIR: %[[E:.*]] = cir.vec.shuffle(%[[C]], %[[D]] : !cir.vector<4 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i, #cir.int<4> : !s32i, #cir.int<5> : !s32i, #cir.int<6> : !s32i, #cir.int<7> : !s32i] : !cir.vector<8 x !cir.bool> + // CIR: cir.cast bitcast %[[E]] : !cir.vector<8 x !cir.bool> -> !u8i + + // LLVM-LABEL: test_mm_fpclass_ps_mask + // LLVM: %[[A:.*]] = call <4 x i1> @llvm.x86.avx512.fpclass.ps.128 + // LLVM: %[[B:.*]] = and <4 x i1> %[[A]], splat (i1 true) + // LLVM: %[[C:.*]] = shufflevector <4 x i1> %[[B]], <4 x i1> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7> + // LLVM: bitcast <8 x i1> %[[C]] to i8 + + // OGCG-LABEL: test_mm_fpclass_ps_mask + // OGCG: %[[A:.*]] = call <4 x i1> @llvm.x86.avx512.fpclass.ps.128 + // OGCG: shufflevector + // OGCG: bitcast <8 x i1> {{.*}} to i8 + return _mm_fpclass_ps_mask(__A, 2); +} + +__mmask8 test_mm256_mask_fpclass_ps_mask(__mmask8 __U, __m256 __A) { + // CIR-LABEL: _mm256_mask_fpclass_ps_mask + // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.ps.256" + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<8 x !cir.bool> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<8 x !cir.bool> -> !u8i + + // LLVM-LABEL: test_mm256_mask_fpclass_ps_mask + // LLVM: %[[A:.*]] = call <8 x i1> @llvm.x86.avx512.fpclass.ps.256 + // LLVM: %[[B:.*]] = bitcast i8 {{.*}} to <8 x i1> + // LLVM: %[[C:.*]] = and <8 x i1> %[[A]], %[[B]] + // LLVM: bitcast <8 x i1> %[[C]] to i8 + + // OGCG-LABEL: test_mm256_mask_fpclass_ps_mask + // OGCG: %[[A:.*]] = call <8 x i1> @llvm.x86.avx512.fpclass.ps.256 + // OGCG: %[[B:.*]] = bitcast i8 {{.*}} to <8 x i1> + // OGCG: %[[C:.*]] = and <8 x i1> %[[A]], %[[B]] + // OGCG: bitcast <8 x i1> %[[C]] to i8 + return _mm256_mask_fpclass_ps_mask(__U, __A, 2); +} + +__mmask8 test_mm256_fpclass_ps_mask(__m256 __A) { + // CIR-LABEL: _mm256_fpclass_ps_mask + // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.ps.256" + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<8 x !cir.bool> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<8 x !cir.bool> -> !u8i + + // LLVM-LABEL: test_mm256_fpclass_ps_mask + // LLVM: %[[A:.*]] = call <8 x i1> @llvm.x86.avx512.fpclass.ps.256 + // LLVM: %[[B:.*]] = and <8 x i1> %[[A]], splat (i1 true) + // LLVM: bitcast <8 x i1> %[[B]] to i8 + + // OGCG-LABEL: test_mm256_fpclass_ps_mask + // OGCG: %[[A:.*]] = call <8 x i1> @llvm.x86.avx512.fpclass.ps.256 + // OGCG: bitcast <8 x i1> %[[A]] to i8 + return _mm256_fpclass_ps_mask(__A, 2); +} + >From 5729b21c3f898e1f4e4ed689885ef8aae5ac410f Mon Sep 17 00:00:00 2001 From: Jianjian GUAN <[email protected]> Date: Wed, 24 Dec 2025 17:27:45 +0800 Subject: [PATCH 2/2] Address comment --- clang/lib/CIR/CodeGen/CIRGenBuiltinX86.cpp | 76 ++++++---------- .../X86/avx10_2_512bf16-builtins.c | 13 +-- .../X86/avx10_2bf16-builtins.c | 26 ++---- .../CodeGenBuiltins/X86/avx512dq-builtins.c | 26 ++---- .../CodeGenBuiltins/X86/avx512fp16-builtins.c | 15 ++- .../CodeGenBuiltins/X86/avx512vl-builtins.c | 1 + .../CodeGenBuiltins/X86/avx512vldq-builtins.c | 91 ++++++++----------- 7 files changed, 99 insertions(+), 149 deletions(-) diff --git a/clang/lib/CIR/CodeGen/CIRGenBuiltinX86.cpp b/clang/lib/CIR/CodeGen/CIRGenBuiltinX86.cpp index c50c1cdb82868..c4f605434a7fb 100644 --- a/clang/lib/CIR/CodeGen/CIRGenBuiltinX86.cpp +++ b/clang/lib/CIR/CodeGen/CIRGenBuiltinX86.cpp @@ -264,15 +264,31 @@ static mlir::Value emitX86MaskTest(CIRGenBuilderTy &builder, mlir::Location loc, mlir::ValueRange{lhsVec, rhsVec}); } -// TODO: The cgf parameter should be removed when all the NYI cases are -// implemented. static std::optional<mlir::Value> -emitX86MaskedCompareResult(CIRGenFunction &cgf, CIRGenBuilderTy &builder, - mlir::Value cmp, unsigned numElts, - mlir::Value maskIn, mlir::Location loc) { +emitX86MaskedCompareResult(CIRGenBuilderTy &builder, mlir::Value cmp, + unsigned numElts, mlir::Value maskIn, + mlir::Location loc) { if (maskIn) { - cgf.cgm.errorNYI(loc, "emitX86MaskedCompareResult"); - return {}; + bool isAllOnes = false; + mlir::Value maskInValue = maskIn; + auto castOp = mlir::dyn_cast_or_null<cir::CastOp>(maskIn.getDefiningOp()); + if (castOp && castOp.getKind() == cir::CastKind::integral) { + maskInValue = castOp.getResult(); + isAllOnes = true; + } + auto unaryOp = + mlir::dyn_cast_or_null<cir::UnaryOp>(maskInValue.getDefiningOp()); + if (unaryOp && unaryOp.getKind() == cir::UnaryOpKind::Minus) { + auto constOp = mlir::dyn_cast_or_null<cir::ConstantOp>( + unaryOp.getInput().getDefiningOp()); + if (constOp && constOp.getIntValue().isOne()) { + isAllOnes = true; + } + } + if (!isAllOnes) { + mlir::Value maskVec = getMaskVecValue(builder, loc, maskIn, numElts); + cmp = builder.createAnd(loc, cmp, maskVec); + } } if (numElts < 8) { llvm::SmallVector<mlir::Attribute> indices; @@ -340,7 +356,7 @@ emitX86MaskedCompare(CIRGenFunction &cgf, CIRGenBuilderTy &builder, unsigned cc, if (ops.size() == 4) maskIn = ops[3]; - return emitX86MaskedCompareResult(cgf, builder, cmp, numElts, maskIn, loc); + return emitX86MaskedCompareResult(builder, cmp, numElts, maskIn, loc); } // TODO: The cgf parameter should be removed when all the NYI cases are @@ -501,42 +517,9 @@ static mlir::Value emitX86vpcom(CIRGenBuilderTy &builder, mlir::Location loc, return builder.createVecCompare(loc, pred, op0, op1); } -// Emits masked result similar to EmitX86MaskedCompareResult in -// clang/lib/CodeGen/TargetBuiltins/X86.cpp -static mlir::Value emitX86MaskedResult(CIRGenBuilderTy &builder, - mlir::Location loc, mlir::Value cmp, - unsigned numElts, mlir::Value maskIn) { - if (maskIn) { - auto constOp = - mlir::dyn_cast_or_null<cir::ConstantOp>(maskIn.getDefiningOp()); - if (!constOp || !constOp.isAllOnesValue()) { - mlir::Value maskVec = getMaskVecValue(builder, loc, maskIn, numElts); - cmp = builder.createAnd(loc, cmp, maskVec); - } - } - - // If we have less than 8 elements, we need to pad the result. - if (numElts < 8) { - SmallVector<mlir::Attribute> indices; - mlir::Type i32Ty = builder.getSInt32Ty(); - for (auto i : llvm::seq<unsigned>(0, numElts)) - indices.push_back(cir::IntAttr::get(i32Ty, i)); - for (auto i : llvm::seq<unsigned>(numElts, 8)) - indices.push_back(cir::IntAttr::get(i32Ty, i % numElts + numElts)); - - mlir::Value zero = builder.getNullValue(cmp.getType(), loc); - cmp = builder.createVecShuffle(loc, cmp, zero, indices); - } - - // Bitcast the result to integer type - unsigned resultWidth = std::max(numElts, 8U); - cir::IntType resultTy = builder.getUIntNTy(resultWidth); - return builder.createBitcast(cmp, resultTy); -} - -static mlir::Value emitX86Fpclass(CIRGenBuilderTy &builder, mlir::Location loc, - unsigned builtinID, - SmallVectorImpl<mlir::Value> &ops) { +static std::optional<mlir::Value> +emitX86Fpclass(CIRGenBuilderTy &builder, mlir::Location loc, unsigned builtinID, + SmallVectorImpl<mlir::Value> &ops) { unsigned numElts = cast<cir::VectorType>(ops[0].getType()).getSize(); mlir::Value maskIn = ops[2]; ops.erase(ops.begin() + 2); @@ -583,11 +566,10 @@ static mlir::Value emitX86Fpclass(CIRGenBuilderTy &builder, mlir::Location loc, break; } - cir::BoolType boolTy = builder.getBoolTy(); - auto cmpResultTy = cir::VectorType::get(boolTy, numElts); + auto cmpResultTy = cir::VectorType::get(builder.getSIntNTy(1), numElts); mlir::Value fpclass = emitIntrinsicCallOp(builder, loc, intrinsicName, cmpResultTy, ops); - return emitX86MaskedResult(builder, loc, fpclass, numElts, maskIn); + return emitX86MaskedCompareResult(builder, fpclass, numElts, maskIn, loc); } std::optional<mlir::Value> diff --git a/clang/test/CIR/CodeGenBuiltins/X86/avx10_2_512bf16-builtins.c b/clang/test/CIR/CodeGenBuiltins/X86/avx10_2_512bf16-builtins.c index 6c825af295643..f0482e110fc32 100644 --- a/clang/test/CIR/CodeGenBuiltins/X86/avx10_2_512bf16-builtins.c +++ b/clang/test/CIR/CodeGenBuiltins/X86/avx10_2_512bf16-builtins.c @@ -30,9 +30,9 @@ __m512bh test_mm512_undefined_pbh(void) { __mmask32 test_mm512_mask_fpclass_pbh_mask(__mmask32 __U, __m512bh __A) { // CIR-LABEL: _mm512_mask_fpclass_pbh_mask // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx10.fpclass.bf16.512" - // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u32i -> !cir.vector<32 x !cir.bool> - // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<32 x !cir.bool> - // CIR: cir.cast bitcast %[[C]] : !cir.vector<32 x !cir.bool> -> !u32i + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u32i -> !cir.vector<32 x !cir.int<s, 1>> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<32 x !cir.int<s, 1>> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<32 x !cir.int<s, 1>> -> !u32i // LLVM-LABEL: test_mm512_mask_fpclass_pbh_mask // LLVM: %[[A:.*]] = call <32 x i1> @llvm.x86.avx10.fpclass.bf16.512 @@ -51,14 +51,11 @@ __mmask32 test_mm512_mask_fpclass_pbh_mask(__mmask32 __U, __m512bh __A) { __mmask32 test_mm512_fpclass_pbh_mask(__m512bh __A) { // CIR-LABEL: _mm512_fpclass_pbh_mask // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx10.fpclass.bf16.512" - // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u32i -> !cir.vector<32 x !cir.bool> - // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<32 x !cir.bool> - // CIR: cir.cast bitcast %[[C]] : !cir.vector<32 x !cir.bool> -> !u32i + // CIR: cir.cast bitcast %[[A]] : !cir.vector<32 x !cir.int<s, 1>> -> !u32i // LLVM-LABEL: test_mm512_fpclass_pbh_mask // LLVM: %[[A:.*]] = call <32 x i1> @llvm.x86.avx10.fpclass.bf16.512 - // LLVM: %[[B:.*]] = and <32 x i1> %[[A]], splat (i1 true) - // LLVM: bitcast <32 x i1> %[[B]] to i32 + // LLVM: bitcast <32 x i1> %[[A]] to i32 // OGCG-LABEL: test_mm512_fpclass_pbh_mask // OGCG: %[[A:.*]] = call <32 x i1> @llvm.x86.avx10.fpclass.bf16.512 diff --git a/clang/test/CIR/CodeGenBuiltins/X86/avx10_2bf16-builtins.c b/clang/test/CIR/CodeGenBuiltins/X86/avx10_2bf16-builtins.c index 00469a092a1ef..86dd04ffdc7b6 100644 --- a/clang/test/CIR/CodeGenBuiltins/X86/avx10_2bf16-builtins.c +++ b/clang/test/CIR/CodeGenBuiltins/X86/avx10_2bf16-builtins.c @@ -49,9 +49,9 @@ __m256bh test_mm256_undefined_pbh(void) { __mmask16 test_mm256_mask_fpclass_pbh_mask(__mmask16 __U, __m256bh __A) { // CIR-LABEL: _mm256_mask_fpclass_pbh_mask // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx10.fpclass.bf16.256" - // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u16i -> !cir.vector<16 x !cir.bool> - // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<16 x !cir.bool> - // CIR: cir.cast bitcast %[[C]] : !cir.vector<16 x !cir.bool> -> !u16i + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u16i -> !cir.vector<16 x !cir.int<s, 1>> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<16 x !cir.int<s, 1>> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<16 x !cir.int<s, 1>> -> !u16i // LLVM-LABEL: test_mm256_mask_fpclass_pbh_mask // LLVM: %[[A:.*]] = call <16 x i1> @llvm.x86.avx10.fpclass.bf16.256 @@ -70,14 +70,11 @@ __mmask16 test_mm256_mask_fpclass_pbh_mask(__mmask16 __U, __m256bh __A) { __mmask16 test_mm256_fpclass_pbh_mask(__m256bh __A) { // CIR-LABEL: _mm256_fpclass_pbh_mask // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx10.fpclass.bf16.256" - // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u16i -> !cir.vector<16 x !cir.bool> - // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<16 x !cir.bool> - // CIR: cir.cast bitcast %[[C]] : !cir.vector<16 x !cir.bool> -> !u16i + // CIR: cir.cast bitcast %[[A]] : !cir.vector<16 x !cir.int<s, 1>> -> !u16i // LLVM-LABEL: test_mm256_fpclass_pbh_mask // LLVM: %[[A:.*]] = call <16 x i1> @llvm.x86.avx10.fpclass.bf16.256 - // LLVM: %[[B:.*]] = and <16 x i1> %[[A]], splat (i1 true) - // LLVM: bitcast <16 x i1> %[[B]] to i16 + // LLVM: bitcast <16 x i1> %[[A]] to i16 // OGCG-LABEL: test_mm256_fpclass_pbh_mask // OGCG: %[[A:.*]] = call <16 x i1> @llvm.x86.avx10.fpclass.bf16.256 @@ -88,9 +85,9 @@ __mmask16 test_mm256_fpclass_pbh_mask(__m256bh __A) { __mmask8 test_mm_mask_fpclass_pbh_mask(__mmask8 __U, __m128bh __A) { // CIR-LABEL: _mm_mask_fpclass_pbh_mask // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx10.fpclass.bf16.128" - // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> - // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<8 x !cir.bool> - // CIR: cir.cast bitcast %[[C]] : !cir.vector<8 x !cir.bool> -> !u8i + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.int<s, 1>> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<8 x !cir.int<s, 1>> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<8 x !cir.int<s, 1>> -> !u8i // LLVM-LABEL: test_mm_mask_fpclass_pbh_mask // LLVM: %[[A:.*]] = call <8 x i1> @llvm.x86.avx10.fpclass.bf16.128 @@ -109,14 +106,11 @@ __mmask8 test_mm_mask_fpclass_pbh_mask(__mmask8 __U, __m128bh __A) { __mmask8 test_mm_fpclass_pbh_mask(__m128bh __A) { // CIR-LABEL: _mm_fpclass_pbh_mask // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx10.fpclass.bf16.128" - // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> - // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<8 x !cir.bool> - // CIR: cir.cast bitcast %[[C]] : !cir.vector<8 x !cir.bool> -> !u8i + // CIR: cir.cast bitcast %[[A]] : !cir.vector<8 x !cir.int<s, 1>> -> !u8i // LLVM-LABEL: test_mm_fpclass_pbh_mask // LLVM: %[[A:.*]] = call <8 x i1> @llvm.x86.avx10.fpclass.bf16.128 - // LLVM: %[[B:.*]] = and <8 x i1> %[[A]], splat (i1 true) - // LLVM: bitcast <8 x i1> %[[B]] to i8 + // LLVM: bitcast <8 x i1> %[[A]] to i8 // OGCG-LABEL: test_mm_fpclass_pbh_mask // OGCG: %[[A:.*]] = call <8 x i1> @llvm.x86.avx10.fpclass.bf16.128 diff --git a/clang/test/CIR/CodeGenBuiltins/X86/avx512dq-builtins.c b/clang/test/CIR/CodeGenBuiltins/X86/avx512dq-builtins.c index 9f9f997a5e052..411679c8d38da 100644 --- a/clang/test/CIR/CodeGenBuiltins/X86/avx512dq-builtins.c +++ b/clang/test/CIR/CodeGenBuiltins/X86/avx512dq-builtins.c @@ -373,9 +373,9 @@ __mmask8 test_mm512_movepi64_mask(__m512i __A) { __mmask8 test_mm512_mask_fpclass_pd_mask(__mmask8 __U, __m512d __A) { // CIR-LABEL: _mm512_mask_fpclass_pd_mask // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.pd.512" - // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> - // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<8 x !cir.bool> - // CIR: cir.cast bitcast %[[C]] : !cir.vector<8 x !cir.bool> -> !u8i + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.int<s, 1>> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<8 x !cir.int<s, 1>> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<8 x !cir.int<s, 1>> -> !u8i // LLVM-LABEL: test_mm512_mask_fpclass_pd_mask // LLVM: %[[A:.*]] = call <8 x i1> @llvm.x86.avx512.fpclass.pd.512 @@ -394,14 +394,11 @@ __mmask8 test_mm512_mask_fpclass_pd_mask(__mmask8 __U, __m512d __A) { __mmask8 test_mm512_fpclass_pd_mask(__m512d __A) { // CIR-LABEL: _mm512_fpclass_pd_mask // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.pd.512" - // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> - // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<8 x !cir.bool> - // CIR: cir.cast bitcast %[[C]] : !cir.vector<8 x !cir.bool> -> !u8i + // CIR: cir.cast bitcast %[[A]] : !cir.vector<8 x !cir.int<s, 1>> -> !u8i // LLVM-LABEL: test_mm512_fpclass_pd_mask // LLVM: %[[A:.*]] = call <8 x i1> @llvm.x86.avx512.fpclass.pd.512 - // LLVM: %[[B:.*]] = and <8 x i1> %[[A]], splat (i1 true) - // LLVM: bitcast <8 x i1> %[[B]] to i8 + // LLVM: bitcast <8 x i1> %[[A]] to i8 // OGCG-LABEL: test_mm512_fpclass_pd_mask // OGCG: %[[A:.*]] = call <8 x i1> @llvm.x86.avx512.fpclass.pd.512 @@ -412,9 +409,9 @@ __mmask8 test_mm512_fpclass_pd_mask(__m512d __A) { __mmask16 test_mm512_mask_fpclass_ps_mask(__mmask16 __U, __m512 __A) { // CIR-LABEL: _mm512_mask_fpclass_ps_mask // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.ps.512" - // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u16i -> !cir.vector<16 x !cir.bool> - // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<16 x !cir.bool> - // CIR: cir.cast bitcast %[[C]] : !cir.vector<16 x !cir.bool> -> !u16i + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u16i -> !cir.vector<16 x !cir.int<s, 1>> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<16 x !cir.int<s, 1>> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<16 x !cir.int<s, 1>> -> !u16i // LLVM-LABEL: test_mm512_mask_fpclass_ps_mask // LLVM: %[[A:.*]] = call <16 x i1> @llvm.x86.avx512.fpclass.ps.512 @@ -433,14 +430,11 @@ __mmask16 test_mm512_mask_fpclass_ps_mask(__mmask16 __U, __m512 __A) { __mmask16 test_mm512_fpclass_ps_mask(__m512 __A) { // CIR-LABEL: _mm512_fpclass_ps_mask // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.ps.512" - // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u16i -> !cir.vector<16 x !cir.bool> - // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<16 x !cir.bool> - // CIR: cir.cast bitcast %[[C]] : !cir.vector<16 x !cir.bool> -> !u16i + // CIR: cir.cast bitcast %[[A]] : !cir.vector<16 x !cir.int<s, 1>> -> !u16i // LLVM-LABEL: test_mm512_fpclass_ps_mask // LLVM: %[[A:.*]] = call <16 x i1> @llvm.x86.avx512.fpclass.ps.512 - // LLVM: %[[B:.*]] = and <16 x i1> %[[A]], splat (i1 true) - // LLVM: bitcast <16 x i1> %[[B]] to i16 + // LLVM: bitcast <16 x i1> %[[A]] to i16 // OGCG-LABEL: test_mm512_fpclass_ps_mask // OGCG: %[[A:.*]] = call <16 x i1> @llvm.x86.avx512.fpclass.ps.512 diff --git a/clang/test/CIR/CodeGenBuiltins/X86/avx512fp16-builtins.c b/clang/test/CIR/CodeGenBuiltins/X86/avx512fp16-builtins.c index bea5c249b3c0b..74e40c0d5a76e 100644 --- a/clang/test/CIR/CodeGenBuiltins/X86/avx512fp16-builtins.c +++ b/clang/test/CIR/CodeGenBuiltins/X86/avx512fp16-builtins.c @@ -129,9 +129,9 @@ _Float16 test_mm512_reduce_min_ph(__m512h __W) { __mmask32 test_mm512_mask_fpclass_ph_mask(__mmask32 __U, __m512h __A) { // CIR-LABEL: _mm512_mask_fpclass_ph_mask // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512fp16.fpclass.ph.512" - // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u32i -> !cir.vector<32 x !cir.bool> - // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<32 x !cir.bool> - // CIR: cir.cast bitcast %[[C]] : !cir.vector<32 x !cir.bool> -> !u32i + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u32i -> !cir.vector<32 x !cir.int<s, 1>> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<32 x !cir.int<s, 1>> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<32 x !cir.int<s, 1>> -> !u32i // LLVM-LABEL: test_mm512_mask_fpclass_ph_mask // LLVM: %[[A:.*]] = call <32 x i1> @llvm.x86.avx512fp16.fpclass.ph.512 @@ -150,17 +150,14 @@ __mmask32 test_mm512_mask_fpclass_ph_mask(__mmask32 __U, __m512h __A) { __mmask32 test_mm512_fpclass_ph_mask(__m512h __A) { // CIR-LABEL: _mm512_fpclass_ph_mask // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512fp16.fpclass.ph.512" - // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u32i -> !cir.vector<32 x !cir.bool> - // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<32 x !cir.bool> - // CIR: cir.cast bitcast %[[C]] : !cir.vector<32 x !cir.bool> -> !u32i + // CIR: cir.cast bitcast %[[A]] : !cir.vector<32 x !cir.int<s, 1>> -> !u32i // LLVM-LABEL: test_mm512_fpclass_ph_mask // LLVM: %[[A:.*]] = call <32 x i1> @llvm.x86.avx512fp16.fpclass.ph.512 - // LLVM: %[[B:.*]] = and <32 x i1> %[[A]], splat (i1 true) - // LLVM: bitcast <32 x i1> %[[B]] to i32 + // LLVM: bitcast <32 x i1> %[[A]] to i32 // OGCG-LABEL: test_mm512_fpclass_ph_mask // OGCG: %[[A:.*]] = call <32 x i1> @llvm.x86.avx512fp16.fpclass.ph.512 // OGCG: bitcast <32 x i1> %[[A]] to i32 return _mm512_fpclass_ph_mask(__A, 4); -} \ No newline at end of file +} diff --git a/clang/test/CIR/CodeGenBuiltins/X86/avx512vl-builtins.c b/clang/test/CIR/CodeGenBuiltins/X86/avx512vl-builtins.c index 4ca07e2f099f1..0bc440a70319d 100644 --- a/clang/test/CIR/CodeGenBuiltins/X86/avx512vl-builtins.c +++ b/clang/test/CIR/CodeGenBuiltins/X86/avx512vl-builtins.c @@ -254,3 +254,4 @@ __m128d test_mm_maskz_expand_pd(__mmask8 __U, __m128d __A) { return _mm_maskz_expand_pd(__U,__A); } + diff --git a/clang/test/CIR/CodeGenBuiltins/X86/avx512vldq-builtins.c b/clang/test/CIR/CodeGenBuiltins/X86/avx512vldq-builtins.c index fad7a3a0d0f13..3f92a127fa9e7 100644 --- a/clang/test/CIR/CodeGenBuiltins/X86/avx512vldq-builtins.c +++ b/clang/test/CIR/CodeGenBuiltins/X86/avx512vldq-builtins.c @@ -145,12 +145,12 @@ __mmask8 test_mm256_movepi64_mask(__m256i __A) { __mmask8 test_mm_mask_fpclass_pd_mask(__mmask8 __U, __m128d __A) { // CIR-LABEL: _mm_mask_fpclass_pd_mask // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.pd.128" - // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> - // CIR: %[[SHUF:.*]] = cir.vec.shuffle(%[[B]], %[[B]] : !cir.vector<8 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i] : !cir.vector<2 x !cir.bool> - // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[SHUF]]) : !cir.vector<2 x !cir.bool> - // CIR: %[[D:.*]] = cir.const #cir.zero : !cir.vector<2 x !cir.bool> - // CIR: %[[E:.*]] = cir.vec.shuffle(%[[C]], %[[D]] : !cir.vector<2 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i] : !cir.vector<8 x !cir.bool> - // CIR: cir.cast bitcast %[[E]] : !cir.vector<8 x !cir.bool> -> !u8i + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.int<s, 1>> + // CIR: %[[SHUF:.*]] = cir.vec.shuffle(%[[B]], %[[B]] : !cir.vector<8 x !cir.int<s, 1>>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i] : !cir.vector<2 x !cir.int<s, 1>> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[SHUF]]) : !cir.vector<2 x !cir.int<s, 1>> + // CIR: %[[D:.*]] = cir.const #cir.zero : !cir.vector<2 x !cir.int<s, 1>> + // CIR: %[[E:.*]] = cir.vec.shuffle(%[[C]], %[[D]] : !cir.vector<2 x !cir.int<s, 1>>) [#cir.int<0> : !s64i, #cir.int<1> : !s64i, #cir.int<2> : !s64i, #cir.int<3> : !s64i, #cir.int<2> : !s64i, #cir.int<3> : !s64i, #cir.int<2> : !s64i, #cir.int<3> : !s64i] : !cir.vector<8 x !cir.int<s, 1>> + // CIR: cir.cast bitcast %[[E]] : !cir.vector<8 x !cir.int<s, 1>> -> !u8i // LLVM-LABEL: test_mm_mask_fpclass_pd_mask // LLVM: %[[A:.*]] = call <2 x i1> @llvm.x86.avx512.fpclass.pd.128 @@ -171,18 +171,14 @@ __mmask8 test_mm_mask_fpclass_pd_mask(__mmask8 __U, __m128d __A) { __mmask8 test_mm_fpclass_pd_mask(__m128d __A) { // CIR-LABEL: _mm_fpclass_pd_mask // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.pd.128" - // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> - // CIR: %[[SHUF:.*]] = cir.vec.shuffle(%[[B]], %[[B]] : !cir.vector<8 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i] : !cir.vector<2 x !cir.bool> - // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[SHUF]]) : !cir.vector<2 x !cir.bool> - // CIR: %[[D:.*]] = cir.const #cir.zero : !cir.vector<2 x !cir.bool> - // CIR: %[[E:.*]] = cir.vec.shuffle(%[[C]], %[[D]] : !cir.vector<2 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i] : !cir.vector<8 x !cir.bool> - // CIR: cir.cast bitcast %[[E]] : !cir.vector<8 x !cir.bool> -> !u8i + // CIR: %[[B:.*]] = cir.const #cir.zero : !cir.vector<2 x !cir.int<s, 1>> + // CIR: %[[C:.*]] = cir.vec.shuffle(%[[A]], %[[B]] : !cir.vector<2 x !cir.int<s, 1>>) [#cir.int<0> : !s64i, #cir.int<1> : !s64i, #cir.int<2> : !s64i, #cir.int<3> : !s64i, #cir.int<2> : !s64i, #cir.int<3> : !s64i, #cir.int<2> : !s64i, #cir.int<3> : !s64i] : !cir.vector<8 x !cir.int<s, 1>> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<8 x !cir.int<s, 1>> -> !u8i // LLVM-LABEL: test_mm_fpclass_pd_mask // LLVM: %[[A:.*]] = call <2 x i1> @llvm.x86.avx512.fpclass.pd.128 - // LLVM: %[[B:.*]] = and <2 x i1> %[[A]], splat (i1 true) - // LLVM: %[[C:.*]] = shufflevector <2 x i1> %[[B]], <2 x i1> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 2, i32 3, i32 2, i32 3> - // LLVM: bitcast <8 x i1> %[[C]] to i8 + // LLVM: %[[B:.*]] = shufflevector <2 x i1> %[[A]], <2 x i1> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 2, i32 3, i32 2, i32 3> + // LLVM: bitcast <8 x i1> %[[B]] to i8 // OGCG-LABEL: test_mm_fpclass_pd_mask // OGCG: %[[A:.*]] = call <2 x i1> @llvm.x86.avx512.fpclass.pd.128 @@ -194,12 +190,12 @@ __mmask8 test_mm_fpclass_pd_mask(__m128d __A) { __mmask8 test_mm256_mask_fpclass_pd_mask(__mmask8 __U, __m256d __A) { // CIR-LABEL: _mm256_mask_fpclass_pd_mask // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.pd.256" - // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> - // CIR: %[[SHUF:.*]] = cir.vec.shuffle(%[[B]], %[[B]] : !cir.vector<8 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i] : !cir.vector<4 x !cir.bool> - // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[SHUF]]) : !cir.vector<4 x !cir.bool> - // CIR: %[[D:.*]] = cir.const #cir.zero : !cir.vector<4 x !cir.bool> - // CIR: %[[E:.*]] = cir.vec.shuffle(%[[C]], %[[D]] : !cir.vector<4 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i, #cir.int<4> : !s32i, #cir.int<5> : !s32i, #cir.int<6> : !s32i, #cir.int<7> : !s32i] : !cir.vector<8 x !cir.bool> - // CIR: cir.cast bitcast %[[E]] : !cir.vector<8 x !cir.bool> -> !u8i + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.int<s, 1>> + // CIR: %[[SHUF:.*]] = cir.vec.shuffle(%[[B]], %[[B]] : !cir.vector<8 x !cir.int<s, 1>>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i] : !cir.vector<4 x !cir.int<s, 1>> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[SHUF]]) : !cir.vector<4 x !cir.int<s, 1>> + // CIR: %[[D:.*]] = cir.const #cir.zero : !cir.vector<4 x !cir.int<s, 1>> + // CIR: %[[E:.*]] = cir.vec.shuffle(%[[C]], %[[D]] : !cir.vector<4 x !cir.int<s, 1>>) [#cir.int<0> : !s64i, #cir.int<1> : !s64i, #cir.int<2> : !s64i, #cir.int<3> : !s64i, #cir.int<4> : !s64i, #cir.int<5> : !s64i, #cir.int<6> : !s64i, #cir.int<7> : !s64i] : !cir.vector<8 x !cir.int<s, 1>> + // CIR: cir.cast bitcast %[[E]] : !cir.vector<8 x !cir.int<s, 1>> -> !u8i // LLVM-LABEL: test_mm256_mask_fpclass_pd_mask // LLVM: %[[A:.*]] = call <4 x i1> @llvm.x86.avx512.fpclass.pd.256 @@ -220,18 +216,14 @@ __mmask8 test_mm256_mask_fpclass_pd_mask(__mmask8 __U, __m256d __A) { __mmask8 test_mm256_fpclass_pd_mask(__m256d __A) { // CIR-LABEL: _mm256_fpclass_pd_mask // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.pd.256" - // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> - // CIR: %[[SHUF:.*]] = cir.vec.shuffle(%[[B]], %[[B]] : !cir.vector<8 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i] : !cir.vector<4 x !cir.bool> - // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[SHUF]]) : !cir.vector<4 x !cir.bool> - // CIR: %[[D:.*]] = cir.const #cir.zero : !cir.vector<4 x !cir.bool> - // CIR: %[[E:.*]] = cir.vec.shuffle(%[[C]], %[[D]] : !cir.vector<4 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i, #cir.int<4> : !s32i, #cir.int<5> : !s32i, #cir.int<6> : !s32i, #cir.int<7> : !s32i] : !cir.vector<8 x !cir.bool> - // CIR: cir.cast bitcast %[[E]] : !cir.vector<8 x !cir.bool> -> !u8i + // CIR: %[[B:.*]] = cir.const #cir.zero : !cir.vector<4 x !cir.int<s, 1>> + // CIR: %[[C:.*]] = cir.vec.shuffle(%[[A]], %[[B]] : !cir.vector<4 x !cir.int<s, 1>>) [#cir.int<0> : !s64i, #cir.int<1> : !s64i, #cir.int<2> : !s64i, #cir.int<3> : !s64i, #cir.int<4> : !s64i, #cir.int<5> : !s64i, #cir.int<6> : !s64i, #cir.int<7> : !s64i] : !cir.vector<8 x !cir.int<s, 1>> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<8 x !cir.int<s, 1>> -> !u8i // LLVM-LABEL: test_mm256_fpclass_pd_mask // LLVM: %[[A:.*]] = call <4 x i1> @llvm.x86.avx512.fpclass.pd.256 - // LLVM: %[[B:.*]] = and <4 x i1> %[[A]], splat (i1 true) - // LLVM: %[[C:.*]] = shufflevector <4 x i1> %[[B]], <4 x i1> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7> - // LLVM: bitcast <8 x i1> %[[C]] to i8 + // LLVM: %[[B:.*]] = shufflevector <4 x i1> %[[A]], <4 x i1> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7> + // LLVM: bitcast <8 x i1> %[[B]] to i8 // OGCG-LABEL: test_mm256_fpclass_pd_mask // OGCG: %[[A:.*]] = call <4 x i1> @llvm.x86.avx512.fpclass.pd.256 @@ -243,12 +235,12 @@ __mmask8 test_mm256_fpclass_pd_mask(__m256d __A) { __mmask8 test_mm_mask_fpclass_ps_mask(__mmask8 __U, __m128 __A) { // CIR-LABEL: _mm_mask_fpclass_ps_mask // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.ps.128" - // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> - // CIR: %[[SHUF:.*]] = cir.vec.shuffle(%[[B]], %[[B]] : !cir.vector<8 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i] : !cir.vector<4 x !cir.bool> - // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[SHUF]]) : !cir.vector<4 x !cir.bool> - // CIR: %[[D:.*]] = cir.const #cir.zero : !cir.vector<4 x !cir.bool> - // CIR: %[[E:.*]] = cir.vec.shuffle(%[[C]], %[[D]] : !cir.vector<4 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i, #cir.int<4> : !s32i, #cir.int<5> : !s32i, #cir.int<6> : !s32i, #cir.int<7> : !s32i] : !cir.vector<8 x !cir.bool> - // CIR: cir.cast bitcast %[[E]] : !cir.vector<8 x !cir.bool> -> !u8i + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.int<s, 1>> + // CIR: %[[SHUF:.*]] = cir.vec.shuffle(%[[B]], %[[B]] : !cir.vector<8 x !cir.int<s, 1>>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i] : !cir.vector<4 x !cir.int<s, 1>> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[SHUF]]) : !cir.vector<4 x !cir.int<s, 1>> + // CIR: %[[D:.*]] = cir.const #cir.zero : !cir.vector<4 x !cir.int<s, 1>> + // CIR: %[[E:.*]] = cir.vec.shuffle(%[[C]], %[[D]] : !cir.vector<4 x !cir.int<s, 1>>) [#cir.int<0> : !s64i, #cir.int<1> : !s64i, #cir.int<2> : !s64i, #cir.int<3> : !s64i, #cir.int<4> : !s64i, #cir.int<5> : !s64i, #cir.int<6> : !s64i, #cir.int<7> : !s64i] : !cir.vector<8 x !cir.int<s, 1>> + // CIR: cir.cast bitcast %[[E]] : !cir.vector<8 x !cir.int<s, 1>> -> !u8i // LLVM-LABEL: test_mm_mask_fpclass_ps_mask // LLVM: %[[A:.*]] = call <4 x i1> @llvm.x86.avx512.fpclass.ps.128 @@ -269,18 +261,14 @@ __mmask8 test_mm_mask_fpclass_ps_mask(__mmask8 __U, __m128 __A) { __mmask8 test_mm_fpclass_ps_mask(__m128 __A) { // CIR-LABEL: _mm_fpclass_ps_mask // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.ps.128" - // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> - // CIR: %[[SHUF:.*]] = cir.vec.shuffle(%[[B]], %[[B]] : !cir.vector<8 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i] : !cir.vector<4 x !cir.bool> - // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[SHUF]]) : !cir.vector<4 x !cir.bool> - // CIR: %[[D:.*]] = cir.const #cir.zero : !cir.vector<4 x !cir.bool> - // CIR: %[[E:.*]] = cir.vec.shuffle(%[[C]], %[[D]] : !cir.vector<4 x !cir.bool>) [#cir.int<0> : !s32i, #cir.int<1> : !s32i, #cir.int<2> : !s32i, #cir.int<3> : !s32i, #cir.int<4> : !s32i, #cir.int<5> : !s32i, #cir.int<6> : !s32i, #cir.int<7> : !s32i] : !cir.vector<8 x !cir.bool> - // CIR: cir.cast bitcast %[[E]] : !cir.vector<8 x !cir.bool> -> !u8i + // CIR: %[[B:.*]] = cir.const #cir.zero : !cir.vector<4 x !cir.int<s, 1>> + // CIR: %[[C:.*]] = cir.vec.shuffle(%[[A]], %[[B]] : !cir.vector<4 x !cir.int<s, 1>>) [#cir.int<0> : !s64i, #cir.int<1> : !s64i, #cir.int<2> : !s64i, #cir.int<3> : !s64i, #cir.int<4> : !s64i, #cir.int<5> : !s64i, #cir.int<6> : !s64i, #cir.int<7> : !s64i] : !cir.vector<8 x !cir.int<s, 1>> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<8 x !cir.int<s, 1>> -> !u8i // LLVM-LABEL: test_mm_fpclass_ps_mask // LLVM: %[[A:.*]] = call <4 x i1> @llvm.x86.avx512.fpclass.ps.128 - // LLVM: %[[B:.*]] = and <4 x i1> %[[A]], splat (i1 true) - // LLVM: %[[C:.*]] = shufflevector <4 x i1> %[[B]], <4 x i1> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7> - // LLVM: bitcast <8 x i1> %[[C]] to i8 + // LLVM: %[[B:.*]] = shufflevector <4 x i1> %[[A]], <4 x i1> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7> + // LLVM: bitcast <8 x i1> %[[B]] to i8 // OGCG-LABEL: test_mm_fpclass_ps_mask // OGCG: %[[A:.*]] = call <4 x i1> @llvm.x86.avx512.fpclass.ps.128 @@ -292,9 +280,9 @@ __mmask8 test_mm_fpclass_ps_mask(__m128 __A) { __mmask8 test_mm256_mask_fpclass_ps_mask(__mmask8 __U, __m256 __A) { // CIR-LABEL: _mm256_mask_fpclass_ps_mask // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.ps.256" - // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> - // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<8 x !cir.bool> - // CIR: cir.cast bitcast %[[C]] : !cir.vector<8 x !cir.bool> -> !u8i + // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.int<s, 1>> + // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<8 x !cir.int<s, 1>> + // CIR: cir.cast bitcast %[[C]] : !cir.vector<8 x !cir.int<s, 1>> -> !u8i // LLVM-LABEL: test_mm256_mask_fpclass_ps_mask // LLVM: %[[A:.*]] = call <8 x i1> @llvm.x86.avx512.fpclass.ps.256 @@ -313,14 +301,11 @@ __mmask8 test_mm256_mask_fpclass_ps_mask(__mmask8 __U, __m256 __A) { __mmask8 test_mm256_fpclass_ps_mask(__m256 __A) { // CIR-LABEL: _mm256_fpclass_ps_mask // CIR: %[[A:.*]] = cir.call_llvm_intrinsic "x86.avx512.fpclass.ps.256" - // CIR: %[[B:.*]] = cir.cast bitcast {{.*}} : !u8i -> !cir.vector<8 x !cir.bool> - // CIR: %[[C:.*]] = cir.binop(and, %[[A]], %[[B]]) : !cir.vector<8 x !cir.bool> - // CIR: cir.cast bitcast %[[C]] : !cir.vector<8 x !cir.bool> -> !u8i + // CIR: cir.cast bitcast %[[A]] : !cir.vector<8 x !cir.int<s, 1>> -> !u8i // LLVM-LABEL: test_mm256_fpclass_ps_mask // LLVM: %[[A:.*]] = call <8 x i1> @llvm.x86.avx512.fpclass.ps.256 - // LLVM: %[[B:.*]] = and <8 x i1> %[[A]], splat (i1 true) - // LLVM: bitcast <8 x i1> %[[B]] to i8 + // LLVM: bitcast <8 x i1> %[[A]] to i8 // OGCG-LABEL: test_mm256_fpclass_ps_mask // OGCG: %[[A:.*]] = call <8 x i1> @llvm.x86.avx512.fpclass.ps.256 _______________________________________________ cfe-commits mailing list [email protected] https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-commits
