Re: [PATCH v4 09/10] util/bufferiszero: Add simd acceleration for aarch6

qemu-devel

[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: [PATCH v4 09/10] util/bufferiszero: Add simd acceleration for aarch6

From:	Richard Henderson
Subject:	Re: [PATCH v4 09/10] util/bufferiszero: Add simd acceleration for aarch64
Date:	Thu, 15 Feb 2024 11:10:59 -1000
User-agent:	Mozilla Thunderbird

On 2/15/24 08:46, Alexander Monakov wrote:

Right, so we can pick the cheapest reduction method, and if I'm reading
Neoverse-N1 SOG right, SHRN is marginally cheaper than ADDV (latency 2
instead of 3), and it should be generally preferable on other cores, no?


Fair.

For that matter, cannot UQXTN (unsigned saturating extract narrow) be
used in place of CMEQ+ADDV here?


Interesting.  I hadn't thought about using saturation to preserve non-zeroness 
like that.

Using 1 4-cycle insn instead of 2 2-cycle insns is interesting as well. I suppose, sinceit's at the end of the dependency chain, the fact that it is restricted to the V1 pipematters not at all.

r~

[Prev in Thread]

Current Thread

[Next in Thread]

[PATCH v4 00/10] Optimize buffer_is_zero, Richard Henderson, 2024/02/15
- [PATCH v4 03/10] util/bufferiszero: Reorganize for early test for acceleration, Richard Henderson, 2024/02/15
- [PATCH v4 04/10] util/bufferiszero: Remove useless prefetches, Richard Henderson, 2024/02/15
- [PATCH v4 09/10] util/bufferiszero: Add simd acceleration for aarch64, Richard Henderson, 2024/02/15
  - Re: [PATCH v4 09/10] util/bufferiszero: Add simd acceleration for aarch64, Alexander Monakov, 2024/02/15
    - Re: [PATCH v4 09/10] util/bufferiszero: Add simd acceleration for aarch64, Richard Henderson, 2024/02/15
    - Re: [PATCH v4 09/10] util/bufferiszero: Add simd acceleration for aarch64, Alexander Monakov, 2024/02/15
    - Re: [PATCH v4 09/10] util/bufferiszero: Add simd acceleration for aarch64, Richard Henderson <=
- [PATCH v4 01/10] util/bufferiszero: Remove SSE4.1 variant, Richard Henderson, 2024/02/15
- [PATCH v4 02/10] util/bufferiszero: Remove AVX512 variant, Richard Henderson, 2024/02/15
- [PATCH v4 05/10] util/bufferiszero: Optimize SSE2 and AVX2 variants, Richard Henderson, 2024/02/15
- [PATCH v4 06/10] util/bufferiszero: Improve scalar variant, Richard Henderson, 2024/02/15
- [PATCH v4 07/10] util/bufferiszero: Introduce biz_accel_fn typedef, Richard Henderson, 2024/02/15
  - Re: [PATCH v4 07/10] util/bufferiszero: Introduce biz_accel_fn typedef, Philippe Mathieu-Daudé, 2024/02/15
- [PATCH v4 08/10] util/bufferiszero: Simplify test_buffer_is_zero_next_accel, Richard Henderson, 2024/02/15
  - Re: [PATCH v4 08/10] util/bufferiszero: Simplify test_buffer_is_zero_next_accel, Philippe Mathieu-Daudé, 2024/02/15
- [RFC PATCH v4 10/10] util/bufferiszero: Add sve acceleration for aarch64, Richard Henderson, 2024/02/15
  - Re: [RFC PATCH v4 10/10] util/bufferiszero: Add sve acceleration for aarch64, Alex Bennée, 2024/02/16

Prev by Date: Re: [PATCH v2 2/3] hw/cxl/cxl-mailbox-utils: Add device patrol scrub control feature
Next by Date: Re: [RFC PATCH 3/6] target/riscv: Inline vext_ldst_us and coressponding function for performance
Previous by thread: Re: [PATCH v4 09/10] util/bufferiszero: Add simd acceleration for aarch64
Next by thread: [PATCH v4 01/10] util/bufferiszero: Remove SSE4.1 variant
Index(es):
- Date
- Thread