/src/zlib-ng/arch/x86/adler32_ssse3.c

Source
/* adler32_ssse3.c -- compute the Adler-32 checksum of a data stream
 * Copyright (C) 1995-2011 Mark Adler
 * Authors:
 *   Adam Stylinski <kungfujesus06@gmail.com>
 *   Brian Bockelman <bockelman@gmail.com>
 * For conditions of distribution and use, see copyright notice in zlib.h
 */

#ifdef X86_SSSE3

#include "zbuild.h"
#include "adler32_p.h"
#include "adler32_ssse3_p.h"

#include <immintrin.h>

Z_INTERNAL uint32_t adler32_ssse3(uint32_t adler, const uint8_t *buf, size_t len) {
    /* split Adler-32 into component sums */
    uint32_t sum2 = (adler >> 16) & 0xffff;
    adler &= 0xffff;

    /* in case user likes doing a byte at a time, keep it fast */
    if (UNLIKELY(len == 1))
        return adler32_copy_tail(adler, NULL, buf, 1, sum2, 1, 1, 0);

    /* in case short lengths are provided, keep it somewhat fast */
    if (UNLIKELY(len < 16))
        return adler32_copy_tail(adler, NULL, buf, len, sum2, 1, 15, 0);

    const __m128i dot2v = _mm_setr_epi8(32, 31, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17);
    const __m128i dot2v_0 = _mm_setr_epi8(16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1);
    const __m128i dot3v = _mm_set1_epi16(1);
    const __m128i zero = _mm_setzero_si128();

    __m128i vbuf, vs1_0, vs3, vs1, vs2, vs2_0, v_sad_sum1, v_short_sum2, v_short_sum2_0,
            vbuf_0, v_sad_sum2, vsum2, vsum2_0;

    /* If our buffer is unaligned (likely), make the determination whether
     * or not there's enough of a buffer to consume to make the scalar, aligning
     * additions worthwhile or if it's worth it to just eat the cost of an unaligned
     * load. This is a pretty simple test, just test if 16 - the remainder + len is
     * < 16 */
    size_t max_iters = NMAX;
    size_t rem = (uintptr_t)buf & 15;
    size_t align_offset = 16 - rem;
    size_t k = 0;
    if (rem) {
        if (len < 16 + align_offset) {
            /* Let's eat the cost of this one unaligned load so that
             * we don't completely skip over the vectorization. Doing
             * 16 bytes at a time unaligned is better than 16 + <= 15
             * sums */
            vbuf = _mm_loadu_si128((__m128i*)buf);
            len -= 16;
            buf += 16;
            vs1 = _mm_cvtsi32_si128(adler);
            vs2 = _mm_cvtsi32_si128(sum2);
            vs3 = _mm_setzero_si128();
            vs1_0 = vs1;
            goto unaligned_jmp;
        }

        adler32_copy_align(&adler, NULL, buf, align_offset, &sum2, 15, 0);

        /* lop off the max number of sums based on the scalar sums done
         * above */
        buf += align_offset;
        len -= align_offset;
        max_iters -= align_offset;
    }


    while (len >= 16) {
        vs1 = _mm_cvtsi32_si128(adler);
        vs2 = _mm_cvtsi32_si128(sum2);
        vs3 = _mm_setzero_si128();
        vs2_0 = _mm_setzero_si128();
        vs1_0 = vs1;

        k = ALIGN_DOWN(MIN(len, max_iters), 16);
        len -= k;

        while (k >= 32) {
            /*
               vs1 = adler + sum(c[i])
               vs2 = sum2 + 16 vs1 + sum( (16-i+1) c[i] )
            */
            vbuf = _mm_load_si128((__m128i*)buf);
            vbuf_0 = _mm_load_si128((__m128i*)(buf + 16));
            buf += 32;
            k -= 32;

            v_sad_sum1 = _mm_sad_epu8(vbuf, zero);
            v_sad_sum2 = _mm_sad_epu8(vbuf_0, zero);
            vs1 = _mm_add_epi32(v_sad_sum1, vs1);
            vs3 = _mm_add_epi32(vs1_0, vs3);

            vs1 = _mm_add_epi32(v_sad_sum2, vs1);
            v_short_sum2 = _mm_maddubs_epi16(vbuf, dot2v);
            vsum2 = _mm_madd_epi16(v_short_sum2, dot3v);
            v_short_sum2_0 = _mm_maddubs_epi16(vbuf_0, dot2v_0);
            vs2 = _mm_add_epi32(vsum2, vs2);
            vsum2_0 = _mm_madd_epi16(v_short_sum2_0, dot3v);
            vs2_0 = _mm_add_epi32(vsum2_0, vs2_0);
            vs1_0 = vs1;
        }

        vs2 = _mm_add_epi32(vs2_0, vs2);
        vs3 = _mm_slli_epi32(vs3, 5);
        vs2 = _mm_add_epi32(vs3, vs2);
        vs3 = _mm_setzero_si128();

        while (k >= 16) {
            /*
               vs1 = adler + sum(c[i])
               vs2 = sum2 + 16 vs1 + sum( (16-i+1) c[i] )
            */
            vbuf = _mm_load_si128((__m128i*)buf);
            buf += 16;
            k -= 16;

unaligned_jmp:
            v_sad_sum1 = _mm_sad_epu8(vbuf, zero);
            vs1 = _mm_add_epi32(v_sad_sum1, vs1);
            vs3 = _mm_add_epi32(vs1_0, vs3);
            v_short_sum2 = _mm_maddubs_epi16(vbuf, dot2v_0);
            vsum2 = _mm_madd_epi16(v_short_sum2, dot3v);
            vs2 = _mm_add_epi32(vsum2, vs2);
            vs1_0 = vs1;
        }

        vs3 = _mm_slli_epi32(vs3, 4);
        vs2 = _mm_add_epi32(vs2, vs3);

        /* We don't actually need to do a full horizontal sum, since psadbw is actually doing
         * a partial reduction sum implicitly and only summing to integers in vector positions
         * 0 and 2. This saves us some contention on the shuffle port(s) */
        adler = partial_hsum(vs1) % BASE;
        sum2 = hsum(vs2) % BASE;
        max_iters = NMAX;
    }

    /* Process tail (len < 16).  */
    return adler32_copy_tail(adler, NULL, buf, len, sum2, len != 0, 15, 0);
}

/* SSSE3 unaligned stores have a huge penalty, so we use memcpy. */
Z_INTERNAL uint32_t adler32_copy_ssse3(uint32_t adler, uint8_t *dst, const uint8_t *src, size_t len) {
    adler = adler32_ssse3(adler, src, len);
    memcpy(dst, src, len);
    return adler;
}
#endif

Line	Count	Source
1		/* adler32_ssse3.c -- compute the Adler-32 checksum of a data stream
2		* Copyright (C) 1995-2011 Mark Adler
3		* Authors:
4		* Adam Stylinski <kungfujesus06@gmail.com>
5		* Brian Bockelman <bockelman@gmail.com>
6		* For conditions of distribution and use, see copyright notice in zlib.h
7		*/
8
9		#ifdef X86_SSSE3
10
11		#include "zbuild.h"
12		#include "adler32_p.h"
13		#include "adler32_ssse3_p.h"
14
15		#include <immintrin.h>
16
17	458k	Z_INTERNAL uint32_t adler32_ssse3(uint32_t adler, const uint8_t *buf, size_t len) {
18		/* split Adler-32 into component sums */
19	458k	uint32_t sum2 = (adler >> 16) & 0xffff;
20	458k	adler &= 0xffff;
21
22		/* in case user likes doing a byte at a time, keep it fast */
23	458k	if (UNLIKELY(len == 1))
24	0	return adler32_copy_tail(adler, NULL, buf, 1, sum2, 1, 1, 0);
25
26		/* in case short lengths are provided, keep it somewhat fast */
27	458k	if (UNLIKELY(len < 16))
28	0	return adler32_copy_tail(adler, NULL, buf, len, sum2, 1, 15, 0);
29
30	458k	const __m128i dot2v = _mm_setr_epi8(32, 31, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17);
31	458k	const __m128i dot2v_0 = _mm_setr_epi8(16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1);
32	458k	const __m128i dot3v = _mm_set1_epi16(1);
33	458k	const __m128i zero = _mm_setzero_si128();
34
35	458k	__m128i vbuf, vs1_0, vs3, vs1, vs2, vs2_0, v_sad_sum1, v_short_sum2, v_short_sum2_0,
36	458k	vbuf_0, v_sad_sum2, vsum2, vsum2_0;
37
38		/* If our buffer is unaligned (likely), make the determination whether
39		* or not there's enough of a buffer to consume to make the scalar, aligning
40		* additions worthwhile or if it's worth it to just eat the cost of an unaligned
41		* load. This is a pretty simple test, just test if 16 - the remainder + len is
42		* < 16 */
43	458k	size_t max_iters = NMAX;
44	458k	size_t rem = (uintptr_t)buf & 15;
45	458k	size_t align_offset = 16 - rem;
46	458k	size_t k = 0;
47	458k	if (rem) {
48	360k	if (len < 16 + align_offset) {
49		/* Let's eat the cost of this one unaligned load so that
50		* we don't completely skip over the vectorization. Doing
51		* 16 bytes at a time unaligned is better than 16 + <= 15
52		* sums */
53	14.8k	vbuf = _mm_loadu_si128((__m128i*)buf);
54	14.8k	len -= 16;
55	14.8k	buf += 16;
56	14.8k	vs1 = _mm_cvtsi32_si128(adler);
57	14.8k	vs2 = _mm_cvtsi32_si128(sum2);
58	14.8k	vs3 = _mm_setzero_si128();
59	14.8k	vs1_0 = vs1;
60	14.8k	goto unaligned_jmp;
61	14.8k	}
62
63	346k	adler32_copy_align(&adler, NULL, buf, align_offset, &sum2, 15, 0);
64
65		/* lop off the max number of sums based on the scalar sums done
66		* above */
67	346k	buf += align_offset;
68	346k	len -= align_offset;
69	346k	max_iters -= align_offset;
70	346k	}
71
72
73	902k	while (len >= 16) {
74	443k	vs1 = _mm_cvtsi32_si128(adler);
75	443k	vs2 = _mm_cvtsi32_si128(sum2);
76	443k	vs3 = _mm_setzero_si128();
77	443k	vs2_0 = _mm_setzero_si128();
78	443k	vs1_0 = vs1;
79
80	443k	k = ALIGN_DOWN(MIN(len, max_iters), 16);
81	443k	len -= k;
82
83	443k	while (k >= 32) {
84		/*
85		vs1 = adler + sum(c[i])
86		vs2 = sum2 + 16 vs1 + sum( (16-i+1) c[i] )
87		*/
88	0	vbuf = _mm_load_si128((__m128i*)buf);
89	0	vbuf_0 = _mm_load_si128((__m128i*)(buf + 16));
90	0	buf += 32;
91	0	k -= 32;
92
93	0	v_sad_sum1 = _mm_sad_epu8(vbuf, zero);
94	0	v_sad_sum2 = _mm_sad_epu8(vbuf_0, zero);
95	0	vs1 = _mm_add_epi32(v_sad_sum1, vs1);
96	0	vs3 = _mm_add_epi32(vs1_0, vs3);
97
98	0	vs1 = _mm_add_epi32(v_sad_sum2, vs1);
99	0	v_short_sum2 = _mm_maddubs_epi16(vbuf, dot2v);
100	0	vsum2 = _mm_madd_epi16(v_short_sum2, dot3v);
101	0	v_short_sum2_0 = _mm_maddubs_epi16(vbuf_0, dot2v_0);
102	0	vs2 = _mm_add_epi32(vsum2, vs2);
103	0	vsum2_0 = _mm_madd_epi16(v_short_sum2_0, dot3v);
104	0	vs2_0 = _mm_add_epi32(vsum2_0, vs2_0);
105	0	vs1_0 = vs1;
106	0	}
107
108	443k	vs2 = _mm_add_epi32(vs2_0, vs2);
109	443k	vs3 = _mm_slli_epi32(vs3, 5);
110	443k	vs2 = _mm_add_epi32(vs3, vs2);
111	443k	vs3 = _mm_setzero_si128();
112
113	902k	while (k >= 16) {
114		/*
115		vs1 = adler + sum(c[i])
116		vs2 = sum2 + 16 vs1 + sum( (16-i+1) c[i] )
117		*/
118	443k	vbuf = _mm_load_si128((__m128i*)buf);
119	443k	buf += 16;
120	443k	k -= 16;
121
122	458k	unaligned_jmp:
123	458k	v_sad_sum1 = _mm_sad_epu8(vbuf, zero);
124	458k	vs1 = _mm_add_epi32(v_sad_sum1, vs1);
125	458k	vs3 = _mm_add_epi32(vs1_0, vs3);
126	458k	v_short_sum2 = _mm_maddubs_epi16(vbuf, dot2v_0);
127	458k	vsum2 = _mm_madd_epi16(v_short_sum2, dot3v);
128	458k	vs2 = _mm_add_epi32(vsum2, vs2);
129	458k	vs1_0 = vs1;
130	458k	}
131
132	458k	vs3 = _mm_slli_epi32(vs3, 4);
133	458k	vs2 = _mm_add_epi32(vs2, vs3);
134
135		/* We don't actually need to do a full horizontal sum, since psadbw is actually doing
136		* a partial reduction sum implicitly and only summing to integers in vector positions
137		* 0 and 2. This saves us some contention on the shuffle port(s) */
138	458k	adler = partial_hsum(vs1) % BASE;
139	458k	sum2 = hsum(vs2) % BASE;
140	458k	max_iters = NMAX;
141	458k	}
142
143		/* Process tail (len < 16). */
144	458k	return adler32_copy_tail(adler, NULL, buf, len, sum2, len != 0, 15, 0);
145	443k	}
146
147		/* SSSE3 unaligned stores have a huge penalty, so we use memcpy. */
148	0	Z_INTERNAL uint32_t adler32_copy_ssse3(uint32_t adler, uint8_t dst, const uint8_t src, size_t len) {
149	0	adler = adler32_ssse3(adler, src, len);
150	0	memcpy(dst, src, len);
151	0	return adler;
152	0	}
153		#endif

Coverage Report

Created: 2026-02-26 06:53