/src/FreeRDP/libfreerdp/codec/sse/nsc_sse2.c

Source
/**
 * FreeRDP: A Remote Desktop Protocol Implementation
 * NSCodec Library - SSE2 Optimizations
 *
 * Copyright 2012 Vic Lee
 *
 * Licensed under the Apache License, Version 2.0 (the "License");
 * you may not use this file except in compliance with the License.
 * You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

#include <winpr/assert.h>
#include <winpr/cast.h>
#include <winpr/platform.h>
#include <freerdp/config.h>

#include "../nsc_types.h"
#include "nsc_sse2.h"

#include "../../core/simd.h"
#include "../../primitives/sse/prim_avxsse.h"

#if defined(SSE_AVX_INTRINSICS_ENABLED)
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

#include <xmmintrin.h>
#include <emmintrin.h>

#include <freerdp/codec/color.h>
#include <winpr/crt.h>
#include <winpr/sysinfo.h>

static inline size_t nsc_encode_next_bgrx32(const BYTE* src, __m128i* r_val, __m128i* g_val,
                                            __m128i* b_val, __m128i* a_val)
{
  *b_val = _mm_set_epi16(*(src + 28), *(src + 24), *(src + 20), *(src + 16), *(src + 12),
                         *(src + 8), *(src + 4), *src);
  *g_val = _mm_set_epi16(*(src + 29), *(src + 25), *(src + 21), *(src + 17), *(src + 13),
                         *(src + 9), *(src + 5), *(src + 1));
  *r_val = _mm_set_epi16(*(src + 30), *(src + 26), *(src + 22), *(src + 18), *(src + 14),
                         *(src + 10), *(src + 6), *(src + 2));
  *a_val = _mm_set1_epi16(0xFF);
  return 32;
}

static inline size_t nsc_encode_next_bgra32(const BYTE* src, __m128i* r_val, __m128i* g_val,
                                            __m128i* b_val, __m128i* a_val)
{
  *b_val = _mm_set_epi16(*(src + 28), *(src + 24), *(src + 20), *(src + 16), *(src + 12),
                         *(src + 8), *(src + 4), *src);
  *g_val = _mm_set_epi16(*(src + 29), *(src + 25), *(src + 21), *(src + 17), *(src + 13),
                         *(src + 9), *(src + 5), *(src + 1));
  *r_val = _mm_set_epi16(*(src + 30), *(src + 26), *(src + 22), *(src + 18), *(src + 14),
                         *(src + 10), *(src + 6), *(src + 2));
  *a_val = _mm_set_epi16(*(src + 31), *(src + 27), *(src + 23), *(src + 19), *(src + 15),
                         *(src + 11), *(src + 7), *(src + 3));
  return 32;
}

static inline size_t nsc_encode_next_rgbx32(const BYTE* src, __m128i* r_val, __m128i* g_val,
                                            __m128i* b_val, __m128i* a_val)
{
  *r_val = _mm_set_epi16(*(src + 28), *(src + 24), *(src + 20), *(src + 16), *(src + 12),
                         *(src + 8), *(src + 4), *src);
  *g_val = _mm_set_epi16(*(src + 29), *(src + 25), *(src + 21), *(src + 17), *(src + 13),
                         *(src + 9), *(src + 5), *(src + 1));
  *b_val = _mm_set_epi16(*(src + 30), *(src + 26), *(src + 22), *(src + 18), *(src + 14),
                         *(src + 10), *(src + 6), *(src + 2));
  *a_val = _mm_set1_epi16(0xFF);
  return 32;
}

static inline size_t nsc_encode_next_rgba32(const BYTE* src, __m128i* r_val, __m128i* g_val,
                                            __m128i* b_val, __m128i* a_val)
{
  *r_val = _mm_set_epi16(*(src + 28), *(src + 24), *(src + 20), *(src + 16), *(src + 12),
                         *(src + 8), *(src + 4), *src);
  *g_val = _mm_set_epi16(*(src + 29), *(src + 25), *(src + 21), *(src + 17), *(src + 13),
                         *(src + 9), *(src + 5), *(src + 1));
  *b_val = _mm_set_epi16(*(src + 30), *(src + 26), *(src + 22), *(src + 18), *(src + 14),
                         *(src + 10), *(src + 6), *(src + 2));
  *a_val = _mm_set_epi16(*(src + 31), *(src + 27), *(src + 23), *(src + 19), *(src + 15),
                         *(src + 11), *(src + 7), *(src + 3));
  return 32;
}

static inline size_t nsc_encode_next_bgr24(const BYTE* src, __m128i* r_val, __m128i* g_val,
                                           __m128i* b_val, __m128i* a_val)
{
  *b_val = _mm_set_epi16(*(src + 21), *(src + 18), *(src + 15), *(src + 12), *(src + 9),
                         *(src + 6), *(src + 3), *src);
  *g_val = _mm_set_epi16(*(src + 22), *(src + 19), *(src + 16), *(src + 13), *(src + 10),
                         *(src + 7), *(src + 4), *(src + 1));
  *r_val = _mm_set_epi16(*(src + 23), *(src + 20), *(src + 17), *(src + 14), *(src + 11),
                         *(src + 8), *(src + 5), *(src + 2));
  *a_val = _mm_set1_epi16(0xFF);
  return 24;
}

static inline size_t nsc_encode_next_rgb24(const BYTE* src, __m128i* r_val, __m128i* g_val,
                                           __m128i* b_val, __m128i* a_val)
{
  *r_val = _mm_set_epi16(*(src + 21), *(src + 18), *(src + 15), *(src + 12), *(src + 9),
                         *(src + 6), *(src + 3), *src);
  *g_val = _mm_set_epi16(*(src + 22), *(src + 19), *(src + 16), *(src + 13), *(src + 10),
                         *(src + 7), *(src + 4), *(src + 1));
  *b_val = _mm_set_epi16(*(src + 23), *(src + 20), *(src + 17), *(src + 14), *(src + 11),
                         *(src + 8), *(src + 5), *(src + 2));
  *a_val = _mm_set1_epi16(0xFF);
  return 24;
}

static inline size_t nsc_encode_next_bgr16(const BYTE* src, __m128i* r_val, __m128i* g_val,
                                           __m128i* b_val, __m128i* a_val)
{
  *b_val = _mm_set_epi16(
      WINPR_ASSERTING_INT_CAST(INT16, ((*(src + 15)) & 0xF8) | ((*(src + 15)) >> 5)),
      WINPR_ASSERTING_INT_CAST(INT16, ((*(src + 13)) & 0xF8) | ((*(src + 13)) >> 5)),
      WINPR_ASSERTING_INT_CAST(INT16, ((*(src + 11)) & 0xF8) | ((*(src + 11)) >> 5)),
      WINPR_ASSERTING_INT_CAST(INT16, ((*(src + 9)) & 0xF8) | ((*(src + 9)) >> 5)),
      WINPR_ASSERTING_INT_CAST(INT16, ((*(src + 7)) & 0xF8) | ((*(src + 7)) >> 5)),
      WINPR_ASSERTING_INT_CAST(INT16, ((*(src + 5)) & 0xF8) | ((*(src + 5)) >> 5)),
      WINPR_ASSERTING_INT_CAST(INT16, ((*(src + 3)) & 0xF8) | ((*(src + 3)) >> 5)),
      WINPR_ASSERTING_INT_CAST(INT16, ((*(src + 1)) & 0xF8) | ((*(src + 1)) >> 5)));
  *g_val = _mm_set_epi16(
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 15)) & 0x07) << 5) | (((*(src + 14)) & 0xE0) >> 3)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 13)) & 0x07) << 5) | (((*(src + 12)) & 0xE0) >> 3)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 11)) & 0x07) << 5) | (((*(src + 10)) & 0xE0) >> 3)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 9)) & 0x07) << 5) | (((*(src + 8)) & 0xE0) >> 3)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 7)) & 0x07) << 5) | (((*(src + 6)) & 0xE0) >> 3)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 5)) & 0x07) << 5) | (((*(src + 4)) & 0xE0) >> 3)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 3)) & 0x07) << 5) | (((*(src + 2)) & 0xE0) >> 3)),
      WINPR_ASSERTING_INT_CAST(INT16, (((*(src + 1)) & 0x07) << 5) | (((*src) & 0xE0) >> 3)));
  *r_val = _mm_set_epi16(
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 14)) & 0x1F) << 3) | (((*(src + 14)) >> 2) & 0x07)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 12)) & 0x1F) << 3) | (((*(src + 12)) >> 2) & 0x07)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 10)) & 0x1F) << 3) | (((*(src + 10)) >> 2) & 0x07)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 8)) & 0x1F) << 3) | (((*(src + 8)) >> 2) & 0x07)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 6)) & 0x1F) << 3) | (((*(src + 6)) >> 2) & 0x07)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 4)) & 0x1F) << 3) | (((*(src + 4)) >> 2) & 0x07)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 2)) & 0x1F) << 3) | (((*(src + 2)) >> 2) & 0x07)),
      WINPR_ASSERTING_INT_CAST(INT16, (((*src) & 0x1F) << 3) | (((*src) >> 2) & 0x07)));
  *a_val = _mm_set1_epi16(0xFF);
  return 16;
}

static inline size_t nsc_encode_next_rgb16(const BYTE* src, __m128i* r_val, __m128i* g_val,
                                           __m128i* b_val, __m128i* a_val)
{
  *r_val = _mm_set_epi16(WINPR_ASSERTING_INT_CAST(INT16, ((src[15] & 0xF8) | (src[15] >> 5))),
                         WINPR_ASSERTING_INT_CAST(INT16, ((src[13] & 0xF8) | (src[13] >> 5))),
                         WINPR_ASSERTING_INT_CAST(INT16, ((src[11] & 0xF8) | (src[11] >> 5))),
                         WINPR_ASSERTING_INT_CAST(INT16, ((src[9] & 0xF8) | (src[9] >> 5))),
                         WINPR_ASSERTING_INT_CAST(INT16, ((src[7] & 0xF8) | (src[7] >> 5))),
                         WINPR_ASSERTING_INT_CAST(INT16, ((src[5] & 0xF8) | (src[5] >> 5))),
                         WINPR_ASSERTING_INT_CAST(INT16, ((src[3] & 0xF8) | (src[3] >> 5))),
                         WINPR_ASSERTING_INT_CAST(INT16, ((src[1] & 0xF8) | (src[1] >> 5))));
  *g_val = _mm_set_epi16(
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 15)) & 0x07) << 5) | (((*(src + 14)) & 0xE0) >> 3)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 13)) & 0x07) << 5) | (((*(src + 12)) & 0xE0) >> 3)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 11)) & 0x07) << 5) | (((*(src + 10)) & 0xE0) >> 3)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 9)) & 0x07) << 5) | (((*(src + 8)) & 0xE0) >> 3)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 7)) & 0x07) << 5) | (((*(src + 6)) & 0xE0) >> 3)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 5)) & 0x07) << 5) | (((*(src + 4)) & 0xE0) >> 3)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 3)) & 0x07) << 5) | (((*(src + 2)) & 0xE0) >> 3)),
      WINPR_ASSERTING_INT_CAST(INT16, (((*(src + 1)) & 0x07) << 5) | (((*src) & 0xE0) >> 3)));
  *b_val = _mm_set_epi16(
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 14)) & 0x1F) << 3) | (((*(src + 14)) >> 2) & 0x07)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 12)) & 0x1F) << 3) | (((*(src + 12)) >> 2) & 0x07)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 10)) & 0x1F) << 3) | (((*(src + 10)) >> 2) & 0x07)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 8)) & 0x1F) << 3) | (((*(src + 8)) >> 2) & 0x07)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 6)) & 0x1F) << 3) | (((*(src + 6)) >> 2) & 0x07)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 4)) & 0x1F) << 3) | (((*(src + 4)) >> 2) & 0x07)),
      WINPR_ASSERTING_INT_CAST(INT16,
                               (((*(src + 2)) & 0x1F) << 3) | (((*(src + 2)) >> 2) & 0x07)),
      WINPR_ASSERTING_INT_CAST(INT16, (((*src) & 0x1F) << 3) | (((*src) >> 2) & 0x07)));
  *a_val = _mm_set1_epi16(0xFF);
  return 16;
}

static inline size_t nsc_encode_next_a4(const BYTE* src, const BYTE* palette, __m128i* r_val,
                                        __m128i* g_val, __m128i* b_val, __m128i* a_val)
{
  BYTE idx[8] = { 0 };

  for (int shift = 7; shift >= 0; shift--)
  {
    idx[shift] = ((*src) >> shift) & 1;
    idx[shift] |= (((*(src + 1)) >> shift) & 1) << 1;
    idx[shift] |= (((*(src + 2)) >> shift) & 1) << 2;
    idx[shift] |= (((*(src + 3)) >> shift) & 1) << 3;
    idx[shift] *= 3;
  }

  *r_val = _mm_set_epi16(palette[idx[0]], palette[idx[1]], palette[idx[2]], palette[idx[3]],
                         palette[idx[4]], palette[idx[5]], palette[idx[6]], palette[idx[7]]);
  *g_val = _mm_set_epi16(palette[idx[0] + 1], palette[idx[1] + 1], palette[idx[2] + 1],
                         palette[idx[3] + 1], palette[idx[4] + 1], palette[idx[5] + 1],
                         palette[idx[6] + 1], palette[idx[7] + 1]);
  *b_val = _mm_set_epi16(palette[idx[0] + 2], palette[idx[1] + 2], palette[idx[2] + 2],
                         palette[idx[3] + 2], palette[idx[4] + 2], palette[idx[5] + 2],
                         palette[idx[6] + 2], palette[idx[7] + 2]);
  *a_val = _mm_set1_epi16(0xFF);
  return 4;
}

static inline size_t nsc_encode_next_rgb8(const BYTE* src, const BYTE* palette, __m128i* r_val,
                                          __m128i* g_val, __m128i* b_val, __m128i* a_val)
{
  *r_val = _mm_set_epi16(palette[(*(src + 7ULL)) * 3ULL], palette[(*(src + 6ULL)) * 3ULL],
                         palette[(*(src + 5ULL)) * 3ULL], palette[(*(src + 4ULL)) * 3ULL],
                         palette[(*(src + 3ULL)) * 3ULL], palette[(*(src + 2ULL)) * 3ULL],
                         palette[(*(src + 1ULL)) * 3ULL], palette[(*src) * 3ULL]);
  *g_val = _mm_set_epi16(
      palette[(*(src + 7ULL)) * 3ULL + 1ULL], palette[(*(src + 6ULL)) * 3ULL + 1ULL],
      palette[(*(src + 5ULL)) * 3ULL + 1ULL], palette[(*(src + 4ULL)) * 3ULL + 1ULL],
      palette[(*(src + 3ULL)) * 3ULL + 1ULL], palette[(*(src + 2ULL)) * 3ULL + 1ULL],
      palette[(*(src + 1ULL)) * 3ULL + 1ULL], palette[(*src) * 3ULL + 1ULL]);
  *b_val = _mm_set_epi16(
      palette[(*(src + 7ULL)) * 3ULL + 2ULL], palette[(*(src + 6ULL)) * 3ULL + 2ULL],
      palette[(*(src + 5ULL)) * 3ULL + 2ULL], palette[(*(src + 4ULL)) * 3ULL + 2ULL],
      palette[(*(src + 3ULL)) * 3ULL + 2ULL], palette[(*(src + 2ULL)) * 3ULL + 2ULL],
      palette[(*(src + 1ULL)) * 3ULL + 2ULL], palette[(*src) * 3ULL + 2ULL]);
  *a_val = _mm_set1_epi16(0xFF);
  return 8;
}

static inline size_t nsc_encode_next_rgba(UINT32 format, const BYTE* src, const BYTE* palette,
                                          __m128i* r_val, __m128i* g_val, __m128i* b_val,
                                          __m128i* a_val)
{
  switch (format)
  {
    case PIXEL_FORMAT_BGRX32:
      return nsc_encode_next_bgrx32(src, r_val, g_val, b_val, a_val);

    case PIXEL_FORMAT_BGRA32:
      return nsc_encode_next_bgra32(src, r_val, g_val, b_val, a_val);

    case PIXEL_FORMAT_RGBX32:
      return nsc_encode_next_rgbx32(src, r_val, g_val, b_val, a_val);

    case PIXEL_FORMAT_RGBA32:
      return nsc_encode_next_rgba32(src, r_val, g_val, b_val, a_val);

    case PIXEL_FORMAT_BGR24:
      return nsc_encode_next_bgr24(src, r_val, g_val, b_val, a_val);

    case PIXEL_FORMAT_RGB24:
      return nsc_encode_next_rgb24(src, r_val, g_val, b_val, a_val);

    case PIXEL_FORMAT_BGR16:
      return nsc_encode_next_bgr16(src, r_val, g_val, b_val, a_val);

    case PIXEL_FORMAT_RGB16:
      return nsc_encode_next_rgb16(src, r_val, g_val, b_val, a_val);

    case PIXEL_FORMAT_A4:
      return nsc_encode_next_a4(src, palette, r_val, g_val, b_val, a_val);

    case PIXEL_FORMAT_RGB8:
      return nsc_encode_next_rgb8(src, palette, r_val, g_val, b_val, a_val);

    default:
      return 0;
  }
}

static BOOL nsc_encode_argb_to_aycocg_sse2(NSC_CONTEXT* context, const BYTE* data, UINT32 scanline)
{
  size_t y = 0;

  if (!context || !data || (scanline == 0))
    return FALSE;

  const UINT16 tempWidth = ROUND_UP_TO(context->width, 8);
  const UINT16 rw = (context->ChromaSubsamplingLevel > 0 ? tempWidth : context->width);

  const BYTE ccl = WINPR_ASSERTING_INT_CAST(BYTE, context->ColorLossLevel);

  for (; y < context->height; y++)
  {
    const BYTE* src = data + (context->height - 1 - y) * scanline;
    BYTE* yplane = context->priv->PlaneBuffers[0] + y * rw;
    BYTE* coplane = context->priv->PlaneBuffers[1] + y * rw;
    BYTE* cgplane = context->priv->PlaneBuffers[2] + y * rw;
    BYTE* aplane = context->priv->PlaneBuffers[3] + y * context->width;

    for (UINT16 x = 0; x < context->width; x += 8)
    {
      __m128i r_val = { 0 };
      __m128i g_val = { 0 };
      __m128i b_val = { 0 };
      __m128i a_val = { 0 };

      const size_t rc = nsc_encode_next_rgba(context->format, src, context->palette, &r_val,
                                             &g_val, &b_val, &a_val);
      src += rc;

      __m128i y_val = _mm_srai_epi16(r_val, 2);
      y_val = _mm_add_epi16(y_val, _mm_srai_epi16(g_val, 1));
      y_val = _mm_add_epi16(y_val, _mm_srai_epi16(b_val, 2));
      __m128i co_val = _mm_sub_epi16(r_val, b_val);
      co_val = _mm_srai_epi16(co_val, ccl);
      __m128i cg_val = _mm_sub_epi16(g_val, _mm_srai_epi16(r_val, 1));
      cg_val = _mm_sub_epi16(cg_val, _mm_srai_epi16(b_val, 1));
      cg_val = _mm_srai_epi16(cg_val, ccl);
      y_val = _mm_packus_epi16(y_val, y_val);
      STORE_SI128(yplane, y_val);
      co_val = _mm_packs_epi16(co_val, co_val);
      STORE_SI128(coplane, co_val);
      cg_val = _mm_packs_epi16(cg_val, cg_val);
      STORE_SI128(cgplane, cg_val);
      a_val = _mm_packus_epi16(a_val, a_val);
      STORE_SI128(aplane, a_val);
      yplane += 8;
      coplane += 8;
      cgplane += 8;
      aplane += 8;
    }

    if (context->ChromaSubsamplingLevel > 0 && (context->width % 2) == 1)
    {
      context->priv->PlaneBuffers[0][y * rw + context->width] =
          context->priv->PlaneBuffers[0][y * rw + context->width - 1];
      context->priv->PlaneBuffers[1][y * rw + context->width] =
          context->priv->PlaneBuffers[1][y * rw + context->width - 1];
      context->priv->PlaneBuffers[2][y * rw + context->width] =
          context->priv->PlaneBuffers[2][y * rw + context->width - 1];
    }
  }

  if (context->ChromaSubsamplingLevel > 0 && (y % 2) == 1)
  {
    BYTE* yplane = context->priv->PlaneBuffers[0] + y * rw;
    BYTE* coplane = context->priv->PlaneBuffers[1] + y * rw;
    BYTE* cgplane = context->priv->PlaneBuffers[2] + y * rw;
    CopyMemory(yplane, yplane - rw, rw);
    CopyMemory(coplane, coplane - rw, rw);
    CopyMemory(cgplane, cgplane - rw, rw);
  }

  return TRUE;
}

static void nsc_encode_subsampling_sse2(NSC_CONTEXT* context)
{
  BYTE* co_dst = NULL;
  BYTE* cg_dst = NULL;
  INT8* co_src0 = NULL;
  INT8* co_src1 = NULL;
  INT8* cg_src0 = NULL;
  INT8* cg_src1 = NULL;
  UINT32 tempWidth = 0;
  UINT32 tempHeight = 0;
  __m128i t;
  __m128i val;
  __m128i mask = _mm_set1_epi16(0xFF);
  tempWidth = ROUND_UP_TO(context->width, 8);
  tempHeight = ROUND_UP_TO(context->height, 2);

  for (size_t y = 0; y < tempHeight >> 1; y++)
  {
    co_dst = context->priv->PlaneBuffers[1] + y * (tempWidth >> 1);
    cg_dst = context->priv->PlaneBuffers[2] + y * (tempWidth >> 1);
    co_src0 = (INT8*)context->priv->PlaneBuffers[1] + (y << 1) * tempWidth;
    co_src1 = co_src0 + tempWidth;
    cg_src0 = (INT8*)context->priv->PlaneBuffers[2] + (y << 1) * tempWidth;
    cg_src1 = cg_src0 + tempWidth;

    for (UINT32 x = 0; x < tempWidth >> 1; x += 8)
    {
      t = LOAD_SI128(co_src0);
      t = _mm_avg_epu8(t, LOAD_SI128(co_src1));
      val = _mm_and_si128(_mm_srli_si128(t, 1), mask);
      val = _mm_avg_epu16(val, _mm_and_si128(t, mask));
      val = _mm_packus_epi16(val, val);
      STORE_SI128(co_dst, val);
      co_dst += 8;
      co_src0 += 16;
      co_src1 += 16;
      t = LOAD_SI128(cg_src0);
      t = _mm_avg_epu8(t, LOAD_SI128(cg_src1));
      val = _mm_and_si128(_mm_srli_si128(t, 1), mask);
      val = _mm_avg_epu16(val, _mm_and_si128(t, mask));
      val = _mm_packus_epi16(val, val);
      STORE_SI128(cg_dst, val);
      cg_dst += 8;
      cg_src0 += 16;
      cg_src1 += 16;
    }
  }
}

static BOOL nsc_encode_sse2(NSC_CONTEXT* WINPR_RESTRICT context, const BYTE* WINPR_RESTRICT data,
                            UINT32 scanline)
{
  if (!nsc_encode_argb_to_aycocg_sse2(context, data, scanline))
    return FALSE;

  if (context->ChromaSubsamplingLevel > 0)
    nsc_encode_subsampling_sse2(context);

  return TRUE;
}
#endif

void nsc_init_sse2_int(NSC_CONTEXT* WINPR_RESTRICT context)
{
#if defined(SSE_AVX_INTRINSICS_ENABLED)
  WLog_VRB(PRIM_TAG, "SSE2/SSE3 optimizations");
  PROFILER_RENAME(context->priv->prof_nsc_encode, "nsc_encode_sse2")
  context->encode = nsc_encode_sse2;
#else
  WLog_VRB(PRIM_TAG, "undefined WITH_SIMD or SSE2 intrinsics not available");
  WINPR_UNUSED(context);
#endif
}

Coverage Report

Created: 2026-01-09 06:43

Line	Count	Source
1		/**
2		* FreeRDP: A Remote Desktop Protocol Implementation
3		* NSCodec Library - SSE2 Optimizations
4		*
5		* Copyright 2012 Vic Lee
6		*
7		* Licensed under the Apache License, Version 2.0 (the "License");
8		* you may not use this file except in compliance with the License.
9		* You may obtain a copy of the License at
10		*
11		* http://www.apache.org/licenses/LICENSE-2.0
12		*
13		* Unless required by applicable law or agreed to in writing, software
14		* distributed under the License is distributed on an "AS IS" BASIS,
15		* WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
16		* See the License for the specific language governing permissions and
17		* limitations under the License.
18		*/
19
20		#include <winpr/assert.h>
21		#include <winpr/cast.h>
22		#include <winpr/platform.h>
23		#include <freerdp/config.h>
24
25		#include "../nsc_types.h"
26		#include "nsc_sse2.h"
27
28		#include "../../core/simd.h"
29		#include "../../primitives/sse/prim_avxsse.h"
30
31		#if defined(SSE_AVX_INTRINSICS_ENABLED)
32		#include <stdio.h>
33		#include <stdlib.h>
34		#include <string.h>
35
36		#include <xmmintrin.h>
37		#include <emmintrin.h>
38
39		#include <freerdp/codec/color.h>
40		#include <winpr/crt.h>
41		#include <winpr/sysinfo.h>
42
43		static inline size_t nsc_encode_next_bgrx32(const BYTE* src, __m128i* r_val, __m128i* g_val,
44		__m128i* b_val, __m128i* a_val)
45	0	{
46	0	b_val = _mm_set_epi16((src + 28), (src + 24), (src + 20), (src + 16), (src + 12),
47	0	(src + 8), (src + 4), *src);
48	0	g_val = _mm_set_epi16((src + 29), (src + 25), (src + 21), (src + 17), (src + 13),
49	0	(src + 9), (src + 5), *(src + 1));
50	0	r_val = _mm_set_epi16((src + 30), (src + 26), (src + 22), (src + 18), (src + 14),
51	0	(src + 10), (src + 6), *(src + 2));
52	0	*a_val = _mm_set1_epi16(0xFF);
53	0	return 32;
54	0	}
55
56		static inline size_t nsc_encode_next_bgra32(const BYTE* src, __m128i* r_val, __m128i* g_val,
57		__m128i* b_val, __m128i* a_val)
58	0	{
59	0	b_val = _mm_set_epi16((src + 28), (src + 24), (src + 20), (src + 16), (src + 12),
60	0	(src + 8), (src + 4), *src);
61	0	g_val = _mm_set_epi16((src + 29), (src + 25), (src + 21), (src + 17), (src + 13),
62	0	(src + 9), (src + 5), *(src + 1));
63	0	r_val = _mm_set_epi16((src + 30), (src + 26), (src + 22), (src + 18), (src + 14),
64	0	(src + 10), (src + 6), *(src + 2));
65	0	a_val = _mm_set_epi16((src + 31), (src + 27), (src + 23), (src + 19), (src + 15),
66	0	(src + 11), (src + 7), *(src + 3));
67	0	return 32;
68	0	}
69
70		static inline size_t nsc_encode_next_rgbx32(const BYTE* src, __m128i* r_val, __m128i* g_val,
71		__m128i* b_val, __m128i* a_val)
72	0	{
73	0	r_val = _mm_set_epi16((src + 28), (src + 24), (src + 20), (src + 16), (src + 12),
74	0	(src + 8), (src + 4), *src);
75	0	g_val = _mm_set_epi16((src + 29), (src + 25), (src + 21), (src + 17), (src + 13),
76	0	(src + 9), (src + 5), *(src + 1));
77	0	b_val = _mm_set_epi16((src + 30), (src + 26), (src + 22), (src + 18), (src + 14),
78	0	(src + 10), (src + 6), *(src + 2));
79	0	*a_val = _mm_set1_epi16(0xFF);
80	0	return 32;
81	0	}
82
83		static inline size_t nsc_encode_next_rgba32(const BYTE* src, __m128i* r_val, __m128i* g_val,
84		__m128i* b_val, __m128i* a_val)
85	0	{
86	0	r_val = _mm_set_epi16((src + 28), (src + 24), (src + 20), (src + 16), (src + 12),
87	0	(src + 8), (src + 4), *src);
88	0	g_val = _mm_set_epi16((src + 29), (src + 25), (src + 21), (src + 17), (src + 13),
89	0	(src + 9), (src + 5), *(src + 1));
90	0	b_val = _mm_set_epi16((src + 30), (src + 26), (src + 22), (src + 18), (src + 14),
91	0	(src + 10), (src + 6), *(src + 2));
92	0	a_val = _mm_set_epi16((src + 31), (src + 27), (src + 23), (src + 19), (src + 15),
93	0	(src + 11), (src + 7), *(src + 3));
94	0	return 32;
95	0	}
96
97		static inline size_t nsc_encode_next_bgr24(const BYTE* src, __m128i* r_val, __m128i* g_val,
98		__m128i* b_val, __m128i* a_val)
99	0	{
100	0	b_val = _mm_set_epi16((src + 21), (src + 18), (src + 15), (src + 12), (src + 9),
101	0	(src + 6), (src + 3), *src);
102	0	g_val = _mm_set_epi16((src + 22), (src + 19), (src + 16), (src + 13), (src + 10),
103	0	(src + 7), (src + 4), *(src + 1));
104	0	r_val = _mm_set_epi16((src + 23), (src + 20), (src + 17), (src + 14), (src + 11),
105	0	(src + 8), (src + 5), *(src + 2));
106	0	*a_val = _mm_set1_epi16(0xFF);
107	0	return 24;
108	0	}
109
110		static inline size_t nsc_encode_next_rgb24(const BYTE* src, __m128i* r_val, __m128i* g_val,
111		__m128i* b_val, __m128i* a_val)
112	0	{
113	0	r_val = _mm_set_epi16((src + 21), (src + 18), (src + 15), (src + 12), (src + 9),
114	0	(src + 6), (src + 3), *src);
115	0	g_val = _mm_set_epi16((src + 22), (src + 19), (src + 16), (src + 13), (src + 10),
116	0	(src + 7), (src + 4), *(src + 1));
117	0	b_val = _mm_set_epi16((src + 23), (src + 20), (src + 17), (src + 14), (src + 11),
118	0	(src + 8), (src + 5), *(src + 2));
119	0	*a_val = _mm_set1_epi16(0xFF);
120	0	return 24;
121	0	}
122
123		static inline size_t nsc_encode_next_bgr16(const BYTE* src, __m128i* r_val, __m128i* g_val,
124		__m128i* b_val, __m128i* a_val)
125	0	{
126	0	*b_val = _mm_set_epi16(
127	0	WINPR_ASSERTING_INT_CAST(INT16, (((src + 15)) & 0xF8) \| (((src + 15)) >> 5)),
128	0	WINPR_ASSERTING_INT_CAST(INT16, (((src + 13)) & 0xF8) \| (((src + 13)) >> 5)),
129	0	WINPR_ASSERTING_INT_CAST(INT16, (((src + 11)) & 0xF8) \| (((src + 11)) >> 5)),
130	0	WINPR_ASSERTING_INT_CAST(INT16, (((src + 9)) & 0xF8) \| (((src + 9)) >> 5)),
131	0	WINPR_ASSERTING_INT_CAST(INT16, (((src + 7)) & 0xF8) \| (((src + 7)) >> 5)),
132	0	WINPR_ASSERTING_INT_CAST(INT16, (((src + 5)) & 0xF8) \| (((src + 5)) >> 5)),
133	0	WINPR_ASSERTING_INT_CAST(INT16, (((src + 3)) & 0xF8) \| (((src + 3)) >> 5)),
134	0	WINPR_ASSERTING_INT_CAST(INT16, (((src + 1)) & 0xF8) \| (((src + 1)) >> 5)));
135	0	*g_val = _mm_set_epi16(
136	0	WINPR_ASSERTING_INT_CAST(INT16,
137	0	((((src + 15)) & 0x07) << 5) \| ((((src + 14)) & 0xE0) >> 3)),
138	0	WINPR_ASSERTING_INT_CAST(INT16,
139	0	((((src + 13)) & 0x07) << 5) \| ((((src + 12)) & 0xE0) >> 3)),
140	0	WINPR_ASSERTING_INT_CAST(INT16,
141	0	((((src + 11)) & 0x07) << 5) \| ((((src + 10)) & 0xE0) >> 3)),
142	0	WINPR_ASSERTING_INT_CAST(INT16,
143	0	((((src + 9)) & 0x07) << 5) \| ((((src + 8)) & 0xE0) >> 3)),
144	0	WINPR_ASSERTING_INT_CAST(INT16,
145	0	((((src + 7)) & 0x07) << 5) \| ((((src + 6)) & 0xE0) >> 3)),
146	0	WINPR_ASSERTING_INT_CAST(INT16,
147	0	((((src + 5)) & 0x07) << 5) \| ((((src + 4)) & 0xE0) >> 3)),
148	0	WINPR_ASSERTING_INT_CAST(INT16,
149	0	((((src + 3)) & 0x07) << 5) \| ((((src + 2)) & 0xE0) >> 3)),
150	0	WINPR_ASSERTING_INT_CAST(INT16, ((((src + 1)) & 0x07) << 5) \| (((src) & 0xE0) >> 3)));
151	0	*r_val = _mm_set_epi16(
152	0	WINPR_ASSERTING_INT_CAST(INT16,
153	0	((((src + 14)) & 0x1F) << 3) \| ((((src + 14)) >> 2) & 0x07)),
154	0	WINPR_ASSERTING_INT_CAST(INT16,
155	0	((((src + 12)) & 0x1F) << 3) \| ((((src + 12)) >> 2) & 0x07)),
156	0	WINPR_ASSERTING_INT_CAST(INT16,
157	0	((((src + 10)) & 0x1F) << 3) \| ((((src + 10)) >> 2) & 0x07)),
158	0	WINPR_ASSERTING_INT_CAST(INT16,
159	0	((((src + 8)) & 0x1F) << 3) \| ((((src + 8)) >> 2) & 0x07)),
160	0	WINPR_ASSERTING_INT_CAST(INT16,
161	0	((((src + 6)) & 0x1F) << 3) \| ((((src + 6)) >> 2) & 0x07)),
162	0	WINPR_ASSERTING_INT_CAST(INT16,
163	0	((((src + 4)) & 0x1F) << 3) \| ((((src + 4)) >> 2) & 0x07)),
164	0	WINPR_ASSERTING_INT_CAST(INT16,
165	0	((((src + 2)) & 0x1F) << 3) \| ((((src + 2)) >> 2) & 0x07)),
166	0	WINPR_ASSERTING_INT_CAST(INT16, (((src) & 0x1F) << 3) \| (((src) >> 2) & 0x07)));
167	0	*a_val = _mm_set1_epi16(0xFF);
168	0	return 16;
169	0	}
170
171		static inline size_t nsc_encode_next_rgb16(const BYTE* src, __m128i* r_val, __m128i* g_val,
172		__m128i* b_val, __m128i* a_val)
173	0	{
174	0	*r_val = _mm_set_epi16(WINPR_ASSERTING_INT_CAST(INT16, ((src[15] & 0xF8) \| (src[15] >> 5))),
175	0	WINPR_ASSERTING_INT_CAST(INT16, ((src[13] & 0xF8) \| (src[13] >> 5))),
176	0	WINPR_ASSERTING_INT_CAST(INT16, ((src[11] & 0xF8) \| (src[11] >> 5))),
177	0	WINPR_ASSERTING_INT_CAST(INT16, ((src[9] & 0xF8) \| (src[9] >> 5))),
178	0	WINPR_ASSERTING_INT_CAST(INT16, ((src[7] & 0xF8) \| (src[7] >> 5))),
179	0	WINPR_ASSERTING_INT_CAST(INT16, ((src[5] & 0xF8) \| (src[5] >> 5))),
180	0	WINPR_ASSERTING_INT_CAST(INT16, ((src[3] & 0xF8) \| (src[3] >> 5))),
181	0	WINPR_ASSERTING_INT_CAST(INT16, ((src[1] & 0xF8) \| (src[1] >> 5))));
182	0	*g_val = _mm_set_epi16(
183	0	WINPR_ASSERTING_INT_CAST(INT16,
184	0	((((src + 15)) & 0x07) << 5) \| ((((src + 14)) & 0xE0) >> 3)),
185	0	WINPR_ASSERTING_INT_CAST(INT16,
186	0	((((src + 13)) & 0x07) << 5) \| ((((src + 12)) & 0xE0) >> 3)),
187	0	WINPR_ASSERTING_INT_CAST(INT16,
188	0	((((src + 11)) & 0x07) << 5) \| ((((src + 10)) & 0xE0) >> 3)),
189	0	WINPR_ASSERTING_INT_CAST(INT16,
190	0	((((src + 9)) & 0x07) << 5) \| ((((src + 8)) & 0xE0) >> 3)),
191	0	WINPR_ASSERTING_INT_CAST(INT16,
192	0	((((src + 7)) & 0x07) << 5) \| ((((src + 6)) & 0xE0) >> 3)),
193	0	WINPR_ASSERTING_INT_CAST(INT16,
194	0	((((src + 5)) & 0x07) << 5) \| ((((src + 4)) & 0xE0) >> 3)),
195	0	WINPR_ASSERTING_INT_CAST(INT16,
196	0	((((src + 3)) & 0x07) << 5) \| ((((src + 2)) & 0xE0) >> 3)),
197	0	WINPR_ASSERTING_INT_CAST(INT16, ((((src + 1)) & 0x07) << 5) \| (((src) & 0xE0) >> 3)));
198	0	*b_val = _mm_set_epi16(
199	0	WINPR_ASSERTING_INT_CAST(INT16,
200	0	((((src + 14)) & 0x1F) << 3) \| ((((src + 14)) >> 2) & 0x07)),
201	0	WINPR_ASSERTING_INT_CAST(INT16,
202	0	((((src + 12)) & 0x1F) << 3) \| ((((src + 12)) >> 2) & 0x07)),
203	0	WINPR_ASSERTING_INT_CAST(INT16,
204	0	((((src + 10)) & 0x1F) << 3) \| ((((src + 10)) >> 2) & 0x07)),
205	0	WINPR_ASSERTING_INT_CAST(INT16,
206	0	((((src + 8)) & 0x1F) << 3) \| ((((src + 8)) >> 2) & 0x07)),
207	0	WINPR_ASSERTING_INT_CAST(INT16,
208	0	((((src + 6)) & 0x1F) << 3) \| ((((src + 6)) >> 2) & 0x07)),
209	0	WINPR_ASSERTING_INT_CAST(INT16,
210	0	((((src + 4)) & 0x1F) << 3) \| ((((src + 4)) >> 2) & 0x07)),
211	0	WINPR_ASSERTING_INT_CAST(INT16,
212	0	((((src + 2)) & 0x1F) << 3) \| ((((src + 2)) >> 2) & 0x07)),
213	0	WINPR_ASSERTING_INT_CAST(INT16, (((src) & 0x1F) << 3) \| (((src) >> 2) & 0x07)));
214	0	*a_val = _mm_set1_epi16(0xFF);
215	0	return 16;
216	0	}
217
218		static inline size_t nsc_encode_next_a4(const BYTE* src, const BYTE* palette, __m128i* r_val,
219		__m128i* g_val, __m128i* b_val, __m128i* a_val)
220	0	{
221	0	BYTE idx[8] = { 0 };
222
223	0	for (int shift = 7; shift >= 0; shift--)
224	0	{
225	0	idx[shift] = ((*src) >> shift) & 1;
226	0	idx[shift] \|= (((*(src + 1)) >> shift) & 1) << 1;
227	0	idx[shift] \|= (((*(src + 2)) >> shift) & 1) << 2;
228	0	idx[shift] \|= (((*(src + 3)) >> shift) & 1) << 3;
229	0	idx[shift] *= 3;
230	0	}
231
232	0	*r_val = _mm_set_epi16(palette[idx[0]], palette[idx[1]], palette[idx[2]], palette[idx[3]],
233	0	palette[idx[4]], palette[idx[5]], palette[idx[6]], palette[idx[7]]);
234	0	*g_val = _mm_set_epi16(palette[idx[0] + 1], palette[idx[1] + 1], palette[idx[2] + 1],
235	0	palette[idx[3] + 1], palette[idx[4] + 1], palette[idx[5] + 1],
236	0	palette[idx[6] + 1], palette[idx[7] + 1]);
237	0	*b_val = _mm_set_epi16(palette[idx[0] + 2], palette[idx[1] + 2], palette[idx[2] + 2],
238	0	palette[idx[3] + 2], palette[idx[4] + 2], palette[idx[5] + 2],
239	0	palette[idx[6] + 2], palette[idx[7] + 2]);
240	0	*a_val = _mm_set1_epi16(0xFF);
241	0	return 4;
242	0	}
243
244		static inline size_t nsc_encode_next_rgb8(const BYTE* src, const BYTE* palette, __m128i* r_val,
245		__m128i* g_val, __m128i* b_val, __m128i* a_val)
246	0	{
247	0	r_val = _mm_set_epi16(palette[((src + 7ULL)) * 3ULL], palette[((src + 6ULL)) 3ULL],
248	0	palette[((src + 5ULL)) 3ULL], palette[((src + 4ULL)) 3ULL],
249	0	palette[((src + 3ULL)) 3ULL], palette[((src + 2ULL)) 3ULL],
250	0	palette[((src + 1ULL)) 3ULL], palette[(src) 3ULL]);
251	0	*g_val = _mm_set_epi16(
252	0	palette[((src + 7ULL)) 3ULL + 1ULL], palette[((src + 6ULL)) 3ULL + 1ULL],
253	0	palette[((src + 5ULL)) 3ULL + 1ULL], palette[((src + 4ULL)) 3ULL + 1ULL],
254	0	palette[((src + 3ULL)) 3ULL + 1ULL], palette[((src + 2ULL)) 3ULL + 1ULL],
255	0	palette[((src + 1ULL)) 3ULL + 1ULL], palette[(src) 3ULL + 1ULL]);
256	0	*b_val = _mm_set_epi16(
257	0	palette[((src + 7ULL)) 3ULL + 2ULL], palette[((src + 6ULL)) 3ULL + 2ULL],
258	0	palette[((src + 5ULL)) 3ULL + 2ULL], palette[((src + 4ULL)) 3ULL + 2ULL],
259	0	palette[((src + 3ULL)) 3ULL + 2ULL], palette[((src + 2ULL)) 3ULL + 2ULL],
260	0	palette[((src + 1ULL)) 3ULL + 2ULL], palette[(src) 3ULL + 2ULL]);
261	0	*a_val = _mm_set1_epi16(0xFF);
262	0	return 8;
263	0	}
264
265		static inline size_t nsc_encode_next_rgba(UINT32 format, const BYTE* src, const BYTE* palette,
266		__m128i* r_val, __m128i* g_val, __m128i* b_val,
267		__m128i* a_val)
268	0	{
269	0	switch (format)
270	0	{
271	0	case PIXEL_FORMAT_BGRX32:
272	0	return nsc_encode_next_bgrx32(src, r_val, g_val, b_val, a_val);
273
274	0	case PIXEL_FORMAT_BGRA32:
275	0	return nsc_encode_next_bgra32(src, r_val, g_val, b_val, a_val);
276
277	0	case PIXEL_FORMAT_RGBX32:
278	0	return nsc_encode_next_rgbx32(src, r_val, g_val, b_val, a_val);
279
280	0	case PIXEL_FORMAT_RGBA32:
281	0	return nsc_encode_next_rgba32(src, r_val, g_val, b_val, a_val);
282
283	0	case PIXEL_FORMAT_BGR24:
284	0	return nsc_encode_next_bgr24(src, r_val, g_val, b_val, a_val);
285
286	0	case PIXEL_FORMAT_RGB24:
287	0	return nsc_encode_next_rgb24(src, r_val, g_val, b_val, a_val);
288
289	0	case PIXEL_FORMAT_BGR16:
290	0	return nsc_encode_next_bgr16(src, r_val, g_val, b_val, a_val);
291
292	0	case PIXEL_FORMAT_RGB16:
293	0	return nsc_encode_next_rgb16(src, r_val, g_val, b_val, a_val);
294
295	0	case PIXEL_FORMAT_A4:
296	0	return nsc_encode_next_a4(src, palette, r_val, g_val, b_val, a_val);
297
298	0	case PIXEL_FORMAT_RGB8:
299	0	return nsc_encode_next_rgb8(src, palette, r_val, g_val, b_val, a_val);
300
301	0	default:
302	0	return 0;
303	0	}
304	0	}
305
306		static BOOL nsc_encode_argb_to_aycocg_sse2(NSC_CONTEXT* context, const BYTE* data, UINT32 scanline)
307	0	{
308	0	size_t y = 0;
309
310	0	if (!context \|\| !data \|\| (scanline == 0))
311	0	return FALSE;
312
313	0	const UINT16 tempWidth = ROUND_UP_TO(context->width, 8);
314	0	const UINT16 rw = (context->ChromaSubsamplingLevel > 0 ? tempWidth : context->width);
315
316	0	const BYTE ccl = WINPR_ASSERTING_INT_CAST(BYTE, context->ColorLossLevel);
317
318	0	for (; y < context->height; y++)
319	0	{
320	0	const BYTE* src = data + (context->height - 1 - y) * scanline;
321	0	BYTE* yplane = context->priv->PlaneBuffers[0] + y * rw;
322	0	BYTE* coplane = context->priv->PlaneBuffers[1] + y * rw;
323	0	BYTE* cgplane = context->priv->PlaneBuffers[2] + y * rw;
324	0	BYTE* aplane = context->priv->PlaneBuffers[3] + y * context->width;
325
326	0	for (UINT16 x = 0; x < context->width; x += 8)
327	0	{
328	0	__m128i r_val = { 0 };
329	0	__m128i g_val = { 0 };
330	0	__m128i b_val = { 0 };
331	0	__m128i a_val = { 0 };
332
333	0	const size_t rc = nsc_encode_next_rgba(context->format, src, context->palette, &r_val,
334	0	&g_val, &b_val, &a_val);
335	0	src += rc;
336
337	0	__m128i y_val = _mm_srai_epi16(r_val, 2);
338	0	y_val = _mm_add_epi16(y_val, _mm_srai_epi16(g_val, 1));
339	0	y_val = _mm_add_epi16(y_val, _mm_srai_epi16(b_val, 2));
340	0	__m128i co_val = _mm_sub_epi16(r_val, b_val);
341	0	co_val = _mm_srai_epi16(co_val, ccl);
342	0	__m128i cg_val = _mm_sub_epi16(g_val, _mm_srai_epi16(r_val, 1));
343	0	cg_val = _mm_sub_epi16(cg_val, _mm_srai_epi16(b_val, 1));
344	0	cg_val = _mm_srai_epi16(cg_val, ccl);
345	0	y_val = _mm_packus_epi16(y_val, y_val);
346	0	STORE_SI128(yplane, y_val);
347	0	co_val = _mm_packs_epi16(co_val, co_val);
348	0	STORE_SI128(coplane, co_val);
349	0	cg_val = _mm_packs_epi16(cg_val, cg_val);
350	0	STORE_SI128(cgplane, cg_val);
351	0	a_val = _mm_packus_epi16(a_val, a_val);
352	0	STORE_SI128(aplane, a_val);
353	0	yplane += 8;
354	0	coplane += 8;
355	0	cgplane += 8;
356	0	aplane += 8;
357	0	}
358
359	0	if (context->ChromaSubsamplingLevel > 0 && (context->width % 2) == 1)
360	0	{
361	0	context->priv->PlaneBuffers[0][y * rw + context->width] =
362	0	context->priv->PlaneBuffers[0][y * rw + context->width - 1];
363	0	context->priv->PlaneBuffers[1][y * rw + context->width] =
364	0	context->priv->PlaneBuffers[1][y * rw + context->width - 1];
365	0	context->priv->PlaneBuffers[2][y * rw + context->width] =
366	0	context->priv->PlaneBuffers[2][y * rw + context->width - 1];
367	0	}
368	0	}
369
370	0	if (context->ChromaSubsamplingLevel > 0 && (y % 2) == 1)
371	0	{
372	0	BYTE* yplane = context->priv->PlaneBuffers[0] + y * rw;
373	0	BYTE* coplane = context->priv->PlaneBuffers[1] + y * rw;
374	0	BYTE* cgplane = context->priv->PlaneBuffers[2] + y * rw;
375	0	CopyMemory(yplane, yplane - rw, rw);
376	0	CopyMemory(coplane, coplane - rw, rw);
377	0	CopyMemory(cgplane, cgplane - rw, rw);
378	0	}
379
380	0	return TRUE;
381	0	}
382
383		static void nsc_encode_subsampling_sse2(NSC_CONTEXT* context)
384	0	{
385	0	BYTE* co_dst = NULL;
386	0	BYTE* cg_dst = NULL;
387	0	INT8* co_src0 = NULL;
388	0	INT8* co_src1 = NULL;
389	0	INT8* cg_src0 = NULL;
390	0	INT8* cg_src1 = NULL;
391	0	UINT32 tempWidth = 0;
392	0	UINT32 tempHeight = 0;
393	0	__m128i t;
394	0	__m128i val;
395	0	__m128i mask = _mm_set1_epi16(0xFF);
396	0	tempWidth = ROUND_UP_TO(context->width, 8);
397	0	tempHeight = ROUND_UP_TO(context->height, 2);
398
399	0	for (size_t y = 0; y < tempHeight >> 1; y++)
400	0	{
401	0	co_dst = context->priv->PlaneBuffers[1] + y * (tempWidth >> 1);
402	0	cg_dst = context->priv->PlaneBuffers[2] + y * (tempWidth >> 1);
403	0	co_src0 = (INT8)context->priv->PlaneBuffers[1] + (y << 1) tempWidth;
404	0	co_src1 = co_src0 + tempWidth;
405	0	cg_src0 = (INT8)context->priv->PlaneBuffers[2] + (y << 1) tempWidth;
406	0	cg_src1 = cg_src0 + tempWidth;
407
408	0	for (UINT32 x = 0; x < tempWidth >> 1; x += 8)
409	0	{
410	0	t = LOAD_SI128(co_src0);
411	0	t = _mm_avg_epu8(t, LOAD_SI128(co_src1));
412	0	val = _mm_and_si128(_mm_srli_si128(t, 1), mask);
413	0	val = _mm_avg_epu16(val, _mm_and_si128(t, mask));
414	0	val = _mm_packus_epi16(val, val);
415	0	STORE_SI128(co_dst, val);
416	0	co_dst += 8;
417	0	co_src0 += 16;
418	0	co_src1 += 16;
419	0	t = LOAD_SI128(cg_src0);
420	0	t = _mm_avg_epu8(t, LOAD_SI128(cg_src1));
421	0	val = _mm_and_si128(_mm_srli_si128(t, 1), mask);
422	0	val = _mm_avg_epu16(val, _mm_and_si128(t, mask));
423	0	val = _mm_packus_epi16(val, val);
424	0	STORE_SI128(cg_dst, val);
425	0	cg_dst += 8;
426	0	cg_src0 += 16;
427	0	cg_src1 += 16;
428	0	}
429	0	}
430	0	}
431
432		static BOOL nsc_encode_sse2(NSC_CONTEXT* WINPR_RESTRICT context, const BYTE* WINPR_RESTRICT data,
433		UINT32 scanline)
434	0	{
435	0	if (!nsc_encode_argb_to_aycocg_sse2(context, data, scanline))
436	0	return FALSE;
437
438	0	if (context->ChromaSubsamplingLevel > 0)
439	0	nsc_encode_subsampling_sse2(context);
440
441	0	return TRUE;
442	0	}
443		#endif
444
445		void nsc_init_sse2_int(NSC_CONTEXT* WINPR_RESTRICT context)
446	0	{
447	0	#if defined(SSE_AVX_INTRINSICS_ENABLED)
448	0	WLog_VRB(PRIM_TAG, "SSE2/SSE3 optimizations");
449	0	PROFILER_RENAME(context->priv->prof_nsc_encode, "nsc_encode_sse2")
450	0	context->encode = nsc_encode_sse2;
451		#else
452		WLog_VRB(PRIM_TAG, "undefined WITH_SIMD or SSE2 intrinsics not available");
453		WINPR_UNUSED(context);
454		#endif
455	0	}