pulumi-aws-kotlin/com.pulumi.aws.sagemaker.kotlin.inputs/EndpointConfigurationProductionVariantArgs

EndpointConfigurationProductionVariantArgs

data class EndpointConfigurationProductionVariantArgs(val acceleratorType: Output<String>? = null, val containerStartupHealthCheckTimeoutInSeconds: Output<Int>? = null, val coreDumpConfig: Output<EndpointConfigurationProductionVariantCoreDumpConfigArgs>? = null, val enableSsmAccess: Output<Boolean>? = null, val inferenceAmiVersion: Output<String>? = null, val initialInstanceCount: Output<Int>? = null, val initialVariantWeight: Output<Double>? = null, val instanceType: Output<String>? = null, val managedInstanceScaling: Output<EndpointConfigurationProductionVariantManagedInstanceScalingArgs>? = null, val modelDataDownloadTimeoutInSeconds: Output<Int>? = null, val modelName: Output<String>, val routingConfigs: Output<List<EndpointConfigurationProductionVariantRoutingConfigArgs>>? = null, val serverlessConfig: Output<EndpointConfigurationProductionVariantServerlessConfigArgs>? = null, val variantName: Output<String>? = null, val volumeSizeInGb: Output<Int>? = null) : ConvertibleToJava<EndpointConfigurationProductionVariantArgs>

Constructors

constructor(acceleratorType: Output<String>? = null, containerStartupHealthCheckTimeoutInSeconds: Output<Int>? = null, coreDumpConfig: Output<EndpointConfigurationProductionVariantCoreDumpConfigArgs>? = null, enableSsmAccess: Output<Boolean>? = null, inferenceAmiVersion: Output<String>? = null, initialInstanceCount: Output<Int>? = null, initialVariantWeight: Output<Double>? = null, instanceType: Output<String>? = null, managedInstanceScaling: Output<EndpointConfigurationProductionVariantManagedInstanceScalingArgs>? = null, modelDataDownloadTimeoutInSeconds: Output<Int>? = null, modelName: Output<String>, routingConfigs: Output<List<EndpointConfigurationProductionVariantRoutingConfigArgs>>? = null, serverlessConfig: Output<EndpointConfigurationProductionVariantServerlessConfigArgs>? = null, variantName: Output<String>? = null, volumeSizeInGb: Output<Int>? = null)

Properties

acceleratorType

val acceleratorType: Output<String>? = null

The size of the Elastic Inference (EI) instance to use for the production variant.

containerStartupHealthCheckTimeoutInSeconds

val containerStartupHealthCheckTimeoutInSeconds: Output<Int>? = null

The timeout value, in seconds, for your inference container to pass health check by SageMaker AI Hosting. For more information about health check, see How Your Container Should Respond to Health Check (Ping) Requests. Valid values between 60 and 3600.

coreDumpConfig

val coreDumpConfig: Output<EndpointConfigurationProductionVariantCoreDumpConfigArgs>? = null

Specifies configuration for a core dump from the model container when the process crashes. Fields are documented below.

enableSsmAccess

val enableSsmAccess: Output<Boolean>? = null

You can use this parameter to turn on native Amazon Web Services Systems Manager (SSM) access for a production variant behind an endpoint. By default, SSM access is disabled for all production variants behind an endpoints.

inferenceAmiVersion

val inferenceAmiVersion: Output<String>? = null

Specifies an option from a collection of preconfigured Amazon Machine Image (AMI) images. Each image is configured by Amazon Web Services with a set of software and driver versions. Amazon Web Services optimizes these configurations for different machine learning workloads.

initialInstanceCount

val initialInstanceCount: Output<Int>? = null

Initial number of instances used for auto-scaling.

initialVariantWeight

val initialVariantWeight: Output<Double>? = null

Determines initial traffic distribution among all of the models that you specify in the endpoint configuration. If unspecified, it defaults to 1.0.

instanceType

val instanceType: Output<String>? = null

The type of instance to start.

managedInstanceScaling

val managedInstanceScaling: Output<EndpointConfigurationProductionVariantManagedInstanceScalingArgs>? = null

Settings that control the range in the number of instances that the endpoint provisions as it scales up or down to accommodate traffic.

modelDataDownloadTimeoutInSeconds

val modelDataDownloadTimeoutInSeconds: Output<Int>? = null

The timeout value, in seconds, to download and extract the model that you want to host from Amazon S3 to the individual inference instance associated with this production variant. Valid values between 60 and 3600.

modelName

val modelName: Output<String>

The name of the model to use.

routingConfigs

val routingConfigs: Output<List<EndpointConfigurationProductionVariantRoutingConfigArgs>>? = null

Sets how the endpoint routes incoming traffic. See routing_config below.

serverlessConfig

val serverlessConfig: Output<EndpointConfigurationProductionVariantServerlessConfigArgs>? = null

Specifies configuration for how an endpoint performs asynchronous inference.

variantName

val variantName: Output<String>? = null

The name of the variant. If omitted, this provider will assign a random, unique name.

volumeSizeInGb

val volumeSizeInGb: Output<Int>? = null

The size, in GB, of the ML storage volume attached to individual inference instance associated with the production variant. Valid values between 1 and 512.

Functions

toJava

open override fun toJava(): EndpointConfigurationProductionVariantArgs