Skip to main content

Ctrl+K

Quark Version List

GitHub
Support

AMD Quark 0.9 documentation

Release Notes

Release Information

Getting Started with AMD Quark

Introduction to Quantization
Installation
Gettting started: Introduction
Gettting started: Quark for ONNX
Gettting started: Quark for PyTorch
PyTorch Examples
ONNX Examples

Supported accelerators

AMD Ryzen AI
AMD Instinct
- FP8 (OCP fp8_e4m3) Quantization & Json_SafeTensors_Export with KV Cache
- Evaluation of Quantized Models

Advanced AMD Quark Features for PyTorch

Configuring PyTorch Quantization
Save and Load Quantized Models
Exporting Quantized Models
Best Practices for Post-Training Quantization (PTQ)
Debugging quantization Degradation
Language Model Optimization
Activation/Weight Smoothing (SmoothQuant)
Block Floating Point 16
Extensions
- Integration with AMD Pytorch-light (APL)
- Brevitas Integration
Using MX (Microscaling)
Two Level Quantization Formats

Advanced Quark Features for ONNX

Configuring ONNX Quantization
Data and OP Types
Accelerate with GPUs
Mixed Precision
Block Floating Point 16 (BFP16)
BF16 Quantization
Microscaling (MX)
Microexponents (MX)
Accuracy Improvement Algorithms
Automatic Search for Model Quantization
Using ONNX Model Inference and Saving Input Data in NPY Format
Optional Utilities
Tools

Tutorials

AMD Quark Tutorial: PyTorch Quickstart

APIs

PyTorch APIs
ONNX APIs

Troubleshooting and Support

PyTorch FAQ
ONNX FAQ

AMD Quark release history
Quark license

Extensions for PyTorch

Extensions for PyTorch

Extensions for PyTorch#

Integration with AMD Pytorch-light (APL)
Brevitas Integration

previous

BFP16 (Block floating point) Quantization

next

Using OCP MX (Microscaling)

Last updated on Jul 18, 2025.

Terms and Conditions
Quark Licenses and Disclaimers
Privacy
Trademarks
Supply Chain Transparency
Fair and Open Competition
UK Tax Strategy
Cookie Policy
Cookie Settings

© 2025 Advanced Micro Devices, Inc