模型重量和精度(FP32、FP16、INT8)影响推断性能。
使用 FP32 格式将导致重量的完整分布,并被称为单精度浮点。
同时,FP16 和 INT8 格式均为压缩重量格式,尺寸被压缩为更小。这些压缩的权衡是模型的准确性,或者也称为量化错误。
分配用于表示数据的位数越多,它们能代表的范围越宽,并且有可能意味着模型的越高精度。但是,更大的数据需要更大的内存空间来支持其存储,需要更高的内存带宽,并需要更多的计算资源和更多的时间被占用。
英特尔® 发行版 OpenVINO™ 工具套件
基准测试结果 描述了不同重量格式或精度之间性能的明显差异。
模型重量和精度(FP32、FP16、INT8)影响推断性能。
使用 FP32 格式将导致重量的完整分布,并被称为单精度浮点。
同时,FP16 和 INT8 格式均为压缩重量格式,尺寸被压缩为更小。这些压缩的权衡是模型的准确性,或者也称为量化错误。
分配用于表示数据的位数越多,它们能代表的范围越宽,并且有可能意味着模型的越高精度。但是,更大的数据需要更大的内存空间来支持其存储,需要更高的内存带宽,并需要更多的计算资源和更多的时间被占用。
英特尔® 发行版 OpenVINO™ 工具套件
基准测试结果 描述了不同重量格式或精度之间性能的明显差异。
举报