rknntoolkit2转换模型后推理显示超出FP16范围

Jerry_Zh · 发表于 2025-2-18 17:02:23

各位论坛大佬好，我想在开发板上部署一个自己训练的Convnext模型，但是在使用rknntoolkit2进行模型转换并推理时遇到了问题。在关闭量化(ret = rknn.build(do_quantization=False)的情况下，模型的输出会是NaN，并且有如下提示超出FP16的表示范围：

“W inference: The range [1.94334077835083, inf] of '/downsample_layers.3/downsample_layers.3.0/ReduceMean_1_output_0' is out of the float16!

W inference: The range [1.9433603286743164, inf] of '/downsample_layers.3/downsample_layers.3.0/Add_output_0' is out of the float16!”

我根据该信息定位了模型相关的层，由于我在rknntoolkit2的文档中没有找到在非量化模式下可以打印逐层详细数据的接口，所以我使用转换前的ONNX模型输出了提示溢出的两层的输出张量，但是发现并没有超出FP16表示范围的数值。

值得注意的是，提示溢出的reducemean层和add层，我在rknntoolkit2的运行日志中并没有找到reducemean算子，而多了一个ReduceMean_1_2avgpool的算子。

此外，如果开启量化，则不会有溢出的问题，但是rknn模型输出的结果和原始的onnx模型不一致（量化校正数据集不管只传入一张输入数据还是50-100张数据都不对）。自己训练的模型传入的是预处理后的(1,6,224,224)排布的npy文件，使用官方的convnext模型则不会出现溢出和数据不一致的问题。

目前对这个问题不知道该如何下手，请问能否给一些解决的方法或建议？

monark · 发表于 2025-2-19 11:28:36

可以发下onnx文件吗，测一测。

Jerry_Zh · 发表于 2025-2-19 16:07:38

monark 发表于 2025-2-19 11:28
可以发下onnx文件吗，测一测。

大佬您好，感谢您的帮助，论坛上貌似不能上传超过10M的文件，我将模型、推理文件以及测试样例打包并上传了百度云，解压之后就可以直接运行。如果您百度云不方便的话，不介意的话也可以通过其他联系方式发送给您，谢谢！
链接: https://pan.baidu.com/s/1a_pLRfY7q_nyxltu-0q2bA?pwd=682m 提取码: 682m

monark · 发表于 2025-2-20 09:06:53

我刚才测试了下，没有提示超出FP16，你用的是哪个版本的toolkit2

Jerry_Zh · 发表于 2025-2-20 10:56:57

monark 发表于 2025-2-20 09:06
我刚才测试了下，没有提示超出FP16，你用的是哪个版本的toolkit2

大佬您好，我使用的是1.6.0的rknntoolkit2，请问您的版本是？

Jerry_Zh · 发表于 2025-2-20 11:03:57

monark 发表于 2025-2-20 09:06
我刚才测试了下，没有提示超出FP16，你用的是哪个版本的toolkit2

在您的日志里看到了rknntoolkit2的版本是2.3.0，那我用2.3.0测试一下！

Jerry_Zh · 发表于 2025-2-21 10:39:12

monark 发表于 2025-2-20 09:06
我刚才测试了下，没有提示超出FP16，你用的是哪个版本的toolkit2

感谢大佬的帮助，的确是版本的问题（虽然不太清楚具体原因），使用最新的2.3.0版本就可以正确推理了

账号		自动登录	找回密码
密码			注册

[求助] rknntoolkit2转换模型后推理显示超出FP16范围

主题推荐

浏览过的版块