LogoYet Another 何榜文's Blog

Yet Another 何榜文's Blog

ORT 模型部署
发表于2024-03-12
Deploy ORT modelonnxruntime-inference-examples/mobilenet.ipynb at main · microsoft/onnxruntime-inference-examples 详细记录YOLACT实例分割ncnn实现 真正部署模型,不应该把后处理包括在模型推理中,这会影响模型在GPU上的部署,性能也不一定会好。这里的后处理,不仅仅是model(input) 之后的,也可以是作者放在模型推理过程中,但是实际上可以归为后处理的部分。 判断函数是否在ONNX trace的过程中:torch.onnx.is_in_onnx_export() 。 ONNX to TF Torch to ONNX torch不支持F.grid_sample 算子。从ONNX支持的算子列表来看,opset=16 时,可以直接使用grid_sampler 而不需要手动设置符号函数。 12345678910111213141516171819202122232425262728# https://github.com/pytorch/pyt...
MNN GPU float16 使用原理
发表于2024-03-11
我观察到 MNN 在使用 GPU OpenCL 时,会默认使用 float16 的格式,导致模型评测时时间不同,如图。因此查看了 MNN 的源码,发现了一些有趣的东西。 MNN 使用 MNN::BackendConfig::Precision_Low 时,会根据 GPU 的实际情况判断是否使用 float16 的数据格式。代码随附。 当导出的模型可以使用 float32 或者 float16 保存,当权重转换到 GPU 上时,会转换格式,在代码的第19行到第22行。代码随附。 Pipeline 中保存的 tensor 指向的 opencl buffer 保存的还是 float16。但是 OpenCL::onMapTensor 和 OpenCL::onUnmapTensor 的实现保证了映射前后得到的是 float32。OpenCLBackend::onAcquire 给出了 tensor 中保存的 buffer 格式,其中调用了 isSupportedFP16 判断目前是否支持 float16,如果支持则使用 float16 的大小创建 buffer。 OpenCLBacken...
1…45
avatar
何榜文
文章
42
标签
58
分类
4
Follow Me
公告
One week is 2% of a year
最新文章
Torch Chunked Gated Delta Rule 并行优化指南2026-03-19
SonicMoE - 加速 MoE 模型的 IO 与 Tile 感知优化2026-03-18
ARM 架构深度学习推理指令集的演进与技术范式分析报告2026-03-13
软件工程中的 SOLID 原则2026-03-12
Chunkwise 并行算法 —— 线性注意力2026-03-06
分类
  • AI 系统1
  • Effective STL6
  • 论文解读1
    • AI 系统1
标签
LayerNorm 综述 video summarization llama.cpp std::threads deepseek Effective STL FlashAttention2 PyTorch LLM Transformers MQA STL ViT C++ Algorithms openclaw Linear Attention MoE RMSNorm software engineer c++ 数值精度 性能优化 ONNX Whisper Tokenizers GPU Qwen2.5-VL Python transformer MHA Vector AnyNet Functor Vision Transformer bfloat16 opencl String TTS
归档
  • 三月 2026 7
  • 七月 2025 1
  • 六月 2025 5
  • 四月 2025 1
  • 三月 2025 2
  • 二月 2025 6
  • 十一月 2024 3
  • 十月 2024 1
网站信息
文章数目 :
42
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By 何榜文框架 Hexo 7.3.0|主题 Butterfly 5.5.4