Yet Another 何榜文's Blog
  • 首页
  • 标签
  • 归档
  • 分类
  • 标签
  • 友链
  • 待办事项
  • 联系我

search-api-summary

搜索 API 价格汇总 API 免费额度 收费额度 其它 serpapi 250 次调用/月 高级版 1000 次调用/$25/月 API 汇总较多 grounding-bing ❌ $14/1000次调用 bing-search-api 已经停用,目前使用 grounding with bing 提供服务 百度智能云·千帆平台 100次调
2026-03-04

在 RKNN2 中将 ViT 的卷积层转换为矩阵乘法

背景在上一篇 将 ViT 的第一个卷积层转为 MatMul,要求步长和卷积核相等 中,我们介绍了如何将 ViT 的第一层卷积转换为矩阵乘法。在这篇文章中,我们将讨论这种变化在 RKNN2 工具链里带来的性能收益。 测试 模型 设备 输入尺寸 平均推理时间 (ms) 卷积层 Apple M4-CPU 1x3x384x384 3.32 ± 0.50 Cortex A57-CPU 1x3
2025-07-03

bfloat16 精度损失(II)

在上一篇 记一个关于 RMSNorm 实现上的细节 中,我们讨论了 LayerNorm 和 RMSNorm 使用 float16 格式会导致的数值溢出问题,而 bfloat16 由于数值范围较大,通常不会出现溢出问题。那么本文我们讨论 bfloat16 较之于 float16,由于数据舍入而带来的精度损失问题。 浮点数表示方式浮点数的表示方式是通过科学计数法来表示一个实数。float16 和 bf
2025-06-30
#LayerNorm #bfloat16

记一个 Tokenizers 版本兼容性问题

表现当使用较低版本的 tokenizers 库加载版本较高的 tokenizer.json 时,会出现低版本不兼容高版本 tokenizer.json 的问题。代码如下: 12345678910111213141516171819202122232425262728import jsonfrom huggingface_hub import hf_hub_downloadimport tokeni
2025-06-23
#Tokenizers #HuggingFace #Transformers #Python

GCC 中的 whole-archive 参数解析

本文由 AI 加提示词大纲生成 提示词如下: 帮我写一篇博客,介绍 gcc 中的 whole-archive 这个参数,顺序如下: 背景:使用全局变量动态注册类到 RegisterFactory 中的时候,发现这个库打包为静态库时,可执行文件去链接这个静态库,会出现未注册成功的情况 表现:1、保存注册结果的 map 大小为 0;2、文件非常小,仅有十几KB,看起来并不包含整个静态库;3、访问
2025-06-17

科目二考试 - 00

科目二考试有关科目二的一些信息和内容分享。 一般来说,科目二教练在开始练习时让学员最先做的两件事就是:调整座椅和后视镜。这两件事其实都是为了点位这个概念服务的。 至于为什么需要【点位】?原因还是科目二考试需要一次性倒车入库成功,中间不可以换挡,例如从倒车档换成前进档,如果发生换挡,这次考试就挂了。为了方便教学,总结出了点位这个概念。 在座椅确定之后,空间位置就确定了。在这种情况下,记住在何时倒车、
2025-06-16

记一个关于 RMSNorm 实现上的细节

背景在 RMSNorm 的实现中,都会强制把输入转为 float32 再进行计算,主要为了避免在计算过程中出现溢出的情况,特别是 float16。 bfloat16 由于动态范围更大,通常不会出现溢出问题,但在一些特定的计算场景下,仍然可能会遇到精度问题。因此,在实现 RMSNorm 时,强制转换为 float32 是一个通用的做法。 RMSNorm123456789101112131415imp
2025-06-07
#LayerNorm #RMSNorm #数值精度

Qwen2.5-VL 中视觉模型的窗口注意力机制

背景在算能的 LLM-TPU 里有对 Qwen2.5-VL 视觉模型的导出,但是并没有增加对窗口注意力的支持,因此跟 Qwen2.5-VL 原生相比,性能下降较大。 UPDATE: 算能官方已经支持 qwen2.5-vl 的窗口注意力,具体实现参考 tpu-mlir/llm。 qwen2.5-vl 视觉编码器的注意力机制qwen2.5-vl 中有两种不同的注意力机制: 全局注意力:用于
2025-04-29
#LLM #VLM #Qwen2.5-VL #FlashAttention2

论文总结 | Next Token Prediction Towards Multimodal Intelligence A Comprehensive Survey

背景文章介绍了截至 2024 年,多模态大模型的进展。文章从词元化(tokenization)、骨干网络(backbone)、训练方式(training)、数据集(dataset)四个方向进行总结,并给出了多模态模型的未来发展方向及挑战。这对于我们了解和部署多模态大模型非常有帮助。 同时,本文主要是梳理相关基础内容,暂不对论文中给出的所有参考文献做详细解析,仅对关键点进行总结。 模型流水线组成 这
2025-03-08
#综述 #多模态大模型 #transformer

Self-Attention 算法简介

MHA MQA GQA 对比MHA Multi-Head Attention,MQA Multi-Query Attention,GQA Group-Query Attention。在 transformers 中,主要体现在 config.json 里的 num_key_value_heads 设置上。 QKV shape 如下: Query: $[B, L, D_{\text{model}}
2025-03-03
#MHA #MQA #GQA #self-attention
1234

搜索

Hexo Fluid
总访问量 次 总访客数 人