推理框架

llama.cpp 模型加载机制深度解析

概述 llama.cpp 的模型加载系统是一个高度优化的、支持多后端、多设备的模型权重加载框架。它通过精心设计的数据结构和加载流程,实现了: 零拷贝加载:通过内存映射(mmap)实现模型文件的零拷贝加载

◷ 2026-02-12 📁 推理框架 👤 laumy 🔥 1317 热度 💬 0 评论

ggml后端架构简要分析

后端系统概述 GGML后端系统主要提供如下功能: 统一接口: 不同硬件平台使用相关的API。 自动选择:根据硬件自动选择最优后端。 灵活切换:可以在运行时切换后端。 扩展性:易于添加的新后端。

◷ 2026-01-29 📁 推理框架 👤 laumy 🔥 599 热度 💬 0 评论

GGML计算基础:矩阵的基本运算

矩阵相乘 是神经网络中算力消耗最大的部分,通常占据 LLM 推理计算量的 95% 以上。 矩阵乘法 (Matrix Multiplication / GEMM) 这是最通用的矩阵运算形式,也是 AI 芯片中 Tensor Core 或 MAC 阵列的主要工作内容。 定义: 设矩阵 $A$ 的形状为 $(M \times K

◷ 2026-01-20 📁 推理框架 👤 laumy 🔥 484 热度 💬 0 评论

GGML多线程计算:OpenMP简介

OpenMP是什么 OpenMP是一套用于共享内存并行系统的多线程程序设计标准。通俗的将,它允许通过简单的编译器指令(#pragma)将原本串行执行的C/C++ for循环瞬间变成多线

◷ 2026-01-19 📁 推理框架 👤 laumy 🔥 448 热度 💬 0 评论