本地智能竞争正在转向可治理闭环
核心观点 本周更值得连起来看的不是某一颗芯片、某一个模型或某一个 Agent 产品,而是端侧 AI、机器人世界模型、运行时和企业 Agent 权限开始同时向“可执行、可复用、可审计”的闭环收敛。一个可辩论的判
核心观点 本周更值得连起来看的不是某一颗芯片、某一个模型或某一个 Agent 产品,而是端侧 AI、机器人世界模型、运行时和企业 Agent 权限开始同时向“可执行、可复用、可审计”的闭环收敛。一个可辩论的判

准备 硬件信息 硬件信息如下: sudo cat /proc/device-tree/model NVIDIA Jetson Orin NX Enginejetson_releasee Developer Kit(base) nano@nano-desktop:~$ jetson_release Software part of jetson-stats …

安全说明:本文是本地 AI 推理开发笔记,只记录 Jetson Orin Nano 上的 CUDA 环境检查、llama.cpp 官方源码编译、开源 GGUF 模型测试和性能观察。页面不提供可执行安装包,不要求输入账号、密码、支付信息或任

算子实现 调用流程 主要是ggml_compute_forward_mul_mat函数,该函数把任务拆分,最终计算执行调用ggml_compute_forward_mul_mat_on
使能方法 在linux 6.12版本之后原生SDK就支持了PREEMPT_RT,使能方式如下: make kernel_menuconfig General setup ---> <*> Fully Preemptible Kernel (Real-Time) 或者直接搜索CONFIG_PREEMPT_RT=y 确认是否已经打开 zcat …
矩阵相乘 是神经网络中算力消耗最大的部分,通常占据 LLM 推理计算量的 95% 以上。 矩阵乘法 (Matrix Multiplication / GEMM) 这是最通用的矩阵运算形式,也是 AI 芯片中 Tensor Core 或 MAC 阵列的主要工作内容。 定义: 设矩阵 $A$ 的形状为 $(M \times K
OpenMP是什么 OpenMP是一套用于共享内存并行系统的多线程程序设计标准。通俗的将,它允许通过简单的编译器指令(#pragma)将原本串行执行的C/C++ for循环瞬间变成多线

ggml是什么 ggml是用于transformer架构推理的机器学习库,类似于pytorch、TensorFlow等机器学习库。ggml不需要第三方库的依赖,目前兼容X86、ARM

业务流 启动阶段 帧处理

什么是ISP 一句话定义ISP:ISP就是把传感器吐出来的RAW电信号处理成可用于人眼、算法的图像数据的一整套“信号处理流水线”。 上面这张图是传统ISP流水线到AI ISP的演变。 (1
什么是Fast DDS Fast DDS是一个高性能的"分布式通信中间库",用来在不同进程、不同设备之间传输数据的。Fast DDS是用C++写的一个DDS实现,在同一台机器的多