“TinyML将在未来10年成为MCU市场的最大推动力。未来五年内,公司5亿个MCU将运行某种形式的TinyML 或AI工作负载。”意法半导体微控制器和数字IC事业部总裁Remi El-Ouazzane曾经这样说道。
TinyML(Tiny Machine Learning)是一种在资源受限的微控制器和边缘设备上运行机器学习模型的技术。目标是在低功耗、低内存和低计算资源的设备上实现高效的机器学习算法,以支持实时数据处理和决策。它们的功能虽然不如大型语言模型(LLM)那样通用,但在特定任务上表现出色,例如通过图像识别植物病害,准确率可达95%~99%。
用人话解释,就是“小而强”的机器学习,力求能在MCU之类低功耗设备上运行。因为MCU没有DRAM,没有操作系统(OS),并且严格的内存限制(SRAM小于256kB,FLASH为只读)。
用一组数据也能解释TinyML的重要性:TinyML每台设备(包括传感器)的成本为2美元~60美元,每台设备的平均功耗≤1~100毫瓦;而LLM每颗AI芯片平均成本20K~70K美元,需要数万颗芯片,每颗AI芯片的平均功耗700~1200瓦。
近年来,巨头们纷纷押注TinyML。随着AI技术进一步发展,这一市场正在逐渐爆发。
巨头押注TinyML
目前,比较出名的TinyML或者AutoML包括SensiML、Stream Analyze、Qeexo AutoML、NanoEdge AI Studio、Imagimob(英飞凌收购)、Reality AI(瑞萨收购)、Neuton.ai(Nordic收购)、Edge Impulse(高通收购)、eIQ ML(NXP)等,很多MCU厂商都选择与这些厂商合作,提供完整的边缘AI解决方案。
当然,为了补全自己的边缘AI版图,其中不乏许多收购:2022 年 7 月,瑞萨电子收购嵌入式AI和TinyML解决方案优秀供应商Reality Analytics, Inc.(Reality AI),成为了瑞萨电子的间接全资子公司;2023年5月,英飞凌宣布已收购位于斯德哥尔摩的TinyML和AutoML初创企业Imagimob。
而今年,随着AI进一步火热,加上Agentic AI(自主智能体AI)在边缘端兴起,厂商开始加快对于TinyML的投入力度。迄今为止,共有三桩收购案值得关注:
今年3月,高通(Qualcomm)宣布将收购边缘AI开发平台Edge Impulse,希望此举能扩展其对支持IoT的产品的AI能力。
Edge Impulse在TinyML领域的地位不可小觑。Edge Impulse 的开发平台包括用于数据收集和准备、模型训练、部署和监控的工具,具有少量代码或无代码界面。开发人员使用 Edge Impulse 的平台将计算机视觉、时间序列数据、音频事件和语音识别等 AI 功能添加到资产跟踪和监控、制造、异常检测和预测性维护系统中的嵌入式系统中。
今年4月,意法半导体(ST)收购加拿大AutoML初创公司Deeplite。Deeplite号称边缘AI的DeepSeek,该公司在模型优化、量化和压缩方面有独特技术,可使AI大模型在边缘设备上运行得更快、更小、更节能。
6月17日,在收购AI硬件IP初创公司Atlazo两年后,Nordic Semiconductor收购了 Neuton.ai,这是一家用于微控制器级AI的TinyML工具公司。Neuton的技术为时间序列数据应用程序开发了特定于应用程序的神经网络算法,该算法比传统神经网络方法小10倍之多。通过将 Nordic 的 nRF54 系列超低功耗无线 SoC 与 Neuton 的神经网络框架相结合,现在可以为资源最受限的设备带来可扩展的高性能 AI。
Neuton是Edge Impulse的竞争对手,目前已经与北欧竞争对手合作,包括 ST 和Silicon Labs。虽然目前Neuton没有终止任何客户合作的计划,但计划在未来专注于Nordic硬件。
随着厂商补全自己的软件算法层面的方案,市场更加热闹了。
TinyML的现在和未来
“TinyML将使AI无处不在。”这是Science一篇文章所说的话。
TinyML是机器学习 (ML) 领域的一个分支,专注于在资源极其有限的设备上运行AI模型,例如物联网 (IoT) 设备和微控制器 (MCU)。这些设备通常只有几百KB内存,没有操作系统,并且处理能力远低于智能手机或云计算服务器。TinyML 带来了多项关键优势,包括成本效益、低功耗、实时响应、数据隐私、无需网络连接。
目前,TinyML和AI大模型一样,主要关注推理和训练两个方向。
推理方面,近年来,TinyML及其在MCU上的深度学习应用飞速发展,不过对于TinyML来说,也有挑战,主要在于内存和计算性能的局限性上。例如,一款常见的MCU可能仅有数百KB的SRAM(用于读写数据)和1MB的闪存(用于存储模型),同时处理器速度也远低于普通电脑。为了克服这些限制,研究人员提出了多种解决方案,主要分为算法优化和系统优化两大类。
算法解决方案常见的方法包括模型压缩(通过剪枝、量化和张量分解来减小模型大小)、知识蒸馏(和DeepSeek类似,用教师模型转移给小型学生模型)、网络结构设计、神经架构搜索(NAS,例如TinyNAS和MicroNets)、统一设计搜索空间(UDC)。
系统解决方案侧重于优化部署和运行环境,以适应MCU硬件限制。主流的深度学习框架(如 PyTorch、TensorFlow)因其庞大的运行时开销而不适用于 MCU,因此出现了专门针对微控制器的轻量级框架和技术:
训练方面,在小型设备上直接进行模型训练日益受到关注。设备上训练能提供个性化服务并保护用户隐私,因为数据无需上传到云端。然而,训练比推理更具挑战性,因为它需要存储中间激活和梯度,对内存和计算操作的要求更高。
研究人员正积极探索减少训练内存占用的方法,包括轻量级网络设计与NAS、内存与计算的权衡、分层训练、激活剪枝、优化器与量化。
近期,多项研究致力于在MCU上实现更高效的设备上训练,包括Tiny-Transfer-Learning、TinyOL、POET (Private Optimal Energy Training)、MiniLearn、MCUNetV3。
TinyML未来大有可为
全球边缘AI市场预计将实现显著增长,这预示着TinyML在未来十年将扮演越来越重要的角色。根据预测,全球边缘AI市场规模将从2023年的190亿美元增至2033年的约1630 亿美元。
目前来看,推动TinyML发展的核心要素包括几个:第一,MCU硬件性能越来越强大,存储空间越来越大,为TinyML提供更强大的基础;第二,MCU厂商和第三方厂商在关键工具上优化越来越多,更容易使用;第三,NPU在MCU中开始兴起,加强了TinyML的发展;第四,如量化、剪枝之类的AI模型压缩技术不断在发展;第五,MLOps(机器学习运维)等工具的进步,使得在云端训练的模型能够更快、更高效地部署到TinyML硬件上,从而缩短了价值实现时间,帮助项目突破概念验证(PoC)阶段。
当然,尽管前景广阔,TinyML市场的发展也面临一些障碍,其中之一是IoT设备的生命周期。对于那些生命周期长达五年或更长的现有IoT项目,尤其是在工业领域,将TinyML整合为一种良好且自然的解决方案可能比想象中更具挑战性。
由于TinyML应用多元性和高度定制化需求,仅仅依靠原厂完成所有开发是困难的。对具体应用场域的深刻理解(Know-how),是推动TinyM 落地的关键。这些领域知识通常掌握在电子行业之外的专业人士手中,且因地域不同而千差万别。因此,提供开源平台变得尤为重要。
目前,TinyML的先驱SensiML已经开源了自己的工具。SensiML Analytics Toolkit 提供了一个端到端的开发平台,涵盖数据收集、标记、算法和固件自动生成及测试,通过独特的数据收集和标记方法解决了人工智能项目中最常见的失败问题。SensiML提供了最全面的功能,从简单的点选式用户界面模型创建到模型构建和测试工作流的完整流水线控制。
对于MCU来说,有些场景需要实现的功能非常简单,AI也许并非一个必选项,这或许会是TinyML的瓶颈之一。此外,让MCU开发人员掌握各种AI技能,也会是一个挑战,相关人才的建设也需要很久的时间。
不过,市场趋势就在这里,也许过些年,这些问题会随着开发工具和算法不断迭代,迎刃而解。