在人工智能迅速发展的时代,人体动作识别技术正成为安全监控、视频检索、人机交互以及自主导航等领域的重要支撑。然而,现有基于视频序列的方法仍然面临复杂挑战,例如背景杂乱、部分遮挡、尺度或视角变化,以及光照和外观的差异。当前,长短期记忆网络凭借其循环结构,在处理时间序列的复杂动作数据方面展现出优势,但也存在依赖海量数据、训练耗时耗能等局限。相比之下,人类视觉系统展现了更高效的解决方案:依靠视网膜中光感受器、双极细胞和神经节细胞的协同工作,它能够实时完成图像增强与分类。这种天然的功能互补,使得人类视觉系统能够在动态与静态、模糊与清晰的多样环境中保持卓越的感知与适应能力。这种受生物启发的多功能视觉信息处理策略,正在成为研发高效人工视觉系统的重要灵感来源。
本文亮点:
新型器件结构设计:研究团队提出并成功制备了一种基于 GaN/AlN 的超薄量子盘-纳米线类神经突触传感器,开拓了人工视觉硬件的新方案。
电压可调的多功能集成:通过电压调控,器件可在“短程”与“长程”两种工作模式之间切换,分别实现图像增强和高鲁棒性的储备池计算功能。
高效的人工视觉系统:在此基础上,研究团队构建了一个融合多功能的人工视觉感知和类神经传感系统,并对人体动作识别任务中取得了显著性能提升。
内容简介:
中国科学技术大学微电子学院iGaN实验室孙海定教授团队提出并实现了一种多功能仿生视觉神经传感器。该器件由氮化镓/氮化铝(GaN/AlN)超薄量子盘-纳米线(QD-NW)构成,具备可重构的光电特性,能够模拟生物细胞的多种视觉响应行为。研究团队设计的纳米线结构包含底层 n-GaN 层、GaN/AlN 多量子阱以及顶层 n-GaN层,形成了 n-i-n 型能带结构。这种设计既抑制了光生电子与空穴的分离,又利用 AlN 量子垒实现了载流子的有效约束,利于产生双模态的持续光电流(PPC)。此外,每个量子盘中仅有单层或双层 GaN,显著增强了量子限制斯塔克效应与自发极化强度,使得波函数重叠和非平衡载流子复合概率可控,从而实现了PPC在“长程模式”和“短程模式”之间的电压可调。在“长程”模式下,器件可用于图像传感与预处理;在“短程”模式下,研究团队构建了基于 QD-NWs 的储备池计算(RC)系统,显著提升了人体动作识别的准确率——从 51.4% 提升至 81.4%。该项工作展示了基于QD-NW的仿生视觉传感器在集成化与高性能人工视觉系统开发中的巨大潜力,为下一代紧凑型、低功耗、智能化视觉器件提供了全新思路。
图文导读:
人类视觉系统是一套高度层级化的结构,由视网膜、视神经和视觉皮层等部分共同构成(图 1a)。视觉信息首先由感光细胞捕获,随后在双极细胞、神经节细胞等协作下完成初步处理,从而实现高效的视觉感知。其中,神经节细胞根据功能差异可分为两类:大细胞(Magno)与小细胞(Parvo)。大细胞体积较大、响应速度快,主要负责运动检测;小细胞体积较小、反应较慢,却在低对比度环境下表现突出。这种分工协作的特性,使人类视觉能够兼顾图像细节和运动分类,同时保持高效低耗的计算模式。受这一生物学启发,研究团队开发了一种基于GaN纳米线的仿生视觉传感器。凭借电压可调的光电响应特性,该器件能够在两种模式下工作:
“长程模式”:适用于图像传感和传感器内的预处理(图 1b);
“短程模式”:适用于构建储备池计算系统,实现高性能的人体动作识别(图 1c)。
这种双模态的光学响应行为,与生物视觉系统的功能分化高度一致,启发团队构建出一个功能融合的高性能人工视觉系统,并在人体动作分类中表现出卓越性能。
图 1 人类视觉系统及基于纳米线的类脑视觉器件示意图。(a) 人类视觉系统示意图;(b) 器件在负偏压下工作,对应长程模式,实现图像感知与内部预处理;(c) 器件在正偏压下工作,对应短程模式,用于储备池计算和动态动作分类。
研究团队首先利用扫描透射电镜对GaN/AlN QD-NWs的微观结构进行了验证,结果显示纳米线多层结构清晰可辨(图2a-2c)。随后,器件的整体结构示意图(图2d)以及能带仿真结果(图2e-2f)进一步揭示了其能带结构和电子空穴在GaN量子阱中的局域化效应。基于此,研究人员构建了垂直结构的光电传感器,并在254 nm深紫外光照下测试其性能,结果显示器件在外加偏压下产生稳定的光电流,而在光源关闭后电流并未立即消失,而是呈现出缓慢衰减的持续光电流(图2g)。结合能带示意图的物理分析(图2h),这一现象可归因于光生载流子在外电场驱动下被分离,并因AlN势垒的存在而被有效束缚在GaN量子阱中,从而导致电流延迟衰减。整体来看,该纳米线器件不仅展现了优异的深紫外光响应性能,还模拟了生物突触中类似的“记忆效应”,为后续构建仿生人工视觉系统奠定了基础。
图2 纳米线结构及器件特性示意图。(a) 单根纳米线的 HAADF-STEM 图像;(b) 纳米线局部放大图;(c) GaN/AlN量子阱结构原子像;(d) 基于纳米线的垂直结构光电器件结构示意图,电极尺寸为 200×200 μm²;(e) 纳米线能带结构;(f) 量子阱区域能带结构;(g) 254 nm 紫外光照下观察到的持续光电流;(h) (I) 在正偏压及 254 nm光照下的光生电流产生机制;(II) 光照后载流子输运机制示意图。
在负偏压下,外加电场与QD-NW器件的极化场方向一致,加剧能带倾斜,降低量子阱中的电子和空穴波重叠程度,因而降低了电子和空穴的复合几率,延长光生载流子寿命,从而产生长时程的持续光电流(图3a-3c)。基于这样的特性,研究团队构建了一个由 8×8的QD-NW器件阵列。通过调控光强,器件能够有效调节光电流衰减速度,从而实现输入图像的对比度增强。例如,当将字母“G”的光掩膜图案投射到传感器阵列上时,器件在长时间衰减后能够显著抑制背景噪声字母“A”和“N”,从而凸显目标图案(图3d-3f)。采用简单的神经网络(图3g)对图像增强效果的评估,经过传感器增强后的图像识别精度上实现了显著提升,从 71.6% 提高至 91.4%(图3i)。这一结果充分表明,纳米线传感器不仅能够模拟生物视觉系统中的长期记忆和突触可塑性,还能在图像识别中发挥强大的预处理与增强作用,为智能视觉感知系统的开发带来巨大潜力。
图 3 基于长程模式的图像增强功能。(a) 负偏压下QD-NW器件工作模式示意,对光照作缓慢响应,对应 Parvo 细胞行为;(b) 负偏压下量子阱的能带结构示意,电子空穴波函数重叠程度减少;(c) 器件在负偏压和254 nm光照下观察到的长程 PPC 行为;(d) 输入图像示意,包括主要字母和噪声字母叠加形成模糊图像;(e) 纳米线内部预处理后图像,字母 “G” 明显增强;(f) 不同光强引起的电流衰减特性及对比度随时间增加;(g) 构建的人工神经网络示意,用于图像识别;(h) 图像增强前(SNR=1/0.3)和增强后(SNR=1/0.15)对比;(i) 图像经预处理前后的识别准确率。
当器件处于正偏压时,器件表现出快速光响应特性。外加电场方向与极化场相反,削弱了极化场作用,增加了电子与空穴的波函数重叠并加速了非平衡载流子的复合,形成了短程PPC(图4a-4c)。基于这一短程模式响应,研究团队进一步构建了高鲁棒性的RC系统。该系统以器件的4-bits 编码能力为核心,以“奔跑”动作为例,连续的4帧视频被映射为按时间序列输入的光脉冲信号,其中每个像素点的二值化结果被转化为4位光脉冲序列并注入储备池阵列(图4d-4f)。在动作识别任务中,QD-NW 储备池能够有效捕捉时空特征,在仅经过20轮训练后,“奔跑”动作的识别率即可达到95%(图4h)。这一结果证明,基于QD-NW构建的RC系统不仅具备可调易失性记忆和非线性动力学读出特性,还能够在硬件层面实现高效的人体动作识别,为新一代类脑人工视觉系统的发展提供了重要突破。
图 4 基于短程模式的QD-NW RC系统用于人体动作分类。(a) 正偏压下传感器示意,对光照快速响应,对应 Magno 细胞行为;(b) 正偏压下极化减弱,波函数重叠增加;(c) 纳米线器件在正偏压和254 nm光照下的短程 PPC 行为;(d) 视频分类任务输入的 4 帧光脉冲编码示意;(e) 四组代表性输入 “1100”“0110”“1110”“1111” 的光电响应特性及特征提取;(f) 16 组光脉冲输入产生的读出电流;(g) “wave1” 和 “run” 动作的储备池输出示意;(h) 构建的储备池系统训练与验证识别准确率;(i) 10 种动作识别准确度。
为了展示QD-NW传感器在复杂环境中人体动作识别的潜力,研究团队构建了集短程模式储备池计算和长程模式图像增强于一体的多功能集成芯片(图5a-5c)。在图像处理过程中,短程模式首先对输入光信号进行快速特征提取并转化为持续光电流,随后通过长期模式实现图像增强,有效提高目标像素与背景的对比度,从而显著降低噪声干扰(图5d-5e)。进一步测试表明,即使在噪声比达到50%的情况下,RC系统仍能保持超过90%的识别准确率(图5f-5h),展示出优异的鲁棒性。最终,在融合两种模式后,系统在带噪人体动作识别任务中的精度从51.4%提升至81.4%(图5i)。这表明,基于QD-NW的多功能集成传感器能够实现高效、精准的动作分类,为下一代类脑人工视觉系统提供了强有力的硬件支持。
图 5 双模式整合及高鲁棒性人工视觉系统增强识别准确率。(a) QD-NW 传感器阵列捕获的时间序列图像帧示意;(b) QD-NW传感器阵列概念示意图;(c) 传感器系统电路示意;(d) 输入视频 SNR=1/0.3 时提取的 “wave2” 动作;(e) 输入视频 SNR=1/0.15 时提取的 “wave2” 动作;(f) RC系统在不同高斯噪声率(0和0.5)下的 “bend” 动作读出电流示意;(g) 不同噪声率下器件输出的验证准确率;(h) 10种动作识别准确率与噪声率关系;(i) 噪声下识别准确率对比。
总之,本工作受神经元“线条式”结构及神经元工作原理启发,构建了基于氮化镓纳米线结构的仿生视觉传感器,模拟了生物突触中类似的“记忆效应”。该氮化镓基仿生传感器不仅能够模拟生物视觉系统中的长期记忆和突触可塑性,还能在图像识别中发挥强大的预处理与增强作用,最终实现高效、精准的动作分类。
更进一步,未来我们可以通过利用氮化物半导体材料优越的能带连续可调性 (通过掺铟或铝即可覆盖对整个从深紫外到近红外全波段的光谱响应)构建宽光谱仿生器件。因此,本工作展示了氮化镓基新型器件架构在集成化与高性能仿生人工视觉系统开发中的重要潜力,为下一代紧凑型、低功耗、智能化视觉器件提供了全新思路和硬件基础。
此项研究工作得到了国家自然科学基金等项目资助,并获得了中国科学技术大学微电子学院、微纳研究与制造中心、物理科学实验中心的大力支持。微电子学院高志祥博士生和余华斌博士后,以及新加坡ASTAR巨鑫博士为论文共同第一作者,闫勇副研究员和孙海定教授为论文共同通讯作者。
发表的论文链接:https://doi.org/10.1007/s40820-025-01888-w
Zhixiang Gao, Haiding Sun et al., Ultrathin Gallium Nitride Quantum-Disk-in-Nanowire-Enabled Reconfigurable Bioinspired Sensor for High-Accuracy Human Action Recognition, Nano-Micro Letters 18, 54 (2026)