大幅度修改后的内容:

编辑 | GACS

9月14-15日,由全球人工智能芯片峰会(GACS 2023)在深圳市南山区成功举办。大会第二日,诺磊科技创始人兼首席执行官Raymond Wu在“高能效AI芯片”专场发表了题为《感算一体AI光谱分析芯片阵列技术解析》的主题演讲。

诺磊科技推出了“Eye with Brain”感算一体AI光谱分析芯片阵列技术,将光学成像、人工智能算法和微控制器(MCU)集成到单一芯片中,实现了“1个眼睛照顾8个大脑”,并支持多光谱检测与分析。

Raymond Wu指出,诺磊科技的首款量产芯片NB1001采用了110纳米工艺,并结合了晶圆级光学(WLO)技术,将光学元件整合到芯片上,构成类似麦克风阵列的光谱检测阵列。

Raymond Wu还对比了传统成像解决方案CCD和CIS。他认为,虽然CCD曾经占主导地位,但由于体积大、成本高、功耗高和落地难等问题,逐渐被CIS取代。他认为,目前人工智能应用面临着与CCD类似的挑战,高算力并非万能解决方案,不同场景的应用需要适应性的算力水平,过分追求算力会限制应用范围。

以下为Raymond Wu的演讲实录节选:

大家好,我叫Raymond。我今天将分享一个市场应用的发展方向,预计至少在未来三四十年内不会发生改变。

我将以CMOS图像传感器(CIS)为例。我在1995年创立了豪威科技,并创造了“CIS”这个名称。

CIS的出现解决了CCD的一系列问题,包括体积大、成本高、功耗大和落地难。CIS的诞生开启了一段长达15年的替代过程,到2005年左右,CCD逐渐淡出了市场,CIS占据了主导地位。

如今,人工智能应用面临着类似于CCD的问题:功耗大、体积大、成本高、落地难。追求高算力不是解决所有应用问题的唯一途径。

人工智能应用所需算力取决于具体应用场景。对于一些简单的应用,例如人脸识别和手势识别,过高的算力反而会造成浪费。

我们的首款量产芯片NB1001采用了110纳米工艺,仅提供0.3T的算力,但足以实现人眼追踪和手势识别等功能。我们的解析度为320×320,像素尺寸为3μm×3μm,Always on工作模式功耗仅为300mW,配备288K SRAM内存。这意味着,这颗芯片包含了所有必需的功能,无需任何外置芯片。

我们采用了一种截然不同的方式。我们把信息输入眼睛,即内置的光学元件。光学成像经由眼睛传送到芯片,芯片中集成了大脑、记忆、判断能力和算法,得出结果并输出,例如识别石头剪子布。与追求高算力的AI系统相比,我们以集成和低功耗为目标,在应用场景方面具有更大的灵活性。

其中 144k 适用于其内部操作。它的开发时间较短,因此功耗自然很低,而需求量则很大,因为它是最基本的物联网解决方案。就我们现在想到的,我们并不想重复任何动作,几乎这颗芯片都已帮我们完成了。

这与高算力有很大的不同,高算力面临的第一个问题是隐私问题,而由于我们没有存储整幅图像,因此隐私度非常高。芯片外部没有内存,开发成本也更低。

我们的公司是出售集成电路的,因此我们完全公布了我们的 SDK。无论任何人想要开发任何应用程序,还是想要使用我们的芯片,都可以来我们公司,我们会为你们提供一个 SDK,而且不收费,还会指导你们如何使用,目的在于我们出售的是集成电路。

我刚才讲的是非常简单的,接下来要讲的更为专业。由于(芯片)面积很小,我可以制作一个阵列,就像麦克风阵列一样,这是我们的光阵列,外面也有展示,大家等下可以去看,因为这是一个非常新的想法。

这颗芯片有一个优点,即它采用贴片级光学(WLO)。怎么实现的呢?众所周知,我们的集成电路是一片一片的,现在就是把一片 8 英寸镜头直接叠放在晶圆上,连续两片,相当于两片叠在一起,然后浇上胶水,切开,切完就是大家手中看到的东西。

所以它的生产变得非常快速,而且非常准确,它不再需要调焦,因为上面有眼睛,但需要镜头,镜头需要调焦,使用这种方法就不需要调焦了,只要拿来后,将其安装到板上即可使用,镜头也包含在内。这是一个预估,这是一个最快最好最准确的解决方案。

这是黑白的,大家不要把它当成高分辨率的照片,它是一种机器识别,一般来说,机器识别的分辨率不需要达到 4000 万像素或 1000 万像素,320×320 已解决了 60%、70% 的物联网应用。

大家可以看一下,人眼能做到的,我们的集成电路都可以做到。所以最下面这一行,它就是人眼的延伸,所以它能够执行引导、检测、测量、识别,这四项功能完全在一个集成电路中实现。

我们的公司给它取名为“Eye with Brain”,我们现在人类的眼睛和大脑是分开的,所以一个大脑要照顾两个眼睛,英伟达的芯片是一个大脑要照顾 8 个眼睛,而我们是两个眼睛一个大脑,要是两个眼睛就有两个大脑,四个眼睛就是四个大脑,完全并行处理,每一个眼睛可以定义它,使其执行不同的任务,所以四个眼睛可以同时执行四个不同的任务。

每个眼睛都有它自己的大脑,它不需要 3T、5T,每个眼睛可能 1T 就足够了。需要五个眼睛就用 5T,要是需要 10 个眼睛就用 10T,它是分布式的,所以每个眼睛就是 1T。

这个图像阵列必须通过刚才的一个个小芯片来实现。我们现在做的是 2×3,即 6 颗。我凭什么可以做到 6 颗,第一个是我们单颗集成电路,在自然风室温下的集成电路温度只有 40 度,因为它 0.3W 的关系,所以它的整颗集成电路温度只有 40 度。也因为这样,我才有办法做成 2×3,因为它不会很热,所以加起来的温度散热仍然可以达到 40 度的平均温度。

2×3 的并行能力、运算能力,现在不是单一芯片的高算力了,而是现在有 6 颗普通算力的加在一起用,所以它可以执行海量的图像数据的并行处理。第二,它的可扩展性很高,采用模块式的设计。

诺磊 NB100X 系列中的 2×3 阵列有 6 颗(小芯片),大家看到为什么 18mm,因为一颗是 6mm,3 颗就是 18mm,它的宽度是 4mm,所以两颗就是 8mm,所以这边有 6 颗,所以六个大脑六个眼睛放在一起。假如说其中一颗坏了,另外一颗可以取代,所以说不用怕坏了以后整个系统就坏了。

功耗也可控,为什么?因为这六颗随时可以关掉一颗两颗,用的时候再开,所以非常好控制。

热管理对我们来说非常容易,我们的应用绝对不需要风扇或水冷,就是一般的温度就可以了。结构很规整,大家看得到,这个是在晶圆上的,它不是在 PC 板上焊在一起的,是晶圆上就连在一起的。

可以看一下 2×2 阵列,所以我们测试也很快,这四颗在一个测试板上就可以测试完了。设计也可以重复利用。

这是 3×3 的阵列也一样,因为我们是在晶圆上,所以它的平整度非常高,晶圆平整度绝对是世界上最高的。而且它的间距绝对不会变,它的间距一致性比在 PCB 板上的一致性好。

还有 4×1 的阵列,制造简单,材料利用率高,这方面都实现了。这也是一些它的优点:封装、良率可以提高。

我现在讲一下结论:上面的是单颗芯片的集成电路,下面是经过集成电路

除了基本的应用外,该技术还可以用于创建光谱矩阵。由于人类拥有立体视觉(两眼),增加眼睛数量可以增强立体感。鉴于该技术的应用于光谱,该系统可以采用不同的镜头角度;它可以使用不同的光谱;第三,它可以用于多种应用场景,例如医疗保健、环境监测和自然生态。

光谱技术还可以应用于调光、图像增强和增强现实等领域。前面提到的单颗镜头可以放置在 VR 设备中。接下来,我将展示一段视频。这是我们实际放置在眼镜中的镜头,它可以追踪眼球运动。这是眨眼,然后看向另一侧。无论眼球转动得多快,该系统都可以跟上动作。它不需要高算力,对于 IC 来说,这很容易实现。

现场是否有问题?如果没有问题,请到我后面的展台参观。虽然我不能说它是黑科技,但这些技术确实普通得可以,只是大家没有了解过。谢谢大家!