王东
Published on 2025-03-02 / 4 Visits

【AI100问(129)】如何评价语音安防产品?

随着人工智能技术的不断进步,“语音安防”逐渐走进了公众视野。所谓语音安防,是指利用人的声音进行智能预警的技术。举例来说,独居在家的老人在摔倒时往往面临极大的风险。如果机器能够通过识别老人的声音来触发呼救,这将挽救老人的生命。此外,中小学霸凌现象会给孩子的成长带来心理和身体上的巨大伤害,如果在霸凌现场有语音呼救设备,那么受到欺负的孩子就不会感到无助。对于商场、饭店、KTV、酒店等场所,如果装有语音呼救装置,当意外事件发生时,将极大提高救助部门的响应速度。

国内某公司的老人安防智能语音报警器


与传统视觉安防技术相比,声音在检测突发事件方面更加灵敏,没有方向的限制,对隐私的泄露也更少。此外,声音还可以与摄像头联动,进一步提高安防预警能力。

然而,许多人并不清楚该如何选择适用的安防产品。实际上,要评价一款安防产品的性能,需要综合考虑两个关键指标:一个指标称为召回率,或叫检出率,是指当异常事件确实发生时及时报警的概率;另一个指标称为误报率,是指在没有异常事件发生时,设备错误地触发报警的概率。

显然,这两个指标都非常重要。如果召回率不合格,那么在危险发生时无法及时预警,安防产品就失去了意义。如果误报率不合格,时不时让人虚惊一场,几次之后就没人把它当回事了。尴尬的是,这两个指标是互相矛盾的两兄弟:要提高召回率,捕捉到更多异常事件,就需要降低检测的门槛,但这必然会带来误报率的增大。

面对召回率和误报率的矛盾,应该如何选择合适的安防产品呢?


通常来说,我们可以首先选定一个可接受的召回率,然后比较不同安防产品的误报率。误报率越低,说明产品越出色。根据目前的技术水平,对于一般办公和家居场景,在95%的召回率下,每72小时一次误报就算是不错的系统了。然而,在实际安防场景中,背景噪音大、人声混杂,这会显著增大事件检测的难度和发生误报的可能。

误报就好比是“狼来了”寓言故事中的情节

值得说明的是,安防场景的特点在于异常事件发生的概率极低,但危害极大。这意味着一方面不能漏掉任何事件,另一方面必须把误报率控制在极低的范围内,至少要与异常事件发生的概率相当。否则,报警装置就会像那个喊“狼来了”的小男孩,误报几次后就会被人弃之不用。传统基于语音识别的检测方法很难达到这样的精度,因此需要研究新的算法和策略。


By:清华大学  王东