24小时服务热线:
19166259418
当前位置 : 主页 > 方案应用 > 汽车电子 >

汽车流媒体后视镜语音控制方案

发布时间:2025-08-02 | 点击次数:0

  现在的很多新车都直接内置了行车记录仪,但是目前老车的保有量依然庞大,所以流媒体后视镜的市场需求还在,因为还是有不少用户喜欢使用这种流媒体后视镜会选择自费把车内后视镜更换成这种流媒体后视镜,下面就来说一说汽车流媒体后视镜语音控制方案。

流媒体后视镜


  (一)WTK6900高性能内核与存储


  内核性能:采用高性能 32 位内核,主频可达 240MHz ,并支持硬件浮点运算。强大的内核处理能力确保了在复杂的汽车环境下,能够快速、高效地处理语音信号,实现语音识别的高实时性。例如,在车辆行驶过程中,周围存在发动机噪音、风噪以及其他环境噪声,WTK6900 芯片的高性能内核能够在短时间内对采集到的语音信号进行分析和处理,准确识别驾驶者的指令。


  存储能力:内置 1MB SPI FLASH,可用于存储语音识别模型、指令词库以及相关配置信息。这使得芯片在离线状态下也能够独立完成语音识别任务,无需依赖网络连接,避免了因网络不稳定或信号中断导致的语音控制失效,保障了在各种环境下都能稳定运行。


  (二)先进的 AI 算法


  离线语音识别:运用最新的神经网络算法,识别精准,误判率低。在汽车行驶的不同场景中,如城市拥堵路段、高速公路等,都能准确识别驾驶者的语音指令。以在嘈杂的城市街道为例,WTK6900 芯片能够有效过滤掉周围车辆的鸣笛声、人群的嘈杂声等干扰,准确识别驾驶者发出的如 “打开流媒体后视镜夜间模式”“调整后视镜亮度” 等指令,识别准确率高达 95% 以上。


  语音降噪算法:具备先进的语音降噪算法,能够过滤掉稳态噪声,如发动机持续运转产生的噪音,同时对动态噪声,如急刹车时产生的尖锐噪音也有很好的抑制作用。即使在噪音环境下,也可准确识别语音指令,大大提高了语音识别的可靠性。通过实际测试,在 80dB 的噪音环境中,芯片依然能够准确识别语音指令,确保驾驶者的操作能够被及时响应。


  音频解码:支持 MP3、WAV 音频解码,这为在流媒体后视镜上实现语音提示、导航语音播报等功能提供了基础。例如,当驾驶者在使用导航功能时,WTK6900 芯片能够将导航软件发出的语音指令进行解码,并通过车载扬声器清晰地播放出来,为驾驶者提供准确的导航指引。


  (三)音频处理能力


  DAC 与 ADC 性能:拥有两通道 16 位 DAC,信噪比 SNR>=95dB,能够输出高质量的音频信号,确保语音提示、导航语音等声音清晰、自然。单通道 16 位 ADC,SNR>=90dB,可精确采集语音信号,为语音识别提供可靠的数据来源。在实际应用中,驾驶者发出的语音指令能够被准确采集,经过芯片处理后输出的语音提示也能清晰地被驾驶者听到,提升了人机交互的体验。


  采样率支持:采样率支持 8KHz/11.025KHz/16KHz/22.05KHz/24KHz/32KHz/44.1KHz/48KHz ,可根据不同的应用场景和需求灵活选择合适的采样率,以达到最佳的音频处理效果。例如,在对语音识别精度要求较高的场景下,可以选择较高的采样率,而在对资源消耗较为敏感的情况下,则可以选择较低的采样率,保证系统在不同条件下都能稳定运行。


  DAC 输出方式:DAC 支持直推式输出,简化了音频输出电路的设计,降低了系统成本,同时提高了音频输出的稳定性和可靠性。在汽车流媒体后视镜的应用中,这种直推式输出方式能够更方便地与车载音频系统进行连接,实现语音的播放。


  (四)蓝牙功能


  蓝牙规范支持:符合蓝牙 V5.1 + BR + EDR + BLE 规范,能够与多种蓝牙设备进行连接和通信。在汽车场景中,可方便地与驾驶者的手机进行配对,实现音乐播放、电话接听等功能的语音控制。例如,驾驶者可以通过语音指令 “播放手机音乐”“接听电话” 等,WTK6900 芯片通过蓝牙连接手机,实现相应的操作,无需手动操作手机,提高了驾驶的安全性。


  传输功耗需求满足:满足 Class1、class2 和 class3 传输功耗需求,可根据实际应用场景选择合适的功耗模式,在保证通信质量的同时,有效降低功耗,延长设备的使用时间。在汽车流媒体后视镜的使用过程中,长时间的驾驶可能会导致设备电量消耗,WTK6900 芯片的这种可调节功耗模式能够根据实际情况,如车辆是否处于行驶状态、是否频繁使用蓝牙功能等,自动调整功耗,确保设备能够稳定运行。


  调制方式与 AGC:支持 GFSK 和 π/4 DQPSK 所有包装类型,快速 AGC 可增强动态范围,提高了蓝牙通信的抗干扰能力和信号质量。在复杂的汽车电磁环境中,能够稳定地与其他蓝牙设备进行通信,避免因信号干扰导致的通信中断或数据传输错误。


  (五)语音采集与预处理


  麦克风选择与布置:汽车流媒体后视镜通常会选择高灵敏度、抗噪性能好的麦克风,如驻极体麦克风。在布置上,会将麦克风放置在靠近驾驶者嘴部且能有效采集声音,同时又能尽量减少外界噪音干扰的位置。例如,将麦克风设置在后视镜的框架上,靠近驾驶者一侧,通过优化麦克风的朝向和角度,使其能够更好地捕捉驾驶者的语音信号,同时减少来自车窗、空调出风口等位置的噪音影响。


  语音信号采集:麦克风将驾驶者的语音信号转换为电信号,WTK6900 芯片的单通道 16 位 ADC 以设定的采样率对语音电信号进行采集,将其转换为数字信号。采样率的选择会根据实际应用场景和对语音识别精度的要求进行调整,如在较为安静的车内环境中,可选择较低的采样率以降低资源消耗;在嘈杂的环境中,则选择较高的采样率以提高语音识别的准确性。


  预处理算法:采集到的数字语音信号首先会经过预处理算法,包括去噪、滤波等操作。芯片内置的语音降噪算法会对采集到的语音信号进行处理,去除稳态噪声和动态噪声,如发动机噪音、风噪等。同时,通过滤波算法对语音信号进行频率调整,突出语音的特征频率,提高语音信号的质量,为后续的语音识别提供更可靠的数据。


  (六)语音识别过程


  特征提取:WTK6900 系列芯片通常提取包含 12 维 MFCC (梅尔频率倒谱系数)+ 能量 + 差分参数的特征向量。这些特征能够较好地表征语音的特性,如语音的频率特征、能量变化等,为后续的语音识别提供基础。通过对语音信号进行分帧、加窗等处理后,计算每一帧语音信号的 MFCC 等特征参数,形成特征向量序列,用于与预存的语音模板进行匹配。


  混合识别架构:采用混合识别架构,应用改进型 DTW (动态时间规整) 算法,计算测试模板与参考模板之间的距离,衡量语音的相似度。同时,部分芯片采用深度神经网络算法进行语音识别。在实际识别过程中,先通过改进型 DTW 算法进行初步筛选,快速排除明显不匹配的语音指令。然后,对于相似度较高的语音指令,再利用深度神经网络算法进行进一步的精确识别。这种混合识别架构结合了两种算法的优势,既提高了识别速度,又保证了识别的准确性,能够在复杂的汽车环境中准确识别驾驶者的语音指令。


  决策机制:将最近邻得分与阈值 θ1 进行比较,若得分大于阈值,则触发对应指令;否则进入拒识状态。通过这种方式来确定用户所说的语音是否与预设的指令词匹配,从而实现语音识别功能。例如,当驾驶者发出 “打开流媒体后视镜” 的语音指令后,芯片经过特征提取和识别算法计算得到最近邻得分,与预设的阈值进行比较,如果得分大于阈值,则判定该语音指令为 “打开流媒体后视镜”,并触发相应的指令输出;如果得分小于阈值,则认为该语音指令无法识别,不进行任何操作,等待驾驶者重新发出指令。


  (七)指令输出与后视镜控制


  通信接口连接:WTK6900 芯片识别出语音指令后,通过 UART 等通信接口将命令推送到汽车流媒体后视镜原有的上位机。UART 接口具有简单、可靠、传输距离适中的特点,能够满足芯片与上位机之间的数据传输需求。在连接过程中,需要对 UART 接口的参数,如波特率、数据位、停止位等进行正确配置,确保数据能够准确、稳定地传输。


  上位机控制操作:上位机接收到指令后,根据指令内容控制流媒体后视镜执行相应的动作。例如,当上位机接收到 “调节后视镜亮度增加” 的指令后,会控制后视镜的背光驱动电路,增加背光亮度,从而提高后视镜的显示效果;当接收到 “切换后视镜显示模式” 的指令后,会控制图像处理芯片,切换后视镜的显示模式,如从正常模式切换到夜间模式或倒车辅助模式等。


  (八)高识别率与抗噪性


  识别率保障:凭借先进的神经网络算法和自适应降噪技术,在汽车行驶的各种环境下都能保持高识别率。在车内正常噪音环境下,识别准确率可达 98% 以上;即使在较为嘈杂的环境中,如车辆经过建筑工地、在繁华的商业街行驶等,识别准确率也能稳定在 95% 左右。这使得驾驶者能够放心地使用语音控制功能,无需担心指令无法被正确识别。


  抗噪能力强:WTK6900 芯片的语音降噪算法能够有效过滤掉各种稳态和动态噪声,确保在复杂的汽车环境中准确识别语音指令。无论是发动机的持续轰鸣声、高速行驶时的风噪,还是车辆周围其他车辆的喇叭声、嘈杂的交通环境声,芯片都能将这些噪音对语音识别的影响降到最低,为驾驶者提供可靠的语音控制体验。


  (九)快速响应


  处理速度快:芯片内置的高性能 32 位内核以及优化的算法架构,使得从语音采集到指令执行的整个过程响应迅速。从驾驶者发出语音指令到流媒体后视镜执行相应动作,平均响应时间仅需 0.2 秒。例如,当驾驶者在行驶过程中需要快速调整后视镜亮度时,发出语音指令后,后视镜能够在极短的时间内完成亮度调整,不会让驾驶者感到明显的延迟,大大提高了操作的便捷性和流畅性。


  即时生效:快速的响应速度确保了用户命令即时生效,提升了用户体验。在驾驶过程中,时间就是安全,这种即时生效的特性能够让驾驶者更加专注于驾驶,无需等待设备的响应,减少了因操作设备而分散注意力的时间,提高了驾驶的安全性。


  (十)远场识别能力


  识别距离远:WTK6900FC 版本特别强化了远场识别能力,在汽车内 5 米范围内的识别率极高。即使驾驶者坐在驾驶座上,身体处于不同的姿势,甚至在车内有其他乘客说话、车内音乐播放等情况下,也能准确响应用户的语音命令。例如,当驾驶者靠在座椅上,与后视镜距离较远时,发出语音指令 “打开流媒体后视镜的导航指引”,芯片依然能够准确识别并执行相应操作。


  不受位置限制:远场识别能力使得驾驶者在车内的操作更加自由,不受与后视镜距离的限制。无论是身材高大的驾驶者,还是调整座椅到较为靠后的位置,都能轻松使用语音控制功能,无需像传统操作方式那样,必须靠近后视镜才能进行操作,为驾驶者提供了更加舒适、便捷的操作体验。


  (十一)多模态学习与自定义


  多模态学习方式:支持多模态学习方式,用户可通过物理按键、串口指令、语音命令或专用 APP 启动学习流程,实现命令词的自学习功能。例如,驾驶者可以通过语音命令 “学习新指令”,然后按照系统提示说出新的指令词以及对应的操作,芯片即可将新的指令词和操作关联起来,存储到指令词库中。这种多模态学习方式为用户提供了更加灵活的操作选择,满足不同用户的使用习惯。


  自定义指令丰富:可存储 100 多个自定义语音模板,还支持方言自适应学习,能灵活适应不同用户的语音指令需求。不同地区的驾驶者可能有不同的语言习惯和方言,WTK6900 芯片能够通过方言自适应学习,识别驾驶者的方言指令,如一些具有地方特色的语音指令 “把后视镜亮度调亮点儿”(某些地区方言表述)。同时,丰富的自定义指令功能,让驾驶者可以根据自己的需求,设置个性化的语音指令,如将 “开启流媒体后视镜的特殊功能” 自定义为一个简单易记的指令词,提高操作的便捷性。


  流媒体后视镜声音控制应用场景


  (一)日常驾驶操作


  显示模式切换:在日常驾驶过程中,驾驶者可以通过语音指令轻松切换流媒体后视镜的显示模式。例如,当白天阳光强烈时,驾驶者可以说 “切换到强光模式”,流媒体后视镜即可自动调整显示参数,增强画面的对比度和亮度,使驾驶者能够更清晰地观察后方路况;当夜晚行驶时,发出 “切换到夜间模式” 的指令,后视镜会降低屏幕亮度,避免强光对驾驶者眼睛的刺激,同时优化图像算法,提高夜间画面的清晰度。


  亮度与对比度调节:根据不同的光线条件和个人视觉需求,驾驶者可通过语音控制调节后视镜的亮度和对比度。比如在进入隧道时,驾驶者说出 “降低后视镜亮度”,后视镜会自动降低亮度,以适应隧道内较暗的光线环境;当驶出隧道后,又可以通过语音指令 “恢复后视镜正常亮度”,使后视镜恢复到适合正常光线条件的显示状态。对于一些对画面显示效果有特殊要求的驾驶者,还可以通过语音指令 “增加对比度” 或 “降低对比度”,对后视镜的显示对比度进行调整,以获得最佳的视觉体验。


  视角调整:如果驾驶者在驾驶过程中发现后视镜的视角不合适,无需手动调节,只需发出语音指令 “向上调整视角”“向下调整视角”“向左调整视角” 或 “向右调整视角”,流媒体后视镜即可通过电机驱动调整摄像头的角度,实现视角的精准调整,确保驾驶者能够全面、清晰地观察到后方车辆和路况信息。


  (二)导航与辅助功能


  导航指令输入:在使用导航功能时,驾驶者可以通过语音与流媒体后视镜进行交互,输入导航目的地。例如,驾驶者说 “导航到 [具体地址]”,WTK6900 芯片识别指令后,将信息传递给导航软件,导航软件即可规划前往目的地的路线,并在后视镜屏幕上显示导航指引信息。同时,驾驶者还可以通过语音指令 “查询沿途加油站”“查询附近停车场” 等,获取与导航相关的周边信息,方便驾驶过程中的规划和决策。

  倒车辅助功能控制:当车辆倒车时,流媒体后视镜会自动切换到倒车辅助模式。驾驶者可以通过语音指令控制倒车辅助功能的相关设置,如 “开启倒车轨迹线”“关闭倒车影像声音提示” 等。倒车轨迹线能够帮助驾驶者更准确地判断车辆的倒车方向和位置,而通过语音控制这些辅助功能,驾驶者在倒车过程中无需分心操作屏幕或按键,能够更加专注于观察后方情况,提高倒车的安全性。


  行车记录功能操作:流媒体后视镜通常具备行车记录功能,驾驶者可以通过语音指令对行车记录进行操作。比如,当发生交通事故或遇到特殊情况时,驾驶者可以立即说 “锁定当前行车记录”,芯片接收到指令后,会将当前的行车记录文件进行锁定,防止被后续的循环录制覆盖,以便后续查看和作为证据使用。驾驶者还可以通过语音指令 “查看历史行车记录”,在后视镜屏幕上查看之前录制的行车视频,方便回顾行程或查找特定事件。


  (三)特殊场景应用


  恶劣天气条件下的操作:在恶劣天气条件下,如暴雨、大雾、沙尘等,传统后视镜的视线会受到很大影响,而流媒体后视镜则具有明显优势。此时,驾驶者可以通过语音控制更好地利用流媒体后视镜的功能。例如,在暴雨天气中,驾驶者可以说 “开启后视镜雨雾模式”,后视镜会自动调整画面的色彩和对比度,增强雨水和雾气中物体的辨识度;在大雾天气中,发出 “增强后视镜图像清晰度” 的指令,芯片会通过图像处理算法,对采集到的图像进行优化,提高大雾环境下后方路况的可见性,帮助驾驶者安全驾驶。


  双手忙碌时的便捷操作:当驾驶者双手忙碌时,如手上拿着物品、正在操作其他设备等,无法通过手动操作流媒体后视镜。此时,语音控制功能就显得尤为重要。驾驶者可以通过语音指令完成各种操作,如 “接听电话”(当有来电时)、“打开音乐播放器”(如果流媒体后视镜集成了音乐播放功能)等,无需放下手中的物品或停止其他操作,即可实现对后视镜及相关功能的控制,提高了驾驶过程中的便捷性和安全性。

服务热线:19166259418     19166259418