技术文章

当前位置：首页技术文章条件自动驾驶下基于对齐注意力多模态融合的驾驶员认知负荷估计

条件自动驾驶下基于对齐注意力多模态融合的驾驶员认知负荷估计

更新日期：2026-06-08

点击次数：599

本文所分享的论文，其通讯作者为香港科技大学（广州）贺登博老师，如需了解更多研究动态或实验室信息，访问实验室：HIS Lab - Homepage

文末有原文分享！

标题：Driver cognitive load estimation in conditional driving with aligned attention-enabled multimodal fusion（条件自动驾驶下基于对齐注意力多模态融合的驾驶员认知负荷估计）

作者：Ange Wang，Haohan Yang，Jiyao Wang，Hai Yang，Dengbo He（通讯作者）

出版年份：2026

期刊名称：Transportation Research Part C（交通领域顶级期刊，JCRQ1/中科院1区）

卷期信息：183卷，105471

摘要：尽管自动驾驶在提升道路安全性方面展现出巨大潜力，但在有条件自动驾驶车辆中，驾驶员仍然承担着行车安全的责任，因此驾驶员状态依然对行车安全至关重要。虽然驾驶自动化可以降低驾驶员的任务负荷，但他们仍可能经历较高的认知负荷，从而削弱接管性能。然而，现有的认知负荷估计算法主要针对非自动驾驶车辆设计，在有条件自动驾驶车辆中可能不再适用，原因在于驾驶员的职责差异以及某些指标的不可获得性（例如，驾驶员未操控车辆时，驾驶行为指标缺失）。此外，现有的驾驶员认知负荷算法很少考虑将输入特征中的空间信息与时间信息进行融合。

为此，我们提出了一种对齐注意力Transformer网络，该网络将多流Transformer网络与对齐注意力机制相结合，用于估计有条件自动驾驶车辆中驾驶员的认知负荷。该算法融合了可在车内以非侵入方式测量的生理信号，即心电信号（ECG）、皮电信号（EDA）、呼吸信号（RESP）。为了验证算法的有效性，我们在一个欧洲公开数据集的基础上，进一步构建了中国驾驶员数据集，其中包含42名驾驶员在执行多种认知任务（记忆、计算和空间任务）时的数据。结果表明，无论是在被试内验证还是被试间验证的数据划分下，本文算法均优于当前先进的驾驶员认知负荷估计算法。此外，消融实验验证了算法的鲁棒性以及各网络模块的有效性。本研究可为非自动驾驶车辆及条件自动驾驶车辆中的驾驶员状态监测系统设计提供指导。

研究背景

自动驾驶虽有望提升道路安全，但SAE L3级条件自动驾驶下，驾驶员仍需对行车安全负最终责任，驾驶员状态直接决定接管安全。

现有研究存在两大核心缺口：

绝大多数认知负荷估计算法针对非自动驾驶车辆设计，无法适配L3级场景（驾驶员无需持续控车，传统驾驶绩效、眼动指标存在局限性）；
现有算法大多依赖手工提取生理特征，忽略生理信号的时空依赖关系，存在信息损失、泛化性差的问题。

本研究旨在填补上述空白，提出适配L3级自动驾驶的认知负荷估计算法，验证其精度与鲁棒性。

图1 拟议的CogFormer系统用于驾驶员认知负荷检测的概述

理论基础

认知负荷理论：认知负荷是个体完成任务时所需的信息处理容量与认知资源，高认知负荷会导致驾驶员反应延迟、风险感知能力下降，严重损害自动驾驶接管性能。
多模态融合理论：多生理信号（心电、皮电、呼吸）可从不同维度反映自主神经活动，相比单一信号，能更全面、精准地表征驾驶员认知负荷水平。
Transformer注意力机制理论：自注意力机制可有效捕捉时序信号的长距离依赖关系，对齐注意力可实现多模态信号的有效融合，解决传统模型时空信息利用不足的问题。

研究假设

假设1：本研究提出的CogFormer模型，在L3级条件自动驾驶场景下，驾驶员认知负荷估计的准确率、F1分数、AUC指标，显著优于现有主流基线模型。
假设2：ECG、EDA、RESP三类生理信号的全量融合，相比单一信号、双信号组合，能显著提升模型的认知负荷估计性能。
假设3：多流Transformer编码模块、对齐注意力模块，是CogFormer模型的核心贡献模块，剔除任一模块都会导致模型性能显著下降。
假设4：CogFormer模型在数据缺失、噪声干扰的真实场景下，鲁棒性显著优于现有主流基线模型。

实验方法

参与者：两个数据集合计130名有效参与者，其中自建CAM-CLD数据集42名中国驾驶员，公开MADT-D数据集88名欧洲驾驶员。

实验设计：采用3（接管场景）×7（认知任务类型）的被试内设计，通过拉丁方设计平衡场景与任务的顺序效应，合计21种实验条件，每种条件2名受试者。

图2 场景流程

模型架构：提出CogFormer对齐注意力Transformer网络，采用多流Transformer编码结构，分别对ECG、EDA、RESP信号做特征提取，通过对齐注意力机制在决策层完成多模态融合，最终输出认知负荷等级分类结果。

数据采集：通过专业传感器采集100Hz采样率的ECG、EDA、RESP原始生理信号，同步采集驾驶行为数据与主观量表评分。

图3 驱动平台的设备(a)及生理传感器的放置位置(b)。

测量工具：采用NASA-TLX任务负荷指数量表、KSS嗜睡量表做认知负荷主观标注；设置3类认知任务（n-back、数学计算、空间认知）构建不同等级的认知负荷；采用准确率、F1分数、AUC作为模型性能评估指标。

图4 (a) n-back任务、(b) 数学任务以及(c) 认知空间任务。

验证方案：采用被试内5折交叉验证、被试间留一法交叉验证两种方案；设置6种主流基线模型做对比；通过消融实验验证核心模块的有效性；通过噪声/缺失数据测试验证模型鲁棒性。

使用设备

紧凑型驾驶模拟器

固定基座驾驶模拟器 + 三联屏显示系统 + 驾驶仿真软件（Silab 7.1），用于搭建 L3 级自动驾驶场景、发出接管指令、记录驾驶行为。

Physiolab多导生理仪

采集驾驶员的ECG、EDA、RESP数据。

Dikablis 3头戴式眼动仪

记录驾驶员在条件自动驾驶过程中的眼动行为数据。

HRT人类行为研究平台

将ECG、EDA、RESP生理信号与眼动注视轨迹在统一的时间轴上完成精准对齐，同时接入驾驶模拟器的车辆状态数据，实现“生理—视觉—驾驶行为"三模态数据的联合采集。

核心结果

1.模型精度：本研究提出的CogFormer模型，被试内验证最高准确率达95.28%，被试间验证最高准确率达66.59%，两项核心指标均全面优于所有参比基线模型。

图5 采用不同时间范围的被试内数据划分方案所得混淆矩阵：(a) MADT -D：数学任务；(b)CAM- CLD ：认知空间任务；(c)CAM- CLD ：数学任务；(d)CAM- CLD ：N-back任务。

图6 采用不同时间范围的跨被试数据划分方案所得混淆矩阵：(a) MADT -D：数学任务；(b)CAM- CLD ：认知空间任务；(c)CAM- CLD ：数学任务；(d)CAM- CLD ：N-back任务。

2.多模态融合效能：ECG、EDA、RESP三类生理信号全量融合方案，其识别精度显著优于单一信号及任意双信号组合，充分验证了多模态互补融合的核心价值。

图7 CogFormer在不同生理信号组合与时间范围下的预测精度：(a) MADT -D：数学任务；(b)CAM- CLD ：认知空间任务；(c)CAM- CLD ：数学任务；(d)CAM- CLD ：N-back任务。

3.场景鲁棒性：在20%数据缺失叠加高斯噪声的混合干扰场景下，模型精度降幅显著低于同期基线模型，具备更强的真实场景抗干扰能力。

4.行业共性瓶颈：所有参比模型均出现被试间泛化性能大幅下滑的现象，验证了个体生理差异是当前驾驶员认知负荷估计领域亟待突破的核心技术难题。

讨论与结论

核心结论：本研究提出的CogFormer模型，可有效适配SAEL3级条件自动驾驶场景，无需复杂的人工特征提取，仅通过原始生理信号即可实现高精度、高鲁棒性的驾驶员认知负荷估计，为自动驾驶驾驶员状态监测系统的设计提供了核心技术支撑。
研究局限：模型未区分认知负荷的来源；被试间泛化能力仍有不足；未针对接管前瞬时的认知负荷做高精度监测。
未来方向：融合驾驶员视觉行为、交通上下文信息优化模型；设计适配个体差异的泛化算法；拓展接管过程中的认知负荷实时估计研究。

论文中涉及的专业术语列表

原文下载

扫描上方二维码获取