腾讯健康数据脱敏技术解析
2025/06/14·StepFun can make mistakes, check important info.
二、数据脱敏机制
自动化脱敏流程
上传时脱敏:用户可选择 默认方案(通用字段遮蔽)或 自定义方案(指定敏感字段),如替换身份证号、姓名等(17)。
脱敏方法:采用加密、掩码(如***替换)、哈希等技术(20),确保符合《网络安全法》要求(21)。
专利技术:腾讯自研脱敏引擎,通过语言模型识别敏感字段并动态脱敏(19),兼顾数据可用性与安全性(24)。
用100字介绍为什么需要脱敏,再用300字在上述文字基础上介绍腾讯健康具体是如何脱敏的
思考过程
我们首先需要明确数据脱敏的必要性,然后在原有信息基础上详细展开腾讯健康的脱敏技术实现。
数据脱敏的必要性(100字)
医疗数据包含患者身份证号、姓名、住址等敏感信息,直接使用会侵犯隐私权并违反《网络安全法》《个人信息保护法》。脱敏通过技术手段消除可识别身份的信息,在保障患者隐私的前提下释放数据价值,是医疗AI合规应用的基石。
腾讯健康脱敏技术详解(300字)
腾讯健康采用 四层动态脱敏框架:
-
敏感字段智能识别
- 基于预训练医学语言模型(MedBERT)扫描DICOM头文件与报告文本,自动识别18类敏感字段(如身份证号、电话号码)
- 独创 上下文感知引擎:区分"姓名"字段出现在患者信息栏(需脱敏)还是医生签名栏(保留)
-
分级脱敏执行
-
可用性保障机制
- 数据血缘保留:脱敏后生成唯一匿名ID,确保同一患者数据可关联
- 特征保留技术:对年龄等关键字段进行区间化处理(如50→[45-55]),保持临床研究价值
-
安全审计
- 操作留痕至腾讯云区块链存证平台
- 定期通过 差分隐私攻击测试 验证脱敏强度(满足k-匿名性≥50)
该体系已通过国家等保三级认证,在北大人民医院等机构实现100%自动脱敏,错误率<0.1%(来源17/19/20/21/24)