数字化脱敏失败案例与业界最佳实践:如何确保敏感信息安全

数据安全,时机决定一切。


2020-09-03

什么是数据脱敏,数据脱敏何以重要?

在金融交易中,操作纰漏、敏感数据和不恰当的信息披露,都有可能导致交易延期,甚至会影响交易估值。

此外,侵犯数据隐私还可能招致巨额罚款,产生大量法律和诉讼费用支出,乃至损害商业信誉。

因此,在进行敏感信息共享时,交易团队应具备基本工具和相关知识,以便有效管控交易数据流,其中包括文档内信息和实体文档。

内容剔除,亦即脱敏,是共享交易文档前过滤相关敏感信息的操作。然而,事实上,引人瞩目的脱敏失败案例并不鲜见,由于对相关风险的理解不够深入,以错误方式进行脱敏的企业并非个例,最终往往将自身与客户置于风险之中。

本文将着重介绍常见的脱敏技术,展示如何利用最佳实践保护组织的信息安全,高效执行交易文档脱敏操作,从而协助企业降低成本、压缩重整和扭亏时间。

常见的脱敏方式

以往,交易团队通常使用剪刀、马克笔和油性笔,在纸质文档上进行脱敏操作。如今,大多数交易方均采用数字化方式,为脱敏流程加速增效。下面,本文将介绍几种常见的数字化脱敏技术,并分析其在交易安全、交易时间和交易成本方面的表现:

打印文档,人工标记筛查

不少交易团队在全面数字化和传统途径之间,选取折衷的方式进行脱敏操作,即打印文档、加以标记,人工筛查需剔除的敏感信息。此种方式不仅浪费纸张和林木资源,更重要的是容易造成混乱,产生重复性工作,尤其后期需重新披露部分已脱敏信息时,可谓成本高企而效率低下。另外,以肉眼在数以千计的段落中逐行检查敏感信息,需耗费大量时间且进展缓慢,结果可想而知。

拿来主义

部分交易团队采取数字化解决方案,利用文本搜索/选择等功能,自动筛查敏感字词。但是,他们惯于使用第三方工具执行上述操作,包括通过电子邮件进行脱敏协作。由于缺乏合理有序的协调和组织,此种方式容易导致信息零散,造成前后不一致,可能会带来文本混乱和迟延交付。相关交易文档在不同系统和应用程序间毫无限制地流转,交易团队难以追踪特定文档的最新版本,文档尚未适度脱敏即发送至不恰当的接收方,此种情形亦时有发生。

数据遮掩

线上工具和解决方案,因其易于获取和使用,颇得一些交易团队的青睐。但是,此类工具一般基于网页技术搭建,主要用于文档浏览和协作,往往不具备脱敏编辑和信息擦除功能。

于是,交易团队只能通过标注、图像或深色高亮对文本内容加以遮掩。在此种情形下,最佳的操作方式,是将被遮掩的文档转换为静态图像格式,移除文档内可选择/可搜索的内容,以位图方式彻底清理文档中的隐藏层。

但是,交易团队往往意识不到第二步操作的必要性,遑论以恰当的方式平整文档!如若不按上述步骤进行操作,他人可轻而易举地抽取底层被遮掩的信息, 由此导致的脱敏失败案例 ,在美国律师协会公布的清单中可见一斑。

特朗普前竞选团队主席兼顾问和游说代表马纳福特(Paul Manafort),因涉嫌税收和银行欺诈而被定罪的案例,即名列清单之中。此案例中,马纳福特的辩护律师即使用交互式PDF文档对敏感信息加以遮掩。2019年1月,负责跟进报道的媒体记者,仅通过将被遮掩文本复制粘贴至Notepad的方式,便轻而易举地提取到底层被遮掩的文本内容。

同样,据报道,美国政府最近在爱泼斯坦(Jeffrey Epstein)调查中发布的PDF报告, 也没有经过恰当的脱敏处理, 公众仅通过选择和复制/粘贴操作,底层被遮掩的信息即一览无余。

正确的脱敏方式

交易团队希望看到的,是在保护文档敏感信息的同时,保留诸如文本搜索/选择等交互功能,既提高脱敏流程的工作效率,又方便下游用户使用经脱敏处理的文档内容。

有鉴于此,许多团队不约而同地选择PDF文档进行脱敏操作,充分利用其交互和注释等功能,为整体脱敏流程提供支持,包括草稿模式下的文档校对和脱敏标注、用户讨论和脱敏审批,以及目标文档脱敏内容的最终清理和定稿。

PDFTron联手SS&C Intralinks,共同解决网页脱敏面临的痛点

然而,目前极少有工具支持基于网页的PDF脱敏操作。因此,Intralinks携手 PDFTron,一家领先的软件开发和文档技术解决方案提供商,将专业的网页脱敏功能直接植入Intralinks虚拟数据室(VDR)。

双方的合作,旨在通过集中并简化脱敏流程,解决传统脱敏方式常见的纰漏、迟延、重复工作及其他成本问题。

其中,我们着重想为交易团队解决的,是消除脱敏流程中的常见障碍,实现敏感词句的自动化检测和处理。

但是,由于PDF格式过于复杂,即便前沿的搜索技术亦难实现与PDF的全面兼容。令许多人感到惊讶的是,PDF并非按惯常的方式储存文本,即按照自然的阅读顺序,以字符组成单词,以单词组成句子,以句子组成段落,以此类推。但是,与之相反,PDF通过坐标系来确定每个字母的位置。因此,按照PDF的生成方式,即便是文档开篇的第一个单词,其组成字符亦可在其他任意单词中出现。例如,“Hello”一词将被拆解为“H”、“e”、“l”、“l”、“o”,每个字符都可能出现于文档的不同位置。

所以,通常意义上的搜索算法,在按照字符的相对位置以惯常阅读顺序重组PDF文本时,将面临重重挑战。单词间多余的空格或换行,将导致算法失效,除非事先将此种情形纳入算法并严格校准。在搜索工具无法检测到目标词组的情况下,即便该工具的搜索准确度高达99%,用户很可能也会将其漏掉。

(接上文)为保护交易安全,实现对数据安全的全面合规,交易信息需要多重保护机制,凡此种种都离不开信息脱敏。

因此,Intralinks选择与PDFTron合作,依靠其先进的PDF搜索算法,让用户放心完成海量交易文档的脱敏操作。

与此同时,Intralinks团队也在致力于实现与其他PDFTron技术的整合,让每位用户无需任何培训即可使用先进的搜索功能。

其中,一项重要任务,就是实现PDFTron功能强大的正则表达式搜索的定制化应用。不同于基本的关键词搜索,正则表达式搜索通过数学公式识别文档的重复模式,例如电话号码、社保号码、地址等。用户不必了解正则表达式背后的数学原理,仅需单击鼠标,即可选择想要删除的模式类型(如电话号码),然后由Intralinks处理其余的重复模式。

Intralinks团队还添加了即时撤销脱敏功能,让用户在后期交易中快速显示经脱敏处理的内容,无需对文档执行整体再脱敏操作。

数据脱敏的未来

Intralinks将持续致力于完善PDF脱敏技术,开发更多先进功能,更快、更安全地实现对交易文档的信息筛查。

在此过程中,我们期待您的参与。关于数据脱敏,您是否有宝贵的经验或建议与我们分享?请随时联系我们,我们期待您的分享和建议。



Adam Pez

Adam Pez

Adam Pez是PDFTron的专栏作者和讲述人。他致力于通过实践案例呈现行业专家的建议,与相关人员分享文档技术方面的知识和洞察。同时,他还是一位训练有素的科普作家,拥有科学技术研究(STS)和新闻学双硕士学位。

获取最新市场动态:

订阅我们的电邮通讯,直接获取市场深度解读以及分析报告

目前报告及订阅信息仅提供英文版,部分报告将提供中文版。