DLP革新之路：AI数据安全引领新方向-CFANZ编程社区

基于大语言模型的生成式AI应用正野火般蔓延，对企业和个人数据安全构成严重威胁。对于DLP（数据丢失防护）厂商来说，“大模型的大风险”不但是一次空前严峻的挑战，同时也蕴含着巨大商机，全球各路DLP厂商已经摩拳擦掌，八仙过海，纷纷推出了针对性的功能或措施。

根据IDC今年8月发布的报告，65%的企业已经部署了生成式AI，19%的企业正在积极探索，13%的企业仍在考虑。只有3%的企业不打算使用生成式AI。

随着生成式AI的快速普及，大语言模型应用的数据安全风险正在快速累积。

根据Cyberhaven的调查，企业流向ChatGPT等大语言模型应用的数据中有11%是敏感数据。仅仅在今年2月份的一周内，平均每10万员工中发生了43起敏感项目文件泄露、75起受监管个人数据泄露、70起受监管医疗数据泄露、130起客户数据泄露、119起源代码泄露和150起机密文件泄露事件。

IDC表示，企业采用生成式人工智能的最大障碍是担心敏感信息会泄露到AI厂商的大型语言模型中。许多公共AI平台的训练数据来自与用户的互动，这意味着如果用户将公司秘密上传到AI，将有可能泄露给下一个与之互动的用户。不仅仅是公共AI模型存在数据泄露风险，企业内部部署的私有大语言模型如果吸收了敏感公司数据，可能会将这些数据提供给不应该看到它们的员工。

面对大语言模型的数据安全风险，大多数企业并未因噎废食，而是选择有效的DLP工具来缓解风险。根据Netskope今年7月发布的报告，许多行业已经开始使用DLP工具来保护生成式AI。例如，在金融服务业，19%的公司使用数据丢失防护工具，在医疗行业，这一数字是21%。在科技行业，26%的企业正在使用DLP来降低大语言模型应用的风险。

根据Gartner9月份发布的一项调查，34%的组织已经在使用或正在部署DLP之类的AI安全工具，另有56%的企业表示他们正在探索此类工具。

对于DLP厂商来说，大模型的大风险不但是一次空前严峻的挑战，同时也蕴含着巨大商机，全球各路DLP厂商已经摩拳擦掌，八仙过海，纷纷推出了针对性的功能或措施，对大模型数据交互进行监控、过滤和访问控制。

以下，我们整理了13家DLP厂商的“大模型战略”：

Skyhigh：跟踪超过500个AI应用

Skyhigh Security的CASB产品包含DLP工具，这也是其SSE平台的一部分。该公司在过去的一年中火速增加了对生成式AI用例的支持。

Skyhigh在其云注册表中跟踪了超过500个不同的AI云服务提供商，自今年1月份以来增长了130%。该云注册表还可快速识别新的生成式AI应用程序及其对应的风险等级。

Skyhigh还与许多添加了生成式AI功能的企业应用程序进行了直接API集成，包括Box、Google、Microsoft、Salesforce、ServiceNow、Slack、Workday、Workplace和Zoom，从而能够更好地洞察和控制数据流。

Zscaler：提供细粒度的预定义人工智能控制

截至今年5月，Zscaler已经识别了数百个生成式AI工具和网站，并创建了一个AI应用程序名单，用于实现细粒度的DLP控制，帮助企业阻止违规访问，或向访问AI应用的用户发出警告。

Zscaler全球CISO兼安全研究和运营主管Deepen Desai表示，企业要求屏蔽最多的AI应用是ChatGPT和Drift，后者是一个整合了生成式AI工具的销售和营销平台。

Desai指出，对于DLP厂商来说，最大的难题不仅是用户会向AI发送文件，DLP还需要检测文本和表单中的敏感数据，同时又不能产生太多误报。

此外，开发人员正在使用生成式AI来调试代码和编写单元测试用例。Desai表示：“检测源代码中的敏感信息（例如云服务密钥、敏感令牌、加密密钥）并防止生成式AI工具学习这些敏感数据非常重要。”

CloudFlare：将DLP服务扩展到生成式AI

Cloudflare于今年5月扩展了其SASE平台Cloudflare One，添加了生成式AI的数据丢失防护功能（例如对社会安全号码或信用卡号码的简单检查）。该公司还为特定团队提供定制扫描，并为特定个人提供精细规则。此外，CloudFlare还可以帮助企业了解员工何时使用人工智能服务。

9月，CloudFlare宣布为OpenAI、Bard和Github Copilot提供数据暴露可视性方案，并发布了Applied Systems使用Cloudflare One来保护AI环境（包括ChatGPT）数据的应用案例。

此外，CloudFlare的AI网关位于AI应用和关联的第三方模型之间，已经支持OpenAI、HuggingFace、Replicate等模型提供商，并计划在未来添加更多模型提供商，CloudFlare未来计划为AI网关增加DLP功能。例如，可以编辑包含API密钥等敏感数据的请求、删除这些请求，或者记录并警告用户。

Cyberhaven：人工智能的网络天堂

据Cyberhaven称，截至今年3月，已有4%的工作人员将敏感数据上传到ChatGPT，平均而言，流向ChatGPT的数据中有11%是敏感数据。

Cyberhaven表示，其DLP产品会自动记录输入人工智能工具的数据，以便企业能够了解正在发生的情况，并制定相应的安全策略来控制这些数据流。人工智能数据丢失防护的一个特殊挑战是：敏感数据通常从企业应用程序或文档中的打开窗口直接剪切并粘贴到ChatGPT等应用程序中，无法被检测文件传输的DLP工具捕捉到。

Cyberhaven的产品解决了这个痛点，允许企业自动阻止这种敏感数据的剪切和粘贴，并告知用户特定操作被阻止的原因，然后将他们重定向到安全的替代方案，例如私有AI系统，或者允许用户提供合理解释解除阻止。

谷歌：通过敏感数据保护服务防止自定义模型使用敏感数据

谷歌的敏感数据保护服务包括云数据丢失防护技术，允许公司检测敏感数据并防止其被用于训练生成人工智能模型。该公司在博客文章中指出：“企业可以使用谷歌云的敏感数据保护在生成人工智能模型的整个生命周期（从训练到微调到推理）中添加额外的数据保护层。”

例如，有些用户希望使用客户服务对话记录来训练其人工智能模型。谷歌的敏感数据保护工具将用数据类型的描述（例如“email_address”）替换客户的电子邮件地址，或者用生成的随机数据替换实际的客户数据。

Code42：提供生成式AI安全培训模块

今年9月，DLP供应商Code42发布了内部风险管理计划Launchpad，其中包括专注于生成式AI的一系列培训模块、工具和模板，帮助客户“解决生成式AI的安全使用问题”。该公司还为客户提供ChatGPT和其他生成式人工智能工具使用情况的可见性，检测复制粘贴活动，并在必要时进行阻止。

Fortra：在Digital Guardian中增加生成式AI安全功能

Fortra已经在其Digital GuardianDLP工具中添加了特定的生成人工智能相关功能，帮助其客户选择如何管理员工对生成式AI的访问：从完全阻止访问到仅阻止输入特定内容，或者仅仅监控员工发布到AI工具的流量和内容。”

Fortra表示，企业为生成型人工智能部署DLP的方式差异很大。例如，教育机构几乎100%阻止访问AI工具，媒体和娱乐业也接近100%。此外，制造业——特别是敏感行业，例如军事工业，也接近100%。而服务业企业主要关注的不是阻止工具的使用，而是阻止敏感数据发布到工具上，例如客户信息或公司产品源代码等信息。

DoControl：帮助企业阻止AI应用程序，防止数据丢失

即使在同一家公司内，不同的人工智能工具也会带来不同的风险。SaaS数据丢失防护公司DoControl表示：“监控用户输入文档是否存在拼写或语法问题的人工智能工具对于营销人员来说可能是安全的，但对于财务、人力资源或企业战略人员来说则不可接受。”

DoControl可以评估特定人工智能工具涉及的风险，不仅了解工具本身，还了解用户的角色和风险级别。DoControl指出，如果该工具风险太大，用户可以立即获得有关风险的教育，并指导他们使用经批准的替代方案。如果用户认为其请求的应用程序存在合法的业务需求，DoControl可以自动在企业工单系统中创建例外。

到目前为止，在DoControl的客户中，100%的客户安装了某种形式的生成式人工智能，58%的客户拥有五个或更多人工智能应用程序。此外，24%的客户部署了拥有广泛数据权限的AI应用程序，12%的客户存在高风险的AI影子应用程序。

Palo Alto Networks：防范主流人工智能应用

Palo Alto产品管理副总裁Taylor Ettema表示，企业越来越关注基于人工智能的聊天机器人和助手，例如ChatGPT、Google Bard和Github Copilot。“Palo Alto Networks数据安全解决方案使客户能够保护其敏感数据免遭数据泄露或意外暴露。例如，公司可以阻止用户将敏感数据输入这些应用程序，在统一控制台中查看标记的数据，或者完全限制特定应用程序的使用。

Ettema表示，所有常见的数据安全问题都与生成式AI有关，包括医疗数据、财务数据和公司机密的泄露。此外，软件开发人员可能会上传专有代码来帮助查找和修复错误，企业营销团队可能会寻求AI帮助来生成（包含敏感信息或错误信息）的新闻稿和活动文案。”这给DLP产品带来独特的挑战，市场需要具有自然语言理解、上下文分析和动态策略执行的DLP解决方案。

赛门铁克：增加开箱即用的AI数据保护功能

赛门铁克数据丢失防护总监Bruce Ong表示，现隶属于Broadcom的赛门铁克已在其DLP解决方案中添加了生成式AI支持，开箱即用，可对整个生成式AI应用程序进行分类，并单独或总体监视和控制。

ChatGPT是最受关注的领域，但企业也开始担心谷歌的Bard和微软的Copilot。下一步企业将担忧的是特殊的新型专用生成式AI应用以及集成到垂直应用程序中的AI功能。此外，未经批准的人工智能应用程序（BYOAI）进一步增加了客户的数据丢失风险。

用户可能会将药物配方、设计图纸、专利申请、源代码和其他类型的敏感信息上传到这些平台，此类信息通常采用标准DLP无法捕获的格式。赛门铁克的应对方法是使用光学字符识别（OCR）来分析潜在的敏感图像。

Forcepoint：对新一代AI应用进行分类，提供精细控制

为了让Forcepoint ONE SSE的客户更轻松地管理生成式AI数据风险，Forcepoint允许IT部门按类别或单个应用的名称来管理谁可以访问生成式AI服务。Forcepoint副总裁Jim Fulton表示，Forcepoint的DLP产品可以对输入AI工具的信息类型进行精细控制。公司还可以限制用户是否可以复制和粘贴大块文本或上传文件。“这确保有业务需要使用生成式AI工具的团体不会意外或恶意上传敏感数据。”

GTP：面向律师事务所的生成式AI数据丢失防护

今年6月，两名纽约律师及其律师事务所在提交了由ChatGPT撰写的简报（其中包括虚构的案例引文）后被罚款。但律师事务所使用生成式AI的风险不仅限于“内容编造”，还存在向人工智能模型泄露敏感客户信息的风险。

为了解决这一风险，DLP供应商GTB Technologies在8月份发布了专为律师事务所设计的生成式AIDLP解决方案，不仅针对ChatGPT，还涵盖所有人工智能应用。该解决方案通过实时监控防止敏感数据与AI程序共享，从而保护律师与客户的权益，帮助律师事务所以合规的方式使用人工智能。

Next DLP：添加了针对主流AI平台的策略模板

Next DLP于4月份在其Reveal平台上引入了ChatGPT策略模板，提供预配置的策略来培训员工如何正确使用ChatGPT，或阻止敏感信息泄露。9月份，NextDLP推出了其他几个主要生成式AI平台的策略模板，包括Hugging Face、Bard、Claude、Dall-E、Copy.AI、Rytr、Tome和Lumen5。

此外，Next DLP在7月份调查了数百家公司后发现，97%的公司至少有一名员工使用ChatGPT，所有员工中使用ChatGPT的人数比例已经达到8%。Next DLP产品主管John表示：“生成式AI已经在企业内部泛滥，但CISO对此既不了解也不能提供有针对性的防护。”

总结：冷静看待DLP的“人工智能热”

生成式AI不仅是DLP技术的热门用例，如果使用得当，它还有可能彻底改变DLP自身的工作方式。Omdia新兴技术首席分析师Rik Turner表示，多年来，DLP产品是基于规则的，属于静态且劳动密集型工具。老牌的DLP供应商大多已被收购，成为更大平台的一部分，或者已发展为数据安全态势管理方案，生成式AI有望帮助它们增强或取代旧的基于规则的方法。

IEEE成员、信息安全与合规专家Rebecca Herold表示：针对生成式AI的DLP工具必须确保它们不会保留所发现的敏感数据。迄今为止，还没有看到任何供应商做到这一点。Herold指出，所有DLP厂商都表示他们正在添加生成式AI防护功能，但早期的实现大多仅仅是在用户界面中添加聊天机器人。

云数据安全公司Dig Security的首席执行官丹·本杰明(Dan Benjamin)表示，归根结底，并没有完美的DLP解决方案。企业很难阻止员工使用VPN或其他方式使用公共ChatGPT。除了加强管控力度外，企业还需要提供有效的培训，防止员工无意中泄露数据。