王镕洪｜生成式人工智能背景下个人信息保护的困境与破解

以ChatGPT为代表的生成式人工智能一方面作为当前新兴的科技潮流推动人们的生活发生重大变革，另一方面其所伴生的诸多法律风险亦不得不慎重对待。与诸多尚未发生的假想风险不同，个人信息保护困境已然成为现实。不同于著作权纠纷等偏向财产性的纠纷，个人信息保护问题更多侧重人身性。因生成式人工智能基本特性产生的影响、个人信息保护内部辩证关系遭受的冲击，二者在耦合后加剧生成式人工智能背景下个人信息保护的困境。据此，需要兼顾生成式人工智能的内部防范和外部约束，通过科技手段和法律手段的综合运用，破除生成式人工智能背景下个人信息保护的困境，促进生成式人工智能和个人信息保护的良性互动。

在社会层面，生成式人工智能对各行各业带来全新的挑战，小到日常学习办公的方式，大到人类与人工智能的关系，社会生活的方方面面都受到突如其来的冲击。聚焦法律层面，数据泄露、算法歧视、伦理问题、技术垄断、责任能力等问题已为学界关注并讨论。但上述诸多技术风险目前大都停留在猜想和假设阶段，尚未实际存在。与此相比，以ChatGPT为代表的生成式人工智能对于个人信息保护的挑战却已然存在，并产生现实纠纷。因此，如何在生成式人工智能日益发展的环境下保障个人信息，平衡科技和个人信息保护间的关系，是整个学界需要及时直面和应对的挑战。

生成式人工智能之所以能够在短时间内为世人所接受和认可，最主要的原因便是其所展现的独特属性。这些特性使得生成式人工智能相较于传统AI模型显得更加“智慧”，传统AI更多侧重对于存储信息库中信息的检索，无法实现所谓的“自生成模式”，亦无法深度自主反馈学习。但是，在生成式人工智能具备传统AI所不具备特性的同时，也潜藏着对于个人信息的危险暗流。

ChatGPT作为生成式人工智能的代表，能够充分反映出生成式人工智能当前所具备的特点。其中，最为直观地便是操作简单，容易上手。即使是老年人也可以通过语音的方式与生成式人工智能进行对话沟通，无论使用者是否具备专业的计算机知识，其所希望得到的大多数信息都能够通过简单问答方式获取，极度便利几乎没有任何门槛。

生成式人工智能具备的便捷性是通过在大量数据的基础上由计算机学习和模拟生成的，ChatGPT生成信息主要依赖其所掌握的庞大数据库。也正因ChatGPT的出现，使得原本难以为普通人寻得的数据在ChatGPT的使用者这里可以轻易获及，几乎不需要付出任何时间成本。如Guy Harrison所言：因为ChatGPT，使得我们终于可能接近至任何人通过简单地询问人类语言的信息便可查询数据库的地步。但是，也正是如此，原本网络上星罗棋布的个人信息亦会变得更加便于获取。这部分个人信息原本可能隐藏在不同网站的“边边角角”，还带有很多“伪装”，原本需要付出极大的时间成本和技术支持才能获及，但是生成式人工智能却能快速定位并加以筛选。因此，从个人信息被不当获得的成本和便利性上看，生成式人工智能的便利性使得个人信息保护所面临的挑战更加艰巨。

传统AI模型虽然能够快速找到相关网页和信息，但是信息本身十分凌乱，只实现粗略筛选功能，从整体来看并不高效。而OpenAI官方将ChatGPT的生成机制分为四个阶段，其中ChatGPT的生成机理中很重要的一步就是强化学习算法针对奖励模型优化策略。无论是多么复杂的问题，生成式人工智能都能在短时间内形成一个不完美但有效的答案。面对一个具体的问题，生成式人工智能能够在浩如烟海的资料库中以极短时间找到具有强相关性的信息，并且进行答案的生成和逻辑梳理。

如此高效的信息处理能力令人在感慨人工智能发展的同时，也引发一些不得不面对和思考的问题。只要是与问题强相关性的信息就会被搜集、整理和生成，如此高效形成的“答案”是否也意味着缺乏对信息可利用性和敏感性的分析？需要区分的是：找到信息和生成、利用信息存在很大的差别。另一个问题是生成式人工智能有多大概率能否保障所生成的个人信息之后的使用、储存、传输被有效监管？因为生成式人工智能的内容只要出现，便能够直接为提问者获悉，其中并没有留下空白地带。对于个人信息保护而言，如果缺乏一个严密的“筛子”，不能完全筛查出回答中涉及个人信息的内容，在很大程度上个人信息就存在被漏洞泄露的风险和隐患，而且无法补救。高效需要以质量和稳妥为前提，配套保护没有跟上，单纯的快或许并不是一件好事。

生成式人工智能对于一个问题往往会给出多个要点，并且每个要点之间还能体现出不同的面向。也就是说生成式人工智能能够对一个问题进行全方位、多角度的分析，某种程度上很像高中文科生作答时将自己能想到的各种因素全部列出，但生成式人工智能显然更加全面且专业。这种全面的结论依靠的信息显然不是简单一个数据库所能满足的，往往一个问题需要参考引用数不清的数据来源，将不同数据进行整合分析。结论的全面性也就意味着涉及更多的数据，或许其中很多数据单独没有价值、不可识别，但整合后便属于需要被保护的敏感数据，整合后的数据是否可以为他人所知、是否会涉及侵权他人的人身财产权益不无疑问。

而对与个人信息有关的内容，通过生成式人工智能的信息整合和分析功能，也会使得原本分散、个性化不明确的个人信息生成全面具体的个人信息。而且对于需要被利用得如此庞大又模糊的个人信息，OpenAI公司其并没有为个人提供检查公司是否存储其个人信息或要求删除其个人信息的程序，可能已经涉嫌违反通用数据保护条例。除此以外，生成式人工智能还能对个人数据进行二次深度加工，通过组合分析不同类型的个人数据来充分挖掘出其潜在价值。即使很多个人数据与提问者所涉猎问题的联系并不紧密，生成式人工智能的算法也会收集这类个人数据来辅助验证，并通过知识蒸馏来进行深度学习并凝练结论。在这个过程中，使用验证个人信息的这一行为不会因为没有生成相关结果或尚未导致个人信息泄露就具备了合理性。简言之，对个人信息的使用、访问本身就涉嫌构成不当侵权，即并不以出现损害结果为要件。

基于ChatGPT类技术的架构分析可以发现，生成式人工智能知识的习得与生成无法保证绝对正确，在本质上当前大多生成式人工智能仍然是联结学派的范式。与此同时“算法黑箱”的问题也已经被很多学者所关注。生成式人工智能所形成的答案不精确本身并不具有可指摘性，即使是Ope⁃nAI公司自己也承认ChatGPT有时会创造性地给出似是而非、不准确或者荒谬的回答。

但是，如果生成式人工智能给出的回答涉及具体个人信息领域，直接产生的一个问题是：创造性生成内容的错误可能会导致某个民事主体的名誉权等受到不当侵害。即使是对很多未被直接泄露的私密信息，生成式人工智能也可以在不断学习、分析的过程中通过大数据算法自行推断，推断的结论自然存在误差的可能性。在实践中，如果错误地将A主体的新闻识别为B主体的信息，或者对于同名同姓的主体发生错误识别，所给出的回答直接会导致侵犯人格权的后果。退一步讲，即使技术能够达到非常精确的程度，不会出现错误，正确地推断出他人的个人信息，亦不具备正当性。因此，如果涉及个人信息，生成式人工智能因其创造性或可造成的不良后果必须为学界所重视。

个人信息之所以近年来备受人们的重视，一方面是因为经济社会发展后，人们愈加重视深层次的权益，个人信息是一个多元价值的集合体，包含了信息主体的人格尊严和自由价值、商业价值和公共管理价值。另一方面也是因为个人信息自身所拥有的独特属性，其同时囊括个体与群体；其保护法益兼具公益与私益。对于个人信息保护而言，其所表现的一个重要特征在于内部的辩证关系，当前很多关于个人信息的研究实质是建立在“相对分离—绝对统一”“主观判断—客观标准”和“信息流通—信息保护”三组关系之上。而这些辩证关系也在生成式人工智能背景下受到猛烈冲击，使得个人信息保护面临与传统不大相似的困境。

王镕洪｜生成式人工智能背景下个人信息保护的困境与破解

干货教程更多>>