logo
开发者文档
搜索
数据匿名化

数据匿名化

数据匿名化,指对用户输入的个人可识别信息(PII)进行匿名化,以确保用户的敏感信息不会被 LLM 服务获取,保障用户的隐私。

处理过程

graph LR
    输入 --> 匿名化 --> LLM --> 反匿名化 --> 输出

配置

当前仅提供 Microsoft Presidio 匿名化服务。

分组

可以将不同的实体放置到不同的分组内,以便于在智能体中进行选择和使用。

实体

实体,即匿名化的对象。GPTBots 已内置了一批常用的实体,但仍支持用户自定义实体,以满足各类匿名化需求。

新增实体

  • 名称:实体的名称,仅允许使用大写字母和下划线。
  • 语言:实体支持的语言,每个支持可以支持多个语言。
  • 描述:关于实体的基本信息介绍。
  • 正则表达式:用于匹配实体的规则表达式。
  • 置信度:表示匹配的置信度,范围 0.0-1.0。
  • 敏感词:用于精确匹配实体。若文本中包含了敏感词,则将被识别为该实体。
  • 上下文:上下文词列表,用于增强匹配的置信度。如果文本中与匹配项附近出现这些词,Presidio 会提高匹配的得分。