AI训练师的「数据标注全景图谱」


01 为什么需要“全景图”?

  • 面试常问:NER 和关系标注有什么区别?
  • 项目踩坑:视频目标检测忘记加 Track ID,模型直接“跟丢”。
  • 晋升答辩:能讲清楚“标注→模型→业务”全链路,才能证明你不仅是“拉框工具人”。

02 四维速览(先背框架)

模态 颗粒度 任务关键词 一句话口诀
文本 字/词 → 句 → 篇章 序列、关系、事件、情感 “字要连,句要段,段要逻辑”
图像 像素 → 目标 → 场景 分类、框、分割、关键点 “像素分好坏,目标有边界”
语音 帧 → 音素 → 词 → 句 转写、音素、韵律、说话人 “声音拆最小,文字对最齐”
视频 帧 → 片段 → 故事线 检测+跟踪、动作、事件、对齐 “框要连,动作要段,字幕要对齐”

03 四张可编辑思维导图

复制下方代码 → 打开 Mermaid Live Editor → 即刻生成高清 PNG/SVG!

① 文本标注思维导图

mindmap
  root((文本标注))
    序列标注
      NER(B-PER I-LOC O)
      分词(BMES)
      词性(NN VB JJ)
    句子级
      文本分类
      关系三元组
      情感极性
    篇章级
      事件链
      共指链
      主题分割

② 图像标注思维导图

mindmap
  root((图像标注))
    分类
      单标签
      多标签
    检测
      边界框
      旋转框
      3D框
    分割
      语义分割
      实例分割
      全景分割
    关键点
      人脸68点
      人体17点
      手势21点

③ 语音标注思维导图

mindmap
  root((语音标注))
    转写&ASR
      词级时间戳
      说话人分离
    音素&TTS
      IPA/SAMPA
      边界毫秒
    韵律
      重音
      停顿
      升降调
    其他
      情感
      语种
      声纹

④ 视频标注思维导图

mindmap
  root((视频标注))
    检测+跟踪
      bbox
      Track ID
    动作识别
      起止时间
      动作标签
    事件检测
      事件类型
      论元
    分割
      像素mask
      Track ID
    字幕对齐
      时间戳
      文本
      说话人

04 万能速查表(打印贴工位)

任务 标签示例 常用工具 易踩坑
NER B-PER / I-LOC / O Label Studio BIO 嵌套实体
关系 (头实体, 关系, 尾实体) doccano 一对多 / 多对多
事件 触发词 + 6W 论元 UIE 事件重叠
图像分类 cat / dog CVAT 长尾类别失衡
目标检测 [x,y,w,h] + class LabelImg 旋转框未对齐
语义分割 每像素类别 Segment Anything 边缘毛刺
音素标注 /k/ /æ/ /t/ 0-75 ms Praat 协同发音边界模糊
视频跟踪 bbox + Track ID CVAT ID Switch 帧未补间
动作识别 00:12-00:18 投篮 Supervisely 时序窗口滑步过大

05 7 天速记打卡表

  • 第 1-2 天:把四张思维导图设成手机/电脑壁纸
  • 第 3-4 天:每天亲手标 100 条样本
  • 第 5-6 天:用速查表做 mock interview
  • 第 7 天:把本文转发到组群并讲解一次 → 记忆固化 90%