数据标注全景图谱

AI训练师的「数据标注全景图谱」

01 为什么需要“全景图”？

面试常问：NER 和关系标注有什么区别？
项目踩坑：视频目标检测忘记加 Track ID，模型直接“跟丢”。
晋升答辩：能讲清楚“标注→模型→业务”全链路，才能证明你不仅是“拉框工具人”。

02 四维速览（先背框架）

模态	颗粒度	任务关键词	一句话口诀
文本	字/词 → 句 → 篇章	序列、关系、事件、情感	“字要连，句要段，段要逻辑”
图像	像素 → 目标 → 场景	分类、框、分割、关键点	“像素分好坏，目标有边界”
语音	帧 → 音素 → 词 → 句	转写、音素、韵律、说话人	“声音拆最小，文字对最齐”
视频	帧 → 片段 → 故事线	检测+跟踪、动作、事件、对齐	“框要连，动作要段，字幕要对齐”

03 四张可编辑思维导图

复制下方代码 → 打开 Mermaid Live Editor → 即刻生成高清 PNG/SVG！

① 文本标注思维导图

mindmap
  root((文本标注))
    序列标注
      NER(B-PER I-LOC O)
      分词(BMES)
      词性(NN VB JJ)
    句子级
      文本分类
      关系三元组
      情感极性
    篇章级
      事件链
      共指链
      主题分割

② 图像标注思维导图

mindmap
  root((图像标注))
    分类
      单标签
      多标签
    检测
      边界框
      旋转框
      3D框
    分割
      语义分割
      实例分割
      全景分割
    关键点
      人脸68点
      人体17点
      手势21点

③ 语音标注思维导图

mindmap
  root((语音标注))
    转写&ASR
      词级时间戳
      说话人分离
    音素&TTS
      IPA/SAMPA
      边界毫秒
    韵律
      重音
      停顿
      升降调
    其他
      情感
      语种
      声纹

④ 视频标注思维导图

mindmap
  root((视频标注))
    检测+跟踪
      bbox
      Track ID
    动作识别
      起止时间
      动作标签
    事件检测
      事件类型
      论元
    分割
      像素mask
      Track ID
    字幕对齐
      时间戳
      文本
      说话人

04 万能速查表（打印贴工位）

任务	标签示例	常用工具	易踩坑
NER	B-PER / I-LOC / O	Label Studio	BIO 嵌套实体
关系	(头实体, 关系, 尾实体)	doccano	一对多 / 多对多
事件	触发词 + 6W 论元	UIE	事件重叠
图像分类	cat / dog	CVAT	长尾类别失衡
目标检测	[x,y,w,h] + class	LabelImg	旋转框未对齐
语义分割	每像素类别	Segment Anything	边缘毛刺
音素标注	/k/ /æ/ /t/ 0-75 ms	Praat	协同发音边界模糊
视频跟踪	bbox + Track ID	CVAT	ID Switch 帧未补间
动作识别	00:12-00:18 投篮	Supervisely	时序窗口滑步过大