数据标注全景图谱
AI训练师的「数据标注全景图谱」
01 为什么需要“全景图”?
- 面试常问:NER 和关系标注有什么区别?
- 项目踩坑:视频目标检测忘记加 Track ID,模型直接“跟丢”。
- 晋升答辩:能讲清楚“标注→模型→业务”全链路,才能证明你不仅是“拉框工具人”。
02 四维速览(先背框架)
| 模态 | 颗粒度 | 任务关键词 | 一句话口诀 |
|---|---|---|---|
| 文本 | 字/词 → 句 → 篇章 | 序列、关系、事件、情感 | “字要连,句要段,段要逻辑” |
| 图像 | 像素 → 目标 → 场景 | 分类、框、分割、关键点 | “像素分好坏,目标有边界” |
| 语音 | 帧 → 音素 → 词 → 句 | 转写、音素、韵律、说话人 | “声音拆最小,文字对最齐” |
| 视频 | 帧 → 片段 → 故事线 | 检测+跟踪、动作、事件、对齐 | “框要连,动作要段,字幕要对齐” |
03 四张可编辑思维导图
复制下方代码 → 打开 Mermaid Live Editor → 即刻生成高清 PNG/SVG!
① 文本标注思维导图
mindmap
root((文本标注))
序列标注
NER(B-PER I-LOC O)
分词(BMES)
词性(NN VB JJ)
句子级
文本分类
关系三元组
情感极性
篇章级
事件链
共指链
主题分割
② 图像标注思维导图
mindmap
root((图像标注))
分类
单标签
多标签
检测
边界框
旋转框
3D框
分割
语义分割
实例分割
全景分割
关键点
人脸68点
人体17点
手势21点
③ 语音标注思维导图
mindmap
root((语音标注))
转写&ASR
词级时间戳
说话人分离
音素&TTS
IPA/SAMPA
边界毫秒
韵律
重音
停顿
升降调
其他
情感
语种
声纹
④ 视频标注思维导图
mindmap
root((视频标注))
检测+跟踪
bbox
Track ID
动作识别
起止时间
动作标签
事件检测
事件类型
论元
分割
像素mask
Track ID
字幕对齐
时间戳
文本
说话人
04 万能速查表(打印贴工位)
| 任务 | 标签示例 | 常用工具 | 易踩坑 |
|---|---|---|---|
| NER | B-PER / I-LOC / O | Label Studio | BIO 嵌套实体 |
| 关系 | (头实体, 关系, 尾实体) | doccano | 一对多 / 多对多 |
| 事件 | 触发词 + 6W 论元 | UIE | 事件重叠 |
| 图像分类 | cat / dog | CVAT | 长尾类别失衡 |
| 目标检测 | [x,y,w,h] + class | LabelImg | 旋转框未对齐 |
| 语义分割 | 每像素类别 | Segment Anything | 边缘毛刺 |
| 音素标注 | /k/ /æ/ /t/ 0-75 ms | Praat | 协同发音边界模糊 |
| 视频跟踪 | bbox + Track ID | CVAT | ID Switch 帧未补间 |
| 动作识别 | 00:12-00:18 投篮 | Supervisely | 时序窗口滑步过大 |
05 7 天速记打卡表
- 第 1-2 天:把四张思维导图设成手机/电脑壁纸
- 第 3-4 天:每天亲手标 100 条样本
- 第 5-6 天:用速查表做 mock interview
- 第 7 天:把本文转发到组群并讲解一次 → 记忆固化 90%
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Nosaw博客!
评论




