人工智能训练师关键概念速查表
按“数据采集 → 数据预处理 → 数据标注 → 算法测试”四大阶段整理,支持一键复制到 Markdown 编辑器或笔记软件。
1️⃣ 数据采集
| 概念 |
一句话速记 |
典型工具 / 示例 |
| 数据源 |
原始数据的出处 |
数据库、日志、传感器、社交媒体、IoT |
| 日志采集框架 |
分布式日志收集 |
Chukwa / Flume / Scribe |
| 网络爬虫 |
自动化网页抓取 |
通用 / 聚焦 / 增量 / 深层 |
| 搜索策略 |
决定 URL 抓取顺序 |
DFS / BFS / PageRank / OPIC |
| 传输协议 |
数据搬运通道 |
HTTP(S) / FTP(S) / MQTT |
| 移动端采集 |
App 内自动埋点 |
SDK 插桩 |
2️⃣ 数据预处理
| 概念 |
一句话速记 |
常用方法 |
| 数据清洗 |
去噪、补缺、去重 |
缺失值填充 / 异常值剔除 / 格式统一 |
| 数据集成 |
多源数据合并 |
ETL → 统一视图 |
| 数据变换 |
让数据更适合模型 |
归一化 / 标准化 / 离散化 / 特征构造 |
| 数据归约 |
压缩规模不丢信息 |
PCA / 特征选择 / 特征抽取 / 聚合 |
3️⃣ 数据标注
| 概念 |
一句话速记 |
细分类型 |
| 标注流程 |
四步标准化 |
采集 → 清洗 → 标注 → 质检 |
| 标注类型 |
按数据模态划分 |
图像 / 文本 / 语音 / 视频 |
| 标注原则 |
质量与合规 |
统一规范、隐私合规、交叉验证 |
4️⃣ 算法与模型
| 概念 |
一句话速记 |
关键要点 |
| 机器学习三要素 |
模型 + 策略 + 算法 |
判别式 vs 生成式 |
| 任务类型 |
按标签划分 |
监督 / 无监督 / 半监督 |
| 典型算法 |
速记表 |
回归、分类、聚类、降维、集成、神经网络 |
| 性能指标 |
好坏量化 |
Accuracy / F1 / ROC-AUC / MSE / R² |
| 开发流程 |
生命周期 7 步 |
问题定义 → 数据 → 特征 → 训练 → 评估 → 部署 → 迭代 |
| Python 库 |
一站式工具箱 |
NumPy / Pandas / Scikit-learn / TF / PyTorch |