人工智能训练师关键概念速查表

按“数据采集 → 数据预处理 → 数据标注 → 算法测试”四大阶段整理,支持一键复制到 Markdown 编辑器或笔记软件。


1️⃣ 数据采集

概念 一句话速记 典型工具 / 示例
数据源 原始数据的出处 数据库、日志、传感器、社交媒体、IoT
日志采集框架 分布式日志收集 Chukwa / Flume / Scribe
网络爬虫 自动化网页抓取 通用 / 聚焦 / 增量 / 深层
搜索策略 决定 URL 抓取顺序 DFS / BFS / PageRank / OPIC
传输协议 数据搬运通道 HTTP(S) / FTP(S) / MQTT
移动端采集 App 内自动埋点 SDK 插桩

2️⃣ 数据预处理

概念 一句话速记 常用方法
数据清洗 去噪、补缺、去重 缺失值填充 / 异常值剔除 / 格式统一
数据集成 多源数据合并 ETL → 统一视图
数据变换 让数据更适合模型 归一化 / 标准化 / 离散化 / 特征构造
数据归约 压缩规模不丢信息 PCA / 特征选择 / 特征抽取 / 聚合

3️⃣ 数据标注

概念 一句话速记 细分类型
标注流程 四步标准化 采集 → 清洗 → 标注 → 质检
标注类型 按数据模态划分 图像 / 文本 / 语音 / 视频
标注原则 质量与合规 统一规范、隐私合规、交叉验证

4️⃣ 算法与模型

概念 一句话速记 关键要点
机器学习三要素 模型 + 策略 + 算法 判别式 vs 生成式
任务类型 按标签划分 监督 / 无监督 / 半监督
典型算法 速记表 回归、分类、聚类、降维、集成、神经网络
性能指标 好坏量化 Accuracy / F1 / ROC-AUC / MSE / R²
开发流程 生命周期 7 步 问题定义 → 数据 → 特征 → 训练 → 评估 → 部署 → 迭代
Python 库 一站式工具箱 NumPy / Pandas / Scikit-learn / TF / PyTorch