RAG 避坑指南｜为什么一定要把 .doc 转成 .docx？真相在这里！

摘要：在构建 RAG（检索增强生成）系统时，文档解析是第一道关卡。很多同学发现，工程上常把老旧的 .doc 转为 .docx 再处理。这是多此一举，还是必经之路？本文为你深度解析背后的技术逻辑与最佳实践。

大家好，我是你们的 AI 技术助手。

在搭建 RAG 系统的过程中，数据清洗（ETL） 往往是最耗时、最容易踩坑的环节。尤其是处理企业遗留的 Word 文档时，你可能会听到这样的建议：

“先把 .doc 转成 .docx，再进解析流程。”

为什么不能直接解析？RAG 不是只关心文本内容吗？今天我们就来扒一扒这背后的工程真相。

01 本质差异：黑盒 vs 白盒

要理解为什么要转换，首先要明白这两种格式的本质区别。

.doc (Binary)：
这是 Word 97-2003 的产物。它是一种二进制格式（OLE Compound File）。
- 比喻：就像是一个编译好的 .exe 程序，人类和代码都很难直接读懂里面的内容。
- 缺点：结构不透明，解析需要逆向工程，极易出错。
.docx (XML)：
这是 Word 2007 之后的标准。它本质是一个 ZIP 压缩包，里面包含了一系列 XML 文件。
- 比喻：就像是一个整理好的文件夹，文本在 document.xml，图片在 media 文件夹，结构清晰可见。
- 优点：开放标准，跨平台，易解析。

💡 记忆点：.doc 是乱码黑盒，.docx 是结构化白盒。RAG 喜欢结构化的数据。

02 开发噩梦：库的支持度

在 Python 生态中（RAG 的主流开发语言），处理这两种文件的体验简直是天壤之别。

特性	`.docx`	`.doc`
主流库	`python-docx` (成熟、轻量)	无原生完美支持
跨平台	✅ Linux/Mac/Windows 通吃	❌ 往往依赖 Windows COM
依赖	纯 Python 库	需安装 `antiword` 或调用本地 Word
稳定性	高	低 (容易乱码、崩溃)

如果你直接解析 .doc，你可能被迫：

在服务器上安装重量级的 LibreOffice。
或者服务器必须用 Windows，并安装 Microsoft Office（通过 COM 接口调用）。
或者使用 textract 等维护频率较低的库。

💡 记忆点：转成 .docx 是为了能用更简单、更稳定的 Python 库，避免服务器环境依赖地狱。

03 RAG 核心诉求：结构即正义

RAG 不仅仅是提取纯文本，文档结构决定了检索的质量。

分块（Chunking）依赖结构：我们需要知道哪里是标题（H1/H2），哪里是正文，哪里是表格。
.doc 解析：容易丢失层级，标题和正文混在一起，导致切片语义不完整。
.docx 解析：XML 标签清晰标记了 <w:heading>、<w:p>、<w:tbl>。解析器能准确还原文档层级。

场景举例：

如果解析器分不清标题，把“第二章财务制度”和后面的正文切到了不同的块里，用户问“财务制度有哪些”时，向量检索可能就无法匹配到正确内容。

💡 记忆点：保留结构信息，才能做好语义分块，进而提升检索准确率。

04 安全与合规

在企业级应用中，安全性不容忽视。

宏病毒风险：老旧的 .doc 格式更容易隐藏宏病毒（Macro Virus）。
清洗过程：将 .doc 转换为 .docx 的过程，本质上是一次文件清洗。标准的 .docx 不包含可执行宏代码，降低了系统被注入恶意脚本的风险。

05 最佳实践：不要止步于 .docx

虽然转成 .docx 比直接解析 .doc 好，但在 RAG 流水线中，.docx 通常只是中间态，而不是终点。

我们最终需要的是 Markdown 或 纯文本。

🚀 推荐的工程链路

graph LR
    A[原始文件 .doc/.pdf] --> B(统一解析器)
    B --> C[中间格式 .docx/.html]
    C --> D[最终格式 Markdown/Text]
    D --> E[分块 Chunking]
    E --> F[向量化 Embedding]

🛠️ 推荐工具方案

Unstructured (强烈推荐)
- 目前 RAG 领域最火的开源解析库。
- 它内部自动处理了 .doc 到 .docx 或直接到文本的转换，你不需要关心底层细节。
- pip install unstructured
Pandoc (转换神器)
- 命令行工具，格式转换界的“瑞士军刀”。
- 可以直接将 .doc 转为 .md，跳过 .docx。
- pandoc input.doc -t markdown -o output.md
LangChain / LlamaIndex Loaders
- 使用 UnstructuredWordDocumentLoader，它们已经封装好了最佳实践。