如何用DeepSeek做数据分析：进阶技巧

我已经用DeepSeek做数据分析好几个月了，我发现它的真正威力不在于简单的问答，而在于结合上下文管理、自定义指令和策略性提示工程的高级工作流程。在本教程中，我将分享我通过无数小时的实验提炼出的进阶技巧。

第一步：设置分析环境

在深入数据之前，我总是先配置DeepSeek以获得最大的分析能力。首先启用1M上下文窗口——这对于处理大型数据集至关重要。

设置 → 模型 → 上下文长度：最大（1M tokens）

接下来，我为数据分析创建自定义指令模板：

你是一位专业的数据分析师。处理数据时：
1. 在继续之前始终验证假设
2. 逐步展示你的工作
3. 标记潜在的偏差或数据质量问题
4. 建议替代解释
5. 在适用的情况下提供统计显著性

截图：为数据分析配置自定义指令

专业提示： 将其保存为可复用的模板——我为时间序列分析、回归和分类任务准备了不同的模板。

第二步：上传并结构化数据集

DeepSeek的文件上传功能是奇迹发生的地方。我上传CSV文件（在1M上下文下最大100MB），但关键在于如何结构化上传。

上传 → 选择文件 → 选择“数据分析”模式

为了获得最佳结果，我总是将数据字典作为单独的文本文件包含：

# 数据字典：sales_q4_2024.csv
- date：YYYY-MM-DD格式，每日记录
- revenue：美元，连续变量
- customers：整数，独立访客数
- conversion_rate：小数（0-1），计算为购买数/访客数
- region：分类变量（NA、EU、APAC、LATAM）

截图：上传CSV及附带的数据字典

常见陷阱： 不要上传原始未清洗的数据。我总是先做基本清洗——移除明显的异常值、处理缺失值、标准化日期格式。DeepSeek可以处理一些杂乱数据，但干净的数据会带来显著更好的结果。

第三步：进行探索性数据分析（EDA）

现在我们进入高级部分。我不问“总结这些数据”，而是使用特定的分析提示：

提示：“对这个数据集进行全面的EDA。重点关注：
1. 所有数值列的分布分析
2. 带有热图解释的相关矩阵
3. 识别时间序列中的季节性模式
4. 使用IQR方法检测异常值
5. 缺失值模式及插补建议”

DeepSeek会生成统计摘要，但我通过迭代探测进一步推进：

后续：“收入分布呈现右偏。计算精确的偏度系数并建议三种变换方法。比较它们对这个数据集的效果。”

截图：DeepSeek生成分布图和统计摘要

专业提示： 使用“继续”功能来扩展分析而不丢失上下文。我曾在单个上下文窗口内，通过15次后续探索了40多个变量。

第四步：高级统计建模

这

DeepSeek 数据分析高级技巧

如何用DeepSeek做数据分析：进阶技巧

第一步：设置分析环境

第二步：上传并结构化数据集

第三步：进行探索性数据分析（EDA）

第四步：高级统计建模

相关 Agent

Hugging Face