我记得自己确切意识到需要Mistral AI的那一刻。当时我正在为一家物流公司构建一个多语言客户支持聊天机器人,但OpenAI的API让我屡屡碰壁——具体来说,GPT-4每1000个令牌收费0.03美元,而且我的客户担心将欧洲客户查询存储在US服务器上的数据隐私问题。我需要一个能在本地运行、流利处理法语和德语、并且不会因推理成本让我们破产的解决方案。就在那时,我开始尝试Mistral AI的开源权重模型,体验好坏参半,既有真正的能力,也有令人沮丧的差距。
Mistral AI究竟是什么
Mistral AI是一家法国公司,以开源许可证(大多数为Apache 2.0)发布大型语言模型。旗舰模型包括Mistral 7B、Mixtral 8x7B和更新的Mixtral 8x22B。与闭源替代方案不同,你可以下载这些权重并在自己的硬件上运行。7B模型可以轻松运行在单个拥有24GB显存的NVIDIA RTX 4090上,而8x7B混合专家模型进行全精度推理则需要约48GB显存。
实际性能
让我给你一些具体数字。在我的本地工作站上,使用单个RTX 3090(24GB显存),我通过llama.cpp以4位量化运行了Mistral 7B v0.2。它在生成时每秒处理约35个令牌——对于实时聊天来说足够流畅。相比之下,通过API使用GPT-3.5-turbo大约每秒处理50-60个令牌,但存在网络延迟。真正的胜利是在我于双GPU设置上部署Mixtral 8x7B时。它轻松处理了32K上下文窗口,在我的测试中,技术文档的输出质量与GPT-3.5-turbo相当——尽管它在处理细微差别的创意写作时有些吃力。
它的优势
- 数据控制:对于物流客户,我在法兰克福的一台专用服务器上托管了Mistral。数据从未离开过欧盟,无需法律上的周折就满足了GDPR要求。
- 成本效益:本地运行Mistral 7B每1000个令牌的电费约为0.002美元(假设电价为0.12美元/千瓦时)。这比GPT-4 API定价便宜15倍。
- 多语言能力:我用法语、德语和西班牙语的客户查询进行了测试。它在处理代码切换(在一个句子中混合多种语言)方面优于LLaMA 2,可能是因为其训练数据包含大量欧洲网络内容。
严酷的事实与局限性
推理能力不一致。 我让Mistral 7B、Mixtral 8x7B和GPT-4做了同一个逻辑谜题。Mistral在多步算术上大约有30%的失败率——例如,“一列火车上午10点从巴黎出发,时速120公里。另一列火车上午10:30从里昂出发,时速150公里。它们何时相遇?”它有时会错误地计算相遇时间,因为它无法正确追踪那30分钟的提前出发时间。
上下文窗口限制带来麻烦。 虽然Mixtral声称支持32K令牌,但我发现性能在超过24K令牌后明显下降。总结一份50页的法律文件导致了幻觉——它编造了不存在的条款。我不得不将文档分块并使用检索增强生成设置,这增加了复杂性。
工具调用笨拙。 Mistral的函数调用支持不像OpenAI那样原生。你需要手动格式化函数定义并解析输出,这增加了开发时间。我花了一个周末来调试一个用于工具调用的JSON解析器。
定价现实
Mistral AI提供托管API(Le Chat),Mistral Small每1000个令牌收费0.0007欧元,Mistral Large收费0.004欧元。这比GPT-3.5-turbo(0.0015美元/1000令牌)便宜,但比Claude Haiku(0.00025美元/1000令牌)贵。开源模型可以免费下载,但你需要为硬件付费:一块二手RTX 3090大约700美元,全天候运行每月电费增加30-50美元。对于生产工作负载,你需要一台专用服务器或云GPU实例——期望每月200-500美元以获得不错的正常运行时间。
谁应该使用它
最适合:需要数据主权的团队、开发者