人工智能行业正经历一场翻天覆地的变化，大型语言模型的运行成本失控般飙升。过去公司们一门心思搞快速Token生成和规模化扩张，现在却手忙脚乱地实施成本控制和防护措施。一位内部人士告诉TechCrunch：‘整个讨论方向从Tokenmaxxing和‘冲冲冲’变成了‘我们需要护栏，该怎么控制局面？’'Tokenmaxxing'——即最大化AI模型处理的Token数量——的时代已经让位于残酷的现实。初创公

6/7/2026

人工智能行业正经历一场翻天覆地的变化，大型语言模型的运行成本失控般飙升。过去公司们一门心思搞快速Token生成和规模化扩张，现在却手忙脚乱地实施成本控制和防护措施。一位内部人士告诉TechCrunch：‘整个讨论方向从Tokenmaxxing和‘冲冲冲’变成了‘我们需要护栏，该怎么控制局面？’'Tokenmaxxing'——即最大化AI模型处理的Token数量——的时代已经让位于残酷的现实。初创公司和科技巨头都面临来自云服务商和GPU集群的天价账单，逼得他们疯狂寻找提效方法。推理成本，也就是模型生成回答的过程，成了主要瓶颈。对最先进模型的一次查询可能只花几分钱，但乘以每天数百万用户，月支出很快就飙到数百万美元。这种财务压力正在重塑行业。公司现在优先考虑模型优化、量化和缓存策略来减少Token使用。有些甚至把简单任务交给更小、更专业的模型，把昂贵的大模型留给复杂查询。这一转变也推动了硬件和软件的创新，初创公司开发定制芯片和推理引擎来降低成本。但这场争夺战不止于技术层面。商业模式也在被重新思考。订阅费、按用量定价和分级访问正成为标配，公司试图在不阻碍用户采用的情况下把成本转嫁给消费者。投资者曾经不计回报地往AI初创公司砸钱，现在却要求看到明确的可持续收入路径。‘Token账单’已成为董事会和工程会议中的核心议题。随着行业走向成熟，对成本控制的关注很可能会定义AI发展的下一波浪潮。那些能驾驭性能与开销平衡的公司，将成为AI这个更务实新阶段的领军者。