商业与技术洞察公司Gartner预测,到2030年,生成式AI提供商对1万亿参数大语言模型(LLM)的推理成本将比2025年降低90%以上。
AI Token是生成式AI模型处理的数据单位。本次分析中,1 Token等于3.5字节数据,约合4字符。
Gartner高级研究总监Will Sommer表示:“推动这一成本下降的因素包括半导体和基础设施效率的提升、模型设计方面的创新、芯片利用率的提高、专用推理芯片的普及以及针对特定用例的边缘设备应用。”
基于这些趋势,Gartner预测,到2030年,大语言模型的成本效益将比2022年开发的同等规模早期模型高出多达100倍。
该模型预测结果分为两类半导体场景:
- 前沿场景:模型处理基于前沿芯片的表征。
- 传统混合场景:模型处理基于以Gartner预测为基准的现有半导体混合表征。
由于算力较低,“混合”预测场景的建模成本远高于“前沿”场景(见图一)。