万字综述大模型高效推理

2024-06-14 12:44:05 来源：

机器之心发布作者：宁雪妃、周紫轩（无问芯穹TechView）近年来，大语言模型（LargeLanguageModels,LLMs）受到学术界和工业界的广泛关注，得益于其在各种语言生成任务上的出色表现，大语言模型推动了各种人工智能应用（例如ChatGPT、Copilot等）的发展。然而，大语言模型的落地应用受到其较大的推理开销的限制，对部署资源、用户体验、经济成本都带来了巨大挑战。例如，将包含700亿参数量的LLaMA-2-70B模型进行部署推理，至少需要6张RTX3090Ti显卡或2张NVIDIAA100显卡，以部署在A100显卡上为例，该模型生成512长度的词块（token）序列需要耗时超过

免责声明：免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！

标签：