9月20日,上海人工智能实验室宣布与商汤科技联合香港中文大学和复旦大学正式推出书生·浦语大模型(InternLM)200亿参数版本InternLM-20B,并在阿里云魔搭社区(ModelScope)开源首发。同时,书生·浦语面向大模型研发与应用的全链条工具链升级,与InternLM-20B一同继续全面开放,向企业和开发者提供免费商用授权。
上海人工智能实验室是人工智能领域的新型科研机构,主要开展战略性、原创性、前瞻性的科学研究与技术攻关。在大模型的应用价值日趋受到关注的背景下,上海人工智能实验室联合多家机构推出中量级参数的 InternLM-20B 大模型,其重点在于性能先进且应用便捷,以不足三分之一的参数量,达到了当前被视为开源模型标杆的Llama2-70B的能力水平。
自今年6月首次发布以来,书生·浦语已历多轮升级,此次其发布的20B量级模型具备更为强大的综合能力,在复杂推理和反思能力上尤为突出,因此可为实际应用带来更有力的性能支持;同时,20B量级模型可在单卡上进行推理,经过低比特量化后,可运行在单块消费级GPU上,因而在实际应用中更为便捷。
在相对有限的参数规模下,研究人员在架构设计时面临重要的取舍——提高模型的深度还是宽度?通过广泛的对照实验,书生·浦语团队发现,更深的模型层数更有利于复杂推理能力的培养。因此在架构设计时,研究人员把模型层数设定为60层,而7B与13B模型通常采用32层或者40层设计;同时内部维度保持在5120,处于适中水平。通过架构设计上的新取舍,InternLM-20B在较高计算效率的条件下实现了复杂推理能力的显著提升。
相比于此前的开源模型,InternLM-20B的能力优势主要体现在更长的语境。通过外推技术,InternLM-20B支持16K语境长度,可以支持长文理解、长文生成和超长对话。
工具调用是拓展大语言模型能力边界的重要手段,也是OpenAI近期推出大模型的重点特性之一。InternLM-20B对话模型支持了日期、天气、旅行、体育等数十个方向的内容输出及上万个不同的 API。