百川智能

模型发布日期类型分类

Baichuan4

2024-05-22闭源
大语言模型

百川智能是一家专注于人工智能大模型技术的公司,由前搜狗CEO王小川创立。公司成立于2023年4月10日,迅速在人工智能领域崭露头角。百川智能的核心团队由来自搜狗、百度、华为、微软、字节、腾讯等知名科技公司的AI顶尖人才组成。公司成立不到100天,便发布了Baichuan-7B、Baichuan-13B两款开源可免费商用的中文大模型。百川智能致力于通过先进的人工智能技术,推动社会进步和产业升级。

发展历程

初期发展

百川智能在成立之初便获得了5000万美元的启动资金,这为其后续的研发和市场推广提供了坚实的基础。2023年8月31日,百川智能宣布其大模型通过《生成式人工智能服务管理暂行办法》备案,正式向公众开放。这一举措标志着百川智能在合规性和技术成熟度上迈出了重要一步。

产品发布

  • Baichuan-7B:2023年6月15日,百川智能推出了70亿参数量的中英文预训练大模型Baichuan-7B。该模型在Hugging Face、Github以及Model Scope平台发布,受到了广泛关注。
  • Baichuan-53B:2023年8月8日,百川智能发布了Baichuan-53B大模型,并开启了第一批内测。
  • Baichuan 2-53B:2023年9月25日,百川智能发布Baichuan2-53B闭源大模型,全面升级了Baichuan1-53B的各项能力,并正式进军To B领域,开启商业化进程。

技术突破

2024年1月29日,百川智能发布了超千亿参数的大语言模型Baichuan 3。该模型在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中,展现了出色的能力,尤其在中文任务上超越了GPT-4。Baichuan 3还突破了“迭代式强化学习”技术,进一步提升了语义理解和生成能力。

最新进展

2024年5月22日,百川智能发布了最新一代基座大模型Baichuan 4,并推出了首款AI助手“百小应”。Baichuan 4在通用能力、数学和代码能力上均有显著提升,并且在多模态能力上表现优异。百川智能还宣布开放Baichuan 4、Baichuan3-Turbo、Baichuan3-Turbo-128k、Assistant API四款API,所有开发者、企业用户均可登录百川智能开发者中心选择并接入相应API。

技术特点

动态数据选择

在训练过程中,百川智能提出了“动态数据选择”技术。传统的数据筛选依靠人工定义,通过滤重筛选、质量打分、Textbook筛选等方法过滤数据。而百川智能认为,数据的优化和采样是一个动态过程,应该随着模型本身的训练过程优化,而非单纯依靠人工先验进行数据的采样和筛选。为全面提升数据质量,百川智能设计了一套基于因果采样的动态训练数据选择方案,该方案能够在模型训练过程中动态地选择训练数据,极大提升数据质量。

重要度保持

超千亿参数的模型由于参数量巨大,训练过程中经常会出现梯度爆炸、loss 跑飞、模型不收敛等问题。对此,百川智能提出了“重要度保持”(Salience-Consistency)的渐进式初始化方法,用以保证模型训练初期的稳定性。并且优化了模型训练过程的监控方案,在梯度、Loss 等指标上引入了参数“有效秩”的方法来提早发现训练过程中的问题,极大加速对训练问题的定位,确保了最后模型的收敛效果。

异步 CheckPoint 存储

为了确保在数千张 GPU 上高效且稳定地训练超千亿参数模型,百川智能同步优化了模型的训练稳定性和训练框架,并采用“异步 CheckPoint 存储”机制,可以无性能损失地加大存储的频率,减少机器故障对训练任务的影响,使 Baichuan 3 的稳定训练时间达到一个月以上,故障恢复时间不超过 10 分钟。

训练效率优化

百川智能针对超千亿参数模型的并行训练问题进行了一系列优化,如高度优化的 RoPE, SwiGLU 计算算子;在数据并行中实现参数通信与计算的重叠,以及在序列并行中实现激活值通信与计算的重叠,从而有效降低了通信时间的比重;在流水并行中引入了将激活值卸载至 GPU 的技术,解决了流水并行中显存占用不均的问题,减少了流水并行的分段数量并显著降低了空泡率。通过这些技术创新,Baichuan 3 的训练框架在性能方面相比业界主流框架提升超过 30%。

商业化与市场认可

商业化进程

百川智能在商业化方面也取得了显著进展。2023年9月25日,百川智能发布Baichuan2-53B闭源大模型,全面升级了Baichuan1-53B的各项能力,并正式进军To B领域,开启商业化进程。2024年5月22日,百川智能发布了最新一代基座大模型Baichuan 4,并推出了首款AI助手“百小应”。百川智能还宣布开放Baichuan 4、Baichuan3-Turbo、Baichuan3-Turbo-128k、Assistant API四款API,所有开发者、企业用户均可登录百川智能开发者中心选择并接入相应API。

市场认可

百川智能的市场认可度也在不断提升。2024年4月9日,百川智能以71亿人民币的企业估值入选《2024·胡润全球独角兽榜》,排名第1118名。这一成绩不仅展示了百川智能在人工智能领域的技术实力,也体现了市场对其未来发展的期待和信心。

AI助手“百小应”

百川智能推出的AI助手“百小应”具备多轮搜索、定向搜索等能力,能够更精准地理解用户搜索需求,为用户提供专业、丰富的知识和资源。百小应不仅可以随时回答用户提出的各种问题,速读文件、整理资料、辅助创作等,还具备多轮搜索、定向搜索等搜索能力,能更精准地理解用户搜索需求,为用户提供专业、丰富的知识和资源。此外还会在用户问题的基础上通过一系列提问来帮助用户明确自身需求,给出更精准的答案。百小应现在已经在 Web 端 (ying.ai) 及移动端各大应用商店同步上线。

未来展望

百川智能通过不断的技术创新和产品发布,正在推动人工智能大模型技术的发展和应用。未来,百川智能将继续在人工智能领域深耕,通过技术突破和产品创新,为用户提供更加智能、便捷的服务。同时,百川智能也将积极拓展商业化路径,推动人工智能技术在更多领域的应用,为社会带来更多的价值。

结语

百川智能作为一家新兴的人工智能公司,凭借其强大的技术实力和创新能力,已经在人工智能领域取得了显著的成就。未来,百川智能将继续致力于人工智能技术的研究和应用,推动社会进步和产业升级。通过不断的技术突破和产品创新,百川智能有望在人工智能领域占据更重要的地位,为用户提供更加智能、便捷的服务。

个人中心
搜索