迈向普惠AI的「一小步」：智谱AI GLM-4-Flash 大模型免费开放

by 氧分子 · 2024 年 08 月 28 日

在大型模型技术持续进步的背景下，智谱AI郑重地宣布：GLM-4-Flash 免费开放给所有人。现在只需要注册开放平台 bigmodel.cn 就可以通过调用 GLM-4-Flash 快速、免费地构建你的专属模型和应用。

GLM-4-Flash 可以帮你做什么？

GLM-4-Flash 兼具“高速度”和“经济性”两大特点，适用于完成简单垂直、低成本、需要快速响应的任务。

在能力方面，GLM-4-Flash 具备多轮对话、网页浏览、Function Call 和长文本推理（支持最大 128K 上下文）等高级功能，同时支持包括中文、英语、日语、韩语、德语在内的 26 种语言。在科研数据预处理、信息抽取、多语种翻译、多轮对话中展现了易用性和便利性。

· 数据抽取：生物学家使用 GLM-4-Flash 处理分子数据，破解健康密码；

· 数据生成：使用 GLM-4-Flash 生成可以训练其他大模型的数据内容，让 GLM-4-Flash 成为其他领域大模型的 “黄埔军校” ；

· 多轮对话：高校学者正使用 GLM-4-Flash 制作 AI 助教，让每个学生都有学习和校园生活的伙伴；有的开发者还将模型应用于虚拟人对话场景；

· 英语翻译：开发者使用 GLM-4-Flash 构建翻译 APP，帮助小朋友进行英语互动性学习；

· 内容生成：广告公司使用 GLM-4-Flash 做文本润色，帮助编辑和文案快速输出各种类型的文案。

智谱AI相信，随着 GLM-4-Flash 完全免费，未来将催生出更多基于大模型的应用和创新。

免费背后的技术逻辑？

智谱AI通过多种方式优化大模型运行效率。开放平台采用自适应权重量化、多种并行化方式、批处理策略以及投机采样等多种方法，在推理层面实现模型的延迟降低与速度提升，更大并发量和吞吐量不仅提升了效率，而且让推理成本显著降低。

在预训练方面，智谱AI引入了大语言模型进入数据筛选流程，最终获得了 10T 高质量多语言数据，数据量是 ChatGLM3-6B 模型的 3 倍以上；同时，智谱AI采用了 FP8 技术进行高效的预训练，显著提高了训练效率和计算量。

GLM-4-Flash 能力矩阵

1. 推理能力

逻辑推理能力往往是衡量模型性能的重要标准，其决定了模型在求解数学题、完成复杂任务等方面上的能力。GLM-4-Flash 在中英文性能上表现出色。在这里，智谱AI选择了一道逻辑推理题来让模型进行推理，从而对比三个模型的逻辑推理能力。原题如下：

有一个很古老的村子，这个村子的人分两种，红眼睛和蓝眼睛，这两种人并没有什么不同，小孩在没生出来之前，没人知道他是什么颜色的眼睛，这个村子中间有一个广场，是村民们聚集的地方，现在这个村子只有三个人，分住三处。在这个村子，有一个规定，就是如果一个人能知道自己眼睛的颜色并且在晚上自杀的话，他就会升入天堂，这三个人不能够用语言告诉对方眼睛的颜色，也不能用任何方式提示对方的眼睛是什么颜色，而且也不能用镜子、水等一切有反光的物质来看到自己眼睛的颜色，当然，他们不是瞎子，他们能看到对方的眼睛，但就是不能告诉他！他们只能用思想来思考，于是他们每天就一大早来到广场上，面对面的傻坐着，想自己眼睛的颜色，一天天过去了，一点进展也没有。直到有一天，来了一个外地人，他到广场上说了一句话，改变了他们的命运，他说，你们之中至少有一个人的眼睛是红色的。说完就走了。这三个人听了之后，又面对面的坐到晚上才回去睡觉，第二天，他们又来到广场，又坐了一天。当天晚上，就有两个人成功的自杀了！第三天，当最后一个人来到广场，看到那两个人没来，知道他们成功的自杀了，于是他也回去，当天晚上，也成功的自杀了！根据以上，请说出三个人的眼睛的颜色，并能够说出推理过程！

从结果可以看到，GLM-4-Flash 完美解决逻辑推理题，展示了其逻辑推理能力。

迈向普惠AI的「一小步」：智谱AI GLM-4-Flash 大模型免费开放

2. 生成速度

GLM-4-Flash 生成速度快，能达到 72.14 token/s，约等于 115 字符/s。

在一项来自科技博主「赛博禅心」的模型速度测试中，给定模型的任务是将《出师表》翻译成现代汉语：

#测试 prompt：将以下内容，翻译成现代汉语：先帝创业未半而中道崩殂，今天下三分，益州疲弊，此诚危急存亡之秋也。然侍卫之臣不懈于内，忠志之士忘身于外者，盖追先帝之殊遇，欲报之于陛下也。诚宜开张圣听，以光先帝遗德，恢弘志士之气，不宜妄自菲薄，引喻失义，以塞忠谏之路也。宫中府中，俱为一体，陟罚臧否，不宜异同。若有作奸犯科及为忠善者，宜付有司论其刑赏，以昭陛下平明之理，不宜偏私，使内外异法也。侍中、侍郎郭攸之、费祎、董允等，此皆良实，志虑忠纯，是以先帝简拔以遗陛下。愚以为宫中之事，事无大小，悉以咨之，然后施行，必能裨补阙漏，有所广益。将军向宠，性行淑均，晓畅军事，试用于昔日，先帝称之曰能，是以众议举宠为督。愚以为营中之事，悉以咨之，必能使行阵和睦，优劣得所。亲贤臣，远小人，此先汉所以兴隆也；亲小人，远贤臣，此后汉所以倾颓也。先帝在时，每与臣论此事，未尝不叹息痛恨于桓、灵也。侍中、尚书、长史、参军，此悉贞良死节之臣，愿陛下亲之信之，则汉室之隆，可计日而待也。臣本布衣，躬耕于南阳，苟全性命于乱世，不求闻达于诸侯。先帝不以臣卑鄙，猥自枉屈，三顾臣于草庐之中，咨臣以当世之事，由是感激，遂许先帝以驱驰。后值倾覆，受任于败军之际，奉命于危难之间，尔来二十有一年矣。先帝知臣谨慎，故临崩寄臣以大事也。受命以来，夙夜忧叹，恐托付不效，以伤先帝之明，故五月渡泸，深入不毛。今南方已定，兵甲已足，当奖率三军，北定中原，庶竭驽钝，攘除奸凶，兴复汉室，还于旧都。此臣所以报先帝而忠陛下之职分也。至于斟酌损益，进尽忠言，则攸之、祎、允之任也。愿陛下托臣以讨贼兴复之效，不效，则治臣之罪，以告先帝之灵。若无兴德之言，则责攸之、祎、允等之慢，以彰其咎；陛下亦宜自谋，以咨诹善道，察纳雅言，深追先帝遗诏，臣不胜受恩感激。今当远离，临表涕零，不知所言。

从结果中可以看到，GLM-4-Flash 的生成速度紧随 GPT-3.5-turbo（83.42 token/s），远远高于其他模型，比如 Qwen-turbo（43.99 token/s)、Baichuan3-Turbo （36.36 token/s）。

迈向普惠AI的「一小步」：智谱AI GLM-4-Flash 大模型免费开放