JavaScript is required

微软不再独宠OpenAI!押注成立10个月、发布GPT-4最强竞品的法国AI独角兽Mistral AI

155
2024-02-28 11:11:40



OpenAI 领跑全球 AI 大模型时,很多人好奇谁会成为下一个或者有能力超越它的公司?


虽然目前并没有准确的答案,但是就在今天 OpenAI 的确迎来了一个强有力的竞争对手,即总部位于法国巴黎的初创公司 Mistral AI。

押注成立10个月、发布GPT-4最强竞品的法国AI独角兽Mistral AI


2 月 26 日,Mistral AI 不仅推出了仅次于 GPT-4 性能的 Mistral Large,还带来了 ChatGPT 的竞争对手 Le Chat 聊天机器人(目前处于预览阶段)。更重要的是,它还和 OpenAI 背后的金主微软达成了合作。


据外媒 FT 报道,如同当年 OpenAI 在艰难之际获得微软的资金和算力支持,时下,微软总裁 Brad Smith 宣布与 Mistral 建立「多年合作伙伴关系」,以帮助这家成立 10 个月的公司将其人工智能模型推向市场。作为合作的一部分,微软拥有 Mistral AI 少量股份。


01 Mistral AI 用 10 个月成为欧洲生成式 AI 领域最大的「黑马」


在大模型赛道上,相比已经推出 ChatGPT、GPT-4 等顶级模型的 OpenAI,以及带来 Claude 系列模型的 Anthropic 等公司而言,Mistral AI 如同其于 2023 年 4 月成立的时间一样,还非常年轻。


在此之前,让这家初创公司频登热搜的也不是因为它推出了多么超级厉害的大模型产品,而主要是资本的涌入。


要知道彼时 Mistral AI 创办仅四周且在尚未发布任何新品时,它便获得了一轮高达 1.13 亿美元的种子资金,成为当时欧洲生成式 AI 公司有史以来最大的种子轮融资。同时,这笔资金的进入让 Mistral AI 的估值直接达到了 2.4 亿欧元(2.6 亿美元)。


不久之后,Mistral AI 发布的新模型 Mistral 7B,在众多基准测试中超越了Llama2 13B 模型,从而一举成名。


在 2023 年 12 月,Mistral AI 也靠实力说话,在直接开源了其 MoE(Mixture of Experts)大模型 Mixtral 8x7B 的同时,宣布完成新一轮 4.15 亿美元的融资,此轮融资主要涉及加州基金 Andreessen Horowitz、法国巴黎银行和软件发行商 Salesforce。这笔资金也让 Mistral AI 的估值翻了几番,达到约 20 亿美元。


放眼全球 AI 市场,Mistral AI 妥妥地就是资本的宠儿。对于这家公司的背景,我们也曾报道过,是由三位 30 岁+的大小伙创办而成,他们分别来自 Google DeepMind、Meta 公司,都有着大模型方面的研究与开发经验。


其中,曾在 Facebook 母公司 Meta 工作现如今 32 岁的 Timothée Lacroix 和 33 岁的 Guillaume Lample,此前一起领导了 Meta 的 LLaMA 大模型的开发,当前在 Mistral AI 分别任职首席技术官和首席科学官。



以及今年 31 岁的 Arthur Mensch,他曾受雇于 Google DeepMind,是 Retro、Flamingo 和 Chinchilla 项目的主要贡献者,发表过 21 篇有关语言模型的 ArXiv 论文,当前在 Mistral AI 这家初创公司担任 CEO。


据悉,他们三人在学习交流期间相识,彼时都在大厂公司任职 AI 重要岗位。


Mistral AI 联合创始人

Mistral AI 联合创始人:Guillaume Lample、Arthur Mensch、Timothée Lacroix


之所以想要创立 Mistral AI,Mensch 称是在 2022 年的某个时候,他们开始看到了 AI 发展方向。


虽然他们没有直接道明受 OpenAI  ChatGPT 成功的鼓舞,但是 2022 年底ChatGPT 的出现,的确给了很多人不少启发。


Mistral巴黎总部的办公室

Mistral巴黎总部的办公室


02 对标 GPT-4,Mistral AI 发布 Mistral Large


时下,Mistral AI 最新发布大模型——Mistral Large,直面当前最先进的模型 GPT-4 带来的压力。


值得注意的是,在公司成立之时,Mistral AI 坚信:「开源是刻在我们(Mistral AI) DNA 里的一个核心部分。」所以,其起步时候发布的 Mistral 7B、Mixtral 8x7B 等都是以开源的形式,但是如今 Mistral AI 似乎走上了和 OpenAI 相同的路径,Mistral Large 不会开源。


根据 Mistral 官方介绍,Mistral Large 具有顶级推理能力,它可用于复杂的多语言推理任务,包括文本理解、转换和代码生成。默认情况下,Mistral Large 支持 32K token 上下文窗口(通常超过 20,000 个英语单词),可以从大型文档中精确调用信息。


当然口说无凭,Mistral AI 也直接在官网上晒出 Mistral Large 与 GPT-4、Claude 2、Gemini Pro、GPT-3.5、LLaMA 2 70B 在各种基准上的测试成绩。


推理能力


其中,在常用的 MMLU 基准测试中,Mistral Large 推理能力还不错,以 81.2% 的成绩位居第二位,仅次于 GPT-4。


GPT-4、Mistral Large(预训练)、Claude 2、Gemini Pro 1.0、GPT 3.5 和 LLaMA 2 70B 在 MMLU 上的比较(测量大规模多任务语言理解)。



多语言能力


在语言能力上,Mistral Large 支持英语、法语、西班牙语、德语和意大利语,对语法和文化背景有细致入微的理解。根据不同的基础测试发现,其明显优于 LLaMA 2 70B 模型。



数学和编码


Mistral Large 在编码和数学任务中表现出色,远远超过 LLaMA 2 70B 模型。



相比其他大模型,Mistral Large 还具有一些独特的优势:


原生支持函数调用。JSON 格式模式强制语言模型输出为有效的 JSON 格式。这一功能使开发人员能够更自然地与 Mistral Large 模型进行交互,以结构化的格式提取信息,便于在其余管道中使用。


函数调用可让开发人员将 Mistral 端点与他们自己的工具集连接起来,从而与内部代码、API 或数据库进行更复杂的交互。


目前 Mistral Large 可以在 Mistral 自己的基础设施(在欧洲托管)——La Plateforme 上使用,这个接入点使开发人员能够在其全面的模型范围内创建应用程序和服务。


同时,随着 Mistral 和微软合作的展开,Mistral 的开放和商业语言模型能在微软的 Azure AI 平台上可用,这也是继 OpenAI 之后第二家在 Azure 上提供商业语言模型的公司。


Mensch所在的团队

Mensch所在的团队从一个10人的小团队变为30人,最后扩充成为了一个70人的大团队。


03 Mistral Small 也于今天面世


Mistral AI 取名方式异常简单,通俗易懂,大模型名字叫 Mistral Large,调优之后的模型就用 Small 来表示。


此次,Mistral AI 还发布了新的优化模型 Mistral Small,与 Mistral 的 8x7B 模型相比,该模型针对延迟和成本进行了优化,延迟更低了。


当前,Mistral AI 正在简化端点产品,以提供以下服务:


  • 具有价格竞争力的开放式端点。这包括 open-mistral-7B 和 open-mixtral-87b。


  • 新的优化模型端点:mistral-small-2402 和 mistral-large-2402。Mistral AI 透露,该团队正在维护 mistral-medium,但今天不会更新。


整体来看,Mistral AI 已发布的几款模型在推理、编码、多语言方面的表现能力如下所示:



04 ChatGPT 的替代方案——Le Chat


除了以上,Mistral AI 今天还推出了一款名为 Le Chat 的聊天助手。任何人都可以在 chat.mistral.ai 上注册并试用。


该公司表示,目前 Le Chat 只是一个测试版,用户可以其中使用 Mistral Small、Mistral Large 和一款名为 Mistral Next 的原型模型。


值得注意的是,Le Chat 在测试阶段,可能会出现一些奇怪的反馈,而且在使用时不能访问网络,所以也可能会出现信息不准确或者回答过时内容的情况。


未来,该公司还计划推出面向企业客户的付费版 Le Chat。其中企业客户还可以定义审核机制。


05 Mistral AI 的商业模式


在生成式 AI 产品商业化这条路上,Mistral AI 的商业模式和 OpenAI 的也有些类似,该公司通过付费 API 提供 Mistral Large,并根据使用量定价。


目前, Mistral Large(mistral-large-2402)的费用为每百万个输入 token 为 8 美元,每百万个输出 token 为 24 美元。



作为比较,GPT-4 Turbo 具有 128k token 上下文窗口,目前每百万个输入 token 的成本为 10 美元,每百万个输出 token 的成本为 30 美元。



Mistral Large 目前比 GPT-4 Turbo 便宜一些。


06 微软为什么牵手 Mistral AI?


最后,在这次合作中,微软和 Mistral AI 双方都没有透露交易的财务细节,不过正如文章伊始所示,微软称对这家总部位于巴黎的初创公司是小额投资,这表明它远小于微软对 OpenAI 数十亿美元的投资。


对此,Mistral AI 联合创始人兼首席执行官 Arthur Mensch 表示:「微软对我们模型的信任是我们将前沿人工智能交到每个人手中的旅程中向前迈出的一步。」


至于为什么微软会选择 Mistral AI,微软总裁 Brad Smith 在接受外媒 CNBC 采访时表示,「就微软对欧洲的技术支持而言,今天是最重要的日子之一。我们从根本上同意与 Mistral AI 建立长期合作伙伴关系,这样他们就可以在我们的人工智能数据中心、我们的基础设施上训练和部署他们的下一代人工智能模型,并立即生效...对我们来说,重要的是要表明这不仅仅是微软的技术,也不仅仅是美国的产品。这也将成为欧洲技术、创新和增长的引擎。」


除此之外,其实微软和 Mistral AI 选择当前这一时间点合作也颇为关键。据外媒报道,微软目前因为向 OpenAI 投资 130 亿美元而正面临欧盟反垄断监管机构的调查,对此外界也纷纷猜测微软此举也是为了平衡监管机构对于其可能带来的反垄断竞争的担忧。


不过,Mistral AI 在有微软的助力下,首推的大模型崭露头角,于普通用户而言,市场有竞争无疑也是一件好事。


参考链接:

[1]https://mistral.ai/news/mistral-large/

[2]https://techcrunch.com/2024/02/26/mistral-ai-releases-new-model-to-rival-gpt-4-and-its-own-chat-assistant/

[3]https://www.cnbc.com/2024/02/26/microsoft-invests-in-europes-mistral-ai-to-expand-beyond-openai.html



来源:CSDN,爱科会易仅用于学术交流。






OpenAI 领跑全球 AI 大模型时,很多人好奇谁会成为下一个或者有能力超越它的公司?


虽然目前并没有准确的答案,但是就在今天 OpenAI 的确迎来了一个强有力的竞争对手,即总部位于法国巴黎的初创公司 Mistral AI。

押注成立10个月、发布GPT-4最强竞品的法国AI独角兽Mistral AI


2 月 26 日,Mistral AI 不仅推出了仅次于 GPT-4 性能的 Mistral Large,还带来了 ChatGPT 的竞争对手 Le Chat 聊天机器人(目前处于预览阶段)。更重要的是,它还和 OpenAI 背后的金主微软达成了合作。


据外媒 FT 报道,如同当年 OpenAI 在艰难之际获得微软的资金和算力支持,时下,微软总裁 Brad Smith 宣布与 Mistral 建立「多年合作伙伴关系」,以帮助这家成立 10 个月的公司将其人工智能模型推向市场。作为合作的一部分,微软拥有 Mistral AI 少量股份。


01 Mistral AI 用 10 个月成为欧洲生成式 AI 领域最大的「黑马」


在大模型赛道上,相比已经推出 ChatGPT、GPT-4 等顶级模型的 OpenAI,以及带来 Claude 系列模型的 Anthropic 等公司而言,Mistral AI 如同其于 2023 年 4 月成立的时间一样,还非常年轻。


在此之前,让这家初创公司频登热搜的也不是因为它推出了多么超级厉害的大模型产品,而主要是资本的涌入。


要知道彼时 Mistral AI 创办仅四周且在尚未发布任何新品时,它便获得了一轮高达 1.13 亿美元的种子资金,成为当时欧洲生成式 AI 公司有史以来最大的种子轮融资。同时,这笔资金的进入让 Mistral AI 的估值直接达到了 2.4 亿欧元(2.6 亿美元)。


不久之后,Mistral AI 发布的新模型 Mistral 7B,在众多基准测试中超越了Llama2 13B 模型,从而一举成名。


在 2023 年 12 月,Mistral AI 也靠实力说话,在直接开源了其 MoE(Mixture of Experts)大模型 Mixtral 8x7B 的同时,宣布完成新一轮 4.15 亿美元的融资,此轮融资主要涉及加州基金 Andreessen Horowitz、法国巴黎银行和软件发行商 Salesforce。这笔资金也让 Mistral AI 的估值翻了几番,达到约 20 亿美元。


放眼全球 AI 市场,Mistral AI 妥妥地就是资本的宠儿。对于这家公司的背景,我们也曾报道过,是由三位 30 岁+的大小伙创办而成,他们分别来自 Google DeepMind、Meta 公司,都有着大模型方面的研究与开发经验。


其中,曾在 Facebook 母公司 Meta 工作现如今 32 岁的 Timothée Lacroix 和 33 岁的 Guillaume Lample,此前一起领导了 Meta 的 LLaMA 大模型的开发,当前在 Mistral AI 分别任职首席技术官和首席科学官。



以及今年 31 岁的 Arthur Mensch,他曾受雇于 Google DeepMind,是 Retro、Flamingo 和 Chinchilla 项目的主要贡献者,发表过 21 篇有关语言模型的 ArXiv 论文,当前在 Mistral AI 这家初创公司担任 CEO。


据悉,他们三人在学习交流期间相识,彼时都在大厂公司任职 AI 重要岗位。


Mistral AI 联合创始人

Mistral AI 联合创始人:Guillaume Lample、Arthur Mensch、Timothée Lacroix


之所以想要创立 Mistral AI,Mensch 称是在 2022 年的某个时候,他们开始看到了 AI 发展方向。


虽然他们没有直接道明受 OpenAI  ChatGPT 成功的鼓舞,但是 2022 年底ChatGPT 的出现,的确给了很多人不少启发。


Mistral巴黎总部的办公室

Mistral巴黎总部的办公室


02 对标 GPT-4,Mistral AI 发布 Mistral Large


时下,Mistral AI 最新发布大模型——Mistral Large,直面当前最先进的模型 GPT-4 带来的压力。


值得注意的是,在公司成立之时,Mistral AI 坚信:「开源是刻在我们(Mistral AI) DNA 里的一个核心部分。」所以,其起步时候发布的 Mistral 7B、Mixtral 8x7B 等都是以开源的形式,但是如今 Mistral AI 似乎走上了和 OpenAI 相同的路径,Mistral Large 不会开源。


根据 Mistral 官方介绍,Mistral Large 具有顶级推理能力,它可用于复杂的多语言推理任务,包括文本理解、转换和代码生成。默认情况下,Mistral Large 支持 32K token 上下文窗口(通常超过 20,000 个英语单词),可以从大型文档中精确调用信息。


当然口说无凭,Mistral AI 也直接在官网上晒出 Mistral Large 与 GPT-4、Claude 2、Gemini Pro、GPT-3.5、LLaMA 2 70B 在各种基准上的测试成绩。


推理能力


其中,在常用的 MMLU 基准测试中,Mistral Large 推理能力还不错,以 81.2% 的成绩位居第二位,仅次于 GPT-4。


GPT-4、Mistral Large(预训练)、Claude 2、Gemini Pro 1.0、GPT 3.5 和 LLaMA 2 70B 在 MMLU 上的比较(测量大规模多任务语言理解)。



多语言能力


在语言能力上,Mistral Large 支持英语、法语、西班牙语、德语和意大利语,对语法和文化背景有细致入微的理解。根据不同的基础测试发现,其明显优于 LLaMA 2 70B 模型。



数学和编码


Mistral Large 在编码和数学任务中表现出色,远远超过 LLaMA 2 70B 模型。



相比其他大模型,Mistral Large 还具有一些独特的优势:


原生支持函数调用。JSON 格式模式强制语言模型输出为有效的 JSON 格式。这一功能使开发人员能够更自然地与 Mistral Large 模型进行交互,以结构化的格式提取信息,便于在其余管道中使用。


函数调用可让开发人员将 Mistral 端点与他们自己的工具集连接起来,从而与内部代码、API 或数据库进行更复杂的交互。


目前 Mistral Large 可以在 Mistral 自己的基础设施(在欧洲托管)——La Plateforme 上使用,这个接入点使开发人员能够在其全面的模型范围内创建应用程序和服务。


同时,随着 Mistral 和微软合作的展开,Mistral 的开放和商业语言模型能在微软的 Azure AI 平台上可用,这也是继 OpenAI 之后第二家在 Azure 上提供商业语言模型的公司。


Mensch所在的团队

Mensch所在的团队从一个10人的小团队变为30人,最后扩充成为了一个70人的大团队。


03 Mistral Small 也于今天面世


Mistral AI 取名方式异常简单,通俗易懂,大模型名字叫 Mistral Large,调优之后的模型就用 Small 来表示。


此次,Mistral AI 还发布了新的优化模型 Mistral Small,与 Mistral 的 8x7B 模型相比,该模型针对延迟和成本进行了优化,延迟更低了。


当前,Mistral AI 正在简化端点产品,以提供以下服务:


  • 具有价格竞争力的开放式端点。这包括 open-mistral-7B 和 open-mixtral-87b。


  • 新的优化模型端点:mistral-small-2402 和 mistral-large-2402。Mistral AI 透露,该团队正在维护 mistral-medium,但今天不会更新。


整体来看,Mistral AI 已发布的几款模型在推理、编码、多语言方面的表现能力如下所示:



04 ChatGPT 的替代方案——Le Chat


除了以上,Mistral AI 今天还推出了一款名为 Le Chat 的聊天助手。任何人都可以在 chat.mistral.ai 上注册并试用。


该公司表示,目前 Le Chat 只是一个测试版,用户可以其中使用 Mistral Small、Mistral Large 和一款名为 Mistral Next 的原型模型。


值得注意的是,Le Chat 在测试阶段,可能会出现一些奇怪的反馈,而且在使用时不能访问网络,所以也可能会出现信息不准确或者回答过时内容的情况。


未来,该公司还计划推出面向企业客户的付费版 Le Chat。其中企业客户还可以定义审核机制。


05 Mistral AI 的商业模式


在生成式 AI 产品商业化这条路上,Mistral AI 的商业模式和 OpenAI 的也有些类似,该公司通过付费 API 提供 Mistral Large,并根据使用量定价。


目前, Mistral Large(mistral-large-2402)的费用为每百万个输入 token 为 8 美元,每百万个输出 token 为 24 美元。



作为比较,GPT-4 Turbo 具有 128k token 上下文窗口,目前每百万个输入 token 的成本为 10 美元,每百万个输出 token 的成本为 30 美元。



Mistral Large 目前比 GPT-4 Turbo 便宜一些。


06 微软为什么牵手 Mistral AI?


最后,在这次合作中,微软和 Mistral AI 双方都没有透露交易的财务细节,不过正如文章伊始所示,微软称对这家总部位于巴黎的初创公司是小额投资,这表明它远小于微软对 OpenAI 数十亿美元的投资。


对此,Mistral AI 联合创始人兼首席执行官 Arthur Mensch 表示:「微软对我们模型的信任是我们将前沿人工智能交到每个人手中的旅程中向前迈出的一步。」


至于为什么微软会选择 Mistral AI,微软总裁 Brad Smith 在接受外媒 CNBC 采访时表示,「就微软对欧洲的技术支持而言,今天是最重要的日子之一。我们从根本上同意与 Mistral AI 建立长期合作伙伴关系,这样他们就可以在我们的人工智能数据中心、我们的基础设施上训练和部署他们的下一代人工智能模型,并立即生效...对我们来说,重要的是要表明这不仅仅是微软的技术,也不仅仅是美国的产品。这也将成为欧洲技术、创新和增长的引擎。」


除此之外,其实微软和 Mistral AI 选择当前这一时间点合作也颇为关键。据外媒报道,微软目前因为向 OpenAI 投资 130 亿美元而正面临欧盟反垄断监管机构的调查,对此外界也纷纷猜测微软此举也是为了平衡监管机构对于其可能带来的反垄断竞争的担忧。


不过,Mistral AI 在有微软的助力下,首推的大模型崭露头角,于普通用户而言,市场有竞争无疑也是一件好事。


参考链接:

[1]https://mistral.ai/news/mistral-large/

[2]https://techcrunch.com/2024/02/26/mistral-ai-releases-new-model-to-rival-gpt-4-and-its-own-chat-assistant/

[3]https://www.cnbc.com/2024/02/26/microsoft-invests-in-europes-mistral-ai-to-expand-beyond-openai.html



来源:CSDN,爱科会易仅用于学术交流。