加载中...

您的位置：首页 >资讯频道 > 焦点资讯 > 正文

百度文心一言评测：与真正的“对话式AI”还有很长距离头条

2023-03-17 20:06:34 来源：36氪的朋友们

3月16日下午，百度召开文心一言发布会，当天晚间，界面新闻拿到了这款大语言模型的测试邀请码，并进行了大量测试。

整体来看，百度这次略显匆忙推出的文心一言仍处于非常初级的阶段，跟“生产力”基本不搭边。无论是语义理解、持续对话、文生图还是数理推理能力，都处于比较死板的状态。

(资料图片仅供参考)

也就是说用户需要按照特定的提问方式，才能获得合格答案。它基本不允许用户自由对话，与真正的“对话式AI”还有很长距离，更像普通的搜索引擎产品，只是省略了用户自行筛选搜索答案的过程。

具体来说，文心一言面对单轮、简单问题时，能够直接给出答案。尤其是那些在百度搜索上能搜到的问题，文心一言会选取搜索引擎内容给予回答（并不保证正确性），在形式上做到了有问有答。

但进入多轮对话之后，文心一言的表现有明显下滑，经常“前言不搭后语”。当你对它的答案不满意，要求修订之后，文心一言经常会机械的承认错误，然后给出相同的错误答案。

百度在发布会上表示，本次发布的文心一言1.0版本包含文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成能力。

在界面新闻的测试中，这款产品的数理逻辑推算能力比较基础，面对复杂描述、需要逻辑理解的问题或者错误问题时，文心一言经常给出错误答案，并且不会纠正错误的问题。同时，该产品文生图的能力也有待加强，画风较为单一，无法根据用户的典型标签需求进行调整，甚至经常错误理解一些简单的标签。

与ChatGPT表现出的“乌鸦智能”（全球知名计算机视觉专家朱松纯教授曾说过乌鸦和鹦鹉的比喻，乌鸦具有“理解”能力，而鹦鹉的问答方式是“鹦鹉学舌”）相比，目前文心一言还停留在模仿阶段。

虽然李彦宏在发布会上将文心一言与ChatGPT直接对标，甚至对标GPT-4，但从实际体验来看，百度与微软（Open AI）的这两款产品差距极大，并不成称之为对手或者竞品。

李彦宏和王海峰也都在发布会现场承认，文心一言（1.0版本）在本次内测发布之前，并没有经过太多训练，未来需要很长时间的迭代。李彦宏主动提及，百度之所以这么快推出类ChatGPT产品，是因为内部业务团队和客户有需求。

或许是考虑到训练成本和产品成熟度问题，百度控制了本次测试的人员规模，未来文心一言的迭代效果如何，界面新闻会继续保持关注。

以下是部分测试的截图：

一、首先，提出简单的问题：《原神》和《王者荣耀》哪一个更受欢迎？

从结果来看，文心一言抓取了网络上的错误信息。首先，《王者荣耀》并没有超过51%的收入来自于中国以外的市场；其次，《王者荣耀》单款游戏第四季度收入48亿美元的信息也是错误的。此外，在答案格式上，文心一言还错误使用了“《》“。

我们点击“重新生成”按钮，希望文心一言再次回答，第二次的答案基本令人满意：

我们并没有就此停止，再次点击“重新生成”，新的答复如下：

答案引用的是2021年的旧数据，且数据本身存在不少问题。回答的内容也并不令人信服。

在另一个类似的话题结构上，文心一言的答案出现了重大失误：

上面这段答案里，错误不仅是划线的两处。这应该是文心一言在百度页面上抓取了一篇虚假内容所导致的。

在这里能明显反映出一个问题，那就是内容源的污染，会直接影响对话式AI产品的输出结果。

而有经验的网民都知道，目前在百度搜索的结果中充斥着大量不实信息和内容，如何避免它们污染文心一言大语言模型，无疑是百度在未来需要重点解决的问题之一。

据界面新闻了解，文心一言的数据来源是百度的自有生态，也就意味着它无法抓取各大app的内容。所以，移动时代的信息孤岛效应，也制约着文心一言后期的迭代效果。

再看另一个测试。发布会当天，百度的股价有明显下跌，我们向文心一言提出问题：

在涉及股价波动的问题上，它的回答基本符合预期。

二、在数理推算能力上，界面新闻向它提出了一个经典问题，并在其中去掉了一个重要条件，文心一言并未反应过来，同时给出了错误答案：

因为题干中缺少相对距离，并不能得出任何时间结果。文心一言给出的运算过程也完全错误。

在另一道基础数学题上，文心一言的表现不错：

在一个脑筋急转弯性质的数学题上，文心一言抓取了百度搜索页面的结果：

这也印证了，百度生态内部内容源的质量，能直接决定文心一言的回答质量。如何防止内容源被污染，尤为关键。

三、对于另一个颇受外界关注的文生图能力，界面新闻也做了不少测试，发现了一些问题。比如我们先是提出了一个简单需求：做一张天空的图片。

从结果来看，文心一言给出了天空+小孩的图片。在标签比较简单的时候，它生成的图片内容反而比较复杂，精准度并不高。

再看另一组文生图测试，标签为四组简单词汇，图片内容缺少两个元素。

继续展开第二轮对话，因为目前文心一言不支持修改原图，所以我们提出需求“重新画一张”，结果如下：

这是一个完全错误的答案。在多次测试中界面新闻发现，一旦对话进入多轮状态，文心一言通常会表现出力不从心的状态，无法正确理解上下文语意，再比如下面这次测试：

此外，我们还在测试中还发现，文心一样并不能准确的理解中文语意，有时理解能力甚至不如百度自家的搜索引擎，我们提出了下面的需求：

文心一样将“网红”理解为“红”（红色），对中文语意的理解本应该成为百度的优势。在这里放出百度搜索引擎的理解：

可以看出百度搜索对用户中文语意的理解能力明显正常很多。

四、在文学创作能力上，我们要求它模仿金庸和JK罗琳的风格，写一段孙悟空的故事，回答如下：

但就文本内容而言，是一段成形的故事。但两次回答的内容一字不差，可见文心一言目前做不到更深层次的文学内容理解，所以无法分辨金庸和JK罗琳的风格区别，只是将同一个模板反复套用。

考虑到它只是1.0内测版本的大语言模型，这些可以理解。

在文心一言的文案创作能力上，我们对它提出做一份《原神》和《王者荣耀》联动的宣传文案，答复如下：

我们得到了一篇比较简短标准的官方公告。鉴于我们在问题上并未给出更多限制条件，所以文案的内容也比较简单。

当我们提出要求其创作一首歌曲，名字为《只因你太美》，答复如下：

我们也让文心一言创作一篇论文，效果如下：

说实话，如果哪个大学生拿这篇论文交给老师，应该会被判不及格。北京某211大学教授新闻传播课程的教师对该结果的评价是：车轱辘话。

对于网络上很多用户喜欢的调戏式问题，我们也给文心一言准备了一些。比如下面这段完整的内容：

总体来看，如果是抱着寻求解放生产力的目的使用文心一言，那至少这个1.0版本是不合格的。如果对它抱有“未来可期”的态度，那可以继续关注百度在接下来的时间内对该产品的更新迭代。

众所周知，对大模型的投入需要克服巨大的资金和资源压力，同时也面临着商业化场景稀缺的现状，百度能否始终如一的坚持下去也值得关注。

就在今日，微软举办了一场AI发布会，宣布将推出名为Copilot的人工智能服务，它由OpenAI最新推出的GPT-4模型驱动。微软表示，它将适用于Word、PowerPoint、Excel、Outlook这些Microsoft 365商业软件，帮助用户生成文档、电子邮件以及幻灯片等。

如果微软最终将该产品大规模落地，那无疑是对生成式AI赛道的一剂强心剂，也遥遥领先于其它竞争对手，这个领域内的商业竞争才刚刚起步。

本文来自界面新闻，作者：崔鹏，36氪经授权发布。

关键词：

百度文心一言评测：与真正的“对话式AI”还有很长距离头条

今日推荐

焦点图

低调家财险出现爆发式增长 2...

冰山冷热取消收购松下制冷

国美多位高管接连出走裁员...

南京同仁堂入局保健酒市场 ...

热点标签

精彩文章

低调家财险出现爆发式增长 202...

百度文心一言评测：与真正的“对话式AI”还有很长距离 头条

今日推荐

焦点图

低调家财险出现爆发式增长 2...

冰山冷热取消收购松下制冷

国美多位高管接连出走 裁员...

南京同仁堂入局保健酒市场 ...

热点标签

精彩文章

低调家财险出现爆发式增长 202...

推荐阅读

百度文心一言评测：与真正的“对话式AI”还有很长距离头条

国美多位高管接连出走裁员...