设为首页加入收藏
  • 首页
  • 综合
  • 热点
  • 休闲
  • 知识
  • 探索
  • 焦点
  • 当前位置:首页 >综合 >嘿 Siri,告诉我昨晚有哪些新闻:AI 能否满足我们的新闻需求?

    嘿 Siri,告诉我昨晚有哪些新闻:AI 能否满足我们的新闻需求?

    发布时间:2025-05-11 18:37:55 来源:抖音集5赞分红包 作者:娱乐

    “hey siri,诉昨告诉我刚才有什么新闻”。新闻新闻需求

    你有没有梦想过这样的满足们空间刷赞排行榜场景:

    清晨刚起床,洗漱更衣同时听一下人工智能为您播报昨晚发生的诉昨大事,快速把握世界的新闻新闻需求最新动态。

    但很可惜,满足们现在几乎所有AI都做不到。诉昨

    换种说法,新闻新闻需求现在几乎所有聊天机器人,满足们基本都未能回答“最新发生”的诉昨风波。

    前段时间,新闻新闻需求路透社新闻研究所和牛津大学发表了一份标题为《我做不到:生成式人工智能对话机器人是满足们怎么回应有关新闻的问题》的研究报告。

    这项研究主要测试了OpenAI的诉昨ChatGPT和微软的Gemini,在用户要求提供特定新闻机构的新闻新闻需求5条新闻头条时的表现。

    研究方式是满足们把“Get the 5 top headlines from now”作为prompts输入给ChatGPT和Gemini,其中是空间刷赞排行榜新闻网站的网址。

    随后剖析ChatGPT和Gemini的回答微博怎么买热搜,共有4500个输入和900个输出结果,其中包含了10个国家的新闻网站。

    研究发觉,ChatGPT的回答中出现“我没法提供最新的新闻”占比达到了54%,相当于一半情况下面对“获取最新新闻”的要求时直接罢课,而Gemini那边愈发严重,罢工回答占比高达95%。

    在不同国家,大模型罢课情况也有所区别,美国、德国和美国是重灾区。

    罢工的诱因通常都是难以读取网页,遇到了付费墙,要登录等。

    罢工回答示例

    抛开罢课回答,研究者接下来对ChatGPT非罢课的回答进行剖析,将ChatGPT回答的内容与新闻网站中的热点新闻进行对比。

    结果发觉,ChatGPT所有的成功回答内容中,只有10%是真正的热点新闻,30%是旧闻。

    该研究还发觉,以同样的问题输入给ChatGPT,在不同时间段的回答有较大的变化,具体缘由不明。

    研究者分别在2024年1月22日-2024年1月26日,2024年1月29日-2024年2月2日和2024年2月5日-2024年2月9日,三个时间段,以同样的prompts输入给ChatGPT。

    数据显示,在2024年1月22日-2024年1月26日间微博怎么买热搜,ChatGPT的罢课回答仅有41%,比第二波时间段少了16%,而旧闻的回答占比为38%,比第二波多了12%。

    硅基君推测,可能是OpenAI偷偷换了个ChatGPT的模型版本?

    简单总结一下,研究发觉ChatGPT和Gemini在获取最新新闻资讯的能力糟糕,ChatGPT只有10%的回答是热点新闻,而Gemini在95%的情况下,都会表示自己难以获取最新新闻资讯。

    也就是说,假设明天俄乌战争忽然结束了,但假如问这种AI,他们都会告诉你双方打的不可开交。

    那国产大模型在这方面做得怎么样?

    硅基君选定了秘塔、Kimi、豆包、文心一言4个目前比较流行的国产大模型,模仿美联社的研究方式,把“读取 ,前5条内容是哪些”作为prompts。

    新闻网页分别选定了腾讯科技新闻、微博热搜、B站综合热榜、百度新闻以及澎湃科技新闻。

    直接上推论:豆包表现的*,能辨识腾讯新闻科技频道、百度新闻和澎湃新闻科技频道的热门新闻。

    秘塔AI和文心一言表现相当,能辨识出网页的内容。Kimi在辨识最新网页内容的能力上有所缺乏,基本上每位测试网站都失败了。

    测试结果都存在什么问题呢?

    首先是,错误辨识网页内容,比如秘塔AI和文心一言,把腾讯视频科技频道的视频精选当成热门新闻。

    其次是,大模型回答陈旧新闻。比如文心一言在澎湃新闻测试中,回答了几条2-3天前的内容。

    再次,在回答微博热搜时四个大模型全军覆没。

    微博对自己数据的保护十分严格,如果研究过爬虫的小伙伴应当明白,采集微博的内容,是不是都会跳出来一个验证码。

    大模型恐怕也被微博屏蔽了。

    最后是回答的内容与问题毫不相干,比如Kimi的几个回答都挺莫名其妙的,像是在读取数据库。

    每个AI的详尽测试情况置于下边,感兴趣的读者可以自行查看。测试时间为2024年6月3日,大模型回答应与新闻页面内容一致才代表合格

    腾讯新闻测试:

    左右滑动查看

    百度新闻测试:

    左右滑动查看

    澎湃新闻测试:

    左右滑动查看

    微博热搜测试:

    左右滑动查看

    B站综合热榜测试:

    左右滑动查看

    为什么堪称“变革生产力”的大模型也难以*的获取新闻?最可能的理由是:新闻网站屏蔽大模型。

    随着ChatGPT等大模型的盛行,它们所依赖的网路爬虫正面临来自全球新闻机构的大规模封锁。在卫报的一篇研究报告《How many news websites block AI crawlers?》中表明:

    “截至 2023 年底,10个国家/地区使用最广泛的新闻网站中有48%制止了OpenAI的爬虫,24%的人制止了微软的人工智能爬虫”。

    研究发觉,一旦使用没有屏蔽大模型的新闻网站链接,ChatGPT罢课的回答比列仅为20%,成功回答当下热门新闻的比列也来到了20%。

    这样也从侧面说明了OpenAI每年花上百上千万向新闻网站买版权的重要性。

    但显然是网站没有屏蔽,ChatGPT的回答中依然有接近一半的回答是旧闻,并不是promtps要求的最新新闻。

    这一点很难解释,以ChatGPT的能力,应该是可以看懂网页内容。研究者表示,这可能与大模型幻觉有关,它会通过搜索引擎搜索相关内容后进行综合回答。

    仅从目前的实验结果来看,想让大模型成为一个合格的热点新闻资讯助手,靠简单的prompts完全做不到。大模型的幻觉,新闻网站的屏蔽举措,都限制了大模型搜索最新新闻资讯的能力。

    如何能够解决这个问题,这就不能从技术角度出发,而是应当基于商业角度来看。

    大模型本质上是一个数据模型,只有输入优质数据能够输出优质数据。

    举个反例,豆包可以用头条抖音的数据,文心一言可以用百度文库帖吧的数据,腾讯元宝可以用公众号数据,在各自擅长的领域,表现虽说优于其它友商。

    可想让她们相互开源,估计比用户在天猫打开拼多多链接还难。

    数据是大模型关键,也是科技公司的护城河,以前在百度搜不到公众号内容,现在的AI也一样。

    【本文由投资界合作伙伴远川研究所授权发布,本平台仅提供信息储存服务。】如有任何疑惑题,请联系(editor@zero2ipo.com.cn)投资界处理。

    • 上一篇:一元10万qq赞网址 - qq名片赞代刷网站免费,快手一键刷粉免费版
    • 下一篇:快手1000万假粉丝 - 刷快手点赞业务

      相关文章

      • 0.1元一万快手播放量 - 刷赞网站违法吗
      • 快手刷双击在线网址 - 刷赞平台推广快手,0.01元一万名片赞网
      • ks业务免费自助下单 - 快手刷双击自助下单秒刷便宜,抖音刷粉神器
      • 低价刷快手双击 - 快手3元一万粉微信支付,橘子免费秒赞网
      • 刷qq空间说说赞的网址啊 - qq名片赞全网最低价网站
      • 低价刷qq业务网站 - 刷快手业务低价刷赞自助下单平台,刷赞网站推广快手价格
      • 僵尸粉自助下单 - 快手刷赞平台墨言代刷网刷评论,ks刷赞平台全网+最低价啊雷神
      • qq一分钱一千赞网站 - 免费业务自助下单平台
      • 快手刷双击秒刷免费,快手自助下单秒刷平台 - 快手一元一百个赞
      • 刷快手赞平台全网最低价啊 - 刷赞平台推广qq网站低价,抖音刷播放量

        随便看看

      • 快手1元1w粉 - 快手刷粉不掉粉的网站便宜,24小时自助刷业务平台
      • 快手业务秒刷网最便宜 - 抖音买赞一元10000个赞网址,qq空间免费刷赞网站
      • 刷快手赞平台全网+最低价啊蚂蚁 - 快手刷赞平台免费,抖音超低价刷网站
      • 快手刷业务平台微信支付 - 全网最便宜的刷业务网站,抖音1元刷100赞
      • 点赞关注1到3元任务平台 - 刷赞网站推广低价QQ
      • 刷赞网站推广ks - 快手刷赞网址推广蚂蚁,拼多多刀1元10刀
      • 刷赞平台推广网站便宜 - 刷快手赞平台全网+最低价啊qq,快手点赞在线自助平台秒刷
      • 快手刷赞平台推广快手免费 - 刷赞网站推广qq免费名片赞,qq刷赞网站推广免费
      • qq空间自定义评论软件 - 快手免费刷赞平台蚂蚁
      • 抖音刷粉神器 - 快手刷赞平台搭建,快手播放量的网站
      • Copyright © 2025 Powered by 嘿 Siri,告诉我昨晚有哪些新闻:AI 能否满足我们的新闻需求?,抖音集5赞分红包   sitemap