谷歌推出 Gemini3.1Pro 深度研究代理:支持 MCP 协议与多模态自主研究

谷歌近日宣布推出两款基于 Gemini3.1Pro 架构的全新自主研究代理——Deep Research 与 Deep Research Max,现已通过 Gemini API 付费层级开启公开预览。这两款工具旨在实现复杂研究流程的全面自动化,标志着 AI 代理从单纯的网页搜索向具备深度推理能力的“长时计算”模式演进。

Deep Research 标准版主打高效率与低延迟,适用于需要即时反馈的实时对话场景;而 Deep Research Max 则优先考虑研究深度,通过延长计算时间进行多轮推理与迭代,主要针对尽职调查报告等异步后台任务。在技术实现上,新版本首次引入了对模型上下文协议(MCP)的支持,允许代理在调用开放网络信息的同时,接入金融或市场等专有数据库。此外,代理现已具备原生可视化能力,可直接生成 HTML 格式的图表和信息图。

在性能基准测试中,谷歌称 Deep Research Max 在检索与推理任务上较前代有显著提升,但行业专家指出其与 OpenAI GPT-5.4系列及 Anthropic Opus4.6的对比结果受测试方法影响,仍需谨慎解读。值得注意的是,该系列代理新增了协作规划功能,支持 PDF、视音频等多模态输入,并允许开发者完全关闭网络访问以确保私有数据安全。

谷歌表示,这两款代理与 NotebookLM 及谷歌搜索的研究架构一脉相承,后续将通过 Google Cloud 推向企业级市场。随着自主研究代理进入“长时推理”阶段,AI 在专业分析领域的作用将从信息搬运工正式转向具备自主规划能力的深度分析专家。

via AI新闻资讯 (author: AI Base)
来自频道: @AI_News_CN
苹果重拳整顿 App Store 支付:明星应用 Cal AI 违规被下架

科技巨头苹果公司近期再次展现了其对应用商店规则的严苛执行力。知名饮食记录应用 Cal AI 因试图绕过苹果官方的应用内购(IAP)系统,并采用诱导性营销手段,被苹果正式从 App Store 短暂下架。

这一举动被业界视为“杀鸡儆猴”。尽管目前苹果已允许部分开发者在特定条件下跳转外部支付,但苹果依然通过此次执法明确释放信号:任何挑战其支付准则的行为都将面临严厉处罚。

规避内购流程,嵌入第三方结算引发违规

调查显示,Cal AI 最核心的违规行为是私自搭建了嵌入式支付流程。该应用通过接入第三方支付服务,引导用户在不经过苹果应用内购买选项的情况下解锁数字内容。

根据苹果 App Store 审核准则,即便开发者提供外部支付链接,应用也必须同时保留苹果原生的应用内购买选项。Cal AI 完全绕开结算环节的做法,直接触碰了苹果维持生态秩序的红线。

欺诈性计费套路,诱导性营销损害用户体验

除了支付问题,Cal AI 还被指存在欺诈性计费设计。该应用在付费弹窗中刻意突出折算后的低廉周费,却弱化了用户实际需要支付的总金额,并模糊处理了订阅自动续费的关键信息。

此外,苹果指出该应用在用户拒绝首次优惠后,会立刻弹出另一套引导消费的流程。这种被定义为“诱导性手段”的行为引发了大量用户差评。目前,在完成相关问题整改后,该应用已重新上架。

via AI新闻资讯 (author: AI Base)
来自频道: @AI_News_CN
苹果下架并整改健康类爆款应用Cal AI,严厉打击规避内购及操纵性计费行为

苹果公司近期对MyFitnessPal旗下热门AI食物记录应用Cal AI采取的下架行动,再次彰显了其对App Store外部支付及订阅准则的严厉执行态度。此前,这款年经常性收入(ARR)达5000万美元的爆款应用因违反多项开发者指南被短暂下架,目前在完成问题整改后已重新上架。

报道显示,尽管Epic Games诉苹果案的判决已允许美国开发者链接至外部支付系统,但苹果明确指出Cal AI存在严重合规偏差。核心违规点在于该应用试图绕过苹果的应用内购买(IAP)机制,通过嵌入Stripe第三方支付流程解锁数字商品,且未按规定同步提供IAP选项。此外,苹果指控其存在“欺骗性计费设计”,例如以更显著的字号标注周换算价格以混淆实际账单金额,以及利用隐藏自动续订信息的免费试用开关误导消费者。

在开发者行为准则层面,Cal AI还因采取“操纵手段”受到抨击,包括向拒绝订阅的用户推送二次购买流程,以及因支付选项呈现方式涉嫌欺诈而遭遇大量用户投诉。虽然Cal AI作为健康类应用不属于可豁免IAP的“阅读器”范畴,但其此前疑似试探监管底线的行为遭到了苹果的果断反击。

此次事件为全球开发者敲响了警钟:即使法律判决放宽了支付限制,苹果依然保持着对生态系统的高度控制权。苹果通过对健康健身榜排名第四的应用“开刀”,传递出清晰的市场信号——任何利用政策空窗期实施操纵性计费或破坏IAP完整性的行为,都将面临严格的准入审查。

via AI新闻资讯 (author: AI Base)
来自频道: @AI_News_CN
Meta 监控员工键鼠操作,旨在训练“AI 办公助手”

社交媒体巨头 Meta 近日被曝出正在实施一项名为“模型能力计划”的内部项目。据路透社获取的备忘录显示,该公司正在美国员工的电脑上安装追踪软件,用于实时采集鼠标移动、点击以及键盘输入等细微的人机交互数据。

这一举措是 Meta 打造“自主 AI 代理”愿景的关键部分。通过记录真实员工在办公软件上的操作路径,Meta 希望训练其人工智能模型学会如何像人类一样处理复杂的日常办公任务,从而提升公司整体的运作效率。

模拟真实交互,突破 AI 办公瓶颈

Meta 的人工智能研究人员指出,目前的 AI 模型在模拟精细的人机交互方面仍存在短板。例如,如何精准地从下拉菜单中选择选项,或者熟练使用各种键盘快捷键,这些操作都需要大量的真实样本作为学习素材。

公司首席技术官博斯沃思表示,未来的愿景是让 AI 代理承担大部分基础工作。人类的角色将转变为指挥者和审阅者,而这些数据采集则是为了让 AI 代理能够自动识别需求并在下一次表现得更好。

引发隐私担忧,数据合规面临考验

尽管 Meta 强调这些数据仅用于模型训练,不会与员工的绩效考核挂钩,但这种高强度的监控行为依然在学界引发了巨大争议。法律专家指出,记录键盘输入等手段进一步加剧了对员工私人行为的侵入,法律界限十分微妙。

此外,这种做法在不同地区的合规性也存在差异。在法律严苛的欧洲市场,类似的监控行为很可能面临违反《通用数据保护条例》(GDPR)的风险。在利用技术提升生产力的同时,如何平衡员工隐私权已成为科技大厂亟待解决的难题。

via AI新闻资讯 (author: AI Base)
来自频道: @AI_News_CN
Meta推出内部监测工具,利用员工键鼠操作数据训练AI模型

路透社近日披露,Meta正计划通过采集其员工的实时办公数据来训练新一代人工智能模型,旨在构建能够更高效执行任务及响应查询的AI系统。据悉,Meta将推出一款专门的内部工具,用于追踪并记录员工在特定应用程序中的鼠标移动、键盘输入、按钮点击及菜单导航等行为。这一举动标志着科技巨头在面临外部数据枯竭压力下,开始深入挖掘企业内部的“点击流”数据,以期通过真实的计算机交互案例,提升AI智能体辅助日常办公的理解力与拟合度。

Meta发言人在针对此事的声明中确认了该计划,并强调若要构建能真正协助用户操作电脑的智能体,模型必须学习人类使用计算机的真实范例。Meta方面表示,目前已采取安全措施以保护敏感内容,并承诺相关数据仅限于模型训练,不会转作他用。然而,这一策略也引发了行业对隐私边界的广泛讨论。

当前,人工智能行业正处于模型迭代的关键期,高质量训练数据已成为核心竞争资产。上周亦有报道显示,部分老牌初创公司的Slack存档、Jira工单及其他内部通讯记录正被转化为AI训练素材。Meta的最新动作进一步证实了行业趋势:企业内部沟通与操作行为正日益成为新型供应链中的关键“燃料”。这种从公开互联网数据转向封闭式、高频次人类行为数据的采集方式,虽然有望在专业生产力领域实现AI性能突破,但也预示着职场隐私与技术演进之间的权衡将变得愈发复杂。

via AI新闻资讯 (author: AI Base)
来自频道: @AI_News_CN
OpenAI CEO奥尔特曼抨击 Anthropic:深陷“恐慌式营销”泥潭

全球 AI 巨头 OpenAI 与 Anthropic 之间的舆论战再次升级。OpenAI 首席执行官萨姆·奥尔特曼在近日的一档播客节目中,公开对竞争对手的最新安全模型提出质疑。

他认为 Anthropic 正在利用社会大众对技术的恐惧心理,以此来夸大其产品的实际应用能力。这种策略在奥尔特曼看来,并非真正为了安全,而是一种商业手段。

限制精英使用,被指制造技术壁垒

争议的焦点源于 Anthropic 本月发布的 Mythos 模型,该模型目前仅面向少数企业客户开放。该公司对此解释称,由于该模型能力过于强大,为防止网络犯罪而选择不对公众开放。

奥尔特曼对此反驳称,这种做法实质上是希望将人工智能技术仅掌控在少数精英群体手中。他形象地比喻这种营销方式就像是先制造恐慌,再向感到威胁的人们推销昂贵的避难所。

行业营销通病,夸大宣传引发忧虑

事实上,这种通过强调“技术危险性”来侧面印证“技术强大”的做法在 AI 行业内并不少见。许多从业者都在利用夸张的话术来吸引关注,从而在激烈的市场竞争中占据有利地位。

尽管奥尔特曼本人也曾多次谈及 AI 可能带来的风险,但他此次的批评显然指向了更深层的行业垄断问题。这场关于技术透明度与公共利益的争论,也将人工智能的安全边界讨论推向了新的高度。

via AI新闻资讯 (author: AI Base)
来自频道: @AI_News_CN
YouTube 开放人脸声纹识别技术,演艺圈迎来“数字替身”保卫战

随着生成式人工智能门槛的降低,深度伪造内容的管控已成为行业迫在眉睫的挑战。谷歌旗下视频巨头 YouTube 近日宣布,正式向娱乐行业开放其最先进的人脸与声纹检测技术。

这项举措旨在打击未经授权的 AI 生成内容,保护公众人物的合法权益。作为全球视频领域的领军者,YouTube 正在通过技术手段重塑数字版权的保护边界。

类似内容 ID 机制,实现精准身份防伪

该系统的运行逻辑与 YouTube 现有的 Content ID 版权识别系统高度相似。不过,新工具不再仅仅扫描传统的音视频片段,而是专注于识别模仿他人外貌或声音特征的 AI 伪造数据。

一旦系统在平台上海量的视频库中标记出疑似匹配的伪造内容,受影响的当事人将收到通知。他们有权在第一时间对内容进行审核,并可以直接要求平台将其立即下架处理。

打破频道限制,全方位守护数字身份

这项技术的应用范围非常广泛,即使是那些没有在 YouTube 运营个人频道的明星,也同样可以享受该保护。这意味着公众人物能够以更主动的姿态守护自身的“数字肖像权”,而无需通过漫长的举报流程。

目前,YouTube 已经与 CAA、WME 等多家全球顶尖的艺人经纪公司达成合作。通过与专业机构的深度联动,该系统在处理复杂的人工智能生成内容时将表现得更加高效且精准。

via AI新闻资讯 (author: AI Base)
来自频道: @AI_News_CN
特斯拉车机语音大模型在沪完成备案

特斯拉在人工智能本土化进程中再次迈出关键一步。根据网信上海4月21日发布的最新公告,特斯拉(上海)有限公司申请的“特斯拉车机语音大模型服务”已于4月20日正式通过生成式人工智能服务备案。

这一进展意味着特斯拉的智能座舱体验即将在中国市场迎来深度进化。截至目前,上海市累计已有158款生成式人工智能服务完成备案,而特斯拉作为重点外资企业,其大模型服务的落地一直备受行业关注。

软硬件结合加速智能化转型

此次备案的语音大模型主要面向车机交互场景。通过引入生成式 AI 技术,特斯拉有望改变过往相对基础的语音控制模式,赋予车辆更强的理解能力和多轮对话能力。

值得注意的是,这并非特斯拉首次在华进行 AI 业务备案。早在去年11月,特斯拉旗下的“xBot 客户服务”就已成为全国首批获批上线的外企大模型产品。该服务主要应用于 Tesla App 的在线客服模块,能够深度理解车主及潜在用户的提问,并提供精准的智能问答响应。从早期的售后端应用,到现在直接深入车机座舱的核心交互,特斯拉的 AI 布局正呈现出从服务层向产品层渗透的清晰路径。

合规经营与行业规范

在推进技术落地的同时,特斯拉也严格遵守国内的监管要求。根据相关规定,已上线的生成式人工智能应用需在产品显著位置公示模型名称及备案号。同时,相关功能在生成合成内容时,必须按照《人工智能生成合成内容标识办法》添加明确的标识,以确保算法的透明度与安全性。

随着沃尔沃、特斯拉等外资车企的大模型服务相继通过备案,国内智能汽车市场的竞争重心正加速向“ AI 定义汽车”转变。对于广大特斯拉车主而言,更具“人情味”和逻辑思维的智能化座舱体验已近在咫尺。

via AI新闻资讯 (author: AI Base)
来自频道: @AI_News_CN
ChatGPT free users are seeing errors when having conversations

Status: Investigating

We are investigating the issue for the listed services.

Affected components
Conversations (Partial outage)

via OpenAI status
来自频道: @AI_News_CN
Anthropic 测试取消 Pro 订阅 Claude Code 权限以应对成本压力

Anthropic 正在调整其订阅策略,测试将 Claude Code 移出每月 20 美元的 Pro 计划。此次变动目前仅针对约 2% 的新注册用户,现有订阅者权益暂未变动。受此影响,官方定价页面已将该功能的包含状态更新为排除。

更深层的变动在于用户使用习惯已转向高频的长程异步代理,导致代币消耗成本远超订阅费用。此前,Anthropic 已通过设置每周使用上限及高峰期限制来缓解算力压力。公司表示,目前正根据测试反馈探索不同方案,以应对算力需求与成本失衡的挑战。

The Register

🌸 在花频道|茶馆讨论|投稿通道

via 科技圈🎗在花频道📮 - Telegram Channel
来自频道: @AI_News_CN
爆改漫画师?OpenAI 发布 ChatGPT Images 2.0,单次可生成8张连贯图像

OpenAI 正式推出了基于全新 GPT Image2模型构建的 AI 生图工具——ChatGPT Images2.0。此次更新的核心亮点在于赋予了 AI 更加显著的“思考能力”,使其在处理复杂视觉任务时表现得更像是一位具备逻辑的创作者。

引入推理规划,生图不再是“开盲盒”

相比于以往直接生成图像的模式,Images2.0引入了深度逻辑规划功能。在启用“思考能力”后,AI 会在正式落笔前先进行联网信息检索,并结合用户上传的文件进行视觉解析。通过对图像结构的预先推理和布局规划,生成的作品将更加符合逻辑直觉,而非简单的素材堆砌。目前,这一前沿功能已率先向 ChatGPT Plus、Pro、Business 以及 Enterprise 的订阅用户开放。

连贯性突破:单次8张连图,搞定漫画与设计

在多图生成领域,新版本实现了里程碑式的进展。Images2.0现在支持单次提示词生成最多8张连贯图像。最令创作者惊喜的是,系统能够在不同的场景切换中,严谨地保持角色形象、物体细节以及整体视觉风格的高度统一。这一特性的落地,意味着创作长篇漫画、社交媒体系列配图或是整套室内设计方案的门槛将被大幅拉低。

画质跃升与多语言微调

在技术规格层面,新版本将最高分辨率提升至2K 级别,并提供了从3:1到1:3极宽的比例选择,能够完美适配电影剧照、像素艺术等多种细分风格。此外,针对全球化需求,研发团队重点优化了该工具在中文、日语、韩语、印地语及孟加拉语环境下的文本生成准确度,有效解决了以往 AI 生图中常见的文字乱码与理解偏差问题。

这次升级标志着 AI 绘图正从单纯的“像素生成”向“理解与创作”迈进,为专业设计师和普通用户提供了更具生产力的视觉工具。

via AI新闻资讯 (author: AI Base)
来自频道: @AI_News_CN
来自频道: @AI_News_CN
OpenAI CEO批评Anthropic新模型:焦虑营销

本周,在一次播客露面中,OpenAI CEO萨姆·奥尔特曼点名批评了他竞争对手的新网络安全模型,指出该公司正在利用焦虑让其产品听起来比实际更令人印象深刻。Anthropic本月早些时候宣布了 Mythos,并向一小部分企业客户开放了该模型。该公司声称,Mythos功能过于强大,出于担心网络犯罪分子会将其武器化,因此不宜向公众发布。而在播客《核心记忆》的一次露面中,萨姆·奥尔特曼暗示,Anthropic 的“基于焦虑的营销”是一种将人工智能掌握在少数且排他的精英群体手中的好方法。“世界上有些人,长期以来,一直希望让AI掌握在更少的人手中。你可以用很多不同的方式来证明这一点,”他说。

—— Techcrunch

via 风向旗参考快讯 - Telegram Channel
来自频道: @AI_News_CN
OpenAI 推出 Images2.0 图像生成工具

OpenAI 正式发布了 ChatGPT Images 2.0,这款由全新 GPT Image 2 模型驱动的图像生成工具,其核心特点在于引入了「思考」功能。新模型在生成图像前会进行推理,并能整合网络搜索能力,大幅提升生成结果的多样性与准确度。此功能将分阶段向ChatGPT Plus、Pro 及 Business 用户开放。在启用思考模式后,Images 2.0 能根据单一指令生成最多八张图像,确保跨场景角色、物件和风格保持一致。 OpenAI提出多种应用情境,例如从一张图片和文字指令生成数页漫画、一系列社交媒体图形,以及不同房间的设计方案,展现其在内容创作领域的巨大潜力。

—— 雅虎

via 风向旗参考快讯 - Telegram Channel
来自频道: @AI_News_CN
来自频道: @AI_News_CN
#Update #ChatGPT

ChatGPT Image 2.0 现已发布:

• 对复杂指令的执行力更强
• 更强的复杂文本渲染,包括中日韩文本等非拉丁文字
• 更强的细节渲染,覆盖 UI、漫画、真实世界等广泛场景
• 最高 2K 分辨率,多种长宽比例

via AI Copilot - Telegram Channel
来自频道: @AI_News_CN
↩️🖼 🤖 OpenAI 发布 ChatGPT Images 2.0 强化文本渲染与联网推理能力


科技圈🎗在花频道📮:

🤖 GPT-Image-2 已在 ChatGPT 中全量上线 🌸 在花频道|茶馆讨论|投稿通道

🤖 OpenAI 发布 ChatGPT Images 2.0 强化文本渲染与联网推理能力

OpenAI 推出基于 GPT Image 2 的新一代图像生成模型 ChatGPT Images 2.0,通过引入“思考能力”实现了图像生成的逻辑推理与联网搜索。受此影响,该模型能够根据单一提示词生成多达 8 张保持视觉一致性的连续图像,并支持生成漫画、UI 元素及营销素材等复杂构图,分辨率提升至 2K。

与此同时,新模型解决了 AI 绘图长期存在的拼写难题,显著提升了中文、日语、韩语等非拉丁语系的文本渲染精度。其中,核心功能已面向所有 ChatGPT 及 Codex 用户开放,付费订阅者可获得更高阶的推理输出支持,相关 API 同步上线。

OpenAI | TechCrunch | The Verge

🌸 在花频道茶馆讨论投稿通道

via 科技圈🎗在花频道📮 - Telegram Channel
来自频道: @AI_News_CN