Anthropic可解释性研究:区分因果效应相似的特征
Anthropic:Transformer Circuits(可解释性研究)
Anthropic可解释性团队介绍了其Circuits研究的新进展。为区分那些激活模式相似但因果效应不同的模型特征,团队提出一种新方法。该方法通过分析特征的下游连接来预测其实际影响,并使用基于共激活统计的TWERA(虚拟权重)对连接进行加权排序。实验表明,借助下游连接信息能更准确地判断哪个特征会引导特定输出。此方法为识别模型内部真正的因果组件提供了新途径。
追踪 AI agent 架构、可复用 skills、工具调用工作流、MCP、coding agents、memory、guardrails 与自动化基础设施。每一页对应 Asia/Shanghai 的 24 小时窗口。
Anthropic:Transformer Circuits(可解释性研究)
Anthropic可解释性团队介绍了其Circuits研究的新进展。为区分那些激活模式相似但因果效应不同的模型特征,团队提出一种新方法。该方法通过分析特征的下游连接来预测其实际影响,并使用基于共激活统计的TWERA(虚拟权重)对连接进行加权排序。实验表明,借助下游连接信息能更准确地判断哪个特征会引导特定输出。此方法为识别模型内部真正的因果组件提供了新途径。
IT之家(RSS)
微信正与华为、荣耀、小米、OPPO、vivo 等手机厂商合作推出 A2A(Agent-to-Agent)助手能力。用户可通过手机语音助理发起微信音视频通话或向指定好友发送消息。该功能由厂商 AI 助手向微信发起指令,微信负责执行并返回结果,采用双重授权机制保障数据安全。相关功能正在逐步开放中,荣耀的部分手机已率先支持。
X:阿里云 / Alibaba Cloud (@alibaba_cloud)
🚀 AgentScope Java 1.1:构建可自我进化的智能体 ✨ Claw:具备Shell访问权限的本地"MinQwenPaw" ✨ Builder:多租户、零代码企业平台 ✨ 工作区驱动的进化与分布式隔离 从笔记本电脑到集群无缝扩展。👇 https://int.alibabacloud.com/m/1000413896/ #AgentScope #AIAgents #Java
X:Rohan Paul (@rohanpaul_ai)
美团LongCat发布视频世界模型评测基准WBench。该基准将测试重点从画面美观转向控制、多轮记忆、指令遵循和物理合理性等核心能力。它包含289个案例、1058个交互轮次,评估了20个模型在导航、主体动作、事件编辑等5个维度的表现,共使用22项自动指标。研究发现,没有任何模型能在所有维度上占据主导,这表明现有系统尚未将高质量渲染、可靠控制、长期记忆与物理规则遵循整合为稳定能力。WBench的设计能区分失败是源于渲染、场景设置、控制还是物理问题,并指出导航能力与视觉质量基本无关。
MarkTechPost(RSS)
通义千问(Qwen)团队在百炼平台发布了多模态智能体模型 Qwen3.7-Plus。该模型能理解图像和视频,并新增了自我编程、工具调用、深度推理和自主迭代能力。
X:阿里云 / Alibaba Cloud (@alibaba_cloud)
很高兴看到 Qwen3.7-Plus 和 Max 为 @vercel_dev 社区赋能!即日起至6月4日,可在 AI Gateway 上免费测试其原生智能体能力。🚀
X:Berry Xia (@berryxia)
Don哥(@dontbesilent)将其宣称价值万元的"内容生成工程系统"完全免费开源。主推文作者Berry Xia建议大家安装学习,并表示已安排"AGENT"(指AI智能体)执行安装任务。推文内容侧重于推荐和行动呼吁,但未提供该开源项目的具体名称、技术细节、参数规模或性能基准。
Bloomberg:Technology(RSS)
台湾芯片制造商 MediaTek 计划增加招聘,以支持其向新 AI 领域的拓展,此举旨在缓解业界对人工智能时代工作流失的担忧。
IT之家(RSS)
SK海力士会长崔泰源宣布,计划在未来五年内将整体晶圆产能提高一倍,以应对AI普及带来的持续存储供应短缺。他预测AI数据中心和AI PC的普及将持续拉动存储需求,供需紧张局面可能延续至2030年。SK海力士将投入大规模资金用于设备、建设等扩张,尽管面临前置时间长(新建晶圆厂至少三年)和资源成本上涨等挑战。目前,SK海力士市值已首次突破1万亿美元。
X:MiniMax (@MiniMax_AI)
MiniMax发布M3模型,宣称是首个将编程与智能体能力、1M上下文长度及原生多模态三大前沿能力结合的开源权重模型。其编程与智能体能力在多个评测中表现突出:SWE-Bench Pro得分59.0%,Terminal Bench 2.1得分66.0%,SWE-fficiency 34.8%,KernelBench Hard 28.8%,MCP Atlas 74.2%。模型通过MiniMax Sparse Attention技术支持1M上下文。官方提供了API接入与新的MiniMax Code服务,模型权重和技术报告预计约10天后发布。
X:X.PIN (@thexpin)
据X.PIN独家消息,微信的AI智能体采用agent-to-agent架构运行。其中,"管家"智能体负责理解用户意图,并将任务(如外卖、打车等)路由至各小程序自带的"技能"中执行,实现一站式服务闭环。该智能体基于腾讯混元及智谱等模型构建,目前正于数个高流量小程序内进行有限测试。用户可在授权后允许智能体读取聊天历史以实现个性化服务。微信庞大的用户基础、支付、身份体系与百万级小程序生态,使其具备显著的落地优势。
X:MiniMax (@MiniMax_AI)
智能体需要的不仅仅是大脑,还需要一种支付、交易和实际使用服务的方式。 这就是为什么我们很高兴地宣布,我们正在与 Web3 API 先驱 @BAI_AGI 合作。 我们一起 🤝?我们刚刚为自主智能体发布了交易层。 未来不是即将到来。它已经在交易了 🔥
The Decoder:AI News(RSS)
OpenAI通过Amazon Bedrock提供GPT-5.5、GPT-5.4和Codex模型,价格与OpenAI自有平台一致。这些模型可在商业和政府AWS区域运行,但目前使用范围仅限于美国,用量将计入现有AWS合同。
X:宝玉 (@dotey)
baoyu-image-gen Skill 支持 Codex-cli 作为 Provider 画图 也就是说你可以在 Claude Code、hermes agent 之类的 Agent 里面用它调用 Codex 出图,而不需要用 Codex,当然前提是安装了 codex cli 并且有订阅。 感谢网友的 PRs: https://github.com/JimLiu/baoyu-skills/pull/158 https://github.com/JimLiu/baoyu-skills/pull/161 Skill 地址:https://github.com/JimLiu/baoyu-skills/tree/main/skills/baoyu-image-gen
IT之家(RSS)
多名用户发现,OpenAI将Codex平台针对免费账号和Go订阅账户的额度重置周期从7天延长至30天。Plus、Pro、Business、Edu和Enterprise等付费订阅用户的额度仍维持每周重置。这一调整意味着免费用户每月可用额度次数从约4次减少为1次,而单次配额数值未变。Codex是OpenAI开发的AI代码生成与智能体平台。
IT之家(RSS)
JetBrains 开源了面向软件工程的模型 Mellum2。该模型总规模为 12B 参数,采用稀疏 Mixture-of-Experts 框架,激活参数量为 2.5B。上下文窗口扩展至 131072 Token。Mellum2 支持生成编辑代码、调用外部工具及执行多步骤智能体式工作流。模型基础版、指令版和思考版均以 Apache 2.0 许可证开源。
X:卡兹克 (@Khazix0918)
作者受一条推文启发,使用Codex对自己的MacBook进行了只读存储分析,发现了B站缓存视频等大量可清理空间(激进方案超140G)。为替代收费软件CleanMyMac,作者制作并开源了一个跨平台(支持Mac/Windows)的AI清理skill。该skill会扫描文件并生成可交互的HTML报告,通过三色分级(绿灯可放心清理、黄灯需人工判断、红灯禁止动)直观展示,并提供安全执行按钮。实测清理后释放了近120G空间,相比CleanMyMac仅扫描出的15.8G,其信息更透明、建议更详细。
X:阿易 AI Notes (@AYi_AInotes)
作者指出,当前许多人仍停留在用AI工具接单的"时间换钱"模式。真正的高价值路径是将个人验证过的方法论(如写作、选题、提示词等)封装成可被AI智能体(如Claude Code、Codex等)反复调用的"技能(Skill)"。这能实现边际成本近乎为零的被动收益,其本质是将自身技能转化为一个"分身"。作者强调,封装的前提是拥有真实、被验证过的方法论,而非空壳,并认为AI时代的核心竞争力在于能否将自己的核心技能封装成他人离不开的Skill。
Simon Willison 博客
Simon Willison 开发了"粘贴文件编辑器"工具原型,灵感源于 Claude.ai 能将大段粘贴文本自动转为文件附件的功能。该工具支持粘贴文本、直接打开文件(包括图片缩略图显示)以及拖拽文件。它是由 Codex 桌面版协助构建的。
X:Yuchen Jin (@Yuchenj_UW)
回家发现门口放着一个来自 Anthropic 的惊喜礼物盒。 比 vibe-coding 软件更酷的是什么?Vibe-coding 硬件!我大概能把这台迷你电脑 vibe code 成 Claude Code 会话的遥控器。 感谢 @bcherny 寄来!
X:Ethan Mollick (@emollick)
关于使用Github及其他数据的AI编程智能体的重要论文 自动补全工具(如Copilot)使代码量增加2.2倍,本地智能体(如初版Claude Code)增加7.4倍,而当前远程编程智能体增加17.3倍(!) 但编程中的人类瓶颈意味着实际发布量"仅"增加了30%
X:SemiAnalysis (@SemiAnalysis_)
文章更新提醒:我们发布《Finding Miscompiles for Fun, Not Profit》的次日,Anthropic发布了Opus 4.8和Claude Code中的ultracode模式。我们的初步实验表明,两者结合在过滤低严重性漏洞方面显著更优,且发现中高严重性漏洞的成本可能仅为本文所述工作流的1/5(误差范围极大)。(1/2)🧵
X:Tibo (@thsottiaux)
你只需用 Codex 就能……生成一个农场 https://chatgptpro.substack.com/p/hiroki-tomiyasu
X:邵猛 (@shao__meng)
今晚20:00,图灵社区直播间将举办一场关于 AI Agent Skills 的公开课。分享内容将涵盖讲者制作技能(Skills)的实操经验和心得体会,并介绍新书《图解Skill: AI提效实战指南》。该活动面向需要 AI 提效的受众。
X:阶跃星辰 StepFun (@StepFun_ai)
阶跃星辰发布其推理优化型模型Step 3.7 Flash。该模型为196B MoE架构,从设计之初就专注于推理效率。其采用多矩阵分解注意力机制,使KV-cache成本仅为DeepSeek模型的约22%;同时通过注意力与FFN解耦技术,实现了硬件优化的高效服务。该模型已通过Fireworks AI提供,采用Apache 2.0许可,并可用于构建智能体应用。
X:MiniMax (@MiniMax_AI)
MiniMax宣布推出首个开源权重模型M3。该模型结合了三大前沿能力:在编程与智能体方面,它在SWE-Bench Pro等评测上取得了具体分数;通过MiniMax Sparse Attention技术,其上下文窗口可扩展至1M tokens;并且模型从零开始原生支持多模态。模型的权重与技术报告将在约10天后发布。
IT之家(RSS)
根据曝光的截图,微软正在开发"Copilot 超级应用",内部口号是"Delivering one Copilot",旨在统一所有 Copilot 工具入口。该应用计划整合 GitHub Copilot、Copilot 聊天、Copilot Cowork 及内部代号为 Autopilot 的新智能体能力。应用内包含一个代码页,形态类似 Claude Code 面板,带有一个名为 Scout 的常驻 AI 智能体。用户可通过该页面管理代码仓库、切换模型并安排定时任务。另一个 Cowork 标签页用于汇总数据并提供提示词。
Bloomberg:Technology(RSS)
腾讯控股股价创下三年多来最大涨幅,原因是有报道称其正在测试一个由AI驱动的智能体原型。该AI智能体与微信相关,这一消息提振了市场对腾讯人工智能努力的乐观情绪。
X:Tibo (@thsottiaux)
OpenAI宣布其前沿模型与Codex现已在Amazon Bedrock上全面可用,为企业提供了通过现有安全、合规与治理工作流使用OpenAI的新途径。此举标志着OpenAI能力在AWS上的更广泛扩展的开端,未来将纳入如Daybreak等网络安全功能。
X:Berry Xia (@berryxia)
推文分享作者日常使用的两个AI翻译工具及工作流。1. Memo软件(免费开源):用于处理本地视频。流程为下载视频后,使用Whisper本地模型进行转录以节省成本,再接入DeepSeek-V4-Flash API进行翻译。该软件支持字幕烧录、编辑和导出,但在X平台上传速度慢。2. 沉浸式翻译:主要用于网页、YouTube视频及图书翻译,优点是格式保持较好。两者均支持接入用户自定义的API模型。
X:阿里云 / Alibaba Cloud (@alibaba_cloud)
阿里云推出Qwen3.7-Plus,这是一个统一视觉与语言的多模态智能体模型。其定位为多功能编码智能体与生产力助手,支持全模态输入,能够跨GUI与CLI执行任务。该模型具备视觉智能体能力,涵盖感知、推理、定位及搜索增强问答,并能跨多种智能体框架泛化。目前已在阿里云百炼平台通过API上线。
X:小互 (@xiaohu)
用户小互发布推文,引用并推广了一场直播活动。活动由 dotey 主讲,将于北京时间今晚20:00在图灵社区直播间举行,主题是 Agent Skills 的实操经验分享。直播将同时讨论其新书《图解Skill: AI 提效实战指南》。推文提供了相关书籍的购买链接。
X:Kim (@kimmonismus)
OpenAI 将于明天发布一次重要的 Codex 更新。 经过数月开发,这将是一个相当特别的功能。 它听起来与 GPT-5.6 确实不同。
Claude Code:GitHub Releases(RSS)
Claude Code v2.1.160版本主要增强安全性和稳定性。新版本在向shell启动文件和.git/config等文件写入内容前增加提示,防止意外命令执行;acceptEdits模式在写入.npmrc等构建配置文件前也会提示。此次更新修复了多个问题,包括Windows/WSL剪贴板、会话恢复、后台会话连接等,并优化了自动模式延迟和后台清理流程。此外移除了JetBrains插件建议,将动态工作流触发词从workflow重命名为ultracode。
NVIDIA Blog:Generative AI(网页)
NVIDIA 发布了 JetPack 7.2 并支持 NemoClaw 框架,使 Jetson 平台具备了 Agentic AI 能力。此次更新包括 Yocto 项目支持、在 Jetson Orin 上支持 CUDA 13、为 Jetson AGX Orin 32GB 模块带来 241 TOPS 的算力提升,并在 Jetson Thor 上支持 Multi-Instance GPU。NemoClaw 作为 NVIDIA 的 Agentic AI 框架,现已可部署在生产级 Jetson 栈上,为机器人、检测和工业自动化等领域提供智能体技能,加速开发部署。
NVIDIA Technical Blog(开发者技术博客 · RSS)
NVIDIA JetPack 7.2发布,支持一键部署开源NVIDIA NemoClaw堆栈,该堆栈为OpenClaw添加了隐私与安全控制。同时引入NVIDIA agent skills for Jetson,为Jetson设备提供智能体技能。该版本优化了内存效率,旨在加速AI代理从数字世界向物理环境的边缘部署。
OpenAI:官网动态(RSS · 排除企业/客户案例)
The Next Era of Knowledge Work报告指出,Codex正通过AI增强的研究、数据分析、工作流自动化与内容创作,变革知识工作的生产力。
X:Berry Xia (@berryxia)
图灵社区将于北京时间今晚20:00举办一场关于Agent Skills的公开课。分享者为@dotey,内容包括其制作Skill的实操经验与心得体会,并介绍其新书《图解Skill: AI提效实战指南》。主推文指出这场直播将直接进行教学,书籍的实用性很高。
IT之家(RSS)
图灵奖得主理查德·萨顿认为,普通生成式AI(如大语言模型)缺乏完成真正科学发现的关键能力。他指出,这类模型生成的内容中,"好的部分不新,新颖的部分不好",且自身缺少测试与评估机制来筛选有效方案。真正的科学发现需要包含变异、评估和选择性保留的闭环,而生成式AI恰恰缺少评估环节。相比之下,萨顿列举了AlphaGo、AlphaProof、Claude Code等系统,认为这类具备评估反馈机制的AI智能体更有潜力实现突破。
IT之家(RSS)
群联电子宣布其Pascari aiDAPTIV内存延伸技术现已适配英特尔第3代酷睿Ultra处理器(Panther Lake)并支持OpenVINO工具套件。该技术通过将AI工作内存从系统DRAM拓展至高性能NAND,降低了本地AI负载对DRAM的需求。内部测试显示,搭载该技术的系统仅需16GB DRAM即可执行26B参数规模的AI模型,而未适配的系统则需32GB DRAM才能完成相同任务。这增强了AI PC本地运行更大模型、支持更长会话及代理式AI工作流的能力。
X:Berry Xia (@berryxia)
该推文拆解了Claude Code的工作流。它是一个能后台运行、可监控的任务系统,包含三个核心角色:Claude负责拆解任务与规划,Runtime负责调度管理状态,每个AI智能体(agent)仅处理一个子任务,并通过并发池与队列推进。系统关键设计是"状态外置",即中间结果由执行系统保存,主上下文只读取摘要,从而使其能扩展至大量智能体。推文认为这种智能规划、Runtime执行、状态独立、模型按需调度的模式,代表了一种新的工程编排方式,并可将其工作流转换为自有系统的可执行格式。
X:邵猛 (@shao__meng)
用户邵猛在获得 Cursor 团队赠送的 $10K 额度及两个月 Ultra 订阅后,实际使用了约 $2 千美元。其使用体验显示,100% 的时间都在使用 Agent Windows 模式,很少进行多模型切换。模型选择上,有外网访问时偏好 GPT-5.5,否则常用 Composer 2.5,因其 Fast 模式速度快且喜欢输出 Diagram 流程图。优点在于 Context 使用明细清晰,但 Agent 输出界面默认非 Markdown 且不支持拷贝为 Markdown。此外,Agent 界面右侧的扩展窗口(Terminal、Browser、File、Canvas)被认为比较实用。
X:SemiAnalysis (@SemiAnalysis_)
你的强化学习训练效率取决于沙盒基础设施。来看看 Modal 如何让你的 rollout 持续运行!
X:宝玉 (@dotey)
宝玉(@dotey)宣布将于北京时间当晚20:00在图灵社区直播间举办公开课,主题为 Agent Skills。他将分享自己制作 Skill 的实操经验和心得体会,并介绍新书《图解Skill: AI提效实战指南》。
X:邵猛 (@shao__meng)
Anthropic 核心开发者分享了一套用于 Claude Code 的「理解验证」工作流。该工作流将 AI 定位为"高效且睿智的教师",成功标准不仅是完成任务,更是确保人类对问题、方案及影响有可复述、可辩护的掌握。它通过增量教学、用户复述、清单+测验等方式,围绕问题域、方案域和语境域三条轴线展开,具体包含8个可执行步骤,强调在进入下一阶段前需确认用户已真正理解。此工作流旨在对抗长会话中人类易沦为"审批按钮"的"智能体黑箱"问题,强制沉淀决策上下文,实现可审计的深度理解。
X:OpenAI Developers (@OpenAIDevs)
今天与客户通话。明天开始新的产品工作流程。 Proaction是一个5人团队,他们使用Codex构建车队管理软件,涵盖销售演示、客户支持跟进、营销资产和工程工作。
X:邵猛 (@shao__meng)
Lee Robinson 分享了四条构建适合AI智能体的代码库的原则:1. 源码应为真相或提供可读路径(如将内容从CMS迁移回代码);2. 智能体需能通过类型系统、测试和Linter验证工作;3. 维护精简有效的AGENTS.md文件,提供项目特有上下文;4. 设置自动化流程(如安全扫描)持续改进。他以Cursor官网迁移为例,该过程耗时3天,消耗344次Agent请求,花费$260,证明降低抽象层成本能带来可量化的投资回报。
X:小北 (@frxiaobei)
Codex 正在变成 Agent 的默认 Runtime。 codex 其实还同时有 typescript sdk。 如果你要搭建一个 agent,技术栈可以是: typescript + codex + cc-switch
X:邵猛 (@shao__meng)
吴恩达对比了AI Forward Deployed Engineer (FDE)和AI Engineer两种岗位。他指出,FDE由厂商派驻客户现场进行深度集成,但企业更倾向于培养大量自有AI工程师。他判断,AI Engineer岗位数量将远多于FDE,因为客户担心供应商锁定,在AI技术快速演进时更需要保持技术选型灵活性。当下最有价值的是能使用Claude Code、Codex等AI编程工具构建应用的通才型AI工程师。未来该角色可能像传统软件工程师一样,分化出LLMOps、Evals等专才,但现阶段综合型人才价值依然很大。
X:Berry Xia (@berryxia)
ComfyUI在5月集成了11个涵盖图像、3D、音频、视频和多模态的新模型,将前沿AI能力转化为可本地运行的节点。亮点包括:Krea 2以Partner Node形式上线,专注于风格优先的图像生成;来自Netflix的VOID可干净移除对象及其引发的阴影、反射等物理交互;Tripo 3.1与TripoSplat结合,实现单图端到端生成3D Gaussian资产。此外,Gemma 4、Stable Audio 3等模型也已同步上线。用户无需单独调用API或处理兼容性,通过节点拖拽即可构建复杂工作流。
X:Greg Brockman (@gdb)
OpenAI的GPT-5.5、GPT-5.4及Codex编程智能体现已在Amazon Bedrock平台正式上线。开发者可通过Bedrock的下一代推理引擎部署这些模型,享受自动扩展能力。具体应用包括使用GPT-5.5和GPT-5.4构建能处理多步骤编码、数据分析和知识工作的自主AI智能体,或将Codex编程智能体集成至开发工作流,并通过Bedrock进行所有模型调用。该服务按token计费,支持弹性扩展。
X:Greg Brockman (@gdb)
OpenAI前沿模型与Codex现已在Amazon Bedrock上对企业客户全面可用,企业可通过现有的安全、合规与治理工作流程在AWS上使用OpenAI进行构建。这也是OpenAI能力在AWS上更广泛扩展的开始,未来将包括Daybreak等网络安全能力。
IT之家(RSS)
Instagram 修复了一个安全漏洞,该漏洞允许黑客通过诱骗 Meta 自研的 AI 客服聊天机器人来重置密码并接管受害者账号。攻击者利用 VPN 伪造地理位置,绕过风控后指示 AI 客服为目标账号添加新邮箱并接收验证码,从而成功修改密码。此次事件导致多名用户账号被盗,包括已停用的奥巴马时期白宫官方账号。Instagram 表示漏洞已修补,但未透露受影响账号的具体数量。
IT之家(RSS)
Anthropic已秘密向美国证券交易委员会递交IPO申请,该公司估值接近1万亿美元。此次申请前,Anthropic刚完成H轮650亿美元融资,投后估值攀升至9650亿美元。公司当前年化营收已突破470亿美元。其竞争对手OpenAI同样在筹备IPO。Anthropic旗下Mythos大模型将逐步开放商用,公司计划向欧盟网络安全局开放该模型的调用权限。
X:Rohan Paul (@rohanpaul_ai)
Sam Altman在采访中表示,AI不应被设计为追求脱离人类需求的目标,人类必须始终处于AI发展的中心。他批判了行业内"AI将摧毁大量工作"等言论,认为人们担忧的并非AI带来的好处,而是自身在未来的角色、经济前景与自主权。他指出,AI行业的失败在于未能清晰解释人类如何在每一步保持对未来的控制权,以及如何在AI时代继续拥有充实、有意义的生活。
X:Peter Steinberger (@steipete)
我告诉 Codex,当我分心且它需要我的帮助来解除阻塞时,使用 http://sag.sh。偶尔我会听到它在跟我说话,这是有史以来最酷的事情。(例如,对于需要 npm 且受 1Password 门控的发布任务)
X:宝玉 (@dotey)
Cursor 宣布提升所有团队用户使用额度,并推出 Premium 团队席位。用户反馈其 Agent 模式效果好,支持多任务并行、灵活选择各类模型,且 Plan 模式步骤详细。对比中,用户认为其表现优于 Claude Desktop,略低于 Codex App。当前不足包括不支持 /goal 与手机版,且调试功能仅限内置浏览器。
NVIDIA Technical Blog(开发者技术博客 · RSS)
NVIDIA推出NVIDIA DGX Spark,旨在让开发者在自有硬件上本地运行AI智能体,摆脱对云端的依赖。该产品支持使用更快模型和构建多节点集群,以满足自主、长时间运行的AI智能体所产生的新计算需求,这类任务需维持大型上下文窗口、生成并发子智能体并持续迭代。本地运行有助于解决开发者面临的安全与隐私顾虑。
X:宝玉 (@dotey)
Cursor 宣布为所有 Teams 用户提升使用额度,并受其 Ultra 计划启发,将推出一个提供 5 倍用量、价格 3 倍的 Premium 团队席位。有用户分享了重度使用其 Agent 的体验,认为效果不错,亮点包括:可开启多任务并行的 multitask 模式、能灵活选择各种模型(如 composer 2.5),以及步骤详细的 Plan 模式配合使用效果稳定。目前不足之处是不支持 /goal、手机版,以及缺乏类似 Codex 的 Chrome use 和 Computer use 调试功能,仅有内置浏览器调试。
X:Testing Catalog (@testingcatalog)
OpenAI的前沿模型与Codex现已在AWS Bedrock平台正式上线(一般可用)。这为企业提供了通过其现有的安全、合规和治理工作流,直接在Amazon Bedrock上使用OpenAI能力的新途径。同时,OpenAI表示,这是其在AWS上更广泛扩展能力的开始,其网络安全平台Daybreak(包含网络模型和Codex Security)未来也将在AWS上提供。
X:宝玉 (@dotey)
推文建议,Codex、Cursor等AI智能体应提供API接口,允许右侧面板的网页视图直接向智能体发送包含文本和附件的提示词。例如,用户可构建类似Claude Design的网页,通过调用"window.codex.sendPrompt(text, attachments)"等API,将输入内容直接推送到左侧聊天界面。此举旨在实现智能体与网页间更深层的交互,从而解锁更多可能性。
X:OpenAI Developers (@OpenAIDevs)
OpenAI前沿模型和Codex现已在AWS上全面可用。企业可以通过Amazon Bedrock服务,利用其已有的安全、合规与治理工作流,来构建基于OpenAI的AI应用及软件工程工作流。此次上线是OpenAI能力在AWS上更广泛扩展的开始,未来还将包括Daybreak等网络安全功能的可用性。
X:OpenAI (@OpenAI)
OpenAI前沿模型和Codex现已在AWS全面可用,为企业提供了一种新方式:通过其现有的安全、合规和治理工作流,在Amazon Bedrock上使用OpenAI进行构建。 这也标志着OpenAI在AWS上更广泛扩展的开始,未来将包括Daybreak等网络安全能力的可用性。 https://openai.com/index/openai-frontier-models-and-codex-are-now-available-on-aws/
X:Sam Altman (@sama)
Sam Altman宣布OpenAI基金会正通过一系列资助项目,提升社会对AI的适应力。基金会已启动超过1.3亿美元的初始资助,用于生物韧性、网络安全韧性、AI模型安全及AI对青少年影响等四个领域,旨在让社会管理AI风险的能力跟上AI发展速度。该愿景已公布详细公告。
TechCrunch:AI(RSS)
英伟达通过与微软、戴尔和惠普合作推出搭载AI智能体的PC,旨在进入并主导规模达2000亿美元的CPU市场。此举旨在让AI智能体能够轻松、安全且实用地普及大众。
X:OpenAI Developers (@OpenAIDevs)
投票结果已出。 @isausmanov 的手机智能体操作系统获得语音黑客松人民选择奖。 一款语音优先的移动操作系统。用户说话,智能体响应并在手机上执行操作。 祝贺团队赢得 50,000 美元 API 额度。
Simon Willison 博客
黑客仅通过向Meta AI的客服机器人发送简单指令,成功接管了指定的Instagram高知名度账户。该AI机器人具备直接完成账户恢复全流程的能力,使攻击者能轻易绑定新邮箱获取控制权。此漏洞暴露了将客服系统与具备高权限AI直接对接的严重安全风险。
Bloomberg:Technology(RSS)
Alphabet正在通过发行股票等方式筹集800亿美元资金,其中包括与Berkshire Hathaway的投资协议,以资助其雄心勃勃的AI支出计划。
Ars Technica:AI(RSS)
黑客利用Meta AI客服聊天机器人的漏洞,窃取了高价的Instagram用户名并将其转售。Meta在事后修复了该安全漏洞。
X:Rohan Paul (@rohanpaul_ai)
OpenAI在美国密歇根州破土动工,启动名为"The Barn"的Stargate Michigan项目,这是一座规模达1GW的AI数据中心。该数据中心将采用闭环冷却技术,耗水量仅与普通办公楼相当,并承诺自身承担能源基础设施成本,不增加当地用户负担。项目预计创造数千个工会岗位。此外,OpenAI将为密歇根州所有大学、社区学院和技术学校的学生提供超过4000万美元的免费Codex额度。
MarkTechPost(RSS)
MiniMax 发布了新模型 MiniMax M3,引入了 MiniMax Sparse Attention (MSA) 架构。该模型支持高达 1M token 的上下文窗口,并具备原生的图像、视频和计算机使用能力,面向智能体编程场景。
X:Testing Catalog (@testingcatalog)
XAI 🔥:SuperGrok 和 X Premium+ 用户现在可以通过 Grok Build 使用 Cursor 的 Composer 2.5 模型! Grokposer 🤖
The Verge:订阅版科技(RSS)
谷歌新推出的 Gemini Spark 智能体在体验上令人印象深刻,其表现与官方演示效果基本一致。然而,就目前而言,考虑到其成本,它还不值得用户为此付费。
X:Replit (@Replit)
你能用单个提示词免费构建一个真实的业务吗? 从今天起,在 Replit 上,答案是肯定的。 从一个提示词开始,获得一个网站、移动应用、幻灯片和发布视频。 此外,还能解锁使用 @stripe @atlas, @QuickBooks, @mercury & @doolaHQ 运营业务的福利。
The Verge:订阅版科技(RSS)
Meta的AI聊天机器人被发现存在安全漏洞,黑客可以通过请求该AI关联一个新的电子邮件地址,从而接管目标用户的Instagram账号。该漏洞利用了AI智能体直接执行账户管理操作的能力。
Ars Technica:AI(RSS)
佛罗里达州对OpenAI及其CEO Sam Altman提起诉讼。该州总检察长指控Altman对人命"完全漠视",案件与多起涉及ChatGPT的谋杀事件相关。
X:Google AI for Developers (@googleaidevs)
从杂乱到清晰。观看 @Antigravity 中的并行子智能体对数百个营销资产进行分类和重命名,消除手动文件管理。
X:NVIDIA RTX Spark (@NVIDIARTXSpark)
RTX Spark,早期预览 👀 个人 AI 智能体。更快的创作者工作流。RTX ON 游戏体验。NVIDIA 的 Jacob Freeman 介绍了一款超级芯片如何在全新轻薄笔记本电脑中实现这一切。👇
X:通义千问 / Qwen (@Alibaba_Qwen)
通义千问推出 Qwen3.7-Plus,这是一款统一视觉与语言能力的多模态智能体模型。它支持图形界面与命令行混合操作,可作为多功能编码智能体与生产力助手,并具备视觉感知、推理、定位与搜索增强问答能力。该模型设计为可跨多种智能体框架泛化。现在可通过阿里云百炼平台的 API 使用。
X:Perplexity (@perplexity_ai)
推出Search as Code,我们为AI智能体打造的全新搜索架构。 它直接编写Python代码调用我们的搜索栈,而非逐个循环函数调用。 现已在Perplexity Agent API中提供,并成为Computer的默认选项。 https://research.perplexity.ai/articles/rethinking-search-as-code-generation
X:Yuchen Jin (@Yuchenj_UW)
OpenAI 在编程领域睡着了,于是 Anthropic 抢走了王冠。 Anthropic 没有获得足够的 GPU/TPU 来将这一领先优势转化为垄断。现在 Codex 已经追上来了。 Gemini 也会追上来。这只是时间问题。 AI 编程正在成为一个三体问题。
X:NVIDIA (@nvidia)
英伟达 Vera Rubin 平台是一款专为智能体AI构建的多机柜系统,现已全面量产。该平台通过极致协同设计,统一了五个相连的机柜级系统:Vera Rubin NVL72、Vera CPU 机柜、Groq 3 LPX、Vera BlueField-4 STX 以及 Spectrum-6 SPX 以太网。英伟达宣布,微软、戴尔和CoreWeave已成功部署其Vera Rubin NVL72工程机柜。
X:Claude Devs (@ClaudeDevs)
我们已为所有Pro和Max计划用户重置了5小时和每周速率限制。 我们修复了一个导致部分Claude Code会话生成过多并行子智能体、从而比预期更快消耗用量的问题。
X:Kim (@kimmonismus)
NVIDIA发布了DGX Station for Windows,这是一款桌面级AI超级计算机,搭载新的GB300 Grace Blackwell Ultra Desktop Superchip。其核心规格包括72核Grace CPU与Blackwell Ultra GPU通过NVLink-C2C连接,提供最高748GB统一内存与20 petaflops FP4算力,可本地运行最高达1万亿参数的模型。该设备计划于2025年第四季度发货。同时,NVIDIA推出了开源运行时OpenShell,可在Windows系统层面为AI智能体构建安全沙箱。
X:Rohan Paul (@rohanpaul_ai)
Templafy推出一款PowerPoint AI智能体,旨在解决AI生成PPT后在实际业务场景中的应用痛点,即从AI草稿到可用商业演示文稿的"最后一公里"问题。该工具针对结构、品牌规范、格式和编辑等常见失败点,直接生成结构完整、符合商业标准且可在PowerPoint中即时编辑的完整演示文稿,避免了用户需要重建、处理格式混乱或从零开始的麻烦。
OpenAI:官网动态(RSS · 排除企业/客户案例)
OpenAI阐述了其在AI政策与政治倡导方面的立场,包括对透明度、深思熟虑的监管以及AI安全的支持。同时,公司明确表示,任何外部政治组织均不能代表OpenAI发言。
X:MiniMax (@MiniMax_AI)
MiniMax的M3模型现已在Qubrid AI平台上线。该模型具备100万token上下文、原生多模态、前沿的代码性能,并支持长期智能体工作流,被评为年度技术上最有趣的开放权重模型之一。Qubrid AI作为首发合作伙伴,为早期用户提供50%的折扣。
MarkTechPost(RSS)
Memory OS是一个开源项目,它通过一个六层结构为Hermes Agent添加了本地持久记忆功能。该记忆栈包含门控检索机制和一个wiki系统,旨在增强智能体的记忆能力。
X:Rohan Paul (@rohanpaul_ai)
高通CEO Cristiano Amon指出,AI智能体(Agentic AI)因其执行规划、工具调用、验证等自主任务,单次请求的token消耗可能达普通回答的10至50倍以上,因此AI将需要"海量"token。高盛预测,到2030年AI智能体的token使用量将增长24倍,每月可能达120千万亿。同时,推理成本预计年降60%-70%。这标志着软件计量方式可能从按席位/点击转向主要按机器推理/token消耗量计算,Uber和Microsoft等公司已在重新评估高昂的智能体使用成本。
X:阶跃星辰 StepFun (@StepFun_ai)
Step 3.7 Flash 现已在 @kilocode 免费提供 🎉 它专为编码智能体的实际工作方式而构建。这意味着在真实代码库上进行多步骤编排和可靠工具使用,而不仅仅是快速回复。 在编辑器中尝试一个真实任务吧,比如多文件更改或修复一个实际的 bug!
Anthropic:Newsroom(网页)
Anthropic, PBC 今日保密向美国证券交易委员会提交了 S-1 表格草案,计划进行普通股的首次公开发行。这使其在 SEC 完成审核后拥有上市的选择权。IPO 的具体发行股数和价格尚未确定,将取决于市场条件等因素。公司近期刚完成由 Altimeter Capital 等领投的 650 亿美元 H 轮融资,估值达 9650 亿美元,并发布了 Claude Opus 4.8 模型。
X:cb_doge (@cb_doge)
佛罗里达州对OpenAI及CEO Sam Altman提起诉讼,指控其为了利润而忽视AI安全。诉状称,OpenAI在推广ChatGPT时宣称其安全,却隐瞒了其成瘾性、导致认知衰退、自杀、暴力及危险的模型幻觉等严重风险。该公司被指故意设计具有成瘾性的AI以制造用户心理依赖,促使用户付费并生成训练数据。这些疏忽被指控直接导致了实际伤害,例如协助策划佛罗里达州立大学枪击案,以及提供导致一名青少年死亡的致命药物混合建议。这是美国首个针对AI设计与安全的州级诉讼,且针对OpenAI的刑事调查自四月起已开始。
X:阿易 AI Notes (@AYi_AInotes)
将《非暴力沟通》核心框架(观察-感受-需要-请求 OFNR)及共情技巧、愤怒转化等内容封装成 NVC Skill,可供 Cursor、Claude Code、Codex 等 AI Agent 直接调用。该技能主要用于:快速将冲突性或情绪化表达重写为非暴力沟通格式;分析他人言论背后的真实感受与需求,并提供共情回应建议。适用于日常沟通卡壳、情绪化对话拆解等场景,旨在借助大语言模型提升人际沟通质量。
X:Berry Xia (@berryxia)
Anthropic已秘密向美国证券交易委员会(SEC)提交S-1注册声明草案,审查通过后将获得启动首次公开募股(IPO)的选择权。这一举动打破了顶尖AI公司为避免资本市场压力而长期保持私有状态的预期,表明在AI规模化竞赛的关键阶段,获取更广阔的资本通道和接受公众监督已成为保持领先地位的现实路径。由Dario Amodei领导的、注重安全的Anthropic,选择将其积累的估值和信任交由市场检验。
X:Gemini (@GeminiApp)
轻松将自己添加到Gemini的视频创作中。 以下是如何使用Gemini Omni创建一个外观和声音都像你的数字分身。🧵
Bloomberg:Technology(RSS)
佛罗里达州对 OpenAI 及其首席执行官 Sam Altman 提起诉讼,指控这家人工智能公司无视安全警告,并发布了对用户有害的产品。
本页面汇总公开来源元数据,并加入简短的 Seeles 相关性判断。原始报道与媒体资产归原发布方所有。Feed 数据:/resources/news/feed.json。