分类 AI 下的文章

过去两年,AI 产品的形态经历了一次悄无声息但深刻的转变。最初,人们把 ChatGPT 当成一个“万事通”的聊天窗口,各种外部 App 都在想办法“嵌入 Chat”。从最早的 ChatGPT 插件到后来的 Actions,每个 App 都希望被 ChatGPT 调用,希望在那一行对话背后,能让模型触发自己的服务。这种形态其实沿袭了传统互联网思维:AI 是一个超级入口,而所有第三方都是被调用的 API,它们被动等待用户的自然语言指令,然后在后台完成任务。这一时期的 Chat,更像一个智能中控台,App 只是工具箱里的螺丝刀。

但今年情况变了。OpenAI 推出了 Apps SDK,一切开始反转。过去是 App 嵌入 Chat,现在是 Chat 嵌入 App。这听起来只是语序的变化,实则是产品范式的质变。Apps SDK 让开发者可以构建自己的 MCP 服务端(Model Context Protocol Server),再配上前端 widget,小到一个查询组件,大到一个完整的操作界面,都能被模型直接加载到对话中。与此同时,App 自身也能反向调用 ChatGPT,让聊天成为自己应用内部的一部分。这意味着 ChatGPT 不再是一个独立入口,而开始“渗入”每一个 App 的界面、逻辑与体验之中。

- 阅读剩余部分 -

Nano Banana 是 Google 在其 Gemini 产品中引入的最新图像编辑与生成模型,官方名称为 Gemini 2.5 Flash Image。它不仅具备强大的图像生成能力,还能通过自然语言精准编辑已有图像,在 Image 编辑模型排行榜 LMArena 上排名首位,广受好评。

前几天在社区就火起来一个生成桌面角色模型的提示词:

将这个角色转换为一个角色模型。在它后面放置一个印有该角色图像的盒子,并且让一台电脑屏幕上显示Blender建模过程。在盒子前面添加一个圆形塑料底座,让角色模型站在上面。如果可能的话,请将场景设置在室内。

我亲自测试了一下,效果确实不错:

- 阅读剩余部分 -

本来以为只是国内程序员圈子里的吐槽,没想到字节跳动这款 AI 编程工具 Trae,最近还引起了海外科技媒体的注意。

7 月 29 日,日本知名科技媒体 Gigazine 发布了一篇长文,披露了一位开发者对 Trae 的实测结果,核心问题就一个:即便关闭了遥测功能,Trae 依然在上传数据。

Trae IDE 作为 AI 编辑器,正试图在越来越受欢迎的 Cursor 市场中分一杯羹。它可以接入 OpenAI 的 GPT 系列、Anthropic 的 Claude 等大模型服务。

关于 Trae IDE,有用户报告称其“进程数过多”。下面的图片是将 Trae IDE、VSCode、Cursor 的进程数和内存使用量分别对比的结果。可以看出,相比于 VSCode(进程数 9、内存 0.9GB)和 Cursor(进程数 11、内存最高 1.9GB),Trae IDE 的进程数达到 33 个,内存使用也达到了惊人的 5.7GB,是 VSCode 的 5 倍以上。

- 阅读剩余部分 -

上周末看到 Coze 开源的消息,本来有点小兴奋,但等我了解了其中的细节后,还是有点失望的。

首先简单介绍一下 Coze(扣子)。

Coze 中文名扣子,是字节跳动(ByteDance)旗下推出的一款 AI Agent 创建与管理平台,主要面向开发者和普通用户,允许用户像搭积木一样构建自己的智能体(AI Agent),并通过简单的配置实现多轮对话、API 调用、知识库问答等功能。

简单理解,Coze 就像是一个“ChatGPT 的拼装工厂”,你可以把多个模块(比如知识库、插件、函数调用等)组合起来,让一个 AI 聊天机器人具备特定能力,并部署到多个平台(如微信公众号、飞书、网页等)。

不过以上说的是非开源版本,实际这次开源的版本阉割了很多东西,这个后面细讲。

- 阅读剩余部分 -

2025-10-09T09:55:53.png

阿里昨天发布的代码模型 Qwen3-Coder,有 4800 亿参数,是阿里迄今为止最具代码推理能力的代码模型,官方宣称“可以与 Cluade Sonnet4 媲美”。

下面是官方宣称的一些关键信息:

  • 旗舰版本 Qwen3‑Coder‑480B‑A35B‑Instruct 是迄今为止最具“agentic coding”能力的开源模型;
  • 在 Agentic Coding、浏览器和工具使用等任务上达到了开源界 SOTA,与 Anthropic 的 Claude Sonnet 4 不相上下;
  • 上下文支持 256K token 原生,配合 YaRN 可扩展至 1M,使其可胜任大规模仓库与多轮交互场景;
  • 通过 7.5T 数据(70% 代码)增强训练,并加入 agentic RL,达成在 SWE‑Bench Verified 等实际工程任务上的 SOTA 性能。

还好是阿里发布的,这要是菊花发布的,大嘴高低得喊俩小时的遥遥领先。

2025-10-09T09:56:15.png

我在社区看到很多人体验后说效果确实很不错,编码能力确实出众。我本来也想试试,但在看到很多网友吐槽费用后,果断放弃了:

- 阅读剩余部分 -

谷歌刚刚发布了 Gemini CLI,据说对标 Claude Code 和 Cursor。

不仅免费,而且开源(已经 24.8k Star了),真乃业界良心。

本地安装环境仅需要 Node.js 高于 18 版本,然后执行 npm 命令安装即可。

npm install -g @google/gemini-cli

首次登录到浏览器登录谷歌账号验证一下,需要注意的是你的终端里记得挂代理。

我用我的号试了一下,可以使用,虽然谷歌知道我的这个号中国的,挂了代理还是可以用的。

免费的额度是每分钟 60 次模型请求,每天 1000 次请求。

我一开始问了个简单的问题试了一下,只是为了看看能不能用:

- 阅读剩余部分 -

本文首发于 微信公众号 CroWall,这里同步一下。

PS: 本文目标读者是对编程感兴趣的用户或者是程序员,小白用户可以忽略。

昨天夜里尝试了一下 Ollama 本地部署大模型,效果不错,参见《Ollama 初体验,本地部署大模型利器,小白也能在 M2 芯片的 Mac 上分分钟跑起来》这篇文章。

今天上午一到公司,就迫不及待尝试了下阿里的 qwen2.5-coder:7b 模型的代码补全效果。

PS 视频参见公众号文章。

先说结论,代码补全在我的 M2 MacBook Air 上可以用,但资源占用太高,导致我的网易云音乐播放着的音乐都卡顿了,所以目前来看并不好用。

一方面不能一边写代码一边听音乐了,另一方面如果是坐在外面(比如咖啡馆)写代码没插电源,估计个把小时就能把电池用完了。

- 阅读剩余部分 -

本文发布于 微信公众号 CroWall,这里同步一下。

2024-12-13T18:35:48.png

Ollama 是一个开源的大型语言模型(LLM)服务工具,旨在简化在本地运行大语言模型的过程,降低使用大语言模型的门槛。

有了 Ollama,即使是小白用户,也能分分钟在自己电脑上跑一个大模型玩玩。

- 阅读剩余部分 -