V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  syferie  ›  全部回复第 1 页 / 共 1 页
回复总数  9
2 月 7 日
回复了 jsxyzb 创建的主题 程序员 AI 生成 PPT 方案请教
@youyouzi 不是,都是自己处理的。上面说的原理应该挺清晰的。
2 月 1 日
回复了 jsxyzb 创建的主题 程序员 AI 生成 PPT 方案请教
@youyouzi 可以参考我这里的开源思路,核心利用了 Gemini 的视觉思维能力去识别图片中的文字位置和内容样式,生成遮罩。
然后利用纯色填充+渐变填充来实现移除文字。
移除之后将上面识别到的文字与样式放置到对应位置,组装为一个完整 PPT ,从而达到可编辑文字的 PPT 效果。

核心还是考虑到作为一个桌面端应用,尽量轻量化,原先是 OCR+Inpaint 的思路,但是依赖外部需要部署的服务,过于繁琐了,现在的话下载即用。
2 月 1 日
回复了 jsxyzb 创建的主题 程序员 AI 生成 PPT 方案请教
我前段时间设计了一个方案,先利用 NanoBananaPro 来生成 PPT 图片,效果与 banana-slides 类似。
之后实现可编辑,核心思路是利用了 Gemini 的视觉思维能力去识别图片中的文字位置和内容样式,从而生成遮罩。
然后利用纯色填充+渐变填充来实现移除文字。
移除之后将上面识别到的文字与样式放置到对应位置,组装为一个完整 PPT ,从而达到可编辑文字的 PPT 效果。

https://github.com/MoonWeSif/NextCreator
1 月 26 日
回复了 tramm 创建的主题 浏览器 有什么推荐的浏览器?
Mac 上现在用 Dia ,也是 Arc 团队做的,自带的 AI 搜索感觉效果挺不错,主要还免费。
它都送那么多了,这就是绝活。
1 月 23 日
回复了 zhanshen1614 创建的主题 程序员 AI 时代如何证明个人项目的真实性?
老板会纠结你用什么写的吗,不是能出活就行。你会用 AI 一个人能顶两个人的工作量那才是老板想要的。
新增:
1. veo3.1 视频模型,有配套视频站点可供使用。
2. gemini-3-pro-image-preview-url ,我们将返回的图片上传到图床后返回图片的 Url 链接,无需自行处理 base64 图片数据,对于本地带宽的要求更低。支持原生格式调用。
1 月 12 日
回复了 ethusdt 创建的主题 程序员 常用的大模型 api 都用哪些模型?
现在用 Gemini 比较多,日常简单点的 Gemini3Flash ,复杂点的 Gemini3Pro 。虽然两个都是推理,但是 3Flash 一般只需要两三秒。跟其他非思考模型相差不大。3Pro 推理开最大也只是二三十秒,并不用等很久。

GPT 科研能力比较强,读论文搞科研的话就是 GPT 官网用 5.2 Thinking 。

写代码就直接上 ClaudeCode 了。

其实现在哪家的旗舰模型都是推理模型。
应该可以的,但是最好是提前自己将整套流程涉及到的思路、实现功能需要用到的技术,都先摸排清楚,另外一个晚上不大可能实现生产级的要求。

如果对相关的背景知识了解一些,有什么问题大概能反馈给 AI 让其修改的话会快很多。

另外你这个 AI 使用流程按照我的经验,最好是 Gemini 写,让它编写测试文件运行测试,出现问题复制报错过去,下一轮修改,优先实现一个最简可用的系统然后再去优化,就算是没 BUG 的代码拿给 AI 让它找问题也会挑点刺出来的,所以有问题再具体修改就好。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5577 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 29ms · UTC 06:48 · PVG 14:48 · LAX 23:48 · JFK 02:48
♥ Do have faith in what you're doing.