跳到主要内容

图片使用

OpenCode 提供了强大的图片处理能力,包括图片识别、图片编辑、图片生成等功能。通过合理使用这些功能,您可以让 AI 助手更好地处理视觉内容,提升工作效率。

图片处理就像是给 AI 装上了"眼睛",让它能看到并理解图片内容。


图片处理概览 🖼️

什么是图片处理 🤔

在 OpenCode 中,图片处理是指对图像文件的分析、编辑和生成。

白话解释:

就像给 AI 添加了"视觉能力":

  • 👀 识别能力:能看到图片里的物体、文字
  • 🎨 编辑能力:能裁剪、调整、添加滤镜
  • 生成能力:能创建新的图片内容
  • 🔍 分析能力:能分析图片质量和风格

图片处理的能力:

✅ 图片识别:识别物体、文字、人脸
✅ 图片编辑:裁剪、调整、滤镜、水印
✅ 图片生成:创建示意图、封面图、装饰图
✅ 格式转换:JPG、PNG、WebP 等格式互转
✅ 批量处理:同时处理多张图片
✅ 质量分析:检测分辨率、清晰度、色彩

图片识别 🔍

识别图片中的物体

使用场景:

  • 识别图片中的物品
  • 统计图片元素数量
  • 分析图片内容构成

使用示例:

用户:帮我识别这张图片里的内容

OpenCode:[调用图片识别工具]

✅ 图片内容识别完成

物体识别:
• 笔记本电脑 x1
• 咖啡杯 x1
• 手机 x1
• 书籍 x2
• 台灯 x1

场景描述:
这是一张办公桌的照片,桌上摆放着电脑、咖啡、手机和书籍,台灯提供照明。整体色调偏暖,光线充足。

提取图片中的文字(OCR)

使用场景:

  • 扫描文档转文字
  • 提取图片中的文字信息
  • 识别验证码

使用示例:

用户:帮我提取这张图片里的文字

OpenCode:[调用 OCR 工具]

✅ 文字提取完成

提取结果:

会议通知

时间:2024年3月5日 14:00 地点:3楼会议室 主题:Q1 季度总结会议

参会人员:

  • 张三(产品经理)
  • 李四(技术负责人)
  • 王五(市场总监)

议程:

  1. 销售数据回顾
  2. 产品进度汇报
  3. 市场策略讨论

识别准确率:99.2%
置信度:高

识别图片中的人脸

使用场景:

  • 识别人物数量
  • 分析人脸特征
  • 人脸标注

使用示例:

用户:帮我识别这张照片里的人

OpenCode:[调用人脸识别工具]

✅ 人脸识别完成

检测到 3 张人脸:

人脸 1:
• 位置:左侧,坐标 (120, 150)
• 特征:男性,约 25-30 岁
• 置信度:95%

人脸 2:
• 位置:中间,坐标 (380, 180)
• 特征:女性,约 28-35 岁
• 置信度:92%

人脸 3:
• 位置:右侧,坐标 (650, 160)
• 特征:男性,约 30-35 岁
• 置信度:88%

表情分析:微笑、愉快
光照条件:良好

图片编辑 ✏️

裁剪图片

使用场景:

  • 调整图片尺寸
  • 提取感兴趣区域
  • 改变图片比例

使用示例:

用户:把这张图片裁剪成正方形

OpenCode:[调用图片编辑工具]

✅ 图片裁剪完成

操作记录:
• 原始尺寸:1920x1080
• 裁剪方式:中心裁剪
• 裁剪区域:1080x1080(正方形)
• 输出格式:PNG
• 文件大小:450KB

已保存到:output/image_cropped.png

调整图片大小

使用场景:

  • 减小图片体积
  • 适应不同设备
  • 优化加载速度

使用示例:

用户:把这张图片调整到 800x600

OpenCode:[调用图片编辑工具]

✅ 图片调整完成

调整参数:
• 目标尺寸:800x600
• 调整方式:保持比例填充
• 填充颜色:白色
• 输出质量:90%

调整对比:
• 原始大小:2.3MB
• 调整后大小:120KB
• 压缩率:94.8%

已保存到:output/image_800x600.jpg

添加滤镜和特效

使用场景:

  • 改善图片质量
  • 调整图片色调
  • 添加艺术效果

使用示例:

用户:给这张图片添加黑白滤镜

OpenCode:[调用图片编辑工具]

✅ 滤镜应用完成

应用滤镜:
• 滤镜类型:黑白(灰度)
• 亮度调整:+5%
• 对比度调整:+10%

效果预览:
[黑白效果预览]

已保存到:output/image_bw.jpg

其他可用滤镜:
• 复古滤镜
• 柔和滤镜
• 高对比度
• 模糊效果
• 锐化处理

添加水印

使用场景:

  • 版权保护
  • 品牌标识
  • 防盗用

使用示例:

用户:给这张图片添加水印

OpenCode:[调用图片编辑工具]

✅ 水印添加完成

水印配置:
• 水印文字:My Company
• 字体:Arial,24px
• 位置:右下角
• 透明度:50%
• 颜色:白色

已保存到:output/image_watermarked.png

图片生成 🎨

生成示意图

使用场景:

  • 流程图
  • 架构图
  • 概念图

使用示例:

用户:帮我生成一个用户注册流程的示意图

OpenCode:[调用图片生成工具]

✅ 示意图生成完成

生成参数:
• 类型:流程图
• 风格:现代简约
• 步骤数:5
• 配色:蓝色系
• 尺寸:1200x800

流程步骤:
1. 用户点击注册
2. 填写表单信息
3. 验证手机号
4. 设置密码
5. 注册成功

已保存到:diagrams/registration_flow.png

生成封面图

使用场景:

  • 文章封面
  • 视频缩略图
  • 社交媒体配图

使用示例:

用户:帮我生成一张科技风格的封面图

OpenCode:[调用图片生成工具]

✅ 封面图生成完成

生成参数:
• 风格:科技/未来感
• 尺寸:1920x1080
• 配色:蓝紫渐变
• 元素:电路板、数字、连接线
• 文字:AI 技术分享

已保存到:covers/tech_cover.png

生成装饰图

使用场景:

  • 页面装饰
  • 背景图片
  • 图标设计

使用示例:

用户:帮我生成一个装饰性的分割线图片

OpenCode:[调用图片生成工具]

✅ 装饰图生成完成

生成参数:
• 类型:分割线
• 风格:简约几何
• 尺寸:1200x20
• 配色:渐变蓝绿

已保存到:decorations/divider.png

批量图片处理 🔄

批量调整大小

使用场景:

  • 批量压缩图片
  • 统一图片尺寸
  • 格式批量转换

使用示例:

用户:帮我批量调整 images 目录下所有图片到 800x600

OpenCode:[调用批量处理工具]

✅ 批量处理完成

处理统计:
• 扫描文件:156个
• 成功处理:153个
• 跳过文件:3个(非图像文件)

处理详情:
1. image_001.jpg → 800x600.jpg ✓
2. image_002.png → 800x600.png ✓
3. image_003.bmp → 800x600.bmp ✓
...

平均处理时间:0.8秒/张
输出目录:output/resized/

批量格式转换

使用场景:

  • PNG 转 JPG
  • BMP 转 WebP
  • 统一输出格式

使用示例:

用户:帮我将所有 PNG 图片转换为 JPG 格式

OpenCode:[调用批量处理工具]

✅ 批量转换完成

转换统计:
• 扫描文件:42个
• 成功转换:40个
• 失败文件:2个(损坏文件)

转换列表:
1. image_001.png → image_001.jpg ✓
2. image_002.png → image_002.jpg ✓
3. image_003.png → image_003.jpg ✓
...

输出目录:output/jpg/
质量设置:85%

批量添加水印

使用场景:

  • 批量版权保护
  • 统一品牌标识
  • 批量标注

使用示例:

用户:帮我给所有图片添加水印

OpenCode:[调用批量处理工具]

✅ 批量水印完成

水印配置:
• 水印文字:© My Brand 2024
• 位置:右下角
• 透明度:40%
• 批量目录:images/

处理结果:
• 总计处理:50张
• 成功添加:50张
• 失败:0张

输出目录:output/watermarked/

最佳实践 💡

图片质量优化

建议:

  1. 使用高分辨率图片进行识别
  2. 确保图片清晰度和光照良好
  3. 适当压缩以平衡质量和文件大小
  4. 选择合适的输出格式

配置示例:

image:
recognition:
min_resolution: 800 # 最小分辨率
preferred_format: "png" # 首选格式
generation:
default_quality: 90 # 默认质量
max_size: 1920 # 最大尺寸

性能优化

建议:

  1. 批量处理时设置合理的并发数
  2. 分批处理大量图片
  3. 定期清理临时文件
  4. 使用硬件加速(如可用)

配置示例:

image:
batch_processing:
concurrent_limit: 5 # 并发限制
batch_size: 20 # 每批处理数量
enable_gpu: true # 启用 GPU 加速

常见问题 ❓

Q1: 支持哪些图片格式?

A: 支持常见格式。

支持的格式:

  • JPG / JPEG
  • PNG
  • GIF
  • BMP
  • WebP
  • SVG
  • TIFF

Q2: 识别准确率如何?

A: 取决于图片质量。

影响因素:

  • 图片分辨率
  • 图片清晰度
  • 光照条件
  • 文字大小(OCR)
  • 物体复杂度

一般准确率:

  • 物体识别:95%+
  • 文字识别(OCR):90%+(清晰文字)
  • 人脸识别:90%+(正面照片)

Q3: 可以批量处理大量图片吗?

A: 可以,建议分批处理。

优化建议:

  • 每批处理 20-50 张
  • 设置合理的并发数
  • 监控系统资源使用
  • 分批处理 500+ 张图片

Q4: 生成的图片可以商用吗?

A: 请注意版权问题。

注意事项:

  • 确认模型的使用条款
  • 遵守版权法规
  • 如用于商业用途,建议查看许可协议
  • 建议进行必要的修改和创新

下一步 ➡️

图片使用配置完成后,您可以:

  1. 学习多媒体处理:查看 多媒体信息处理
  2. 配置工具管理:查看 工具配置
  3. 了解模型配置:查看 模型配置
  4. 查看最佳实践:查看 工作流设计

总结 📝

图片处理扩展了 OpenCode 的视觉能力。

图片处理清单:

🔍 图片识别
[ ] 物体识别
[ ] 文字提取(OCR)
[ ] 人脸识别
[ ] 场景分析

✏️ 图片编辑
[ ] 裁剪图片
[ ] 调整大小
[ ] 添加滤镜
[ ] 添加水印
[ ] 格式转换

🎨 图片生成
[ ] 生成示意图
[ ] 生成封面图
[ ] 生成装饰图

🔄 批量处理
[ ] 批量调整
[ ] 批量转换
[ ] 批量水印

常用场景组合:

文档处理:
扫描文档 → OCR 识别 → 提取文字 → 整理内容

内容创作:
文章内容 → 生成封面图 → 添加水印 → 发布

批量优化:
原始图片 → 批量调整 → 批量压缩 → 批量水印

🎉 图片处理配置完成!

现在 OpenCode 不仅能看懂文字,还能"看见"图片!👀✨