图片使用

OpenCode 提供了强大的图片处理能力，包括图片识别、图片编辑、图片生成等功能。通过合理使用这些功能，您可以让 AI 助手更好地处理视觉内容，提升工作效率。

图片处理就像是给 AI 装上了"眼睛"，让它能看到并理解图片内容。

图片处理概览 🖼️

什么是图片处理 🤔

在 OpenCode 中，图片处理是指对图像文件的分析、编辑和生成。

白话解释：

就像给 AI 添加了"视觉能力"：

👀 识别能力：能看到图片里的物体、文字
🎨 编辑能力：能裁剪、调整、添加滤镜
✨ 生成能力：能创建新的图片内容
🔍 分析能力：能分析图片质量和风格

图片处理的能力：

✅ 图片识别：识别物体、文字、人脸
✅ 图片编辑：裁剪、调整、滤镜、水印
✅ 图片生成：创建示意图、封面图、装饰图
✅ 格式转换：JPG、PNG、WebP 等格式互转
✅ 批量处理：同时处理多张图片
✅ 质量分析：检测分辨率、清晰度、色彩

图片识别 🔍

识别图片中的物体

使用场景：

识别图片中的物品
统计图片元素数量
分析图片内容构成

使用示例：

用户：帮我识别这张图片里的内容

OpenCode：[调用图片识别工具]

✅ 图片内容识别完成

物体识别：
• 笔记本电脑 x1
• 咖啡杯 x1
• 手机 x1
• 书籍 x2
• 台灯 x1

场景描述：
这是一张办公桌的照片，桌上摆放着电脑、咖啡、手机和书籍，台灯提供照明。整体色调偏暖，光线充足。

提取图片中的文字（OCR）

使用场景：

扫描文档转文字
提取图片中的文字信息
识别验证码

使用示例：

用户：帮我提取这张图片里的文字

OpenCode：[调用 OCR 工具]

✅ 文字提取完成

提取结果：

会议通知

时间：2024年3月5日 14:00 地点：3楼会议室主题：Q1 季度总结会议

参会人员：

张三（产品经理）
李四（技术负责人）
王五（市场总监）

议程：

销售数据回顾
产品进度汇报
市场策略讨论

识别准确率：99.2%
置信度：高

识别图片中的人脸

使用场景：

识别人物数量
分析人脸特征
人脸标注

使用示例：

用户：帮我识别这张照片里的人

OpenCode：[调用人脸识别工具]

✅ 人脸识别完成

检测到 3 张人脸：

人脸 1：
• 位置：左侧，坐标 (120, 150)
• 特征：男性，约 25-30 岁
• 置信度：95%

人脸 2：
• 位置：中间，坐标 (380, 180)
• 特征：女性，约 28-35 岁
• 置信度：92%

人脸 3：
• 位置：右侧，坐标 (650, 160)
• 特征：男性，约 30-35 岁
• 置信度：88%

表情分析：微笑、愉快
光照条件：良好

图片编辑 ✏️

裁剪图片

使用场景：

调整图片尺寸
提取感兴趣区域
改变图片比例

使用示例：

用户：把这张图片裁剪成正方形

OpenCode：[调用图片编辑工具]

✅ 图片裁剪完成

操作记录：
• 原始尺寸：1920x1080
• 裁剪方式：中心裁剪
• 裁剪区域：1080x1080（正方形）
• 输出格式：PNG
• 文件大小：450KB

已保存到：output/image_cropped.png

调整图片大小

使用场景：

减小图片体积
适应不同设备
优化加载速度

使用示例：

用户：把这张图片调整到 800x600

OpenCode：[调用图片编辑工具]

✅ 图片调整完成

调整参数：
• 目标尺寸：800x600
• 调整方式：保持比例填充
• 填充颜色：白色
• 输出质量：90%

调整对比：
• 原始大小：2.3MB
• 调整后大小：120KB
• 压缩率：94.8%

已保存到：output/image_800x600.jpg

添加滤镜和特效

使用场景：

改善图片质量
调整图片色调
添加艺术效果

使用示例：

用户：给这张图片添加黑白滤镜

OpenCode：[调用图片编辑工具]

✅ 滤镜应用完成

应用滤镜：
• 滤镜类型：黑白（灰度）
• 亮度调整：+5%
• 对比度调整：+10%

效果预览：
[黑白效果预览]

已保存到：output/image_bw.jpg

其他可用滤镜：
• 复古滤镜
• 柔和滤镜
• 高对比度
• 模糊效果
• 锐化处理

添加水印

使用场景：

版权保护
品牌标识
防盗用

使用示例：

用户：给这张图片添加水印

OpenCode：[调用图片编辑工具]

✅ 水印添加完成

水印配置：
• 水印文字：My Company
• 字体：Arial，24px
• 位置：右下角
• 透明度：50%
• 颜色：白色

已保存到：output/image_watermarked.png

图片生成 🎨

生成示意图

使用场景：

流程图
架构图
概念图

使用示例：

用户：帮我生成一个用户注册流程的示意图

OpenCode：[调用图片生成工具]

✅ 示意图生成完成

生成参数：
• 类型：流程图
• 风格：现代简约
• 步骤数：5
• 配色：蓝色系
• 尺寸：1200x800

流程步骤：
1. 用户点击注册
2. 填写表单信息
3. 验证手机号
4. 设置密码
5. 注册成功

已保存到：diagrams/registration_flow.png

生成封面图

使用场景：

文章封面
视频缩略图
社交媒体配图

使用示例：

用户：帮我生成一张科技风格的封面图

OpenCode：[调用图片生成工具]

✅ 封面图生成完成

生成参数：
• 风格：科技/未来感
• 尺寸：1920x1080
• 配色：蓝紫渐变
• 元素：电路板、数字、连接线
• 文字：AI 技术分享

已保存到：covers/tech_cover.png

生成装饰图

使用场景：

页面装饰
背景图片
图标设计

使用示例：

用户：帮我生成一个装饰性的分割线图片

OpenCode：[调用图片生成工具]

✅ 装饰图生成完成

生成参数：
• 类型：分割线
• 风格：简约几何
• 尺寸：1200x20
• 配色：渐变蓝绿

已保存到：decorations/divider.png

批量图片处理 🔄

批量调整大小

使用场景：

批量压缩图片
统一图片尺寸
格式批量转换

使用示例：

用户：帮我批量调整 images 目录下所有图片到 800x600

OpenCode：[调用批量处理工具]

✅ 批量处理完成

处理统计：
• 扫描文件：156个
• 成功处理：153个
• 跳过文件：3个（非图像文件）

处理详情：
1. image_001.jpg → 800x600.jpg ✓
2. image_002.png → 800x600.png ✓
3. image_003.bmp → 800x600.bmp ✓
...

平均处理时间：0.8秒/张
输出目录：output/resized/

批量格式转换

使用场景：

PNG 转 JPG
BMP 转 WebP
统一输出格式

使用示例：

用户：帮我将所有 PNG 图片转换为 JPG 格式

OpenCode：[调用批量处理工具]

✅ 批量转换完成

转换统计：
• 扫描文件：42个
• 成功转换：40个
• 失败文件：2个（损坏文件）

转换列表：
1. image_001.png → image_001.jpg ✓
2. image_002.png → image_002.jpg ✓
3. image_003.png → image_003.jpg ✓
...

输出目录：output/jpg/
质量设置：85%

批量添加水印

使用场景：

批量版权保护
统一品牌标识
批量标注

使用示例：

用户：帮我给所有图片添加水印

OpenCode：[调用批量处理工具]

✅ 批量水印完成

水印配置：
• 水印文字：© My Brand 2024
• 位置：右下角
• 透明度：40%
• 批量目录：images/

处理结果：
• 总计处理：50张
• 成功添加：50张
• 失败：0张

输出目录：output/watermarked/

最佳实践 💡

图片质量优化

建议：

使用高分辨率图片进行识别
确保图片清晰度和光照良好
适当压缩以平衡质量和文件大小
选择合适的输出格式

配置示例：

image:
  recognition:
    min_resolution: 800  # 最小分辨率
    preferred_format: "png"  # 首选格式
  generation:
    default_quality: 90  # 默认质量
    max_size: 1920  # 最大尺寸

性能优化

建议：

批量处理时设置合理的并发数
分批处理大量图片
定期清理临时文件
使用硬件加速（如可用）

配置示例：

image:
  batch_processing:
    concurrent_limit: 5  # 并发限制
    batch_size: 20  # 每批处理数量
    enable_gpu: true  # 启用 GPU 加速

常见问题 ❓

Q1: 支持哪些图片格式？

A: 支持常见格式。

支持的格式：

JPG / JPEG
PNG
GIF
BMP
WebP
SVG
TIFF

Q2: 识别准确率如何？

A: 取决于图片质量。

影响因素：

图片分辨率
图片清晰度
光照条件
文字大小（OCR）
物体复杂度

一般准确率：

物体识别：95%+
文字识别（OCR）：90%+（清晰文字）
人脸识别：90%+（正面照片）

Q3: 可以批量处理大量图片吗？

A: 可以，建议分批处理。

优化建议：

每批处理 20-50 张
设置合理的并发数
监控系统资源使用
分批处理 500+ 张图片

Q4: 生成的图片可以商用吗？

A: 请注意版权问题。

注意事项：

确认模型的使用条款
遵守版权法规
如用于商业用途，建议查看许可协议
建议进行必要的修改和创新

下一步 ➡️

图片使用配置完成后，您可以：

学习多媒体处理：查看多媒体信息处理
配置工具管理：查看工具配置
了解模型配置：查看模型配置
查看最佳实践：查看工作流设计

总结 📝

图片处理扩展了 OpenCode 的视觉能力。

图片处理清单：

🔍 图片识别
  [ ] 物体识别
  [ ] 文字提取（OCR）
  [ ] 人脸识别
  [ ] 场景分析

✏️ 图片编辑
  [ ] 裁剪图片
  [ ] 调整大小
  [ ] 添加滤镜
  [ ] 添加水印
  [ ] 格式转换

🎨 图片生成
  [ ] 生成示意图
  [ ] 生成封面图
  [ ] 生成装饰图

🔄 批量处理
  [ ] 批量调整
  [ ] 批量转换
  [ ] 批量水印

常用场景组合：

文档处理：
  扫描文档 → OCR 识别 → 提取文字 → 整理内容

内容创作：
  文章内容 → 生成封面图 → 添加水印 → 发布

批量优化：
  原始图片 → 批量调整 → 批量压缩 → 批量水印

🎉 图片处理配置完成！

现在 OpenCode 不仅能看懂文字，还能"看见"图片！👀✨

图片处理概览 🖼️​

什么是图片处理 🤔​

图片识别 🔍​

识别图片中的物体​

提取图片中的文字（OCR）​

会议通知

识别图片中的人脸​

图片编辑 ✏️​

裁剪图片​

调整图片大小​

添加滤镜和特效​

添加水印​

图片生成 🎨​

生成示意图​

生成封面图​

生成装饰图​

批量图片处理 🔄​

批量调整大小​

批量格式转换​

批量添加水印​

最佳实践 💡​

图片质量优化​

性能优化​

常见问题 ❓​

Q1: 支持哪些图片格式？​

Q2: 识别准确率如何？​

Q3: 可以批量处理大量图片吗？​

Q4: 生成的图片可以商用吗？​

下一步 ➡️​

总结 📝​

图片处理概览 🖼️

什么是图片处理 🤔

图片识别 🔍

识别图片中的物体

提取图片中的文字（OCR）

识别图片中的人脸

图片编辑 ✏️

裁剪图片

调整图片大小

添加滤镜和特效

添加水印

图片生成 🎨

生成示意图

生成封面图

生成装饰图

批量图片处理 🔄

批量调整大小

批量格式转换

批量添加水印

最佳实践 💡

图片质量优化

性能优化

常见问题 ❓

Q1: 支持哪些图片格式？

Q2: 识别准确率如何？

Q3: 可以批量处理大量图片吗？

Q4: 生成的图片可以商用吗？

下一步 ➡️

总结 📝