回答

收藏

给ChatGPT装上眼睛,并且还可以语音对话

#竞赛 #竞赛 859 人阅读 | 0 人回复 | 2024-01-22

本帖最后由 eefocus_3945884 于 2024-1-25 12:08 编辑

本项目在树莓派上部署CNN卷积神经网络,利用webcam获取实时图像,实现物体识别。同时利用USB声卡实现语音输入与文字识别。当触发语音识别后,会同时进行语音识别与图像识别操作。识别完成后将结果整合,整合后再输入ChatGPT或其他大语言模型。最后再将大语言模型的输出结果利用TTS转化为语音,使用USB声卡进行播放。实现Chatgpt多模态输入(图像输入,语音输入),在赋予ChatGPT视觉的同时添加语音对话能力。

具体实现步骤如下:

1,使用speech_recognition进行语音输入,完成后将语音数据导入google语音识别模型中进行语音识别。

2,检测到语音输入完成后,opencv会从webcam视频流中截取最新的一帧,并利用YOLOv8模型进行图像识别。

3,图像识别的信息与语音识别都得到后进行整合,通过GPT 提示词训练,将所有信息整合成文本并输入ChatGPT。

4,将ChatGPT返回的回复利用Edge-TTS进行播放,完成与具备视觉能力的ChatGPT进行语音交互。

项目一共分为几个部分:
1、IP camera模块制作。
2、驱动,实现用python控制的语音输入输出。
3、语音识别模型调试。
4、OpenCV获取webcam视频流。
5、在树莓派上搭建YOLOv8。
6、基于爬虫的ChatGPT API调试。
7、TTS功能实现。

具体请参考附件中的文档,视频和源代码。


SeeingGPT.rar (20.01 MB, 下载次数: 1)




分享到:
回复

使用道具 举报

您需要登录后才可以回帖 注册/登录

本版积分规则

关闭

站长推荐上一条 /3 下一条