给ChatGPT装上眼睛，并且还可以语音对话

eefocus_3945884

本帖最后由 eefocus_3945884 于 2024-1-25 12:08 编辑

本项目在树莓派上部署CNN卷积神经网络，利用webcam获取实时图像，实现物体识别。同时利用USB声卡实现语音输入与文字识别。当触发语音识别后，会同时进行语音识别与图像识别操作。识别完成后将结果整合，整合后再输入ChatGPT或其他大语言模型。最后再将大语言模型的输出结果利用TTS转化为语音，使用USB声卡进行播放。实现Chatgpt多模态输入（图像输入，语音输入），在赋予ChatGPT视觉的同时添加语音对话能力。

图片1.png (21.19 KB, 下载次数: 0)

下载附件保存到相册

2024-1-22 12:03 上传

具体实现步骤如下：

1，使用speech_recognition进行语音输入，完成后将语音数据导入google语音识别模型中进行语音识别。

2，检测到语音输入完成后，opencv会从webcam视频流中截取最新的一帧，并利用YOLOv8模型进行图像识别。

3，图像识别的信息与语音识别都得到后进行整合，通过GPT 提示词训练，将所有信息整合成文本并输入ChatGPT。

4，将ChatGPT返回的回复利用Edge-TTS进行播放，完成与具备视觉能力的ChatGPT进行语音交互。

项目一共分为几个部分：

1、IP camera模块制作。

2、驱动，实现用python控制的语音输入输出。

3、语音识别模型调试。

4、OpenCV获取webcam视频流。

5、在树莓派上搭建YOLOv8。

6、基于爬虫的ChatGPT API调试。

7、TTS功能实现。

具体请参考附件中的文档，视频和源代码。

SeeingGPT.rar (20.01 MB, 下载次数: 1)

给ChatGPT装上眼睛，并且还可以语音对话

eefocus_3945884 LV1

站长推荐 /3