项目名称: 慧心
目标: 这个项目背后的想法是创建一个应用程序,帮助视力受损的人分析他们周围的环境。
描述: 要分析他们周围的环境,他们所要做的就是用手机拍照,应用程序将自动学习图片中的内容/对象,并提供语音帮助,了解附近对象的类型。 但可能有一个问题是,视障人士将如何操作这个应用程序。嗯,他们所要做的就是在移动设备上的任何虚拟协助的帮助下打开这个应用程序,然后,为了拍照,他们可以使用任何一个音量键或相机按钮。 然后,捕捉到的图像将被输入到预先训练的卷积神经网络(CNN)中,图像中所有检测到的对象都将被标记。然后,这些标签将被传递到文本到语音引擎,该引擎通过使用自然语言处理(NLP)分析和处理文本,将文本转换为语音。 这个想法的一个优点是,它不仅限于移动应用程序。在先进水平上,,人们可以实现这个想法,制造一些类似的小工具,但它不需要手动拍照,而是可以拍摄周围环境的实时图像(比如在自动驾驶汽车中),并为视力受损的人提供语音帮助,不仅可以了解附近物体的类型,还可以了解这些物体的大致距离,通过使用不同类型的传感器。
流程图:
使用的工具:
- 从硬件的角度来看:
- 配备高品质摄像头的移动设备。
- 学习模型权重的良好处理能力。
- 从软件的角度来看:
- 谷歌Firebase。
- 谷歌云服务。
- Android/Visual studio。
- Python、Java、JavaScript。
注: 用于目标检测的算法是 约洛算法 以及文本到语音的转换 谷歌云服务 都用过了。
功能和应用:
- 为视力受损的人提供语音帮助。
- 使用方便,只需按音量键即可点击图片。
- 这个想法不仅仅局限于一个简单的移动应用程序,因为一个系统可以与各种其他应用程序集成 可以使用实时图像(手动拍照)技术而不是拍照的设备 一次又一次地手动操作。
- 通过使用不同类型的传感器,系统的功能和质量可以大大提高,因为 该系统可以实现输出到物体的近似距离和类似的其他特征。
重要链接: Yolo网站: https://pjreddie.com/darknet/yolo/
从头开始训练自己的模特: https://timebutt.github.io/static/how-to-train-yolov2-to-detect-custom-objects/
文本到语音引擎: https://cloud.google.com/text-to-speech/docs/
非常感谢。
注: 这个项目的想法是为了 ProGeek Cup 2.0——极客的项目竞赛 .