《手语图像识别系统设计--人体动作识别》设计与实现

一、软硬件环境

基于人体姿态的手语图像识别系统采用了软硬件相结合的方法。硬件部分主要是用于采集手语图像的单目摄像头。软件部分主要是通过ffmpeg对视频图像进行处理,然后在Anaconda下配置Python3.6的开发环境,再结合Cmake编译OpenPose模型,最后在VScode编译器中结合OpenCV中的图像算法,实现了对手语图像识别系统所有程序的编译,通过wxFromBuilder框架整合设计了系统主界面。
(1) 视频处理工具:ffmpeg-20181115
(2) 集成开发环境:Microsoft Visual Studio Code、Anaconda3
(3) 界面设计工具:wxFromBuilder
(4) 编程语言环境:python3.6

二、系统功能设计

一个基于人体姿态研究的手语图像识别系统。根据OpenPose人体姿态开源模型和YOLOv3自训练手部模型检测视频和图像,再把数字特征进行分类器模型预测,将预测结果以文本形式展现出来。

基于人体姿态的手语图像识别系统是由多模块组成的,主要分为训练模块和识别模块两个部分。

在这里插入图片描述
在这里插入图片描述

1. 视频帧处理

Python+Opencv2(三)保存视频关键帧

在这里插入图片描述
在这里插入图片描述

2. OpenPose人体姿态识别

Openpose人体骨骼、手势–静态图像标记及分类(附源码)
Openpose人体骨骼、手势–静态图像标记及分类2(附源码)

在这里插入图片描述
由于仅靠人体姿态4和7关键点不足以识别手部位置,容易误判,因此在最终设计中引入了yolo手部识别。
在这里插入图片描述

3. yolov3手部模型训练

项目结构主要分为两大部分:YOLOv3深度模型训练部分和YOLOv3和OpenPose手语姿态识别部分。

训练模型思路:
在这里插入图片描述

环境:【GPU】win10 (1050Ti)+anaconda3+python3.6+CUDA10.0+tensorflow-gpu2.1.0
训练模型:【Keras+TensorFlow+Yolo3】一文掌握图像标注、训练、识别(tf2填坑)
识别:【Keras+TensorFlow+Yolo3】教你如何识别影视剧模型

在这里插入图片描述

模型训练参考代码:https://gitee.com/cungudafa/keras-yolo3
yolo3识别这里参考于:https://github.com/AaronJny/tf2-keras-yolo3

4. 人体姿态数字特征提取

识别完整过程思路:
在这里插入图片描述

在OpenPose设计中阐述过求解距离和角度的公式及方法,最终因为个体差异每个人的骨骼可能不同,目前优化为距离比(即小臂3-4关键点的距离与脖子长度0-1关键点距离之比)。
在这里插入图片描述
基于 keras的yolo3训练部分项目结构如下表所示:

keras-yolo3训练项目结构:

名称类型内容
yolov3.weights配置文件权重文件
yolov3.cfg配置文件配置文件
convert.py函数模型格式转换
train.py函数模型训练
voc_annotation.py函数voc格式标签
yolo_annotations.py函数yolo格式标签
yolo.py函数yolo方法接口
model_data文件夹参数配置
nets文件夹yolo网络
utils文件夹图片加载工具类
VOCdevkit文件夹VOC格式数据集
logs文件夹h5训练的模型生成目录

其中logs文件夹用于存放训练好的模型,VOCdevkit用于存放图片和标注信息。

model_data文件夹内容:

名称类型内容
test.txt文本测试图片信息
train.txt文本训练图片信息
val.txt文本训练测试图片信息
voc_class.txt文本标签样本名称
yolo_anchors.txt文本先验参数
yolo_weights.h5模型权重文件

nets文件夹内容:

名称类型内容
darknet53.py函数卷积神经网络结构
loss.py函数计算图像检测效果
yolo3.py函数Yolov3网络识别算法

5. beyes分类识别

【Sklearn】入门花卉数据集实验–理解朴素贝叶斯分类器

在这里插入图片描述
识别部分代码结构:

名称类型内容
filesUtils文件夹文件批量处理
model文件夹模型
pose文件夹 人体姿态识别相关算法
ui文件夹界面设计
yolo3文件夹Yolov3手部识别相关算法
beyes.py函数分类模型算法
getKeyFrame.py函数提取视频关键帧
pose_hand.py函数人姿和手部识别综合接口
UI.py函数可视化界面
yolo.py函数手部识别接口
SaveImg_graphviz.py函数绘制函数关系图

视频文件处理filesUtils文件夹:

名称类型内容
Image_classification.py函数图片分类
VideoUtils.py函数视频压缩、移动、重命名
ImgUtils.py函数图片压缩、移动、重命名
videoConv.bat可执行程序视频批量处理可执行程序

模型model文件夹:

文件夹名称类型内容
pose_cocopose_deploy_linevec.prototxt文本OpenPose人体姿态参数
-pose_iter_440000.caffemodel模型OpenPose人体姿态模型
yolov3coco_anchors.txt文本Yolo手部识别先验参数
voc_classes.txt文本Yolo手部种类
last1.h5模型Yolo手部识别模型
train_model.pkl模型朴素贝叶斯分类模型

基本算法pose和yolov3文件夹:

文件夹名称类型内容
posecoco.py函数人体姿态识别算法
-data_process.py函数坐标信息转数字特征算法
yolov3model.py函数手部识别算法
-utils.py函数数据格式处理函数

三、应用

预期是通过手机移动端对视频进行采集处理并应用,详见视频

在这里插入图片描述

四、总结

源码源码https://gitee.com/cungudafa/hand-keras-yolo3-recognize

star三连哦~

本文采用的是单人的骨骼识别,当然对多人骨骼标记分类是OpenPose的一大亮点,源码中没有扩展,Openpose多人骨骼特征点标记

视频帧的提取准确性也不够高,扩展衍生为HMM序列,视频动态序列等方法。对于特征提取还可以结合手势动态轨迹特征,能够多维度的描述运动曲线。

手语识别关键在于手语种类的划分,尤其是中国手语包含5600+词汇,因此NLP自然语言处理融合进来是很有必要的,因此任总而道远,有兴趣的朋友可以试试。

手语识别不仅为聋哑朋友们日常交流提供方便,更是为人机交互发展做出贡献,有创新意义和价值背景,值得一试哦。


备注:

源码会开源放在gitee(目前源码项目有很多笔记过程,也很有价值,需要整理成封装版本,太忙了呀~~不然这个项目还有很多发挥空间)

模型和视频资料涉及专业学习范畴和多人版权因素,未征得所有人授权,暂不提供

相关学习内容还可以私聊,闲暇时可以给出经验指导意见。

©️2020 CSDN 皮肤主题: 终极编程指南 设计师:CSDN官方博客 返回首页