【飞桨AI实战】基于PP-OCR和ErnieBot的字幕提取和智能视频问答

日期：2024-12-09 作者：aqxvl 移动：http://qyn41e.riyuangf.com/mobile/quote/6984.html

【飞桨AI实战】基于PP-OCR和ErnieBot的字幕提取和智能视频问答问答

本次分享将带领大家从 0 到 1 完成一个基于 OCR 和 LLM 的视频字幕提取和智能视频问答项目，通过 OCR 实现视频字幕提取，采用 ErnieBot 完成对视频字幕内容的理解，并回答相关问题，最后采用 Gradio 搭建应用。本项目旨在帮助初学者快速搭建入门级 AI 应用，并分享开发过程中遇到的一些坑，希望对感兴趣的同学提供一点帮助。

背景：

光学字符识别（Optical Character Recognition，简称 OCR）是一种将图像中的文字转换为机器编码文本的过程。通常一个 OCR 任务的处理流程如下图所示：

而视频字幕提取就是对视频中的每帧图像提取出其中的字幕文字。

大语言模型（LLM，Large Language Model）是一种先进的自然语言处理技术，当前主流的 LLM 包括 GPTs、百度文心一言、阿里通义千问、字节豆包等，而 ErnieBot 正是基于百度文心一言的智能体框架。基于提取的视频字幕，借助 LLM 强大的语义理解能力，我们可以完成很多有意思的任务，比如让 LLM 帮我们提取视频的关键信息，甚至是基于视频回答我们的问题，减轻当前大模型常见的“幻觉”-胡说八道，比如下面这张图：

目标：

掌握如何用 paddlepaddle 深度学习框架搭建一个文本识别模型；
掌握文本识别模型架构的设计原理以及构建流程；
掌握如何利用已有框架快速搭建应用，满足实际应用需求；

本次实验将采用 AI Studio 实训平台中的免费 GPU 资源，在平台注册账号后，点击创建项目-选择 NoteBook 任务，然后添加数据集，如下图所示，完成项目创建。启动环境可以自行选择 CPU 资源 or GPU 资源，创建任务每天有 8 点免费算力，推荐大家使用 GPU 资源进行模型训练，这样会大幅减少模型训练时长。

创建项目的方式有两种：

一是在 AI Studio 实训平台参考如下方式，新建项目。

二是直接 fork 一个平台上的已有项目，比如本次实验，可以选择【飞桨 AI 实战】实验 6-基于 PP-OCR 和 ErnieBot 的智能视频问答的最新版本，然后点击 fork，成功后会在自己账户下新建一个项目副本，其中已经挂载了源项目自带的数据集和本次项目用到的核心代码。

为了快速跑通项目流程，建议直接 fork 源项目。

核心代码在：文件夹下

背景：CRNN 是较早被提出也是目前工业界应用较多的文本识别方法。本节将详细介绍如何基于 PaddleOCR 完成 CRNN 文本识别模型的搭建、训练、评估和预测。数据集采用 CaptchaDataset 中文本识别部分的 9453 张图像，其中前 8453 张图像在本案例中作为训练集，后 1000 张则作为测试集。

1.1 数据准备

step 1:解压缩数据

step 2: 准备数据部分代码

可视化结果如下：

1.2 模型构建

本次实验我们将采用最简单的网络架构来搭建 CRNN 网络并构建损失函数 CTCLoss

step 1: 搭建 CRNN 网络

step 2: 定义损失函数 CTCLoss

1.3 模型训练

编写训练脚本如下，主要是定义好数据集、模型，配置训练相关参数：

训练过程如下图所示：

1.4 模型预测

编写预测脚本

调用模型预测函数：得到生成图像的可视化结果

核心代码在：文件夹下

2.1 环境准备

本项目主要用到了以下安装包，可以采用一键安装。

2.2 需求分析

本项目主要需要完成两个功能：和。

：

中文视频能提取出其中的字幕
英文视频能自动生成中文字幕
生成 SRT 格式的字幕文件
将字幕文件内嵌到视频中去

：

提取视频中的关键信息，完成视频摘要
根据字幕信息，回答用户针对视频的提问
根据字幕信息，定位关键信息对应的时间片段

2.2 核心功能实现

2.2.1 基于 PP-OCR 完成字幕提取

采用 opencv 读取视频中的图片，引入 paddleocr 包实现图片中的字幕提取，同时记录时间信息，为了快速完成 demo 展示，这里采用每秒抽取一帧图像，且只用图像底部包含字幕的部分进行文字识别，核心代码如下：

2.2.2 基于百度翻译API 完成字幕翻译

为了帮助大家对原版英文视频的理解，可以将原始的英文字幕翻译成中文，这里选择直接调用百度翻译API，开发者每个月都有一定的免费额度。注意将其中的换成你自己的。

2.2.3 生成 SRT 格式的字幕文件

视频文件中最简单、最常见的外挂字幕格式是SRT（SubRip Text）。SRT字幕通常以srt作为后缀，作为外挂字幕，多数主流播放器都支持直接加载并显示SRT字幕。通常每个字幕段有四部分构成：

字幕序号：从 1 开始（而不是 0）
字幕显示的起始时间
- 格式为
字幕内容（可多行）
空白行（表示本字幕段的结束）

一个简单的例子如下：

让我们编写代码将提取的字幕改写成 SRT 格式的字幕文件：

2.2.4 基于 moviepy 实现视频拼接

注意 moviepy 实现视频拼接需要安装 imagemagick。在 AIStudio 的 Linux 环境中没有 sudo 权限，因此无法安装 imagemagick，如果要实现视频拼接，需要大家移步到自己本地电脑运行。Linux 下一键安装 imagemagick：

如果 imagemagick 安装没问题，那么就可以实现将翻译后的中文字幕添加到视频中。这里给出示例代码实现：

2.2.5 基于 ErnieBot 实现视频问答

ERNIE Bot 为开发者提供了便捷接口，可以轻松调用文心大模型的文本创作、通用对话、语义向量及AI作图等基础功能。

这里仅使用通用对话接口，你只需要将、和准备就可以了，示例代码如下：

注意这里的可以在 AIStudio 的个人中心获取（如下图所示），每个新用户都有免费额度。

2.3 Gradio前端界面实现

本次实验同样还是基于 Gradio 搭建一个简单的前端应用，将上述实现的功能集成进来。具体界面逻辑如下：

在 AIStudio 的云环境中启动应用：

下面介绍两种方式：

方式一：

参考 AIStudio 的项目服务部署官方文档，采用url拼接的方式：。

举个例子：比如我的Codelab地址是：

那么在浏览器中打开如下链接即可访问你启动的 Gradio 应用：

方式二：

为此，我们选择在 Codelab 的 Notebook 界面中进行前端展示。在Notebook 界面中进行前端展示，需要格式的文件，为此可以将复制一份命名为，如下图所示：

这里有几点坑，大家注意避开：

在 demo.launch()中不要指定 8080 端口
如果依然出现上述 css 文件加载不出来，导致界面显示有问题，换一台开发机试试吧，笔者亲测有效。
需要在初始 python 环境中安装项目依赖包：，因为是在下面这个python环境中启动的：

此外，还可以选择在本地 Linux 环境中运行项目，完美避开上述各种坑。

至此，我们共同走完了一个完整的视频问答项目，从基础的动手跑通 CRNN 文本识别任务，再到应用开发和部署，旨在帮助初学者快速入门 OCR 相关技术并搭建一个简单的应用。

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行