抖音siri声音字幕语音怎么做(抖音siri声音字幕语音怎么做安卓)

时间:2023-03-20来源:鼎品软件作者:佚名

关于语音转文字,大部分想起接触过的会是在聊天软件中出现。除此之外,语音转文字还有许多应用场景。对此,本文将以国内市场为支点,以全球市场视为目标,探寻语音转写产品的诸多可能性。推荐对语音转文字市场感兴趣的小伙伴阅读。

抖音siri声音字幕语音怎么做(抖音siri声音字幕语音怎么做安卓)

与以往从国内市场角度的分析不同,本文将以国内市场为支点,以全球市场视为目标,探寻语音转写产品的诸多可能性。

本文说的语音转写,聚焦于面向C端用户的带语音转文字功能的产品,不包括企业服务中的智能客服、Fintech、车载语音、智慧医疗场景下的泛语音转写。

一、名词解释

语音转写:使用将音视频信息转化成文本信息的一种服务。

实时转写,即流式上传-同步获取,可将不限时长的音频流实时识别为文字,并返回带有时间戳的文字流;一般用于直播实时播放字幕、实时会议记录;也可以配合机器翻译,实现同传功能非实时转写,即已录制音频文件上传-异步获取,非实时语音转写将长段音频数据转换成文本数据,可用于影视字幕制作、会议访谈记录转写、智能客服录音质检等场景。

ASR:指自动语音识别技术(Automatic Speech Recognition),是一种将人的语音转换为文本的技术。

NLP:自然语言处理(Natural Language Processing,NLP)是利用计算机对自然语言文本进行理解、处理,并提取文本语义的过程。

二、如何介绍清楚语音转写

笔者的安排是这样的:

语音转写的基本定义和概念科普,帮助读者和笔者同频;语音转写所在的前置背景,这是它发展的前提;语音转写的市场规模,这决定了它是否值得被研究;语音转写的产业链,这可以帮我们从合作视角看我们关注点所在的位置;语音转写的竞争格局,这里是重点。用竞争视角从行业玩家身上直观感受语音转写的用户-场景-需求和商业模式,并且笔者不仅会纵向对比国内不同语音转写产品,也会横向对比国内外语音转写产品的区别,最后通过详细拆解Notta这款明星PLG产品作为行业经典案例,希望带来启发;语音转写的发展趋势,这里主要是通过展示相关创业公司来阐述其可能的发展路径;语音转写的综合评价,总结笔者对于语音转写行业的认知。

三、语音转写发展的前置条件

这事能成,主要有赖于三点,因为语音转写是有三个步骤组成的:

抖音siri声音字幕语音怎么做(抖音siri声音字幕语音怎么做安卓)输入得更多,说明场景更多,市场需求更多;转码得更快,说明成本更低,使用没有障碍;输出得更准,说明结果需要更少的修改加工,结果更满意。

这三点如何发生了改变:

1. 输入方面:无纸化程度极大提高,大部分的数据都是以数字化形式存储

理论上,只要是人与人之间发生的信息的传递,都是有数字化的需要的,主要是以非结构化数据的形式:

比如开会讲话的内容,是多人之间相互的信息传递,需要沉淀成会议纪要;比如老师讲课的内容,是一个人单方面向多个人的信息传递,需要沉淀成学习笔记;比如采访对话的内容,是一个人和另一个人的信息传递,需要沉淀成实录文档;……

这些沉淀的信息肯定不能以手写稿作为载体,而是要以文本形式存储:

手写稿存储成本太高,纸多了你总会弄丢吧,时间长了纸总会坏吧,要记的内容多了,我得随时准备各种各样尺寸的纸,以备不时之需;传输更麻烦,手写稿只有作者自己能看懂,况且一次只能给一人看,这还不如印刷术发明前的人类社会呢,信息的传输效率限制了世界的发展。

在未来,协作越来越多,人与人发生信息传递的场景就越来越多,越来越多的信息需要被数字化记录沉淀。

这是电子信息技术带来的结构性变化。

2. 转码方面:ASR性能提升,带来了转录的实时响应

单纯的无纸化,只能催生速记员、打字员,比谁能快速输出文本信息,这个活又脏又累还贵,可重复性可替代性极强,简直就是人工智能的最佳瞄准对象。

输入输出本身就很麻烦,1个小时的音频,人写需要2个小时,语音转录只需要5分钟。

3. 输出方面:其他语音技术的提升,带来了结果的可靠性

为什么说其他,因为这些主要还是依附于语音转文字这个技术之上对结果进行的优化。

人声分离,一种区分不同人声音的技术,可以通过声音来辨别某人的身份。一旦检测到一个人的发言,系统就会为该发言者创建一个声纹配置文件,从而分辨同一个人其他所有的语音;多语种识别,对混杂的语言环境进行区分,识别多人对话;环境降噪,对嘈杂的说话环境进行过滤,区分哪个是关键人在说话哪个只是环境音;语言降噪,人在说话时毕竟不像写作那么严肃,期间夹杂着大量的口语和语气词甚至叠词,需要对文本进行精简提炼,增强可读性,这属于NLP范畴。……

四、语音转写行业发展

这个过程并非一帆风顺,语音转写行业也是历经了四个发展阶段的。

第一阶段

在1990年-2010年,主要是人工服务,即通过人工实现录写服务。这个期间的产品形态,是以专业人工服务或外包方式服务客户。

第二阶段

在2010年-2015年,转写进入互联网化,这个阶段引入了机器服务,让机器助力转写,这种服务的产品形态主要是以网页和客户端小工具等方式实现。

抖音siri声音字幕语音怎么做(抖音siri声音字幕语音怎么做安卓)

第三阶段

在2015年-2017年,转写进入移动化,这个阶段引入人工智能和ASR技术,实现更高精准度的语音识别和语义理解,这种产品形态更加多元化,以APP、网页、智能硬件等方式展开。

抖音siri声音字幕语音怎么做(抖音siri声音字幕语音怎么做安卓)

第四阶段

在2017年至今,也是当前的阶段,转写进入人机耦合阶段,是人工智能与人工服务相融合的时刻,产品形态上仍然是以APP、网页、硬件等方式,但机器与人工进一步融合。

这是从技术角度去理解行业发展,其实其应用形式远不止于此。

五、产业规模

语音转写行业的盘子到底多大?

先看一组行业数据,根据艾瑞咨询的报告,2021年中国智能语音撰写市场规模约为10亿元,预计2026年市场规模将达到38亿。如果要估算全球市场,用这个数据乘以5即可得到大致结果。

从产品形态来看,智能转写产品主要包括Saas类产品与本地化部署解决方案两大类。

这个市场的特点就是,基数不算大,10亿量级,但是增长率相当可观,会有很多的增量出现,因为过去是大语种、大企业的需求,未来将会蔓延到更多的小语种、方言、小企业和传统企业,甚至是国企。(国企是这类Saas服务的重点服务对象)

下图是2022年中国智能语音产品成熟度曲线,可以看出语音转写技术以及逐渐进入成熟稳定期。

总之,语音转写的核心是ASR,从技术发展曲线来看,是语音技术最成熟的一项技术了。

ASR的准确率每年都在增长。

抖音siri声音字幕语音怎么做(抖音siri声音字幕语音怎么做安卓)

六、市场特征1. 供给>需求,由需求驱动

语音转文字,本质是提供了一种软件服务,解决了信息沉淀的效率问题。

当转录还是人工服务时,行业是由供给驱动的,因为转录员是有限的,而且价格昂贵。当机器取代人工转录时,已然变成了一个成熟行业,此时行业变成了由需求驱动。

既然是需求驱动,其需求

题图来自 Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

以上便是小编为大家带来的抖音siri声音字幕语音怎么做,希望对大家有所帮助,更多内容请继续关注鼎品软件。

精品推荐

相关阅读

更多+

游戏排行

热门搜索

变形消防车机器人 泰拉瑞亚中文版 3d飞车漂移 雷电风云战机官方版 异形虫历险记中文版 刀剑大作战正版 过山车大亨安卓中文版 派对杀人狂手机版 房产达人ios破解版 帕斯卡契约