抖音siri声音字幕语音怎么做(抖音siri声音字幕语音怎么做安卓)

时间：2023-03-20来源：鼎品软件作者：佚名

关于语音转文字，大部分想起接触过的会是在聊天软件中出现。除此之外，语音转文字还有许多应用场景。对此，本文将以国内市场为支点，以全球市场视为目标，探寻语音转写产品的诸多可能性。推荐对语音转文字市场感兴趣的小伙伴阅读。

与以往从国内市场角度的分析不同，本文将以国内市场为支点，以全球市场视为目标，探寻语音转写产品的诸多可能性。

本文说的语音转写，聚焦于面向C端用户的带语音转文字功能的产品，不包括企业服务中的智能客服、Fintech、车载语音、智慧医疗场景下的泛语音转写。

一、名词解释

语音转写：使用将音视频信息转化成文本信息的一种服务。

实时转写，即流式上传-同步获取，可将不限时长的音频流实时识别为文字，并返回带有时间戳的文字流；一般用于直播实时播放字幕、实时会议记录；也可以配合机器翻译，实现同传功能非实时转写，即已录制音频文件上传-异步获取，非实时语音转写将长段音频数据转换成文本数据，可用于影视字幕制作、会议访谈记录转写、智能客服录音质检等场景。

ASR：指自动语音识别技术（Automatic Speech Recognition），是一种将人的语音转换为文本的技术。

NLP：自然语言处理（Natural Language Processing,NLP）是利用计算机对自然语言文本进行理解、处理，并提取文本语义的过程。

二、如何介绍清楚语音转写

笔者的安排是这样的：

语音转写的基本定义和概念科普，帮助读者和笔者同频；语音转写所在的前置背景，这是它发展的前提；语音转写的市场规模，这决定了它是否值得被研究；语音转写的产业链，这可以帮我们从合作视角看我们关注点所在的位置；语音转写的竞争格局，这里是重点。用竞争视角从行业玩家身上直观感受语音转写的用户-场景-需求和商业模式，并且笔者不仅会纵向对比国内不同语音转写产品，也会横向对比国内外语音转写产品的区别，最后通过详细拆解Notta这款明星PLG产品作为行业经典案例，希望带来启发；语音转写的发展趋势，这里主要是通过展示相关创业公司来阐述其可能的发展路径；语音转写的综合评价，总结笔者对于语音转写行业的认知。

三、语音转写发展的前置条件

这事能成，主要有赖于三点，因为语音转写是有三个步骤组成的：

输入得更多，说明场景更多，市场需求更多；转码得更快，说明成本更低，使用没有障碍；输出得更准，说明结果需要更少的修改加工，结果更满意。

这三点如何发生了改变：

1. 输入方面：无纸化程度极大提高，大部分的数据都是以数字化形式存储

理论上，只要是人与人之间发生的信息的传递，都是有数字化的需要的，主要是以非结构化数据的形式：

比如开会讲话的内容，是多人之间相互的信息传递，需要沉淀成会议纪要；比如老师讲课的内容，是一个人单方面向多个人的信息传递，需要沉淀成学习笔记；比如采访对话的内容，是一个人和另一个人的信息传递，需要沉淀成实录文档；……

这些沉淀的信息肯定不能以手写稿作为载体，而是要以文本形式存储：

手写稿存储成本太高，纸多了你总会弄丢吧，时间长了纸总会坏吧，要记的内容多了，我得随时准备各种各样尺寸的纸，以备不时之需；传输更麻烦，手写稿只有作者自己能看懂，况且一次只能给一人看，这还不如印刷术发明前的人类社会呢，信息的传输效率限制了世界的发展。

在未来，协作越来越多，人与人发生信息传递的场景就越来越多，越来越多的信息需要被数字化记录沉淀。

这是电子信息技术带来的结构性变化。

2. 转码方面：ASR性能提升，带来了转录的实时响应

单纯的无纸化，只能催生速记员、打字员，比谁能快速输出文本信息，这个活又脏又累还贵，可重复性可替代性极强，简直就是人工智能的最佳瞄准对象。

输入输出本身就很麻烦，1个小时的音频，人写需要2个小时，语音转录只需要5分钟。

3. 输出方面：其他语音技术的提升，带来了结果的可靠性

为什么说其他，因为这些主要还是依附于语音转文字这个技术之上对结果进行的优化。

人声分离，一种区分不同人声音的技术，可以通过声音来辨别某人的身份。一旦检测到一个人的发言，系统就会为该发言者创建一个声纹配置文件，从而分辨同一个人其他所有的语音；多语种识别，对混杂的语言环境进行区分，识别多人对话；环境降噪，对嘈杂的说话环境进行过滤，区分哪个是关键人在说话哪个只是环境音；语言降噪，人在说话时毕竟不像写作那么严肃，期间夹杂着大量的口语和语气词甚至叠词，需要对文本进行精简提炼，增强可读性，这属于NLP范畴。……

四、语音转写行业发展

这个过程并非一帆风顺，语音转写行业也是历经了四个发展阶段的。

第一阶段

在1990年-2010年，主要是人工服务，即通过人工实现录写服务。这个期间的产品形态，是以专业人工服务或外包方式服务客户。

第二阶段

在2010年-2015年，转写进入互联网化，这个阶段引入了机器服务，让机器助力转写，这种服务的产品形态主要是以网页和客户端小工具等方式实现。