免费无限制离线使用!阿里巴巴、百度、字节等各大厂商+OpenAI开源语音识别
这里还不得不说网易其实在语音识别这块做的挺良心,除了有完全免费的网易见外,旗下的有道云笔记的实时语音识别竟也是完全免费的腾讯云语音识别(网页/微信小程序)除了网易,腾讯其实也提供了语音识别体验服务,打开上述链接点「立即使用」,登录腾讯云账号即可...
凯恩的同学
阅读后需要
15
分钟
速读仅需8分钟
关于语音转文字的话题,Kyon 几年前就已经讨论过。
除了许多工具的失败之外,现在还出现了新的工具。 另外大家也经常问到免费无限制离线使用!阿里巴巴、百度、字节等各大厂商+OpenAI开源语音识别,阿旭自己也有这个需求(经常需要帮妈妈把视频转成文字,方便她学习),所以今天就打算这么做。 让我们研究一下 2023 年的语音转文本解决方案。
虽然说是语音转文本,但其实视频转文本也可以归入同样的问题场景——毕竟你可以很容易地找到将视频转换为音频的软件。
阿旭很早就推荐过(点击查看)
另外,视频字幕生成其实可以归为同一类问题(有时间线),不过这个问题更有可能是视频制作者需要的(点击查看),这里就不多说了。
在这篇文章中,阿旭要重新介绍一下2023年值得推荐的语音识别工具(由提供服务的厂商介绍)
最重要的各平台识别质量对比请见文末。
1.1
网易看外面(网页)
地址:
网易剑外是网易人工智能事业部旗下的AI视频翻译产品。 在阿旭的印象中,这似乎是国内最早推出的此类服务之一。
至于天地良心,从2017年9月上线到现在,这个平台一直都是免费的!虽然期间有传言平台会下线百度英语转语音在线版,但实际上至今仍然可以正常使用。
您只需登录网易账号即可享受平台多项“AI智能转录”服务。 从最初的视频翻译,到现在支持视频转录、字幕翻译、文档翻译、语音翻译、语音翻译。 转录、会议同声传译、图片翻译8大功能
如果我们需要将视频或音频转换为文本,那么我们就需要使用“语音转录”功能
一次仅允许大小 <500M、mp3、wav 和 aac 格式的音频文件。 支持中文或英文。 另外,据悉每天上传的音频文件不能超过2小时。
阿旭测试了一段4分多钟的音频,不到1分钟就转录完毕。 转录后百度英语转语音在线版,您可以在线预览:随着音频播放,相应的句子将加粗并突出显示。
如果您发现整个文档中有些单词音译错误,您还可以点击顶部进行“词汇替换”,这里还可以进行“模态粒子过滤”。
确认没有问题后,最后可以在右上角导出为Word文件。 使用起来可以说是相当方便简单。
1.2
有道云笔记(Android/iOS)
地址:
这里不得不说,网易在语音识别领域其实是非常良心的。 除了网易的完全免费的应用程序之外,其有道云笔记的实时语音识别也是完全免费的。
如果您需要一边录音一边转录,有道云笔记可能是一个非常好的选择。 只需登录有道云笔记,点击语音速记»,然后点击翻译即可。
识别完成后,可以将识别结果导出为文本注释(保存的文本,基本类似于TXT)
腾讯
2.1
腾讯云语音识别(网页/微信小程序)
地址:
除了网易之外,腾讯其实也提供语音识别体验服务。 打开上述链接,点击“立即使用”并登录您的腾讯云账号。
目前免费额度还是比较良心的。 它不仅支持上传录音文件,还支持实时语音识别。 对于个人偶尔使用,我觉得这个每月额度是完全够用的(不够的话可以多个账户)
计费规则可能会发生变化。 最新的计费说明请参见官方文档:
找到功能体验后,我们就可以上传文件进行识别。 目前识别语言支持普通话、粤语、上海话、英语、日语,而且很强大的一点是支持说话人分离,即音频中如果有多个人说话,就会自动区分!
您可以选择特定的识别结果是否需要时间戳。 导出的识别结果为txt文件。
扫描网页二维码后,即可在手机微信小程序上进行实时语音识别(每月5小时)
2.2
Tern,字幕翻译助手(Win/Mac)
GitHub地址:
如果您访问Github遇到困难,建议了解一下
除了上面提到的从网页使用腾讯云语音识别之外,我们还可以使用开源软件字幕助手来拨打电话。 使用起来并不困难。 只需将文件拖入其中并单击即可开始识别。
当然,使用前需要进行一些复杂的参数配置。 由于软件提供了详细的步骤英语培训,这里不再赘述。
其实从下图可以看到,我们还可以配置阿里云、科大讯飞、IBM等服务商的语音识别服务。 不过除了阿里云、腾讯、IBM之外,其他服务都是收费的,而且IBM注册配置有点麻烦。 中文的认可度肯定不如国内的服务商,阿旭不推荐。
阿里巴巴
3.1
Videosrt(Win)
GitHub地址:
如果您访问Github遇到困难,建议了解一下
VideoSrt,一个开源、免费的软件,其实在上一篇文章中已经介绍过。 通过这个软件,我们几乎可以免费使用阿里云的语音识别引擎。 个人每天有2小时的自由言论识别配额。
计费规则可能会发生变化。 最新的计费说明请参见官方文档:
只是这个软件的使用步骤比较繁琐。 我们需要先手动申请阿里云的相关API,然后配置软件才可以使用。
作者针对具体API的应用和配置做了一个10分钟超详细的视频教程,这里不再赘述:
▲扫描二维码查看
总之,当你花了很多时间配置OSS和语音识别引擎的参数后,你就可以轻松使用该软件了。
字节跳动
4.1
飞书妙计(全平台)
地址:
飞书妙机是新互联网巨头字节跳动(抖音背后的公司)近年来的产品。 也非常有良心,完全自由。
使用方法极其简单。 注册并登录后,您可以直接上传音频或视频进行识别和转换。 目前支持普通话、英语和日语。
支持不同说话人的识别,并可自动添加标点符号和章节段。 识别完成后,可在网页右上角导出为TXT或SRT格式。
除了网页之外,在飞书APP上搜索并安装飞书妙记APP后,还可以在手机端快速录音进行识别(录音时会实时显示转写结果)
4.2
屏幕截图(Win/Android/iOS)
那我们就来说说上一篇文章介绍过的剪辑——这其实是抖音的一个产品。
由于与飞书妙吉的产品线不同,一是辅助会议记录,二是降低用户发布抖音的门槛,所以决定未来两款产品的收费机制可能会有所不同(剪辑可能会继续免费,毕竟它已经区分了普通版和专业版)
以前需要将音频和视频传输到手机APP上进行字幕生成,但现在在Windows版本的视频剪辑上也可以进行操作(根据实际测试,网页上还无法进行此操作)版本):
使用方法也非常简单。 打开软件点击»开始创建,将音视频文件拖入素材库»然后将音视频拖入编辑轨道。
然后切换到文字功能,点击智能字幕,再点击开始识别即可轻松进行语音识别(最长2小时百度英语转语音在线版,无限制使用)
转换完成后我们可以在右上角导出。 您只能将字幕文件另存为 TXT 或 SRT 文件。
冲洗
5.1
岳麓(网页/Android/iOS)
地址:
岳麓是阿旭早在几年前就推荐过的一款免费的AI语音转文字工具。 它实际上是浙江和信通华顺网络信息股份有限公司(成立于1995年,2009年在深交所上市,是中国第一家互联网金融信息服务行业上市公司产品)的产品。 )
至今,每天仍可免费转换3小时普通话,并拥有200小时音频云存储空间(相当于云盘)。 另外,网站和APP支持wav、m4a、aac、mp3、amr、wma等音频格式的导入。 以及mp4、3GP、mkv、flv、mov、wmv、mxf、avi等视频格式(单个音视频文件限制<500M)
同时支持区分说话人,还对金融、科技等领域的音频提供进一步的识别支持,支持提前输入音视频中的关键词,提高识别准确率。
识别后可以在线查看,导出为word或txt,可以选择是否包含时间戳。
虽然不支持实时语音识别,但通过APP录音后可以快速识别并转换。
百度
6.1
百度PaddleSpeech (Win)
地址:
既然网易、腾讯都推出了,那么人工智能怎么能少了国内最先在这一领域发力的百度呢?
早在2017年5月,百度飞片就开源了其语音方向模型库——PaddleSpeech。
模型库有什么用?学过的朋友应该明白,AI之所以能理解人类的意思,其实就是通过不断喂数据+重复匹配来提高匹配率——AI语音识别也是如此。
简单来说,按照百度飞桨官方文档搭建运行环境、安装依赖、下载模型库、编译源码后百度英语转语音在线版,我们就可以在本地和离线进行语言识别了——但这对于90%的人来说自然太难了的人。 知道了
公众号@万能君的软件库开发了一款基于PaddleSpeech的普通人一键即可使用的语音转文字工具。 最重要的是可以离线无限次使用!
考虑到兼容性,目前版本只支持CPU转换,所以速度确实比较慢⚠️(测试R5-3600 CPU的一分钟音频转换时间为30s,而测试RTX 2060显卡只需要3s),并且只支持Windows 64位系统
但该软件考虑到硬件的差异,对音频进行了分段(每段1分钟长),所以会影响一些句子的识别。
最终转换结果会自动以txt文件保存在软件目录的“音频转换结果”文件夹中。
您可以从原作者的公众号下载该软件。 阿旭也将其移了过来,以防失败。 在阿旭公众号后台发送以下关键词即可获得不限速下载地址:
”
语音转文字
”
开放人工智能
大家都知道它是OpenAI训练的大型语言模型,但它训练的模型其实远不止于此。
去年年底,OpenAI开源了其大规模语音识别模型——Whipser,该模型在68万小时的多语言(99种)数据上进行了训练:
在当今综合性的离线语音识别工具中,他应该是目前最好的选择!
当然,我们不能只使用预训练的模型,而且OpenAI官方的部署和操作方法对于大多数人来说过于复杂。 幸运的是,开发人员已经为普通人开发了具有界面的软件。 您只需下载软件+导入Whipser模型即可使用
为了满足不同的语音转录需求英语,Whipser一共推出了5种型号:tiny、base、small、medium、large。 您的计算机可以运行哪种型号取决于显卡的性能。
同时,为了方便理解,下面的相对速度以秒为单位表示(不代表实际时间)。 相同硬件条件下,处理音频所需时间
模型大小所需的视频内存的相对速度
微小的
39M
〜1GB
32秒
根据
74米
〜1GB
16秒
小的
244米
〜2GB
6秒
中等的
769米
〜5GB
2秒
大的
1550M
〜10GB
1秒
由于Whisper的中文数据较少,如果转录的音频是中文的,那么至少要使用媒介模型来保证大部分是正确的。
7.1
Whisper桌面版(Win)
GitHub地址:
如果您访问Github遇到困难英语,建议了解一下
下载WhisperDesktop后,将Whipser模型文件放入软件的模型文件夹中。 当您运行该软件时,系统会要求您首先选择型号。 无论如何,这取决于您计算机的性能。 如果你能跑大,那就大。 如果没有,就中、小……继续往下(当然,如果你的音频太长,你就要自己考虑处理时间了)
不过,由于WhisperDesktop支持GPU硬解码,因此转录速度还是很快的。 阿旭测试了4分多钟的音频,使用的是medium模型,几十秒就处理完成了。
猜你喜欢
发表评论
评论列表