AI 改变千行万业,开发者如何投身 AI 语音新“声”态

 2022-07-28 15:20:23    13  

从图灵测试到 AlphaGo 击败围棋世界冠军,AI 在近 10 年间再次进入新一轮的高速发展期。与以往不同的是,随着数字化的发展普及,AI技术开始进入千行万业,从技术界的热点宠儿,变成移动应用的常客。

AI 在行业应用中较为普及的,是使用 AI 中自动构建分析模型的机器学习技术(Machine Learning,ML),用于人脸、文本等图像类识别,例如电商物流的智能分拣、智能安防监控、工业智能质检等。随着机器学习模型的发展强大,AI 正在用于语音等更复杂的信息识别,并逐渐应用于智能家居语音控制、智能交互等场景。不过,快速发展的AI 应用和机器学习模型,既是技术发展的焦点,也需要投入高成本、人力去开发,而聚焦自身业务场景的技术开发者更需要的,是可以轻松调用、通用的机器学习与 AI 应用技术。

HMS Core ML Kit 机器学习服务,交付前沿 AI 应用体验

AI 已经成为 IT 技术厂商需要重点打造的能力,例如在华为提供端、云开放能力服务的HMS Core 中,重点为开发者打造了 ML Kit 机器学习服务,覆盖了文本类、语音语言类、图像类和人脸人体类等各类 AI 场景和能力,涵盖了常用的基础 AI 应用能力和场景,例如海外旅游出行使用 ML Kit 文本识别和翻译以获取路标、菜单,视频会议使用 ML Kit 图像分割能切换虚拟会议背景。在文本识别、文本翻译、图像分割、人脸检测、手势识别、文本嵌入这些 AI 能力之外,ML Kit 还拥有更前沿的算法模型才得以实现的 AI 能力。

例如在 HMS Core ML Kit 人脸人体识别服务中,除了静态人脸识别,还提供快速捕捉动态人脸信息的活体检测能力。ML Kit 活体检测甚至已经做到不需要用户配合做动作,就可以判断是真实人脸,还是恶意人脸图片攻击。另外 ML Kit 活体检测还可以将模板人像和人脸进行高精度比对,输出相似度值,进而判断两者是否为同一个人。

活体检测可在几秒钟内识别人脸

ML Kit 的活体检测采用全新的一个模型多个任务技术,联合华为“昇腾”推理库对AI模型的加速效果,量化后模型仅有 0.2M 大小,CPU 推理时延低至 0.01s;端到端同时检测人脸框和人脸关键 68 关键点,可以实时检测动作例如摇头,响应时延达到毫秒级别;在安全性方面可以有效防范各种类型打印攻击,视频攻击,面具攻击。

在实际应用中,例如对安全性和精准度要求更高的金融场景里,采用 ML Kit 活体检测,比对用户身份证照片和人脸检测结果,可以判断用户信息真实性,实现快速安全的身份核验流程,让 AI 识别可以真正有效助力互联网远程开户、刷脸支付等金融业务的开展。

再例如用于文本、文档、身份证、银行卡等文本类信息识别中,HMS Core ML Kit 文本识别汇聚了华为在 OCR 技术上的最新研究成果,支持任意角度的文本识别,能够对横竖排,弯曲文本精准识别的同时,还能对文本段落进行准确划分,对文本内容精确定位。

目前身份证识别是对精度、延时要求较高的 OCR 场景

另外在保证最高识别精度的同时,ML Kit 的文本识别在端侧已经支持 11 种文字检测,在云侧支持 20 多种文字,基本覆盖主流语种,能够服务全球用户。这种文本识别的广度,背后需要大量算法和研发工作去支撑。

对于更加抽象的语音数据的识别,由于增加了时间维度,使用机器学习识别也更加复杂。其中 TTS(Text To Speech 文本到语音)是 AI 声音识别中重要的应用场景,也是 AI 识别发展的重要方向。现在,HMS Core ML Kit 的 TTS 音色定制已经实现个性化的 TTS,模拟定制多种真人音色。TTS 语音要达到高度拟人、自然流畅(而不是早期 AI 语音的机器化和顿挫感),背后是华为技术团队采用深度神经网络技术对 TTS 模型训练、精细地调优,付出大量研发精力才得以实现。TTS 音色定制的应用场景非常广泛,在新闻小说的阅读、智能硬件、地图导航、服务类应用中,开发者都可以集成 TTS 能力,为用户提供实时、可替换、多音调的语音播放,极大提升和创新应用的交互体验。

TTS 音色定制的应用场景非常广泛

除了 TTS 音色定制,HMS Core ML Kit 采用语音识别、文本翻译、语音合成等多项 AI 能力,推出了音色模拟的 AI 同传解决方案。具体实现过程是将现场演讲者声音实时识别并转换为文本内容,对文本内容进行翻译,最终通过语音合成技术输出翻译后的音频流。在这个过程中,HMS Core 语音识别技术能够迅速将语音转换成文字,首字时延最低为 350ms;文本翻译技术则将文本以最快 200ms/300 字节文本的速率快速翻译。更具特色的是,通过 AI 音色定制,HMS Core AI 同声传译实现了用演讲者自己的音色进行同声传译,展现逼真同传效果。它还可支持跨语种个性化音色的快速定制,最快 5 句话即可极速定制个人喜好的音色,满足包括同声传译等不同场景不同用户的个性化诉求与合成体验。

HMS Core ML Kit 同声传译 APK 界面

像活体检测、TTS 音色定制、同声传译,这些都是 AI 应用技术发展中较为热门和重要的领域,而现在华为 HMS Core ML Kit 将这些需要大量算法模型支撑的 AI 能力开放出来,为开发者生态提供了及时和前沿的 AI 技术服务,赋能千行万业各类开发应用的 AI 智慧和创新体验,所有这些工作,也让华为 HMS Core 正在成为 AI 开发生态的重要主力军。

立即预约 HMS Core Discovery 直播,创造你的 AI 智能语音世界

为了做好开发者技术与服务,华为 HMS Core 提供了丰富和详实的开发文档、技术资料,在开发者中形成了良好的口碑。现在,华为 HMS Core 又在重磅打造一档针对开发者服务的技术解读系列直播栏目——HMS Core Discovery,每一期直播都会邀请行业大咖或者合作伙伴探讨热门技术、HMS Core 场景解决方案与案例。开发者可以非常直观高效地去了解目前热门开发技术与 HMS Core 开发能力特性。直播通过与开发者的互动交流与“对话”,对 HMS Core 生态技术竞争力深度解读,最终帮助合作伙伴实现用户和流量的增长与发展共赢。

现在,最新一期的 HMS Core Discovery 直播第 16 期将在 7 月 28 日 19:00 正式开播,主题《与虎墩一起,玩转 AI 新“声”态》,就是聚焦于目前 AI 语音语言的热门应用领域,本次直播将重点分析讲解 ML Kit 机器学习服务的语音语言类能力,如上文提到的 TTS、文本翻译、同声传译这些前沿的机器学习场景和应用,进一步展示 HMS Core 在 AI 与机器学习领域赋能开发者的前沿技术。

虎墩小镖师

在直播中,ML Kit 同声传译能力将全新亮相,嘉宾将为开发者揭秘底层技术和设计,另外嘉宾也将为开发者讲解 ML Kit AI 翻译能力升级后的功能,例如语种扩充情况和翻译播报的功能。

除了技术讲解,直播还邀请到了抖音网红 IP“虎墩小镖师”,“虎墩小镖师”同时也是 HMS Core ML Kit 机器学习服务中 TTS 语音的合作伙伴,通过与抖音网红 IP 的破圈合作,HMS Core ML Kit 希望将最热门和真实应用场景的智能声音提供给开发者使用。

通过直播的内容,开发者可以了解到 AI 语音识别原理、应用场景、技术调用等实操细节,还可以获得 ML Kit 已经训练完成并开放的“虎墩小镖师”声音,去定制个性化的音色,应用于自己的业务场景中,为用户带来新鲜和具有创意的新体验。

当然,AI 应用开发与 API 接入有更多细节实操的技术点,并非一场直播就可以全部掌握的。华为 HMS Core ML Kit 官网( https://developer.huawei.com/consumer/cn/hms/huawei-mlkit )有更详尽的功能介绍与开发文档供开发者接入参考,另外,开发者如果任何 AI 语音识别,或 HMS Core 与 ML Kit 文本类、图像类、人脸人体、自然语言处理、自定义模型定制等等开发的疑问,也可以点击“阅读原文”在直播报名问卷中直接提出,增加进一步与华为技术专家沟通交流的机会。

AI 热潮正在深入千行万业,AI 应用开发的机遇窗口稍纵即逝,建议开发者持续关注 HMS Core Discovery 技术直播,深研开发热点背后底层技术逻辑,玩转 AI 新“声”态。

复制下方链接,即可报名直播&提出 AI 应用开发疑问,还有更多直播惊喜抽奖礼物,不要错过!

链接:https://hwdeveloper.wjx.cn/vm/ew7Ttoe.aspx

  •  标签:  
相关推荐
AI 改变千行万业,开发者如何投身 AI 语音新“声”态科技数码

来源:中国经济网中国经济网北京8月8日讯 今日,魅视科技(001229)、紫建电子(301121)、工大科雅(301197)3只新股上市。魅视科技(001229) 魅视科技是国内分布式视听产品及解决方案提供商,致力于不断提升图像应用技术和视音频联结能力,为视音频信号的接入采集、传输交换、分析处理和调度呈现等提供软硬件相结合的专用视听产品。截至上市公告书签署日,方华直接持有公司45.10%股份,并通过魅视一期、魅视二期间接控制公司10.00%股份,方华合计控制公司55.10%股份,为公司的控股股东

2022-08-08  2
AI 改变千行万业,开发者如何投身 AI 语音新“声”态科技数码

8月5日至7日,2022年世界大健康博览会(以下简称“健博会”)在湖北武汉举行。本届健博会是国务院批准为国家级博览会后首次举办,由湖北省人民政府、国家卫生健康委员会、武汉市人民政府共同主办。逾1000家国内外企业参展,来自15个国家的政产学研用代表与会。24个优选项目现场签约,总金额达443.75亿元。思想交流,商品交易,文化交融。在主题为“健康共同体科技创未来”的健博会上,与会者纷纷表示,发展的新风口、投资的新南海、可期的新图景,催人奋进。在2022年世界大健康博览会稳健医疗展厅,工作人员向观

2022-08-08  2
AI 改变千行万业,开发者如何投身 AI 语音新“声”态科技数码

图片来源:视觉中国日前,珠海市智迪科技股份有限公司(以下简称“智迪科技”)递交了首次公开发行股票招股说明书申报稿,拟冲刺深交所创业板。资料显示,智迪科技专注于计算机外设领域,主要从事键盘、鼠标等计算机外设产品的研发、生产及销售。本次IPO拟募资5亿元,主要用于计算机外设产品扩产项目、研发中心建设项目、信息化系统升级项目、补充流动资金。这并不是智迪科技首次冲击IPO,公开资料显示,智迪科技于2016年递交过申报稿,并于2017年收到了证监会的反馈意见,但最终折戟。此次再闯IPO,钛媒体APP发现智

2022-08-08  4
AI 改变千行万业,开发者如何投身 AI 语音新“声”态科技数码

中央纪委国家监委网站 初英杰“经调查,该公司存在以虚假材料骗取省级科技成果转移转化服务机构和高新技术企业资格的行为。省科技厅决定,取消该公司5年内申报省级科技计划、省科学技术奖励、高新技术企业等资格,并纳入严重科研失信行为记录名单……”8月1日,山东省科技厅网站发布一则通告,将某公司挂上“黑榜”。同时被取消相关资格,并被纳入严重科研失信行为记录名单的,还有该公司实际控制人和法定代表人。此前,山东省纪委监委驻省科技厅纪检监察组在赴各市调研监督时发现,某公司涉嫌弄虚作假骗取省级奖补资金。对因违规行为

2022-08-08  4
AI 改变千行万业,开发者如何投身 AI 语音新“声”态科技数码

吴寿仁 【编者按】作为中国科技领域的基本法,施行28年后,《科学技术进步法》在2021年12月完成第二次修订,并于2022年1月1日正式施行。《科技进步法》解读系列由上海市科学学研究所组织科研人员结合自己的研究成果撰写,澎湃科技授权刊发。·《科技进步法》作为基本法,对各类主体在科技成果转化中的职能或职责作出了原则性规定,与《促进科技成果转化法》实现了较好的衔接,后者作为专门法,有更为具体的规定。·好的产学研合作机制,应当是“建立优势互补、分工明确、成果共享、风险共担的合作机制”。2021年版《科

2022-08-08  2

原文链接:https://www.tscy18.com/kejism/24142.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 315661083@qq.com 举报,一经查实,本站将立刻删除。