手机浏览器扫描二维码访问
贾瀞雯看着那份测试报告,眉头皱起来。
百分之六十二,意味着每三句话里就有一句识别错误。
这样的产品,根本没法用。
“瓶颈在哪儿?”她问。
“数据。”张涛说,“语音识别需要大量标注好的语音数据。
我们没有这方面的积累,要从零开始收集。
还有算法,现有模型对噪声、口音的适应性很差。”
贾瀞雯记下这些,当晚就汇报给了陈浩。
陈浩听完,沉默了一会儿。
“百分之六十二,比我预期的好一点。”他说,“我本来以为会更差。”
“那怎么办?”贾瀞雯问。
“别急。”陈浩说,“语音识别是长期工程。
先收集数据,优化模型。
我把手头一些资料给你,可能有用。”
几天后,贾瀞雯收到一个压缩包。
里面是几十篇论文和技术文档,都是关于语音识别的最新研究。
有些是英文的,有些是中文的,还有一些是手写的笔记——陈浩的字迹。
她把这些资料转给张涛。
张涛看了之后,兴奋地打电话来“贾总,这些资料太及时了!有几篇论文正好解决了我们遇到的问题。”
接下来的几个月,语音搜索团队边学边做。
数据从几万条积累到几十万条,模型从简单到复杂。
准确率从百分之六十二慢慢爬到百分之六十七、六十九。
但到了百分之七十,又卡住了。
“七十是个坎。”张涛在评审会上说,“再往上,需要的计算量和数据量成倍增加。
我们现有的算力不够,数据也不够。”
“需要什么?”贾瀞雯问。
“至少再翻一倍的服务器,还要更多的标注数据。”张涛说,“投入可能要翻番。”
贾瀞雯算了一下。
翻番意味着把移动广告联盟的全部盈余都投进去,甚至还要从其他项目抽资源。
她犹豫了。
当晚的视频,她把这个难题抛给陈浩。
陈浩听完,没马上回答。
他拿起笔,在纸上画着什么。
“瀞雯,我想到一个思路。”他说,“传统的语音识别,是把声音转成文字,再用搜索去匹配。
但有没有可能,跳过一个环节?”
“什么意思?”
“直接建立声音特征和搜索结果之间的关联。”陈浩说,“比如用户说‘天气预报’,系统不是先识别成‘天气预报’这几个字,再搜天气。
而是直接从声音特征匹配到天气这个意图。”
贾瀞雯想了想“听起来很抽象。
技术上能实现吗?”
“需要算法创新。”陈浩说,“我写个框架给你,让团队看看。”
两天后,一份长达二十页的手写文档到贾瀞雯邮箱。
陈浩用铅笔画的流程图,密密麻麻的注释,还有一些数学公式。
她转给张涛。
请关闭浏览器阅读模式后查看本章节,否则将出现无法翻页或章节内容丢失等现象。
...
第一次写时间线可能会混乱一些,给鸿钧设定的人设是有些女儿奴的,内容有的可能有编造的,大家看看就好,不要当真。洪荒第一个星辰化形,在未化形之时与鸿钧证了亲子契,成为道祖之女,(与魔祖关系较好,靠山多且大性格有些娇纵高傲,被人溺爱,没有经历过大变,做事随心,)化形之後在洪荒之中游历,遇见了好友,也遇见了命定的他。(非原洪荒故事,为自编,人物性格自定,有些OCC,CP通天)初遇通天道友,我们打一架谁赢了宝物归谁?星瑶好啊,就按你说的办。通天你耍诈!你把我困住怎麽打?!!再遇通天你怎麽也在这里?!星瑶原来是你啊,我怎麽不能在这里?这里...
陆家爹娘为了救陆云停,听术士的话,给他找了个童养媳陆云停x江于青病弱美人傲娇攻x傻白甜受...