中英混读语音采集标注项目
本文档为“中英混读项目”实施规范,对语料制作、录音规范、标注规范做了详细说明,请根据具体要求内容进行实施。本项目共需要2000名录音人,每人录制450句。
数据量 | 1000小时;2000人 |
句数 | 每人450句,每句4s左右 |
性别 | 男女比例1:1 |
年龄 | 18~25岁70%,26~40岁20%,>40岁10%;可上下浮动5% |
语言 | 普通话为主,每句夹杂数个(大部分在3个或以下)英文单词 |
地域分布 | 覆盖七大方言区,详见下方3.1.4地域分布具体要求 |
录音环境 | 相对安静的环境,无回声 |
录音工具 | APP采集 |
语料 | 大约需要30万句,每句语料可重复3遍,详见下方具体要求 |
正确率 | 句正确率97% |
交付内容 | 采集并标注 |
录音要求
3.1 录音人要求
要求说普通话,英文发音准确。符合条件的录音人录制语音数据,录音人需通过大学英语四级考试。
3.1.1发音标准:
发音清楚,避免说话不清、语速过快和有方言等现象。
例如:“我是北京人”发音为“e4(四声)shi4 bei3 jing1 ren2”
这里“我”的发音是属于方言式发音。
3.1.2性别比例:
男女比例为1:1。男女比例可以在1:1的基础上浮动5%(控制在45%到55%范围内)。
3.1.3年龄比例:
年龄段 | 比例范围 |
18~25岁 | 65%~75% |
26~40岁 | 15%~25% |
>40岁 | 5%~15% |
3.1.4地域分布:
在录音人寻找的时候应控制在比例内。
方言区 | 范围 | 参考城市举例 | 比例 |
|
|
|
|
西南官话 | 中国西南的四川、重庆、贵州、云南等几乎全部的汉语地区以及陕西南部、甘肃南部、广西北部和湖南西北部、南部 | 重庆、成都、南充、绵阳、武汉、荆州、襄阳、孝感、遵义、贵阳、昆明、桂林、凉山、常德等 | 20% |
吴语 | 江浙沪等省份 | 上海、温州、杭州、台州、宁波、金华、苏州等 | 10% |
粤语 | 广东广西香港澳门等省份 | 广州、深圳、东莞、佛山、南宁、玉林、香港、澳门等 | 10% |
闽语 | 福建、海南、台湾、广东等省份 | 泉州、福州、厦门、海口、三亚、万宁、台北、高雄、台中等 | 10% |
湘语 | 湖南省 | 长沙、衡阳、邵阳、岳阳等 | 10% |
赣语 | 江西、安徽、湖北等省份 | 上饶西部、宜春、南昌、吉安等 | 10% |
※控制在比例范围内浮动。
注意事项:
1)口齿清楚,态度认真,避免说话结巴、大舌头、嗓音嘶哑等病理性发音的人。
2)参加录音的人必须事先了解录音要求(录音方法、录音环境、朗读要求、合格指标)。
3)每人只能录制一份该项目录音。如出现一人录制多份数据的现象将取消相应报酬。
4)录制人员对录音人的录音号段做好分配,避免号段重复使用。
3.3录音环境
相对安静的录音环境,不能有其他人说话的声音及其他噪音,无回音。
(避免在空旷的场地采集。例如:教室、礼堂、厕所、酒店大厅等)
周边噪音关联事项:
1)录音人外其他人的声音不采用。如有第二说话人的声音算无效。
2)其他噪音不采用。例如:摔东西的声音、喝水声、笑声、翻书的声音、音乐声、咳嗽声、车声等。
3.5录音人录音
1)普通话为主,每句夹杂数个(大部分在1-2个)英文单词,录制完450句。
2)自然的复述方式,自然流利清晰,禁止压低嗓子录音;禁止用耳语方式录音;禁止夸张语气,笑着说话。
3)录音人严禁刻意变声、模仿等说话方式。
4)说话人语速适中,吐字清楚不能每个字一停顿的说,尽量避免结巴。
5)手机离说话人嘴边距离在20-25厘米为宜。避免喷麦、和耳机采集的情况。
6)禁止在没有朗读完毕前抢停,如读错字、咳嗽、偶然噪音等现象应暂停录制,做准备后重新录制。
7)录音时,尽量以提供的原始句子为准。如果遇到不通顺或错字等影响正常朗读的句子,朗读时可稍作修改。
8)禁止一人多号,录制多个任务。450句必须由同一录音人完成。
9)朗读应为普通话方式,口音应为当地人自然发音习惯,不要讲方言。
3.6录音合格指标
数据采集完毕,项目负责人员要认真判断数据质量是否达到合格要求,并提醒录音人及时修改,如不满足以下指标均按照不合格处理。
相关指标项 | 具体说明 |
中文普通话夹杂英文 | 如方言口音较重或发音不清晰数据算无效 |
450句 | 不够450句算无效 |
每一句都朗读完整 | 抢停、或开始录制后不发音、句子录制不完整的情况算无效 |
环境安静 | 过大噪音、有第二说话人、回音等算无效。 因不同设备硬件问题,降噪处理的方式不统一。如果噪音过大也算无效,但是有电流声等出现,如果不影响正常声音可算合格,相反有明显的算为无效处理。 |
录音人信息真实有效 | 录制前填写的录音人信息完整、真实,相反无效。例如:信息填写男、25,实际是男、35或女、25等。 |
一人录制450句 | 一人录制了多个号段算无效 |
音频格式完整、正确 | 格式不符合规定16KHz、16bit数据或无法播放算无效 |
※ 非录音人可控因素 | 音频因录制软件或硬件等非可控因素造成的音频丢帧、卡顿等现象,不记为采集错误。 |
※合格标准按指标全部达标算。
※补录及修正事项:
录音及转写过程发现的错误整理之后重新录音。原始录音人可以重新录音的直接重新录音,原始录音人不能重新录音的话采用相同的录音条件、方式和文本语料进行第二人录音。
1. 录音工具使用说明
4.1工具说明
录音工具为安卓和ios系统手机使用的APP,安装后在线下录制语音数据并支持在线上传到服务器。
Android:下载方式:(可以直接在复制在电脑或者手机端下载)
链接:http://crowdfile.blob.core.chinacloudapi.cn/package/Record_new.apk
Ios下载方式:(复制在手机浏览器下载,注意完整链接)
itms-services://?action=download-manifest&url=https://crowdfile.blob.core.chinacloudapi.cn/package/DTRecorderNew.plist
如弹出信任问题,请如下操作:
4.2使用步骤
提醒:在录音时请关闭手机上的通信程序,以保证在录音的时候出现意外的声音影响采集。例如:QQ、微信、微博、游戏等。同时关闭手机按键音,避免按键音录入到采集的音频内容里。如可以最好在打开飞行模式下采集,防止手机自身因信号问题出现的异常声音.(建议开启飞行模式)
第一步:将录音软件datatangVX.apk传到手机后点击安装,出现如下图标即为安装成功。(VX:为版本号。例:V1.0)
第二步:点击录音工具,进入工具界面。点击“同意并进入”然后在列表中选择“任务配置”。
第三步:点击“任务配置”后,填写项目任务配置信息后下载语料。
● 当前任务ID:根据不同项目所给的特定编号。
● 开始组号:此处为分配给录制人员的语料编号
● 结束组号:语料的结束编号
※此处所有信息应由项目负责人应提前告知录制人员。
第四步:点击“下载”后返回列表界面,点击“开始录制”。在正式录音编号 内容里填写上一步的开始组号。
第五步:上一步点击“开始任务”后,在基本信息里如实填写信息。(认真填 写,禁止弄虚作假)
第六步:点击“下一步”后进入录制界面,点击“开始”,会出现倒计时,倒计 时结束开始录音,录音停止则点击“结束”,如果想听刚才自己录音时的内容请 点击“回放”,如此重复直至最后一句。
录音人在录音开始后请注意屏幕右上角的录制进度,避免少句、重读的现象。
第七步:录制完成后返回列表页,点击“上传结果”然后点击“开始”。将录制数据上传到数据堂公司服务器。上传成功后“开始”将变为“已完成”。如没有改变请再点击重新上传。
手机上传注意事项:
l 存储区有至少150M的可用空间。
l 由于上传的数据量较大,请在WiFi信号强的环境中上传,这种上传方式成功率比较高。
提交录音之后,要等结算完结之后再删除手机上的录音资料。
微信联系:ning2248