AI语音与音乐生成 原理、工具与应用实践 清华大学出版社 9787302695790

配送至
$ $ USD 美元

开本:16开
纸张:胶版纸
包装:平装-胶订
是否套装:否
国际标准书号ISBN:9787302695790
所属分类:图书>计算机/网络>计算机理论
小旭音乐创始人卢小旭力荐!个在线平台个开源模型种语音工作流个案例幅图赠教学视频拓展资料群站邮箱公众号重磅推荐
马斯克科技帝国 马斯克如何构建商业生态闭环 如何用“第一性原理”改写商业规则
自营


网络工程师实训教程:华为、新华三、思科案例集锦(视频教学版)
自营券限时抢


学会提问,驾驭:提示词从入门到精通
自营券限时抢

通识课讲:走进人工智能
自营券预售


机器人学与具身智能
自营券满减满


智能体开发实践
自营券限时抢

人工智能:时代的机遇和挑战
自营券满减


图解 小时掌握虚拟优先时代的新生存策略 图解新科技系列
自营券满减满


精进图表:赋能,成为图表高手
自营券限时抢


产品特色
编辑推荐

可学团队倾力打造,详解语音与音乐生成的核心知识与场景应用
只讲干货,重在实践提升,通过个典型案例快速提高读者的实际动手能力
国内知名游戏音乐公司“小旭音乐”创始人卢小旭点评并推荐
采用“图书 教学视频 拓展学习 答疑解惑”的立体教学方式
赠送教学视频、案例素材、提示词、教学等超值资源
提供书友群、站和公众号等完善的售后服务渠道
本书特色:
轻松上手:通过“图书 教学视频 拓展学习 答疑解惑”的立体教学方式,带领读者轻松上手。
内容全面:涵盖语音的发展历史、基本原理、平台与工具、场景应用和综合实战等,涉及个语音类在线平台与工具、个开源语音模型、种常用语音工作流,帮助读者一站式掌握语音与音乐生成的相关知识。
技术新颖:紧跟技术发展趋势,基于当前流行的工具、平台和模型进行讲解,以确保技术的新颖性和时效性。
图文并茂:结合多幅图讲解核心知识点和应用实战案例,直观地展现语音与音乐生成的基本原理和实际效果。
实践性强:详解个类型丰富、由易到难的典型应用案例,涵盖语音与音乐生成的各种常见场景应用,帮助读者快速提高实际动手能力。
举一反三:针对同一功能或场景应用,提供多种实现思路,帮助读者融会贯通,从而达到举一反三的效果。
资料超值:提供大量的超值配套学习资源,帮助读者高效、直观地学习。
服务完善:提供书友群、电子邮箱、站和公众号等多种服务渠道,为读者的学习保驾护航。

内容简介

《语音与音乐生成》结合个典型案例,从语音与音乐生成的发展历史、基本原理、平台与工具、场景应用、综合实战方面详细介绍其核心知识、主流工具、操作技巧和应用实践等,从而帮助读者系统掌握语音与音乐生成的相关知识,并给相关企业解决真实场景问题提供参考。《语音与音乐生成》提供配套教学视频、案例素材、提示词文件、语音类工作流文件、教学和软件安装文件等超值配套资源,帮助读者高效、直观地学习。
《语音与音乐生成》共章,分为篇。第篇语音概论,系统介绍语音发展历史、语音技术引发的社会争议和语音未来展望;第篇音频技术原理,主要介绍语音识别、语音合成和音乐生成的基本原理等;第篇语音平台与工具,主要介绍国内综合语音平台、国外综合语音平台、常用的专业化语音平台、重要的开源语音模型等;第篇语音场景应用,主要介绍声音处理、声音识别、语音合成和音乐生成种常见的语音场景应用;第篇语音综合应用实战,首先介绍语音类工作流,然后介绍如何综合使用前面章节介绍的工具、模型和技巧,带领读者进行应用实践,从而完成翻唱、文案配音、 “复活”亲人和郭老师说英语个热门语音综合应用实战案例。
《语音与音乐生成》内容丰富,讲解深入浅出,案例典型、适合自媒体创作、音乐创作、游戏配音和影视配音等相关领域的从业者与爱好者阅读,也适合高等院校和培训机构作为语音类课程的教材或培训用书。

作者简介

王双:博士,毕业于中国科学院大学。现任教于武汉纺织大学,兼任可学的顾问。自年起教授人工智能的相关课程,对和的相关理论与应用有深入的研究,熟练掌握的相关原理、工具与开发技巧,熟悉的各种场景应用,主持开发了高校实训中心平台。已为多所高等院校提供相关课程、师资、平台综合解决方案。主持编写并出版了《绘画大师之道:轻松入门》《绘画全场景案例应用与实践》《绘画与音视频生成:工作流应用与实践》等图书。
尹子成:现任可学高级研发工程师。兼任智能语音和生成式音乐负责人,从事语音与音乐课程开发、应用开发与技术测试,理论基础扎实,经验丰富。
白玉棋:现任可学高级研发工程师,专注于工作流研发,能为特定的任务开发复杂的工作流。授课经验丰富,已经为武昌理工学院、东湖学院和武汉交通职业学院等多所院校的师生授课。
张珈毓:现任可学研发工程师,负责文案撰写、语音教程编写、开源模型测试等,代码编写能力较强,能熟练使用各类开源语音模型与工具。
何媛媛:博士,毕业于中国科学院大学。现任教于武汉纺织大学,兼任可学的顾问。自年起研究,并专注于生成式,熟悉、 等重建算法,致力于探索 的推广与应用。

目 录
第篇 语音概论
第章 语音简史
缓慢进步时期
快速发展时期
突破爆发时期
第章 语音技术引发的社会争议
语音电诈
语音电诈防不胜防
诈骗亿港元的视频会议
利用语音“复活”亲人
语音产品版权之争
生成的内容有版权吗
第一例声音侵权案
孙某某的无奈 第篇 语音概论
第章 语音简史
缓慢进步时期
快速发展时期
突破爆发时期
第章 语音技术引发的社会争议
语音电诈
语音电诈防不胜防
诈骗亿港元的视频会议
利用语音“复活”亲人
语音产品版权之争
生成的内容有版权吗
第一例声音侵权案
孙某某的无奈
第章 语音未来展望
音乐——让听觉更自由
语音交互——迎接智能新世界
第篇 音频技术原理
第章 语音识别原理
传统语音识别系统的构成
传统语音识别流程
端到端语音识别系统的构成
端到端语音识别流程
第章 语音合成原理
语音合成基础
基于规则的语音合成方法
基于数据的语音合成方法
基于统计参数的语音合成方法
基于深度学习的语音合成方法
语音合成技术框架
语音合成流程简介
声音模型训练
第章 音乐生成原理
音乐生成基础
常用的生成模型
模型
模型
音乐模型训练流程
如何通过提示词控制音乐生成效果
第篇 语音平台与工具
第章 国内综合语音平台
百度语音平台
讯飞开放语音平台
华为云语音平台
阿里云语音平台
其他语音平台
第章 国外综合语音平台
语音平台
语音平台
其他语音平台
第章 常用的专业化语音平台
文本转语音类在线平台
在线平台
平台
讯飞智作在线平台
在线平台
其他在线平台
音乐生成类在线平台
在线平台
在线平台
在线平台
在线平台
其他在线平台
音频处理类在线平台
在线平台
在线平台
在线平台
其他在线平台
综合类在线平台
在线平台
魔音工坊在线平台
在线平台
在线平台
多模态语音平台
第章 重要的开源语音模型
环境搭建
本地部署
云端部署
常见问题
环境安装
语音识别开源模型
语音识别模型
语音识别模型
语音识别模型
语音合成开源模型
声音克隆模型
语音合成模型
语音合成模型
语音合成模型
文本转语音模型
其他语音合成工具
声音转换开源模型
实时变声模型
歌声转换模型
音乐生成开源模型
音乐生成模型
多功能音乐生成模型
第篇 语音场景应用
第章 声音处理
使用简介
声音降噪
音频切割
音频分离
其他处理工具
第章 声音识别
语音识别案例:将语音记录成文字
语种识别案例:德语还是法语
声纹识别案例:嗓音身份证
情感识别案例:开心还是悲伤
语音唤醒案例:打开空调
声音分析案例:发电站水泵安全检测
音乐分析案例:用工具专业化分析音乐
其他识别工具
第章 语音合成
文字转语音案例:盲人听报
声音克隆案例:声纹永生
语言替换案例:中、日、英全精通
音色替换案例:零门槛翻唱热门歌曲
实时变声案例:变声器
第章 音乐生成
提示词基础
提示词简介
歌曲创作规则
文生音乐
通过提示词描述生成音乐
通过提示词描述生成音效
通过图像生成音乐和音效
通过参考音乐生成新的音乐 第篇 语音综合应用实战
第章 语音类工作流
文字转语音
使用 实现文字转语音
使用进行文字转语音
数字人口播
使用实现数字人口播
使用实现数字人口播
其他数字人口播插件
语音克隆
使用 实现语音克隆
使用 实现语音克隆
音乐生成
使用 生成音乐
使用生成音乐
第章 翻唱
数据预处理
准备数据集
提取人声
对数据集进行分割
声音训练
使用进行数据预处理
设置训练参数
开始训练
声音推理
加载声音模型
推理转换
影响声音模型质量的因素和其他音色替换工具与应用场景
第章 文案配音
生成文案
基于在线平台和开源模型进行文案配音
基于在线平台进行文案配音
基于开源模型进行文案配音
生成背景音乐
生成视频和图片
利用多模态大模型生成图片
生成视频
剪辑整合
其他文案配音工具与应用场景
第章 “复活”亲人
声音克隆
数字人对口型
工作流整合
其他语音合成工具与应用场景
第章 郭老师说英语
使用开源模型进行同声传译
使用在线平台进行同声传译
其他同声传译工具与应用场景
参考文献
显示全部信息

前 言
以(人工智能生成内容)为代表的人工智能浪潮正在以前所未有的速度席卷各行各业。各种新模型层出不穷,基于新模型的新应用场景不断涌现。语音与音乐作为的重要应用场景正在深刻地影响着人们的日常生活。从智能家居控制到自动驾驶,从数字人口播到跨语种沟通,从音乐生成到文案配音等,语音与音乐正在逐渐成为人们生活的一部分。可以说,语音与音乐生成已经成为音视频领域的创作者、音乐从业者、智能产品开发者、游戏从业者以及大中专院校影视动画与音乐等相关专业的师生必须掌握的基本技能。
为了帮助从业者全面、系统、深入地学习绘画、语音和视频等生成与处理技术,“可学”团队于年便开始组织人员筹划相关图书的写作和出版事宜,并于年先后出版了《绘画大师之道:轻松入门》和《绘画全场景案例应用与实践》。这两部图书上市后均获得了广大读者的好评。为了帮助读者更加系统地学习相关技术,“可学”团队经过调研,计划进一步推出《绘画与音视频生成:工作流应用与实践》《语音与音乐生成:原理、工具与应用实践》《视频生成:原理、工具与应用实践》《绘画与视频生成模型微调:原理、工具与应用实践》等图书,这些图书组成“技术探索丛书”供读者阅读。以(人工智能生成内容)为代表的人工智能浪潮正在以前所未有的速度席卷各行各业。各种新模型层出不穷,基于新模型的新应用场景不断涌现。语音与音乐作为的重要应用场景正在深刻地影响着人们的日常生活。从智能家居控制到自动驾驶,从数字人口播到跨语种沟通,从音乐生成到文案配音等,语音与音乐正在逐渐成为人们生活的一部分。可以说,语音与音乐生成已经成为音视频领域的创作者、音乐从业者、智能产品开发者、游戏从业者以及大中专院校影视动画与音乐等相关专业的师生必须掌握的基本技能。
为了帮助从业者全面、系统、深入地学习绘画、语音和视频等生成与处理技术,“可学”团队于年便开始组织人员筹划相关图书的写作和出版事宜,并于年先后出版了《绘画大师之道:轻松入门》和《绘画全场景案例应用与实践》。这两部图书上市后均获得了广大读者的好评。为了帮助读者更加系统地学习相关技术,“可学”团队经过调研,计划进一步推出《绘画与音视频生成:工作流应用与实践》《语音与音乐生成:原理、工具与应用实践》《视频生成:原理、工具与应用实践》《绘画与视频生成模型微调:原理、工具与应用实践》等图书,这些图书组成“技术探索丛书”供读者阅读。
本书为“技术探索丛书”中的《语音与音乐生成:原理、工具与应用实践》分册,详细介绍语音与音乐生成的主流工具、操作技巧和应用实践,以及声音处理、语音识别、语音合成和音乐生成等相关应用。通过阅读本书,读者可以全面、系统、深入地掌握语音与音乐生成涉及的核心技术、工具、模型、技巧与场景应用等。
本书特色
轻松上手:通过“图书 教学视频 拓展学习 答疑解惑”的立体教学方式,带领读者轻松上手。
内容全面:涵盖语音的发展历史、基本原理、平台与工具、场景应用和综合实战等,涉及个语音类在线平台与工具、个开源语音模型、种常用的语音工作流,帮助读者一站式掌握语音与音乐生成的相关知识。
技术新颖:紧跟技术发展趋势,基于当前流行的工具、平台和模型进行讲解,以确保技术的新颖性和时效性。
图文并茂:结合多幅图讲解核心知识点和应用实战案例,直观地展现语音与音乐生成的基本原理和实际效果。
实践性强:详解个类型丰富、由易到难的典型应用案例,涵盖语音与音乐生成的各种常见场景应用,帮助读者快速提高实际动手能力。
举一反三:针对同一功能或场景应用,提供多种实现思路,帮助读者融会贯通,从而达到举一反三的效果。
资料超值:提供大量的超值配套学习资源,帮助读者高效、直观地学习。
服务完善:提供书友群、电子邮箱、站和公众号等多种服务渠道,为读者的学习保驾护航。
本书内容
第篇 语音概论
第章介绍语音的发展历史与现状,让读者对其发展有基本的了解。
第章介绍语音技术引发的社会争议,包括语音电信诈骗、数字人“复活”和语音作品版权个话题,让读者了解语音技术发展带来的一些争议。
第章从音乐和语音交互两个方面展望语音的未来。
第篇 音频技术原理
第章介绍语音识别的技术原理,包括传统语音识别系统的构成与工作流程,以及端到端语音系统的构成与工作流程等。
第章介绍语音合成的算法原理与框架,包括基于规则、数据、统计参数和深度学习的语音合成方法,以及语音合成流程和声音模型训练等。
第章介绍音乐生成原理,包括常用的生成模型、模型、模型、音乐模型训练流程,以及通过提示词控制音乐生成效果的方法等。
第篇 语音平台与工具
第章介绍国内综合性语音平台,包括百度语音、讯飞开放语音、华为云语音、阿里云语音四大平台,以及腾讯云、有道智云和火山引擎等其他语音平台。
第章介绍国外综合语音平台,包括 语音平台、 语音平台及其他语音平台。
第章介绍常用的专业化语音平台,包括文本转语音、音乐生成、音频处理、综合工具箱种类型的专业平台与工具。
第章介绍语音识别、语音合成、声音转换和音乐生成等重要的开源语音模型的部署过程与使用方法。
第篇 语音场景应用
第章介绍声音处理工具及其应用,包括、声音降噪、音频切割和音频分离等。
第章介绍声音识别场景应用,包括语音识别、语种识别、声纹识别、情感识别、语音唤醒、声音分析和音乐分析等。在每个场景应用中,首先总结相关应用的行业前景,然后通过具体案例展示其实际效果。
第章介绍语音合成场景应用,包括文字转语音、声音克隆、语音替换、音色替换、实时变声等。在每个场景应用中,首先总结相关应用的行业前景,然后通过具体案例展示其实际效果。
第章介绍音乐生成的相关知识,包括提示词基础、文生音乐、通过图像生成音乐或音效、通过参考音乐生成新的音乐等。
第篇 语音综合应用实战
第章介绍语音类工作流的相关知识,包括文字转语音、数字人口播、语音克隆和音乐生成等。
第~章介绍如何综合使用前面章节介绍的工具、模型和技巧进行应用实践,从而完成翻唱、文案配音、亲人“复活”和郭老师说英语个热门语音综合应用实战案例。
读者对象
本书读者对象如下:
音视频领域的自媒体从业者;
数字人和直播行业的从业者;
配音、音乐创作等音乐行业的从业者;
对语音和音乐感兴趣的程序员和工程师;
高等院校音乐、播音和主持等专业的师生;
相关培训机构的学员。
配套资源获取方式
本书赠送以下超值配套资源:
教学视频;
案例素材;
提示词文件;
语音类工作流文件;
教学;
软件安装文件。
上述配套资源有两种获取方式:一是关注微信公众号(见书),回复数字“”自动获取下载链接;二是在清华大学出版社网站上搜索到本书,然后在本书页面上找到“资源下载”栏目,单击“网络资源”按钮进行下载。另外,读者也可以在“站”上(见书)在线观看本书配套教学视频。
意见反馈
语音与音乐生成正在持续高速发展中,其功能迭代日新月异。尽管本书在写作中已尽力保持内容的时效性与新颖性,但鉴于技术的快速变化和作者认知的局限性,书中难免存在一些未尽完善之处或细微疏漏,敬请各位读者批评与指正,笔者会及时进行调整和修改,您的宝贵意见是我们不断进步的动力。读者可以通过本书书友群或电子邮箱(见书)联系我们,也可关注微信公众号(见书),了解的相关进展信息。读者也可关注微信公众号(见书),回复数字“”自动获取书友群号等信息。
致谢
感谢秦天琪、苌欣睿、夏小康、王佑琳、朱美霞、张洋和王浩铭等人在本书写作期间给予笔者团队的支持与帮助!
感谢欧振旭在本书出版过程中给予笔者的大力支持与帮助!
感谢清华大学出版社参与本书出版的所有人员!是你们一丝不苟的精神,才使得本书得以高质量出版。
感谢妻子琼和女儿朵朵在漫长且艰难的写作过程中给予笔者的无私支持,谢谢你们!王双
年月
显示全部信息

媒体评论

时代,音频行业迎来前所未有的挑战与机遇。本书从语音生成的黑科技到音乐创作的魔法技能,一一掰开揉碎讲透其原理,还详细介绍了语音与音乐生成的相关工具和使用场景。阅读完本书,你也可以直接拿捏音频生产力,诚意推荐!
——小旭音乐创始人 卢小旭
本书全面、系统地介绍了语音与音乐的发展历史、技术原理、平台与工具、应用实践等,帮助读者快速掌握语音和音乐生成技术,从而适应的飞速发展。本书内容丰富,讲解深入浅出,适合影视、自媒体、音乐创作、播音和主持等领域的从业者和爱好者阅读,也适合高等院校的相关专业作为人工智能课程的教材。
——武汉纺织大学艺术与设计学院教授、院长 石元伍
本书结合个典型案例,系统地介绍了语音与音乐生成的完整知识体系。本书案例类型丰富,涵盖声音处理、声音识别、语音合成、音乐生成等具体场景应用,实现了翻唱、文案配音、亲人“复活”和郭老师说英语等热门实战案例。读者通过系统地学习本书核心知识并动手实践书中的每一个案例,相信会在较短的时间内掌握语音与音乐生成的相关知识。
——湖北工业大学数字艺术产业学院副院长 邓诗元
在短短的两年多的时间里,的快速发展让很多人相信(通用人工智能)离我们已不再遥远。语音作为人机交互的重要入口和人际交流的主要方式,其在中一直扮演着极为重要的角色。本书系统地介绍了语音和音乐生成的核心知识,并通过多个典型案例展示其各种场景应用,既适合自媒体、音乐创作、音视频创作等领域的读者阅读,也适合高等院校音乐类专业作为人工智能课程的教学用书。
——湖北海天时代科技股份有限公司总监、重庆职业院校技能大赛专家裁判、全国职业院校技能大赛执委会专家、职业教育国家级教学成果奖评审专家 谭智