药物所信息资源与服务平台

组学机器学习

作者：: 刘琦
ISBN：: 9787030761514
出版社：: 科学出版社
出版年月：: 2023年10月
荐购人数：: 433
简介：: 该书的起笔，源于作者在同济大学开设的面向生物医学专业的“机器学习理论与方法”的课程教学，以及所进行的科研实践。机器学习课程一般开设在计算机相关专业，组学数据处理一般开设在生命科学相关专业，二者鲜有结合。虽然“AI + Omics”已逐渐成为生物医学研究的利器，但在该领域国内外尚缺乏相关的教材或著作。该书旨在面向组学数据挖掘的痛点和挑战，进行组学机器学习相关范式、理论、方法的系统梳理和总结，并结合作者团队多年的科学研究工作，进行相关应用案例的展示及介绍，帮助读者了解这一激动人心的前沿领域，抛砖引玉，激发读者举一反三，进行深入的思考。为帮助读者建立组学机器学习这一交叉领域所必须的知识体系，该书对于撰写内容和风格进行了精心的规划。该书避免对于组学测序技术本身或者机器学习的具体模型进行繁复的介绍，而是力求对于“组学+机器学习”二者结合的范式和思想进行总结和梳理，力图体现作者对于该领域的若干思考。该书第1章首先提出了组学测序技术发展的方向，包括多尺度、跨模态、有扰动等，同时总结了组学数据的高维度、高噪声、多模态、标记稀缺等特点，这种组学数据的特点成为制约其有效挖掘的瓶颈。基于此，同时提出了面向组学数据弱监督特点的机器学习研究范式的整体框架，该书的第二部分为组学的表征学习，具体包括第2~4章，分别介绍对于组学样本进行有效表征的三个层面：度量（第2章），嵌入（第3章），多模态整合（第4章）；该书的第三部分为组学的弱监督学习，具体包括第5~8章，分别介绍了弱监督场景下组学数据挖掘具体的机器学习范式和方法，包括：半监督学习（第5章），迁移学习（第6章），元学习（第7章），主动学习（第8章）；该书第四部分为组学数据的隐私计算，具体介绍一种特定的隐私计算方法—联邦学习（第9章）。机器学习模型和算法层出不穷，但涉及生物医学数据的分析，作者认为其核心思想仍是一种弱监督学习的体现，这种弱监督学习的范式体现在第2~8章。联邦学习（第9章）在生物医学领域亦是一种弱监督场景下隐私计算的特定方式。故建议读者以“弱监督”这一核心思想来理解该书的撰写逻辑和思路。从这个意义上说，机器学习算法的设计和应用，不是一个简简单单的模型套用和调参，而应该针对组学数据本身的特点来进行系统的发展，这也是“AI for Omics”所追求的最高目标。 ,,