内容简介:2018年9月5日,由深圳市内容中心网络与区块链重点实验室、中国计算机学会青年计算机科技论坛深圳(CCF Young Computer Scientists & Engineers Forum,简称为YOCSEF)共同承办的学术报告分享交流会在北京大学深圳研究生院举办。本次交流会上,生物信息学科学家Stephen J. Song和哈尔滨工业大学计算机科学学院副教授汤步州分别就 《人工智能在生药大数据中序列标注问题的关键应用》、《中国临床自然语言处理:研究现状与挑战》两大主题做主题演讲。
2018年9月5日,由深圳市内容中心网络与区块链重点实验室、中国计算机学会青年计算机科技论坛深圳(CCF Young Computer Scientists & Engineers Forum,简称为YOCSEF)共同承办的学术报告分享交流会在北京大学深圳研究生院举办。
本次交流会上,生物信息学科学家Stephen J. Song和哈尔滨工业大学计算机科学学院副教授汤步州分别就 《人工智能在生药大数据中序列标注问题的关键应用》、《中国临床自然语言处理:研究现状与挑战》两大主题做主题演讲。
据了解,YOCSEF是由中国计算机学会(CCF)于1998年创建的系列性学术活动,总部设在北京,已在上海、杭州、长沙、成都、苏州、西安、深圳、南京、昆明等26个城市建立了分论坛,每年活动数百次,活动形式主要包括:专题论坛、学术报告会、学术评价、评奖、扶贫助教等。
AI+生物信息学,助力生物蛋白序列标注
广义的生物信息学是一门致力于开发新的方法或软件以帮助研究者加深对生物学数据理解的交叉学科,涉及计算机、生物学、数学与统计学以及工程学等学科门类, 重点在于集成各种算法和异构数据源的计算框架/方法/平台。 从信息科学技术的角度来看,生物信息学的研究是一个从“数据”到“发现”的过程。
目前,功能被充分表征的基因产物(蛋白)的数量与根本没有功能注释的基因产物(蛋白)的数量之间的差距越来越大。确定蛋白质功能的实验技术往往是昂贵且耗时的。 当AI与生物信息学相碰撞时,基于机器学习的人工智能可以应用到预测蛋白质的柔性和无序区域、预测蛋白酶特异性靶切割位点、预测细菌分泌效应蛋白、预测酶催化残基、预测单个氨基酸多态性的功能影响等多个方面。
在会上,Stephen J. Song博士介绍了他们开发的一种名为Bastion4的生物信息学方法,主要采用了基于多种机器学习分类器集成学习算法,用来预测T4SE序列。一般的机器学习的训练方法包括训练集、测试集和验证集, Bastion4的数据集包含了390个阳性T4SE序列和1112个阴性非T4SE序列,期间采用了CD-HIT程序用于去除高度同源的序列以避免模型训练中的潜在偏差。
据了解,这种新算法的好处在于:
(1)与通过组合各种特征训练的单个模型相比,使用单个特征训练的单个模型的集成模型显着地改善了预测效果;
(2)基于具有不同单一特征的集成学习模型预测的多数表决策略,预测结果更为稳定和准确。
Stephen J. Song表示,基于机器学习的框架通常可用于基于序列数据解决其他蛋白质、 DNA 、 RNA序列表征问题。
此外,Stephen J. Song还提出了一种称为PREvaIL的新计算方法,该方法结合了互补的序列、结构以及网络特征,用于鉴定具有3D结构信息但尚未在功能上表征的结构基因组学靶蛋白的功能残基。
Stephen J. Song是澳大利亚蒙纳士大学生物医学发现研究所癌症与感染与免疫项目的高级研究员和团队负责人,是计算生物医学、数据挖掘、机器学习和蛋白质组学的生物信息学和数据科学家。
当回答亿欧记者如何解决模型的泛化问题时,Stephen J. Song表示,这与研究的数据集和所选择的实验方法有关,一些具备特定属性的样本会相对易于检测,而另外一些则难以被检测出来。
NLP助力临床医疗文本处理
随着电子病历的迅速普及和医疗大数据时代的到来,自然语言处理技术(简称NLP)在生物医学领域迅速发展,已经成为当前的研究热点。所谓NLP技术,就是用机器来处理人类赖以交流的书写文字和口头语言。它利用语言学和统计学,加上机器学习,以便在自动化服务中对语言进行建模。
目前,临床医学信息大多以非结构化(或半结构化)文本形式存储于信息系统中,NLP是从医疗文本中提取有用信息的关键技术。 通过自然语言处理,如句子的分词,实体识别,实体的归一化和链接等,这些非结构化的医疗文本可以被转化为包含重要医学信息的计算机可以进行计算的结构化数据 ,有助于科研人员从结构化的数据中发现有用医学信息,从而提高医疗系统的运行质量,减少运行成本。
在交流会上,汤步州主要分享了医疗领域中的自然语言处理问题及相关技术,通过自身在中文临床医疗自然语言处理方面的一些研究工作,探讨中文临床医疗文本处理当前所面临的问题与挑战。
汤步州是深圳哈尔滨工业大学计算机科学学院副教授,同时也是中国计算机学会会员,人工智能学会青年工作委员会委员。近年来,他在重要国际期刊和会议上发表学术论文近60篇,其中SCI/EI检索论文40多篇,他的研究方向主要包括机器学习,数据挖掘,自然语言处理,信号处理和医学信息学等。
目前汤步州已经开发了中文Clinical NLP工具,可以做到分词、词性标注、临床医疗实体识别、时间信息抽取和标准化分离以及临床医疗实体标准化,后续还会进一步开发临床医疗实体及属性抽取、隐私信息抽取等。
近年来,粤港澳大湾区在打造创新驱动新引擎,科技创新带动资源集聚等方面着力颇多,创新机制、产业升级、人才引流、协同发展等带来了多方面的机遇。相应的,人工智能、人才赋能正深刻地影响着商业步伐。
2018年10月18-19日,亿欧将在深圳举办 “引擎·引领” 2018大湾区国际科创峰会(BATi) ,集合智能制造、智能产品、智慧城市、智慧安防、智慧交通等一众热点问题展开探讨,分析科技创新未来趋势,盘点技术革命下的发展契机。
报名链接:
https://www.iyiou.com/post/ad/id/664?herkunft=6648
版权声明
凡来源为亿欧网的内容,其版权均属北京亿欧网盟科技有限公司所有。文章内容系作者个人观点,不代表亿欧对观点赞同或支持。
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- AI Time 第二期:论道自动机器学习与可解释机器学习
- WOT AI峰会推荐搜索会场精彩揭秘,论道智能搜索如何提升业务价值
- 腾讯三大运维开源项目齐聚“OSCAR开源先锋日”
- AI论道|企业AutoML旨在流程自动化,可解释是人机交互的必经之路
- 聆听中国开源最强音 | 国内大厂开源项目齐聚 OSCAR 开源先锋日
- 游戏巨头齐聚 Unite Shanghai 2019,揭秘爆款游戏制作精彩亮点!
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Web Standards Creativity
Andy Budd、Dan Rubin、Jeff Croft、Cameron Adams、Ethan Marcotte、Andy Clarke、Ian Lloyd、Mark Boulton、Rob Weychert、Simon Collison、Derek Featherstone / friends of ED / March 19, 2007 / $49.99
Book Description * Be inspired by 10 web design lessons from 10 of the world's best web designers * Get creative with cutting-edge XHTML, CSS, and DOM scripting techniques * Learn breathtakin......一起来看看 《Web Standards Creativity》 这本书的介绍吧!