Closed wanghaisheng closed 9 years ago
问题来了 1.现有的医疗数据链是不是不够长,导致数据质量本身不高,导致出不了成果
我们数据比较突出,从大数据来说京东的数据可能是所有电商中数据链最长的,包括经销商的数据、用户一开始浏览我们的数据,可能别的电商有,最后我们做到客服有没有返修,返修的时候跟我们人交互的时候他的情绪是什么样的,这是别的平台他们没有的,因为他们服务不是自己做的,我们推送服务全是自己做的,所以我们对用户数据掌握非常全,所以我们的描述也是最准的。”
模型优化。这又包括三个层面:针对输入向量非常长的文本(京东的词有将近十万的维度),首先做特征的降维,而且能够找到并应用非常重要的有区别度的,有利于业务提升的特征。第二是说调节各种参数,使得算法能够更快地收敛。第三是通过底层的分布式集群加速算法运算。李成华表示,京东借助于GPU加速运算构建分布式集群,实现性能的提升与大数据量的支持,其单台服务器能比纯CPU运算性能提升8~10倍。
基于"personalized PageRank",用Hadoop和SociaLite进行大数据医疗欺诈检测,以真实医疗支付数据为例 http://zh.hortonworks.com/blog/using-pagerank-detect-anomalies-fraud-healthcare/ http://zh.hortonworks.com/blog/using-pagerank-to-detect-anomalies-and-fraud-in-healthcare-part2/ https://github.com/ofermend/medicare-demo
京东DNN Lab首席科学家:用深度学习搞定80%的客服工作 2015年1月6日 15:32 说深度学习(Deep Learning)算法是当前“人工智能皇冠上的明珠”并不过分。通过深层神经网络(DNN)模型的运用,深度学习已成为目前最接近人脑的智能学习方法,不仅Google、Facebook、百度、腾讯等国内外搜索和社交公司为之疯狂,电商巨头京东和阿里也已经加入竞争。京东更是已经实现深度学习的初步运用。
深度学习技术在电商运营中的价值如何实现?未来的应用趋势是什么?在近日的京东技术狂欢节上,CSDN记者采访了京东深度神经网络实验室(DNN Lab)首席科学家李成华,就此问题进行了讨论,具体的话题涉及京东如何理解深度学习、为何要做深度学习、如何展开深度学习的研究、深度学习技术在京东的应用现状以及京东在研发过程中的一些心得等。 京东深度神经网络实验室(DNN Lab)首席科学家 李成华 李成华介绍,京东DNN Lab主要专注于人工智能和机器学习领域前瞻性的研究,涉及神经网络、知识层次、异构计算等技术的研发。DNN Lab目前主要成果包括命名实体识别、用户意图识别、用户画像和自动问答等,产品化是JIMI智能机器人,已经成功应用于售前咨询、售后服务和生活伴侣三个场景,承担超过30%的京东客服任务。作为一个“新生儿”,JIMI会把处理不了的问题转到人工客服,但京东希望未来JIMI可以包揽至少80%的客服工作。
同时,京东也将会探索利用深度学习算法提升产品销量预测、互联网金融、智能硬件、智能搜索、推荐广告等方面的效果。
大数据催熟深度学习
深度学习是模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释和处理各种数据,包括文本数据、图像数据和语音数据等。
人工神经网络具有良好的学习能力和解决问题的能力,但传统神经网络一般只有两三层的神经网络,其有限的参数和计算单元,对复杂函数的表示能力有限,学习能力受到制约,特征的开发和筛选也极为耗费人力。包含多个隐藏层的深度学习模型则不一样,根据机器学习泰斗、多伦多大学计算机系教授Geoffery Hinton的论文,它的优势更大:
在李成华看来,相比传统神经网络,深度学习更懂用户、更智能、更精准,更符合京东的业务需求。
目前深度学习推广的条件已经成熟。一方面,传统神经网络在大数据量的学习上性能较差,不符合大数据所需的时效性。另一方面,大数据的演进催生了软硬件系统的进步,分布式架构的产生,使得算法的性能已经不是瓶颈,并行化框架和训练加速方法,让深度学习的前景变得光明。同时,大数据也会让深度学习的效果越来越好。所以,从某种意义上说,深度学习是大数据的最佳拍档。
根据业界报道,深度学习在几个主要领域都获得了突破性的进展:
李成华表示,随着深度学习的发展和成熟,80%的(传统)机器学习算法将会被取代。
京东研究深度学习的初衷
客服对电商发展的重要性毋庸置疑。京东虽然有近5000人的人工客服团队,但应付618或者双十一大促仍然显得捉襟见肘。2012年12月,京东开始筹划成立JIMI智能客服团队,通过一些机器算法模拟人的思维,达到客服跟用户交流的效果。随后深度学习技术的风靡,加深了京东完善JIMI的想法。2014年9月9日,京东成立了京东深度神经网络实验室(DNN Lab),旨在通过神经网络、知识层次、异构计算等新兴领域的研究和应用来确保京东技术的领先性,提高JIMI的智能性及其应用的广泛性是实验室的首个直接目标。
该实验室直接隶属于京东副总裁马松——马松本人是电商及人工智能领域的资深专家,在美国日本做过多年的研究,并曾在eBay担任要职。担任首席科学家的李成华是加拿大约克大学的博士后、美国麻省理工大学的访问科学家,在神经网络领域有超过十年的研究基础和行业经验。团队课题负责人之一张晓鑫博士则毕业于清华大学,曾任职于Google公司,在机器学习和自然语言处理领域有深入的研究。另外,团队成员还有来自华为的刘丹和阿里的杨洋等行业专家。
深度学习技术固然有很大的应用价值,但随着IBM Watson、百度大脑等平台的开放,这种能力的获得并不困难,产品化的好坏才是直接影响客户服务能力的因素。京东没有采用战略合作的方式,而是选择在这个领域投入豪华的阵容自主研发,这说明,深度学习和数据挖掘技术已经被电商企业视为核心竞争力,立志做技术驱动型企业的京东,必须自己掌握核心这些技术,让数据更好地服务于自己。
京东DNN Lab的研发方向
与Google、百度、腾讯在图像和语音识别领域投入重金不同,京东DNN Lab目前更注重自然语言的处理。李成华强调,京东深度学习算法目前用于破解传统机器学习算法的瓶颈,提升JIMI在各个环节的性能、智能程度,从而提升用户满意度。基于这样的目标,DNN Lab主要进行如下4个方面的研发:
由于人工智能和深度学习技术与大数据相结合的研究和应用都是在探索之中,DNN Lab还没有详细的长期规划。李成华表示,未来的6个月之内,DNN Lab的主要精力还是放在JIMI智能机器人的完善上——JIMI背后的用户画像、自然语言处理、各种自然问答、命名实体抽取等,每一个技术点其实都是一个很大的课题。因此,他同时表示出对深度学习人才的渴求。
不过,李成华也透露,京东对深度学习算法的主要预期,将在产品销量预测、互联网金融、智能硬件、商品搜索/推荐/广告等方面。
DNN在京东的应用
京东基于其人工客服和用户交互产生的上亿条数据对JIMI进行训练,模拟每一个用户场景。JIMI的应用如前文所述,主要分为三类场景。它在2014年双十一期间接待了近百万用户,有效缓解了人工客服的压力。
从实际效果来说, JIMI在一定程度上能够让不解内情的用户单从对话无法区分对方是智能机器人还是人工客服。不过,京东以用户满意度提升、用户体验的提升、用户愿意使用、服务占比提高等指标是来衡量其技术的好坏或者应用的效果,在每个课题上,都有识别的准确性、评判分类的准确性的不同标准。在这些标准下,京东内部对JIMI现阶段的服务效果较为满意。
从神经网络层级来说,李成华介绍,目前工业界用得最多的已经到了十几层甚至几十层,京东目前能够做到八九层,明年可以达到十几层。
在对京东其他大数据应用场景的支持,DNN Lab目前主要是根据项目合作的形式来做,兄弟部门的算法工程师加入项目,提供数据和业务需求,看看哪些点上能用到深度学习,共同改进业务。
李成华希望能够做到深度学习的平民化,即研究一种深度学习算法的架构,把很多参数固定起来,通过预处理,封装成跟数据相关性很小的标准化的API或者云服务,提供给京东内部,让他们很容易地应用于各种数据,最终还将会向京东产业链输出。
DNN Lab阶段性成果的经验
京东DNN Lab正式成立至今不过短短的几个月,JIMI智能机器人就已经取得如此的成绩,确实有骄傲的资本。总结一下,京东的成功主要有以下的几个原因:
当然,这仅仅是京东在深度学习领域的初步应用。当被问及DNN纵深研发的挑战,李成华表示,其中的一个方面是训练的时间会比较长,因为它的迭代、交叉、神经元的连接时间比较长。甚至如果参数调节不当,训练就没有任何效果——随着深度增加,参数调节需要很多的经验,然而这是一个新兴领域。换句话说,人才的缺乏也是一大难题。未来,我们期待有破解这两个挑战的分享。