wanghaisheng / wanghaisheng.github.io

我的博客
https://wanghaisheng-github-io.vercel.app
17 stars 3 forks source link

每日碎碎念 #37

Open wanghaisheng opened 9 years ago

wanghaisheng commented 9 years ago

1、Google的性能检测工具Cloud Trace出测试 是否可以对现有的fhir server中提供的服务进行测试和评估 是否可以对所有云平台 云服务 baas供应商的接口性能进行测试

Upvote & Fund

Fund with Polar

wanghaisheng commented 9 years ago

Flatiron Health的产品--癌症领域的超级数据库 https://github.com/wanghaisheng/wanghaisheng.github.io/issues/47

wanghaisheng commented 9 years ago

从容器和Kubernetes技术看现代云计算的发展轨迹 打造基于Docker的PaaS平台 Docker在云环境中的应用实践初探:优势、局限性与效能评测

UCloud 莫显峰:Docker将会重新定义云计算 如果决定使用Docker,是否有必要同时使用OpenStack? Performance Characteristics of Traditional VMs vs Docker Containers by Boden Russel from IBM 性能测试报告 []()

wanghaisheng commented 9 years ago

HTTP的入门和大神之路

wanghaisheng commented 9 years ago

爬虫: 1、全国有多少家儿童医院、口腔医院 2、能否拿到留一手的所有微博做一个情感分析什么的 然后来模拟点评 3、能否拿到所有业务竞争对手的微博、微信、官网的信息 4、治疗不孕不育、牛皮癣、羊癫疯的骗子 5、

wanghaisheng commented 9 years ago

以“儿童医院”为关键词 1、好大夫在线有88个结果 2、寻医问药网有6*17=108 3、卫计委网站上的查询 https://www.hqms.org.cn/usp/roster/rosterInfo.jsp?provinceId=&htype=&hgrade=&hclass=&hname=%25E5%2584%25BF%25E7%25AB%25A5&_=1421938678490 以儿童医院为关键词 其他变量默认 只有45

wanghaisheng commented 9 years ago

打造基于Docker的PaaS平台

wanghaisheng commented 9 years ago

http://a16z.com/2015/01/22/insurance/

crowdsourced insurance companies 找一下相关材料 Friendsurance调研这家公司

wanghaisheng commented 9 years ago

http://yepeng.blog.51cto.com/3101105/1565691 开源大数据查询分析引擎现状 窝窝的解决方案介绍

wanghaisheng commented 9 years ago

利用stackoverflow的tags的about来学习技术点 http://stackoverflow.com/tags/rest/info http://stackoverflow.com/tags?page=3&tab=popular

wanghaisheng commented 9 years ago

javascript Eloquent JavaScript http://eloquentjavascript.net/

wanghaisheng commented 9 years ago

词具有三种关系,一种是真伴随关系(学术界叫互信息大的词对),一种是结构一致性强的词(学术界也叫结构化聚类),最后一种是修饰关系的,比如奥巴马和美国总统。

wanghaisheng commented 9 years ago

twitter的分词 http://www.ark.cs.cmu.edu/TweetNLP/cluster_viewer.html http://www.ark.cs.cmu.edu/TweetNLP/clusters/50mpaths2

wanghaisheng commented 9 years ago

http://cikuapi.com/ http://lafnews.com/corpus/

wanghaisheng commented 9 years ago

新闻的核心词和龙套词 微博评论


机器学习那些事儿:学习//@52nlp://@梁斌penny: 我记得最早是听@kingdy9 说过,09年吧,美军研究的很系统,我的路子不同 //@鲁东东胖: 受教:O网页链接 //@Super_Jiju: 真是你的能量超乎你想像啊 搜搜基于随机游走的kp抽取 textrank啥的 都搞很多年了 //@白硕SH: 嗯,简化描述一下,实际上词被贴上了两种不同的

    回复

2013-11-2 09:14
raogaoqi
raogaoqi:嗯哪,介事儿很重要的说呢~

    回复

2013-11-1 22:09
raogaoqi
raogaoqi:营养贴,那相关词的list是其他同质语料训练出来的还是本体建设的结果呢?//@鲁东东胖:是否可以这样理解,当一个词和它的同类词一起出现时,往往泛指一个概念,比如当苹果和橘子香蕉同时出现的时候往往指是水果,当李娜和莎拉波娃同时出现时往往指的是网球运动员,等等。这种时候个……

    回复

2013-11-1 21:50
白硕SH
白硕SH:回复@鲁东东胖:两个词之间笼统论距离,肯定不如细分差距更有益。温度是天气的一个方面,如果一定要列一个比例式“北京:x=天气:温度”的话,无论上海天津都不是x的最优解,反而是x等于“故宫、中关村、回龙观……”这些北京的“子区域”时更为贴切。这时替换就没有答非所问的感觉。

    查看对话
    回复

2013-11-1 18:18
鲁东东胖
鲁东东胖:回复@白硕SH: 李航建议从 topic/focus theme/rheme,角度去看这个问题,白老师对此有什么见解呢

    查看对话
    回复

2013-11-1 18:01
白硕SH
白硕SH:回复@鲁东东胖:更一般的解释是有的。语用学上,确实有人主张,如果不考虑重音等因素,一般来说先说的内容是“given information”,后说的内容是“new information”。所以先说的部分相似而不同,就有答非所问的感觉,但后说的部分相似而不同,答非所问的感觉就弱一些。

    查看对话
    回复

2013-11-1 17:57
鲁东东胖
鲁东东胖:回复@白硕SH: 基本上是这样,假设我的问题是”北京的温度怎么样?“, 然后去百度知道上找一个类似的问题,用它的答案来回答我这个问题。这是一个古老的问题,对于这个例子也应该有解决方案,但是我想知道有没有更一般的解释

    查看对话
    回复

2013-11-1 17:48
vinW
vinW:赞。可能得想好自己想要的 相似度 是怎样的,这里是想构造一种能区分新闻当事人的 相似度,那放到有监督特征选择下可能比较好弄。

    回复

2013-11-1 17:47
白硕SH
白硕SH:回复@鲁东东胖:这要看你的QA是摘句还是替换疑问词。如果是摘句,问北京而答天津是不可接受的。如果是替换疑问词,拿天津天气的取值替换关于北京天气的疑问词,是可以接受的。退一步说,如果说“反正天津下雨,北京如何,你懂的”,也挺好。

    查看对话
    回复

2013-11-1 17:45
鲁东东胖
鲁东东胖:回复@白硕SH: 如果从wordnet上的距离来看,北京和上海(或天津)的距离,以及 天气和温度的距离,都很近,但是后者的替换是可接受的,但是前者是不可接受的,也许从命名实体的角度可以解释,但也许还有很多命名实体无法解释的

    查看对话
    回复

2013-11-1 17:38
白硕SH
白硕SH:回复@梁斌penny:性别是先天的,可以在词典里确定,核心和龙套是后天的,要根据文本动态确定。

    查看对话
    回复

2013-11-1 17:32
白硕SH
白硕SH:回复@鲁东东胖:把上海换成天津呢?这其实是自变量距离与函数距离的可比性问题。

    查看对话
    回复

2013-11-1 17:31
梁斌penny
梁斌penny:回复@白硕SH: 有点这个意思,老大和其他人都不同,其他人互相可替换。

    查看对话
    回复

2013-11-1 15:55
白硕SH
白硕SH:一山不容二虎。

    回复

2013-11-1 15:37
谢剑Richard
谢剑Richard:其实key思想还是tf和idf..只是泛义的idf~BTW:顶下楼下的童鞋,词袋model的确需要突破!

    回复

2013-11-1 15:11
梁斌penny
梁斌penny:回复@湘阳puck: 当然了,做好不容易,我也只是提供一个思路。。结构性的东西肯定保持下来,比词袋更丰富,路还很长

    查看对话
    回复

2013-11-1 13:45
湘阳puck
湘阳puck:回复@梁斌penny:这未见得吧,很多随机提及的情况很难通过简单的词带模型解决,不管使用什么trick,idea本身的限制就在那里,突破词带模型本身,才是关键。

    查看对话
    回复

2013-11-1 13:38
梁斌penny
梁斌penny:李开复,马云,马化腾等大佬一起开会,核心肯定是某个主题。如果李开复发表一个讲话,那核心词肯定是李开复。 
wanghaisheng commented 9 years ago

医保结算

目前,医疗费用的结算大都采用总额控制下的按医疗服务项目付费的后付制。所谓按服务项目付费的后付制是指医院根据患者的病情采取相应的医疗措施, 记录病人接受服务的项目如诊断、治疗、化验、药品、手术、麻醉、护理等和收费标准, 小病从医疗卡中划拨, 大病到保险机构进行结算;按服务项目结算是一种运用最广泛的一种医疗费用结算方式,是后付制的传统形式

国内主要的结算方式

每位医保病人出院时都会收到一份住院医保结算单,上面记录了病人本次住院治疗的总费用、自付费用和医保记账报销的费用。然而由于不少市民对于一些医保概念不清晰,在看结算单的时候常常被上面的一大堆数字搞得一头雾水。据广州医科大学附属肿瘤医院医保办负责人介绍,其实市民要看懂住院医保结算单并不难。尽管各地的医保住院结算单不尽相同,报销比例也不一样,但大同小异,关键是要弄清楚几个关键词的含义。

  总金额:住院总费用,即病人在住院期间花费的所有费用。

  自费费用:医保目录范围以外的费用。

  部分项目自付费用:医保目录范围内的乙类项目,按比例参保人要先自付一部分的费用。如乙类药品A,100元,按5%的先自付比例,就产生部分项目自付费用5元=100×5%。

  起付线:即起付标准以下费用,医保局根据不同的参保人员类别及医院等级类别设定了相应起付标准。

  统筹共付段费用:基本医疗费用由医保和参保人共同支付的费用,计算方法=总金额-自费费用-部分项目自付费用-起付线,其中共付段医保支付费用=(总金额-自费费用-部分项目自付费用-起付线)×86%;共付段参保人支付费用=(总金额-自费费用-部分项目自付费用-起付线)×14%。

  对于部分购买了“企业补充”的职工参保人,还可以享受企业补充的记账,计算方法=(起付线+共付段参保人支付费用)×70%。

  此时,医保记账合计=(总金额-自费费用-部分项目自付费用-起付线)×86%+(起付线+共付段参保人支付费用)×70%。

  重大疾病补助:是指参保人在社保年度内基本医保统筹累计支付超过当年的限额时,系统自动转入重大疾病补助记账。

  广州市医保局规定,在不同级别的医院住院,报销比例和床位费结算标准不同;不同类型的参保人,起付标准不同。因此,为了读者方便计算,医院一般会在医保宣传栏或者宣传小册上印制关于医保支付比例与起付标准的有关政策信息。

  需要注意的是,医保记账金额并不是简单的“住院总费用×报销比例”,而是在剔除自费费用、起付标准、部分项目自付费用后,按照基本医疗保险统筹共付段费用的情况,按比例进行医保报销。
基本医疗保险统筹基金支付医疗费用设定结算期。结算期按职工和退休人员住院治疗的时间,恶性肿瘤放射治疗和化学治疗、肾透析、肾移植后服抗排异药门诊治疗的时间设定。 在一个结算期内职工和退休人员发生的医疗费用,按医院等级和费用数额采取分段计算、累加支付的办法,由基本医疗保险统筹基金和个人按照以下比例分担: 1、在三级医院发生的医疗费用: (1)起付标准至1万元的部分,统筹基金支付80%,职工支付20%; (2)超过1万元至3万元的部分,统筹基金支付85%,职工支付15%; (3)超过3万元至4万元的部分,统筹基金支付90%,职工支付10%; (4)超过4万元的部分,统筹基金支付95%,职工支付5%。

  2、在二级医院发生的医疗费用: (1)起付标准至1万元的部分,统筹基金支付82%,职工支付18%; (2)超过1万元至3万元的部分,统筹基金支付87%,职工支付13%; (3)超过3万元至4万元的部分,统筹基金支付92%,职工支付8%; (4)超过4万元的部分,统筹基金支付97%,职工支付3%。

  3、在一级医院以及家庭病床发生的医疗费用: (1)起付标准至1万元的部分,统筹基金支付85%,职工支付15%; (2)超过1万元至3万元的部分,统筹基金支付90%,职工支付10%; (3)超过3万元至4万元的部分,统筹基金支付95%,职工支付5%; (4)超过4万元的部分,统筹基金支付97%,职工支付3%。

  4、退休人员个人支付比例为职工支付比例的60%。 但基本医疗保险统筹基金按照比例支付的最高数额不得超过规定的最高支付限额。
wanghaisheng commented 9 years ago

做产品16年,我有9条心得

wanghaisheng commented 9 years ago

医学词汇及其相互关系的查询 http://med.dmi.columbia.edu

wanghaisheng commented 9 years ago

判断术语是否是可控医学术语CMV的标准或者条件 http://med.dmi.columbia.edu/vocab.htm

wanghaisheng commented 9 years ago

台大林老师对并行计算的理解 http://pan.baidu.com/s/1jGiRhie

wanghaisheng commented 9 years ago

技术雷达 思特沃克 http://www.thoughtworks.com/radar

wanghaisheng commented 9 years ago

到底应该考虑哪些数据分析的方法 可视化的方式

可参考 http://orange.biolab.si/

wanghaisheng commented 9 years ago

数据匿名化处理 K匿名 https://github.com/wanghaisheng/health-data-anonymity-research/issues/4 https://github.com/wanghaisheng/health-data-anonymity-research/issues/3 https://github.com/wanghaisheng/health-data-anonymity-research/issues/2 https://github.com/wanghaisheng/health-data-anonymity-research/issues/1

wanghaisheng commented 9 years ago

PostgreSQL 相关 1、instagram使用postgresql的小技巧 http://instagram-engineering.tumblr.com/post/40781627982/handling-growth-with-postgres-5-tips-from http://instagram-engineering.tumblr.com/post/10853187575/sharding-ids-at-instagram

其中包括了业务系统中全局唯一ID的生成策略和技巧 与下面这篇业务系统需要什么样的ID生成器不谋而合 hacknew上对ID生成策略的讨论here

https://github.com/formspring/flake https://github.com/ericliang/ticktick

wanghaisheng commented 9 years ago

HIPAA https://www.cms.gov/Regulations-and-Guidance/HIPAA-Administrative-Simplification/HIPAAGenInfo/index.html?redirect=/hipaageninfo/ http://en.wikipedia.org/wiki/Health_Insurance_Portability_and_Accountability_Act

wanghaisheng commented 9 years ago

开源库代码分析套路 https://github.com/android-cn/android-open-project-analysis 从简介、总体设计、流程图、详细设计全方面分析开源库源码。

wanghaisheng commented 9 years ago

图数据库的应用

InfiniteGraph https://github.com/infinitegraph/NDCSample药品不良反应的例子

wanghaisheng commented 9 years ago

优酷去广告 https://github.com/rasso1/youkuantiads

wanghaisheng commented 9 years ago

面试相关 http://www.quora.com/What-should-one-say-when-the-interviewer-asks-Do-you-have-any-questions-for-me/answer/Edmond-Lau?srid=5X05&share=1 http://wanqu.co/2014-11-16-how-to-spot-a-bad-boss-during-a-job-interview.html

0 如何在面试中识别一个坏老板 0 如何处理面试官”有什么问题要问我吗“的问题?

wanghaisheng commented 9 years ago

互联网的两种模式:pull & push O网页链接 商业互联网的前10年(1994~2004),是pull的模式,用户主动去线上服务获得信息(google,yelp,craigslist);互联网的第二个10年(2004~2014),是push的模式,用户被动地接收推送来的信息(facebook, twitter, wechat)

The evolution of the internet is an extremely complex topic. Sometimes it is helpful to find broad patterns that make it easier to understand. One simplifying pattern comes from the two types of actions internet users take: pull and push. Pull Push dominant platform Search Social dominant platform company Google Facebook growth era 2000s 2010s successful content type Utilities Media content durability Stock Flow successful publishers TripAdvisor, Wikipedia, Yelp, & many more tbd marketing activity links and algorithms shares and people

Pull is when you are seeking information, usually an answer to a question. You want to know the closing time of a restaurant, the description of a hotel where you are thinking about staying, the details of an historical event you heard about, etc. You go to your computer and pull the information. The killer app for pulling information was Google.

Search grew exponentially in its heyday (roughly, the decade of the 2000s) because it benefited from a positive feedback loop between the supply of and the demand for information. As search demand grew, websites developed content to meet that demand, which in turn further stoked demand. The successful websites of this era were mostly information utilities such as Wikipedia, Yelp, and TripAdvisor.

Push is when you are using the internet in a more passive way and content comes to you. The killer app for push is social networks, the most popular being Facebook. Information is pushed from user to user via likes, shares, tweets, etc. People tend to push things they find funny, interesting, moving, outrageous, etc which usually means they push media: articles, videos, lists, gifs, photos, etc.

We are currently experiencing a positive feedback loop between social networks and media publishers, analogous to last decade’s search + information feedback loop. There are a few other key differences today:

1) Desktop vs mobile. The current era has an additional dimension of complexity due to a simultaneous transition from desktop to mobile computing. Consequences include the rapid rise of native apps over websites, and a dramatic increase in the overall scale and reach of the internet.

2) Stock vs flow: Media tends to have a much shorter shelf life than informational content. The main defensible asset for last decade’s publishers was the repository of content they accumulated. The defensible asset for media publishers is the machine – the combination of people, technology, practices, financial and other assets – that produces a constant flow content.

3) Bundled vs unbundled monetization - In the prior era, monetization usually meant placing ads on websites next to content. In the new era, atomized chunks of content are pushed through social networks and consumed on mobile phones. The most successful ads are funny, interesting, engaging, compelling, etc. on their own (so-called native ads) and don’t rely on bundling.

There will probably be a few big, successful companies that emerge from the push era. As in the pull era, the successful companies will reinforce the feedback loop: riding the trends instead of fighting them.

wanghaisheng commented 9 years ago

服务间通讯方式 https://github.com/wanghaisheng/wanghaisheng.github.io/issues/33

wanghaisheng commented 9 years ago

图数据库与用药 http://wiki.infinitegraph.com/3.3/w/index.php?title=InfiniteGraph_Developer_Site http://www.objectivity.com/media/ig-tutorial-prescription-analytics-national-drug-code-ndc/#.VNi4UXYurbR https://github.com/infinitegraph/NDCSample/blob/master/build.xml

wanghaisheng commented 9 years ago

R语言 http://deployr.revolutionanalytics.com/ http://supstat.com.cn/blog/2015/01/27/integrate-r-into-applications-with-deployr-open/#jtss-tsina 首先要向大家介绍的是RRE的一个重要组件——DeployR。

DeployR可以将R的函数的结果:数据、图表或者单纯的一次计算,嵌入到应用程序中,它是一个开源的服务端框架,它能使得你很容易的在服务端实时调用R代码。虽然R是免费开源的,但是RRE是商业软件,需要付费,可Revolution Analytics毕竟还是来自开源社区的公司,他们向学术机构和非盈利机构提供免费或打折的软件,你也可以使用DeployR的开源版——DeployR Open。

它的工作流程很简单:R程序员开发R脚本(他们使用标准的R开发工具),然后把开发完的脚本发布到DeployR服务器上。一旦R脚本发布成功,它们就能够被任何有权限的应用程序通过调用DeployR API(应用程序接口)调用执行。DeployR提供了本地的Java、JavaScript和.NET的客户端代码从而简化了对服务端的调用。被这些调用执行的R返回结果可以按需求嵌入到应用程序中,或者展示出来,或者被进一步处理。

fanyi

这样的构架有一些非常好的特点:

应用程序开发者并不需要任何R语言的知识,他们只需要使用自己的应用程序开发语言对应的API,传入需要的参数,就可以执行任何R代码了。

DeployR服务器会替你的应用程序管理所有的R进程,这使得应用程序开发者可以专注在应用程序的商业逻辑上而把繁琐的R进程的管理交给DeloyR服务器。

只有特殊的R函数会被暴露在服务器的“防火墙”之外。如果你直接与R交互,那你就会把所有的R函数(包括那些可以修改文件系统的函数)暴露给外面。相反的,DeployR Open 只会暴露选定的一些函数,通过API调用R脚本来服务特定的任务。你可以用Repository Manager管理那些被发布的R脚本 以及给予访问者权限。

服务器在运行时强制执行范围部署和用户特定的安全策略(在Administration Console设置)从而确保资源公平合理的分配以及恶意R代码的执行。

DepolyR Open 提供了一系列的客户端应用程序与服务端集成的途径:

最简单的方法是使用RBroker Framework。如果你想快速执行一个独立的R计算或者你在考虑建立一个复杂的基于R的实时评分引擎,那就可以使用这个框架。

如果你的应用程序需要更多的控制整个R进程周期,例如可能会被要求使用R的GUI交互式界面,那就可以考虑使用 Java,JavaScript或者.NET的客户端代码。

如果RBroker Framework 和client libraries都满足不了你的需求,你可以直接集成DeployR API。

Revolution Analytics也提供了使用DeployR将R和Excel、Jaspersoft以及Qlikview集成的例子。

DepolyR Open是一个100%的开源项目,并包含了很多之前只能从作为Revolution R Enterprise 组成部分的DeployR中获得的特点,(尽管它还是一个新的开源项目,但它的版本已经更新到7.3了-它已经被使用超过4年了!)如果你想获得DeployR Open的技术支持,可以与我们SupStat取得联系。

DepolyR Open服务被部署为单个节点,所以主要是为产品原型,或者为那些预期在服务器负载较低或中等的应用程序设计的。如果你需要升级到多服务器资源来处理增加的工作负载和提高的吞吐量,或者想享受与企业安全相关的解决方案无缝集成,例如SSO,LDAP,Active Directory或者PAM,可以考虑升级到Revolution R Enteprise DeployR。

wanghaisheng commented 9 years ago

google发布博客称 已完成健康领域的知识图谱 根据症状可以找到对应的治疗建议http://googleblog.blogspot.fr/2015/02/health-info-knowledge-graph.html

wanghaisheng commented 9 years ago

APP刷榜 首先得一堆用户名把 看这里 虚拟用户名生成器 https://github.com/marak/faker.js 简直逆天

wanghaisheng commented 9 years ago

业务系统中用户的全局唯一ID http://ericliang.info/what-kind-of-id-generator-we-need-in-business-systems/

wanghaisheng commented 9 years ago

当 Meteor 还没有诞生的时候的老日子。比如说我们要建立一个简单的 Rails app。当用户来我们的站点,客户端(举例说浏览器)向我们的服务器端的 app 发送请求。

App 的第一个任务就是搞清楚这个客户请求什么数据。这个可能是搜索结果的第12页、玛丽的用户信息、鲍勃的最新20条微博,等等等等。 你可以想想成为一个书店的伙计在书架之间帮你寻找你要的书。

当正确的数据被找到,这个 App 的下一个任务就是把数据转换成好看的,人类可读的 HTML 格式(对于 API 而言是 JSON 串)。

用书店来举例,那就相当于是把你刚买的书包好,然后装入一个漂亮的袋子。这就是著名的 MVC(模型-视图-控制器)模式中的视图部分。

最终,App 把 HTML 代码送到客户端。这个 App 的任务也就交差了。它可以去买瓶啤酒然后等着下一个请求。

wanghaisheng commented 9 years ago

让我们看看 Meteor 相对之下是多么的特别。正如我们看到的,Meteor 的关键性创新在于 Rails 程序只跑在服务器上,而一个 Meteor App 还包括在客户端(浏览器)上运行的客户端组件。这就相当于书店的伙计不仅仅在书店里帮你找书,还跟你回家,每天晚上读给你听(这听起来怪怪的)。

这种架构可以让 Meteor 做更多很酷的事情,其中一件主要的就是 Metoer 变得数据库无处不在。简单说,Meteor 把你的数据拿出一部分子集复制到客户端。

这样后两个主要结果:第一,服务器不再发送 HTML 代码到客户端,而是发送真实的原始数据,让客户端决定如何处理线传数据。第二,你可以不必等待服务器传回数据,而是立即访问甚至修改数据(延迟补偿 latency compensation)。

wanghaisheng commented 9 years ago

https://github.com/awatson1978?tab=repositories 这货用Meteor做了一些医疗相关的应用 诸如http://www.pentasyllabic.com/

https://github.com/ericdouglas/Meteor-Learning

https://github.com/awatson1978/meteor-cookbook

wanghaisheng commented 9 years ago

书籍推荐 美国人看不起病 美国医疗的光明与黑暗

wanghaisheng commented 9 years ago

的在线分布式数据库原理与实践 沈洵 http://www.imooc.com/learn/272

wanghaisheng commented 9 years ago

API接口文档范例 http://node-webot.github.io/wechat/api.html

wanghaisheng commented 9 years ago

BUILDING A DATA PIPELINE From Scratch Joe Crobak PPT学习笔记 1、https://wiki.postgresql.org/wiki/PGQ_Tutorial 2、http://ingest.tips/2014/12/22/getting-started-with-apache-nifi/

wanghaisheng commented 9 years ago

http://www.ccf.org.cn/sites/ccf/jsjtbbd.jsp?contentId=2851766225495 计算机学会通讯2015年第3期专题是周明老师和赵东岩老师主持的《多智能自然语言处理》,很多有意思的文章,例如 深度学习在自然语言处理中的应用,基于社会媒体的预测技术,从问答系统看知识智能,拥抱社会智能,等等。

wanghaisheng commented 9 years ago

CS 194-16 Introduction to Data Science - UC Berkeley, Spring 2014 http://amplab.github.io/datascience-sp14/

wanghaisheng commented 9 years ago

二维码

The QR code format was created in 1994 by Japanese company Denso-Wave, which is a subsidiary of Toyota that manufactures auto components. The standard is defined in ISO/IEC 18004:2006. The use of QR codes is license-free.

The smallest QR codes are 21x21 pixels, and the largest are 177x177. The sizes are called versions. The 21x21 pixel size is version 1, 25x25 is version 2, and so on. The 177x177 size is version 40.

In addition, QR codes include error correction: when you encode the QR code, you also create some redundant data that will help a QR reader accurately read the code even if part of it is unreadable. There are four levels of error correction that you can choose from. The lowest is L, which allows the code to be read even if 7% of it is unreadable. After that is M, which provides 15% error correction, then Q, which provides 25%, and finally H, which provides 30%.

The capacity of a given QR code depends on the version and error correction level, as well as on the type of data that you are encoding. There are four data modes that a QR code can encode: numeric, alphanumeric, binary, or Kanji. The Denso-Wave web site's list of QR versions includes information about how many data bits you can encode in each version.

wanghaisheng commented 9 years ago

金融圈还是有明白人的,刚刚掌舵浙商基金的肖风说的太好了:“你必须基于移动互联网来重新构建技术架构,你不做这个事情,以后做的任何事情都没有用,因为只有基于移动互联网重新架构技术,才有可能重组组织结构,重组业务流程,重组市场体系,甚至重组投资管理,否则后面都达不到。”

wanghaisheng commented 9 years ago

http://www.cnki.com.cn/Article/CJFDTotal-ZZXZ201305024.htm

四种循证医学数据库比较分析 目的比较分析4种知名循证医学数据库的优缺点,为我国循证医学数据库的建设提供参考。方法运用文献分析法及网页搜索综合分析UpToDate、MD Consult、Clinical Evidence和DynaMed数据库的经营理念、编辑流程、个性化服务等特点。结果①从建立时间来看,UpToDate建立于1992年,是最早建立的循证医学数据库;②从经营理念来看,4个数据库都以整合当前针对某一临床主题的所有高质量证据、帮助临床医生形成当前最合理的决策建议为宗旨;③从编辑流程来看,Clinical Evidence的证据纳入经过18个步骤,相比其他3个数据库更加严谨;④在更新速度方面,DynaMed每天更新,在4个数据库中更新最快。结论建设一个成熟的循证医学数据库需要强大的方法学团队和雄厚的资金支持,以及大量的全文服务。国内循证医学数据库的建设应该积极吸取国外经验,建设自己的方法学团队,更重要的是融入国内的特色。

wanghaisheng commented 9 years ago

http://wanqu.co/2015-03-24-marketing.html Startup营销是一门错中复杂深奥难懂的科学。前几天推荐了滥用媒体的弊端。今天这篇文章则从成立之初的定位、媒体的选择、PR的确立、内容的创建、到反复试验最终确定一个best practice,手把手教你怎么做好你的startup marketing。有一个很有意思的投机取巧,就是选择产品的keywords:可以运用一些免费的工具找到traffic主要是哪些关键词带来的,然后再用Google’s Keyword Tool和Uber Suggest来确定你的core keywords,这样确定的keywords就是一些搜索的人多但是搜索结果少的好keywords,会给你的traffic带来创收。

wanghaisheng commented 9 years ago

先成为工具,再成为网络 O网页链接 这篇文章提的观点挺好:先成为有用的单人工具,在发展成网络效应 http://wanqu.co/2015-02-02-tool-network.html

wanghaisheng commented 9 years ago

糖翁说起了 传销的方式在产品推广 作用 和生态圈的构建 说起了中联的组件化软件 在某医院应用时被信息科二次开发成某易用性极强的产品 结果又不能卖给其他医院 进行推广 就说起来中联应该把这个软件收购了 然后和信息科分成 既是生态圈建设 又有口碑效应