解读:零点有数带你一文读懂算法的成长历程 | BPAA峰会播报

01/18 15:01:02 来源网站:辅助卡盟网

算法的定义是什么呢?是一个由若干指令构成的指令集,通过很多清晰的指令把问题加以解决,其中最大的特点是输入数据产生结果。简单来说,算法就是一个解决问题的指令集。如果算法已经挺成熟了,我们把干净的数据输进去,就会产生一些我们期待的或者超出我们意料的结果,无论是判断、分类、匹配、推荐还是干预的结果可能就出来了。大家知道诊断患者有没有得病,过去需要大夫,医生说你得了这个病,却不知道他是怎么算出来的,现在用算法便能够诊断。比如今天有关于冠心病辅助诊断的算法项目登台,也有辅助诊断其他疾病的项目。

算法是怎么产生的?我画了一张图。这张图分出了算法产生的步骤和它的成长史,让我们理解算法大概是什么样的。我再解剖一下,最初的时候,算法是从什么地方出来的?正常情况下,不是大家想象的大数据放进去就有算法了,其实很多算法产生的时候不是通过大数据——算法的产生的确基于特定的信息和数据,但是不一定是大数据。比方说,如果有三名老民警是专门抓小偷的能手,他们能辨别小偷的行为姿态,把它梳理出规则,那么这个规则一旦转化成为算法,就可以通过探头中的行为姿态辨别谁是小偷。没有大数据,就是民警的经验。任何岗位上都有很多的革命经验,到退休的时候革命经验不见了,上面的人就不够革命了。这说明算法具备很强的特性,它一定是从信息里面筛选出来的,有一些是从大量数据里面筛选出来的。

是不是所有数据都可以筛选,都可以输进算法指令?不见得。大量的数据是不可访问的,或者访问的时候难以贯通使用,对我们来说,第一步需要进行数据清洗。中国是文本政府,文山会海都以文本为基础,传递的东西要申请,这就是文本的;打12345热线办事有工单,它就是一个文本,所以文本是政府数据的核心。但是文本和文本的差别很大数据挖掘 相似度,相异度有什么用,比如全国12345热线的文本不能统一,我们分析了很多城市的热线工单,工单里会损失原来意思的40~47%,没有问清楚老百姓的诉求是什么,写下工单的时候不明白说的是什么事。说明我们在数据清洗的时候,需要把优化文本、规范工单等等作为第一步的工作。

第一步工作做完以后开始构建算法。比如在消费领域我们做的算法,已知女性一组30%的数据,可以推算出70%的需要,如果已知70%的数据,就可以推算出另外30%的需要,理论上来说知道的数据越多,推算出来的需要越准确。我过去做市场研究出身,调研的时候问受访者希望房屋精装修成什么样子,他只能回答出来一部分,就像问一位没有对象的男人喜欢什么样的姑娘,他会告诉你好看一点,但是什么叫好看呢?过去我们做的调查看起来是直接的方法,但实际上不一定有效。如果知道一个人70~90%的数据,就能够推算出他喜欢什么样的姑娘,喜欢什么样的精装修,这就要构建出一套算法。

附图:BPAA算法项目路演现场

算法是怎么构建的?算法构建需要三类人,一类人就是专业业务人员——本来干活的。比如说破案的老民警,老民警破案是能手,但是让他提炼规则却不是强项,小偷是什么样的特性,平时带徒弟的时候讲讲,但是不能写成一本书,没有办法做成一个指引。口述的特点是经验逻辑通常会消失,很少被提炼出来。具备提炼能力的人,比如说教授具备提炼能力,但是他不懂生活,懂生活的人有生活,但是不懂提炼。为什么袁隆平很伟大?因为他能种稻,同时能够总结出来稻怎么种可以种得很好。农民会种稻,但是不知道总结,会总结的人没有种过稻,袁隆平的特点是会种还会提炼,提炼之后还会优化,形成一个循环。

另一类人是专业技术人员——做算法开发的。但是他不知道开发什么,因为他不懂破案,不懂怎么做生意,不懂怎么装修。因此这里面缺第三类人,懂业务也懂技术的,既能够提炼出规则,也能够开发出算法逻辑,从程序语言的角度实现它,从技术的角度把它转变成为一个微软件或者算法,我称之为架构人才。这三种能力的人才都具备的时候,才能做出算法原型,这是我们说的第二个层面。

    暂无相关资讯
解读:零点有数带你一文读懂算法的成长历程 | BPAA峰会播报