勤学教育网合作机构> > 广州叩丁狼教育欢迎您!

大数据处理学习

广州叩丁狼教育logo
来源:广州叩丁狼教育

2021-09-24|已帮助:1294

进入 >

数据是大数据风控的核心,大数据要求的不但是数据多,更要求维度丰富;而风控则是对市场、信用以及操作层面的风险控制。以下是小编为你整理的大数据处理学习

在大数据风控这个行业里混,需要了解用户,了解场景,而这些往往都可以通过数据间接反映出来。

比如,用户在某一时期内在多家机构申请过贷款,那说明该用户目前借钱意愿强烈,即使历史征信良好,也要用策略拦住他的申请,因为他很可能出现拆东墙补西墙的可能。


大数据处理学习

因此,用数据说话是一种方法论。不同数据对于风险的作用不同,获取难度也不同,这就决定了并非对每个用户都能获取到其各个维度的信息。

同时,有很多特征只有很少的用户才会有,也因此造就了数据的稀疏性。

如何将稀疏数据用在各种机器学习模型中,则正是要考察模型人员对于风险及产品理解的时候了。

要做好大数据风控,除了数据,模型就是最重要的了。模型有很多,如一般的线性回归,Logistic回归以及深度学习等,在实际的业务场景中,有的可能单一模型就能达到很好的效果,有的则需要几个模型的结合,而具体使用哪个模型用哪些特征,则是要考察模型人员对业务和算法的理解了。

再说一下大数据风控的直观感受。传统风控更像是冷兵器时代的战争,虽有协作但更多的是各作战单位凭借个人能力的大混战;而大数据风控则像是现代战争中的立体作战,各个作战单位(数据)在统一的指挥中枢(算法)里高度协同作战。大数据风控能将相似的人更精准的分群,会让你看到形形色色更加的人,会让你从纷繁的单一的数据中看到其背后的万千世界。

总之,做数据做模型前一定要理解人,做完数据模型后还要能够解释人。

初识数据分析

这个阶段是你学习数据分析的第一个月。核心的三本书就是:统计学、R IN ACTION、深入浅出数据分析。第一星期:好好的阅读一下统计学这本教材。按照每天3个小时的时间,一个星期你至少能看完8章。踏踏实实的看完,课后习题不需要做,重点放在理解公式推导以及专业名字定义的理解上。第二星期:有了统计学基础,R语言学习起来就不会太费劲。《R in action》 是公认的R语言经典教材。

跟着书上的代码仔细的敲一笔遍,你不需要全部看完这本书,只需要学会前8章左右就差不多了。 学完后你会对统计学有一个更深的认识~第三个星期:《深入浅出数据分析》这本书很大头,不是因为它内容多,而是因为它废话和插图多。

很有意思的一本入门级别的教材,花一个星期好好的读一下,能学多少是多少。第四个星期:查漏补缺。经过前三个星期的学习,你一定有不少的疑惑或者遗忘了某些知识。不要着急,这个星期就是用来好好回顾一下你本月所学的东西,不懂的定义再看看,不会的代码再敲敲,不懂的知识再google一下~

大数据的经典案例

梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。

Tipp24 AG针对欧洲博彩业构建的下注和预测平台。该公司用KXEN软件来分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动。这项举措减少了90%的预测模型构建时间。SAP公司正在试图收购KXEN。“SAP想通过这次收购来扭转其长久以来在预测分析方面的劣势。”Laney分析到。


大数据的经典案例

沃尔玛的搜索。这家零售业寡头为其网站Walmart.com自行设计了最新的搜索引擎Polaris,利用语义数据进行文本分析、机器学习和同义词挖掘等。根据沃尔玛的说法,语义搜索技术的运用使得在线购物的完成率提升了10%到15%。“对沃尔玛来说,这就意味着数十亿美元的金额。”Laney说。

快餐业的视频分析(Laney没有说出这家公司的名字)。该公司通过视频分析等候队列的长度,然后自动变化电子菜单显示的内容。如果队列较长,则显示可以快速供给的食物;如果队列较短,则显示那些利润较高但准备时间相对长的食品。

ranger(安全管理工具)

Apache ranger是一个hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的hadoop生态圈的所有数据权限。

knox(hadoop安全网关)

Apache knox是一个访问hadoop集群的restapi网关,它为所有rest访问提供了一个简单的访问接口点,能完成3A认证(Authentication,Authorization,Auditing)和SSO(单点登录)等

falcon(数据生命周期管理工具)

Apache Falcon 是一个面向Hadoop的、新的数据处理和管理平台,设计用于数据移动、数据管道协调、生命周期管理和数据发现。它使终端用户可以快速地将他们的数据及其相关的处理和管理任务“上载(onboard)”到Hadoop集群。

Ambari(安装部署配置管理工具)

Apache Ambari 的作用来说,就是创建、管理、监视 Hadoop 的集群,是为了让 Hadoop 以及相关的大数据软件更容易使用的一个web工具。

以上是广州叩丁狼教育整理的大数据处理学习全部内容。

热门推荐

更多
勤学培训网 电脑学习网 大数据处理学习