搜搜吧

查看: 20|回复: 0

[科技] 从诞生到成长!数家名企大数据平台应用演进之路解析![含5P]

[复制链接]
  • TA的每日心情
    开心
    前天 11:17
  • 签到天数: 344 天

    [LV.8]以坛为家I

    中学生

    3619

    主题

    4307

    帖子

    1万

    积分

    Rank: 4

    UID
    237
    威望
    -130
    贡献
    2378
    在线时间
    126 小时
    注册时间
    2014-11-5
    发表于 2018-10-22 17:11:11 | 显示全部楼层 |阅读模式
    推广者专属福利,新客户无门槛领取总价值高达2775元代金券,每种代金券限量500张,先到先得。
    【IT168 评论】十余年来,企业架构经过了数次迭代和变迁,ITPUB是这一切的重要见证者,同样陪伴了无数架构师的成长。10月17日,第十届中国系统架构师大会以“十年架构,成长之路”为主题,云集了国内CTO、研发总监、高级系统架构师、开发工程师和IT经理等技术人群,与会规模超千人。本届大会特设四大主线,其中,主线二为基于大数据平台的应用实践,数位技术专家倾囊相授,SACC十年磨砺,涅槃起航!
    美团点评高级技术专家曾林西:美团点评Spark的演进与实践
    Spark作为美团点评主流的离线大数据计算引擎,在数仓生产、查询分析、机器学习等领域都有重度使用。曾林西介绍了Spark在美团点评的演进过程以及主要应用场景和现状;对于Spark任务管理、交互式开发、问题诊断等需求的平台化架构选型和建设思路;基于Spark做数仓生产计算引擎以及Spark on GPU集群实现批量深度学习预测等实践过程遇到的功能性、稳定性、性能问题对引擎内核进行改造的经验等内容。
    ae57b163e31a4791b9a624abdde73360.jpg
    从正常运行到成熟应用场景的落地,美团点评的Spark演进之路可以概括为能用、好用、用好三个阶段。整个演进过程围绕解决平台和接口定义,定位分布式执行计算失败原因,落地数据仓库生产Spark等问题逐一展开,最终提升了整个Spark引擎的鲁棒性。
    小米数据流平台负责人夏军:小米数据流服务:大数据集成架构演化之路
    对大多数企业而言,让数据去到该去的地方并发挥最大的价值一直是技术人员穷尽探索的难题。小米有众多智能终端和设备,数据规模非常大,对于数据采集和大数据集成提出了非常高的要求。其内部大数据系统众多,如何高效集成Kafka、OLAP等多个系统?如何保证数据低延迟传输?如何实时发现并警报数据流异常?如何量化数据流整体链路情况等问题同样是小米技术团队亟待解决的难题。
    22e772e77fba4570a73e0308c9fc1ad0.jpg
    基于上述问题,小米的数据流平台共分为三部分:Talos为中间层,小米自研的消息队列,主要扮演数据中转站的角色,类似于开源组件Kafka;下层为Source或Sink的扩展,目标是连接大数据应用场景下的不同平台;上层依赖底层的数据收集进行监控、分析等工作。整套系统主要应用于小米的埋点数据收集、实时日志分析、泛OLAP场景以及流式计算等场景。
    eBay资深主任工程师郭跃鹏:Apache Griffin - 分布式系统的数据质量方案
    在大数据、云计算、流式计算为基础的分布式环境下,数据本身的质量问题越发重要。Apache Griffin项目是eBay发起并贡献给Apache社区的数据质量方案。它试图提供一套可扩展,可伸缩的框架来解决数据质量的几个典型问题:如数据的精确性问题、一致性问题、合法性问题、时效性问题、唯一性问题以及完整性问题。面临streaming和batch的企业数据环境,Apache Griffin如何通过提供一整套的流程来定义,测量并汇报数据质量,以试图解决数据质量问题?
    a08ad5734f374620bdb685870d287df1.jpg
    在数据服务领域从业多年,郭跃鹏发现不少企业内部跨多个系统和团队没有统一的数据质量视图,没有共享平台来管理数据质量,也没有近乎实时的系统健康状况报告,Apache Griffin的初级需求便诞生了。除了解决上述问题,Apache Griffin也支持Streaming,基于Spark2.2.0版本并有新的DSL。之后,该团队将继续优化该项目,新增更多连接器并实现基于拓扑的数据质量监控(项目开源地址:https://github.com/apache/incubator-griffin)。
    百度技术经理张建伟:百度云Spark优化及大规模应用
    从2003年至今,百度云经历了从分布式搜索系统到如今的可视化分析挖掘、可视化报表大屏和安全计算。在这个过程中,Spark证明了其大数据计算核心引擎的地位,百度云内部也在进行全面的Spark化,并本着“开源开放”的原则将研究改进成果积极与社区分享。
    859b7d741954478c8505085aaf4eb3d1.jpg
    目前,百度云内部Spark集群规模在15000台左右,团队进行了运行时优化、独立Shuffle以及纯流式等改进。在性能优化方面,百度云与Intel联合开源了OAP项目,其性能提升了大概5倍;插件式易部署;类似传统数据库的索引和cache,易于使用。AE(Adaptive Execution)方案主要针对运行时优化,解决Reduce数量设置等问题。流式shuffle的加入减少了旧 shuffle map merge、reduce pull 时间消耗等问题。如果感兴趣,大部分技术成果都可以通过开源社区查询实践。
    d876b3bbb833406abc08b7ce8afe3169.jpg
    在本届SACC大会的主线二《大数据平台架构实践》上半场,我们了解了不同企业在数据分析、资源调度和集群配置等方面的实践优化。“十年磨一剑,砺得梅花香”,第十届中国系统架构师大会准备了三天传统技术大会演讲,两天深度主题培训,更多精彩议题欢迎访问大会专题页面(http://zt.it168.com/topic/sacc2018/)

    [发帖际遇]: 俄罗斯方块 发帖时在路边捡到 4 金钱,偷偷放进了口袋. 幸运榜 / 衰神榜
    楼主热帖排行榜
    搜搜吧社区温馨提示:
    搜搜吧(www.sosoba.org)十分重视网络版权及其他知识产权的保护,针对网络侵权采取如下版权政策:
    1、本站有理由相信网友侵犯任何人的版权或作品,(图文,文字,下载,视频,非法传播),本站有权不事先通知即删除涉嫌侵权的作品和内容!
    2、本站将采取必要的网络技术手段,确认为侵权作品或内容的用户有权进行警告、屏蔽、删除的行为,尽可能的防止侵权行为的发生!
    3、如若您的作品或内容在搜搜吧被侵权,请及时联系我们并提供能证明版权所有的物品,我们将及时进行处理,给您造成不便,敬请谅解!
    4、搜搜吧删帖,投诉,举报,侵权,账号解封唯一指定快速受理频道,请直接发送邮件到 kefu-sosoba@qq.com 一个工作日内核实并邮件通知立即删除
    soso搜搜吧社区是聚合百度搜索,搜狗搜索,360搜索,新闻,教育,站长,广告,娱乐,影视,微信,网盘,营销,手机,汽车,游戏,论坛综合为一体的大型门户社区www.sosoba.org
    Powered by www.sosoba.org X3.4© 2013-2019 搜搜吧社区 小黑屋|手机版|地图|关于我们|新闻资讯|soso搜搜吧社区官网
    搜搜吧社区官网创建于2013年07月23日,本站内容均为会员发表,并不代搜搜吧社区立场,请遵守当地相关法律,客服邮箱: kefu-sosoba@qq.com
    本站所有的内容均来自互联网以及第三方作者自由发布、本站soso搜搜吧不承担任何的法律责任、若有侵权请来信告知,我们在收到举报后的一个工作日内立即删除
    推荐使用:chrmoe谷歌浏览器,搜狗浏览器,QQ浏览器,360极速浏览器,360安全浏览器,猎豹浏览器,火狐浏览器,世界之窗,百度浏览器,Safari浏览器,ios,Android

    GMT+8, 2018-11-17 17:08 , Processed in 1.125000 second(s), 31 queries , Gzip On.

    快速回复 返回顶部 返回列表