一键发布展会信息
首页 会展 研讨会 数据技术-2020中国开源年会暨阿帕奇中国路演

数据技术-2020中国开源年会暨阿帕奇中国路演

汉语

2020-10-24 至 2020-10-25

北京

17007193874

567256252379@qq.com

已过期
引言
移动互联网、物联网时代的到来,使得数据量级呈几何级爆炸性增长,百亿级数据处理已经不新鲜,数据量猛增也对大数据技术处理链条的各个环节提出了新的要求和挑战,这态势也使得国内的大数据技术得以展露头角,出现了不少由国人主导的国际性项目。大数据前沿到底发生了哪些变化,数据技术专场特别邀请了12位一线大咖来分享国内外最前沿的先进技术和全球的开源现状及趋势。由于疫情原因,非常欢迎大家直播时多多交流,也欢迎为开源献上一份自己的力量。

议程安排如下:


10月24日13:30开


数据库化的分布式数据库中间件生态圈极简使用策略潘娟京东数科-高级DBA&ApacheShardingSpherePMC
讲师介绍:潘娟,京东数科高级DBA&ApacheShardingSpherePMC,主要负责京东数科分布式数据库开发、数据库运维自动化平台开发等工作。曾负责京东数科数据库自动化平台设计与开发,现专注于ApacheShardingSphere分布式数据库中间件平台的开发。主要在分布式数据库、开源、分布式架构等相关领域进行探索。
分享摘要:作为Apache顶级项目的ShardingSphere,将会在最新发布版本中迈向从分布式数据库中间件生态圈到分布式数据库的转型。已在GitHub上收获12k+Star的开源人气项目将进一步根据用户需求和应用场景,在这个数据库化的过程中全力打造更为简单、丰富、一体化、可插拔的分布式数据库产品体系,从而为用户提供最简单易用、功能强大、性能稳定的分布式数据库化产品。本次分享将为详细阐述数据库化的产品特性、架构体系、极简落地方案实践等核心内容。

通过DataQL在数据展现类项目中提升3倍人效赵永春Hasor-项目发起人
讲师介绍:赵永春,10多年软件开发经验,多年架构设计经验。曾经就职于阿里巴巴、淘宝技术部、阿里云数据库团队。是开源项目Hasor的发起者。
分享摘要:基于DataQL的数据聚合能力,为应用提供一个接口配置“界面”。使得使用者无需开发任何代码就能配置一个满足需求的接口。整个接口配置、测试、冒烟、发布。一站式都通过配套图形化UI界面完成。#这种研发模式的变革使得,研发流程中对后端依赖大大降低从而提升近3倍人效。

开源、高效的物联网大数据平台桑树多涛思数据-应用架构师讲师介绍:哈工大毕业,曾经效力于英特尔、摩托罗拉、Ubuntu等公司,在智能手机、无人驾驶、物联网等方向的开源软件研发和推广应用有20年以上的经验。对Linux内核、MeeGoOS、Ubuntu等开源软件产品有代码贡献。对TDengine贡献了上万行代码和400个以上测试用例。
分享摘要:充分利用物联网数据的特点,针对通用大数据处理平台的挑战,涛思数据推出了一高性能、高可靠、可伸缩、零管理的物联网大数据平台TDengine,而且将核心代码,包括集群功能全部开源,获得全球开发者的高度关注,在GitHub上的star已经超过14K。本演讲将介绍TDengine的技术创新之处,包括存储引擎、计算引擎、流式计算、多维分析等等。



ApacheDoris:一款支持对海量数据进行快速分析的MPP数据库陈明雨
百度-资深研发工程师&DorisPPMC讲师介绍:陈明雨,百度资深研发工程师&ApacheDorisPPMC,负责ApacheDoris(Incubating)设计研发工作。同时维护Doris在百度内部超过千台的部署规模,为超过200个业务线提供稳定可靠的数据分析服务。6年分布式系统研发经验,一直专注于分布式可扩展分析型数据库领域,主导参与了ApacheDoris从百度开源到进入Apache孵化器的全过程。
分享摘要:ApacheDoris(Incubating)是一款支持对海量数据进行快速分析的MPP数据库。Doris自设计之初,就秉承着极简运维、高效可靠、易学易用的原则,为用户提供全面而高效的海量数据分析能力。自2018年底进入Apache孵化器后,Doris已经发布了5个大版本,接收了来自社区100多位开发者的贡献,并在多家互联网头部企业和垂直领域企业落地和应用。本次演讲主要包含Doris的发展历程、系统架构、主要特性和应用案例四个部分,帮助听众对Doris有一个全面而具象的认识。最后,陈明雨会介绍Doris社区目前的发展情况,希望能够帮助开发者更方便快捷的加入开源社区。

Github2020全域分析报告王皓月华东师范大学-硕士研究生
讲师介绍:华东师范大学数据科学与工程学院硕士二年级,X-lab实验室一员,开源社媒体组小编,负责Wuhan2020公众号的运营,之前参与了实验室GitHub2019年报的撰写,目前是实验室发起的2020开源年报项目的committer。
分享摘要:在开源日益重要的今天,需要一份建立在全域大数据基础上的相对完整、可以反复进行推演的数据报告(报告、数据、算法均需开源)。GitHub分析报告是X-lab发起的GitHub开源分析报告项目,旨在通过分析Github全网的开发者行为日志,通过数据的视角,来观察全球范围内的开源现状、进展趋势、演化特征、以及未来挑战等问题,以帮助所有人更好地理解和参与开源。

隐私计算开源框架Rosetta:数据安全融合新方向谢翔博士
矩阵元技术(深圳)优先公司-算法科学家
讲师介绍:曾任职于华为上海研究所无线安全解决方案设计部#中国科学院软件研究所可信计算与保障实验室博士#中国科学院软件研究所信息安全国家重点实验室硕士#格理论、同态加密、零知识证明、安全多方计算等密码学算法和协议设计的专家#发表论文10余篇,曾在密码学的顶尖学术会议Eurocrypt上发表论文。

分享摘要:数据隐私问题已经成为大数据和AI行业最为核心的痛点,如何保证分布在机构间的数据在保护各自隐私的前提下进行融合计算已经成为迫切需求。隐私计算为机构间数据的安全融合提供了新的技术方向,而密码学则是隐私计算中最为核心的技术之一。本次报告中,谢翔将系统的讲述隐私计算整个行业的最新进展,密码学技术的基本原理以及密码学与大数据领域、AI领域的结合。最后,将介绍基于TensorFlow的隐私计算开源框架Rosetta,让不熟悉密码学的大数据、AI研究人员/开发者也可以无门槛的使用隐私计算技术。


10月25日13:30开始


ApacheDolphinScheduler是如何支撑每日十万级大数据任务调度的代立冬易观数科-大数据平台总监
讲师介绍:易观大数据平台总监&ApacheDolphinSchedulerPPMC,负责每日数百亿条数据处理链条的流程规划,技术选型,技术攻关及人才梯队建设等工作。#专注于数据领域研发数据平台架构10年,擅长于数据平台建设、集群性能调优、数据仓库建设,曾任多家大数据公司数据架构师。
分享摘要:本次分享首先会介绍DolphinScheduler社区的发展情况,然后会介绍我们当时为何要重复造轮子再造大数据任务调度,DolphinScheduler整体的设计思想、考量以及DolphinScheduler的特性和能力,接下来会介绍DolphinScheduler架构的变迁过程。#在此次分享中我也会讲述我们在做大数据任务调度时遇到的挑战和积累下来的经验,也会介绍一些用户案例和使用场景及开源的历程。



从ClickHouse的名字来历说起朱凯远光软件-大数据/平台开发部总经理
讲师介绍:开源爱好者,ApacheDolphinSchedulerCommitter、ClickHouseContributor,《企业级大数据平台构建:架构与实现》、《ClickHouse原理解析与应用实践》作者,公众号《ClickHouse的秘密基地》运营者,ClickHouse布道者。

分享摘要:ClickHouse是一款开源的OLAP数据库,自2016年开源以来它一直保持着飞速的发展速度。其闪电般的查询性能和活跃的社区,让它成为目前业界公认的OLAP数据库黑马。这次分享将带大家快速领略ClickHouse的全貌特征,ClickHouse它是什么、它的核心功能有哪些以及它可以用在哪些场景。与此同时,朱凯也将和你一同分享2020年ClickHouse最令人期待的top5新功能。


ApacheIoTDB:工业物联网数据库管理系统黄向东清华大学-助理研究员
讲师介绍:黄向东博士,清华大学软件学院助理研究员。研究方向为大数据系统架构与时间序列数据管理技术。他是ApacheIoTDB项目的初始源码提交者之一,同时也是ApacheIoTDB项目VP。
分享摘要:工业物联网数据的主体是机器产生的时序数据,是工业互联网的原矿。与其他大数据不同,其具有高通量、低质量、弱模式、查询分析复杂等特点。ApacheIoTDB是从中国高校发起的,经过多年迭代,在多个工业生产系统中经过验证的新一代工业物联网数据库管理系统,目前已成为Apache顶级项目。本报告将详细介绍工业物联网中的挑战,ApacheIoTDB的基本概念和特性,并简单介绍基于ApacheIoTDB的相关实际案例,帮助听众了解如何基于ApacheIoT生态,解决工业物联网数据应用需求。
ApacheKylin4:凤凰涅槃,浴火重生张智超上海跬智信息-大数据架构师
讲师介绍:张智超目前就职于上海跬智信息技术有限公司(Kyligence)开源组,参与了ApacheKylin和ApacheCarbonData等开源项目。分享摘要:ApacheKylin4.0Alpha版本日前已经发布,它是ApacheKylin4的第一个早期预览版本,是继Kylin3之后的一个重大架构升级版本,采用Parquet这种真正的列式存储来代替HBase存储,提升文件扫描性能;同时重新实现了基于Spark的构建引擎和查询引擎,使得计算和存储分离变为可能,更加适应云原生的技术趋势。本次演讲嘉宾张智超将从架构升级,原理讲解,重大特性等几个方面来介绍ApacheKylin4.0。

T3出行构建数据湖上低延迟数据管道的实践杨华/赵玉威T3出行-大数据平台负责人



讲师介绍:T3出行大数据平台负责人。ApacheHudicommitter&PMCmember。ApacheKylincommitter及FlinkCube引擎作者。ApacheFlink国内早期布道者及活跃贡献者。前腾讯高级工程师,曾主导Flink框架在腾讯从落地到支撑日均近20万亿消息的处理规模。分享摘要:T3出行是一家基于车联网驱动的网约车平台,拥有海量且丰富的数据源。为此在很早就基于ApacheHudi构建了企业级的数据湖。但数据湖从外界摄取的数据源绝大部分都是原始数据,而为了使原始数据变得更有业务价值和分析价值,T3出行需要对数据进行ETL等进行脱敏。这时为了解决低延迟、高效的数据加工,最初引入了EasyScheduler(DolphinScheduler前身),在使用过程中发现了不少问题。随着DolphinScheduler加入Apache孵化器进行孵化并快速迭代,T3出行也随之升级到了DolphinScheduler并围绕它打造了一个企业级的大数据调度管理平台。这次分享T3出行将会对基于ApacheDolphinScheduler支撑数据湖上低延迟数据加工的实践进行介绍。


PowerJob:新一代分布式任务调度与计算框架滕佶祺阿里巴巴-开发工程师
讲师介绍:毕业于浙江大学,目前是阿里巴巴集团的一名开发工程师,开源项目任务调度中间件PowerJob作者,在公司内部做过一些技术分享,这次尝试下更大的舞台。分享摘要:PowerJob是新一代的任务调度中间件,旨在解决大型离线任务的调度与计算问题。PowerJob立足于当前繁杂的业务特性,在任务调度的基础上,创新性地提供工作流workflow和分布式任务计算MapReduce两大核心功能。本次演讲将会为大家揭秘PowerJob项目的起源、旨在解决的问题和背后的技术剖析。
会场还设有QA抽奖环节,奖品如抱枕、热火大数据书籍等赠送。数据技术专场24日特别邀请京东数科高级DBA&ApacheShardingSpherePMC潘娟~娟神主持(传说中一个明明可以靠颜值却偏偏拼才华的奇女子)!!!




分享到微信收藏0举报活动