提升数据交付

数据交付

无缝地将处理后的数据交付给BI、分析、机器学习和AI工具.​

利用提升数据自动化云,在需要的时候,在需要的地方获取数据

本地笔记本连接器

  • 连接Jupyter, 飞艇, 更直接地,当它在你的数据工作负载中移动时,可以快速有效地访问数据

本机BI & 数据可视化访问

  • 通过提升的高性能记录API将数据直接从提升发送到您的BI和数据可视化工具

多点数据交付

  • 只需点击几下鼠标, 将数据复制到多个端点—数据库, 数据仓库, 数据湖或更多

  • 无论有多少交付点,使用提升的DataAware智能,都能确保数据完整性

  • 优化跨云数据传输,节省时间和资源

端到端的模式管理

  • 在管道运行之前验证模式,节省时间、成本和麻烦

  • 使用提升的DataAware智能,再也不用担心交付点的模式不匹配

				
					进口pyspark
从pyspark.sql进口SparkSession

火花= SparkSession.构建器\
    .主\(“地方[*]”)
    .浏览器名称(“test_sdl”)\
    .配置(“火花.罐子.包”、“org.apache.hadoop: hadoop-aws: 3.2.0, com.amazonaws: aws-java-sdk-bundle: 1.11.375") \
    .getOrCreate ()

sc =火花.sparkContext

sc._jsc.hadoopConfiguration ().设置(“fs.s3a.impl”、“org.apache.hadoop.fs.s3a.S3AFileSystem”)
sc._jsc.hadoopConfiguration ().设置(“fs.s3a.端点”、“http://s3.提升.io")
sc._jsc.hadoopConfiguration ().设置(“fs.s3a.访问.键”,访问_id)
sc._jsc.hadoopConfiguration ().设置(“fs.s3a.秘密.键”,秘密_key)

df =火花.读.拼花(“s3a: / /试验/ Getting_Started_with_提升 / _DF__Clusters_w__Solar”)
				
			

基于文件的访问

  • 直接访问提升的内部存储(.时髦的.Parquet)文件,以便其他大数据系统高效处理

  • 基于文件的访问提供跨多个文件的完全事务读取, 并保证可用的数据总是直接链接到活动的数据管道

记录api和sdk

  • 通过提升的高吞吐量记录API从任何数据管道的任何阶段读取记录.

  • 使用一个简单的API将提升直接连接到您的应用程序、BI和可视化工具.

从w88平台的客户

资源

新的数据规模挑战
从与数据量和基础设施的斗争到扩展数据团队的能力,增加带宽的答案是什么?
白皮书
DataAware播客
与来自数据工程各个方面和相关团队的各种来宾, 本集深入探讨了数据工程和数据团队的角色, 趋势, 最佳(和最差)实践, 现实世界的用例, 和更多的.
播客
哈利的的数据编排深度探究
了解哈里的数据科学团队是如何加速消化的, 转换, 将零售数据传输到一个新的, 健壮的共享数据模型.
Video