完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>
摘要: 昨天,DataWorks推出了PYODPS任务类型,集成了Maxcompute的Python SDK,可在DataWorks的PYODPS节点上直接编辑Python代码操作Maxcompute,也可以设置调度任务来处理数据,提高数据开发效率。 昨天,DataWorks推出了PYODPS任务类型,集成了Maxcompute的Python SDK,可在DataWorks的PYODPS节点上直接编辑Python代码操作Maxcompute,也可以设置调度任务来处理数据,提高数据开发效率。 效果如下图 适用region只有华东2(上海)region 支持了 PYODPS 节点。 新建 PYODPS 节点 新建 PYODPS 节点具体操作如下: 1) 单击数据开发页面工具栏中的 新建 > 新建任务。2) 填写新建任务弹出框中的各配置项。 3) 单击创建 编辑 PYODPS 节点ODPS入口DataWorks 的 PyODPS 节点中,将会包含一个全局的变量 odps 或者 o ,即 ODPS 入口。用户不需要手动定义 ODPS 入口。 print(odps.exist_table('pyodps_iris'))执行SQL PyODPS支持ODPS SQL的查询,并可以读取执行的结果。 execute_sql 或者 run_sql 方法的返回值是 运行实例 。 设置运行参数 有时,我们在运行时,需要设置运行时参数,我们可以通过设置 hints 参数,参数类型是dict。 >>> o.execute_sql('select * from pyodps_iris', hints={'odps.sql.mapper.split.size': 16})我们可以对于全局配置设置sql.settings后,每次运行时则都会添加相关的运行时参数。 >>> from odps import options>>> options.sql.settings = {'odps.sql.mapper.split.size': 16}>>> o.execute_sql('select * from pyodps_iris') # 会根据全局配置添加hints读取SQL执行结果 运行 SQL 的 instance 能够直接执行 open_reader 的操作,一种情况是SQL返回了结构化的数据。 >>> with o.execute_sql('select * from dual').open_reader() as reader:>>> for record in reader:>>> # 处理每一个record另一种情况是 SQL 可能执行的比如 desc,这时通过 reader.raw 属性取到原始的SQL执行结果。 >>> with o.execute_sql('desc dual').open_reader() as reader:>>> print(reader.raw)使用调度参数 PYODPS节点使用调度参数需要注意一下,系统定义的调度参数,可以直接通过此方法获取。 自定义参数的使用,需要使用单独的方法获取。在全局包括一个 args 对象,可以在这个中获取,它是一个dict类型。 测试运行结果如下: 请注意:在数据开发下,使用了自定义调度参数,页面上直接触发运行PYODPS节点时,需要写死时间,PYODPS节点无法像SQL一样直接替换。 调度请参考:https://help.aliyun.com/document_detail/30298.html 原文链接 |
|
相关推荐
|
|
只有小组成员才能发言,加入小组>>
小黑屋| 手机版| Archiver| 电子发烧友 ( 湘ICP备2023018690号 )
GMT+8, 2024-12-24 03:10 , Processed in 0.522742 second(s), Total 71, Slave 52 queries .
Powered by 电子发烧友网
© 2015 bbs.elecfans.com
关注我们的微信
下载发烧友APP
电子发烧友观察
版权所有 © 湖南华秋数字科技有限公司
电子发烧友 (电路图) 湘公网安备 43011202000918 号 电信与信息服务业务经营许可证:合字B2-20210191 工商网监 湘ICP备2023018690号