发 帖  
  • 缺失值处理是一个数据分析工作者永远避不开的话题,如何认识与理解缺失值,运用合适的方式处理缺失值,对模型的结果有很大的影响。 本期Python数据分析实战学习中,我们将详细讨论数据缺失值分析与处理等相关的一系列问题。 作为...
    0
    5410次阅读
    0条评论
  • 在 MapReduce 框架中, Shuffle 阶段是连接 Map 与 Reduce 之间的桥梁, Map 阶段通过 Shuffle 过程将数据输出到 Reduce 阶段中。由于 Shuffle 涉及磁盘的读写和网络 ...
    0
    2430次阅读
    0条评论
  • 前言如果你使用过mysql数据库,对它的存储引擎:innodb,一定不会感到陌生。 众所周知,在mysql5以前,默认的存储引擎是:myslam。但mysql5之后,默认的存储引擎已经变成了:innodb,它是我们建表的...
    0
    1692次阅读
    0条评论
  • 有小伙伴问:能不能系统介绍下数据分析方法。今天它来啦!数据分析常用的方法有九种,今天先介绍第一种,操作上最简单的:周期性分析法。它是新人们避免犯小白错误的最好方法。 做数据的新人最容易犯啥错?当然是一张嘴就被大家笑话:连...
    0
    1934次阅读
    0条评论
  • 微众银行开源项目Linkis正式通过Apache软件基金会(ASF)的投票表决,全票通过进入ASF孵化器! Linkis简介 Linkis 在上层应用程序和底层引擎之间构建了一层计算中间件。通过使用Linkis 提供的R...
    0
    2271次阅读
    0条评论
  • 我们上篇内容,梳理和分享一些数据分析领域的岗位详解,让大家清晰地了解一些“数据分析”岗位中偏业务和偏技术的职责的不同之处以及发展方向。(详情请看:数据分析是行业,还是技能?(上))在5G以及大数据的时代发展下,互联网将作...
    0
    4233次阅读
    0条评论
  • 在 LinkedIn,我们非常依赖离线数据分析来进行数据驱动的决策。多年来,Apache Spark 已经成为 LinkedIn 的主要计算引擎,以满足这些数据需求。凭借其独特的功能,Spark 为 LinkedIn 的...
    0
    1627次阅读
    0条评论
  • 多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。 今天我们不扯大篇理论,直接以例子来实践,排查是否出现了数据倾斜,...
    0
    2131次阅读
    0条评论
  • 前言 在分布式系统中,缓存和数据库同时存在时,如果有写操作,先操作数据库还是先操作缓存呢?本文将分5种方案展开阐述对比,谢谢阅读~github地址,衷心感谢每一颗star ❝https://github.com/whx1...
    0
    1968次阅读
    0条评论
  • 01 电商归因目的 对于电商平台来说,当流量进入时,我们需要引导其完成购买任务,以实现流量价值最大化,在互联网红利消耗殆尽之时,流量会越来越贵,我们需要精细化运营每一份流量。 我们在做各种banner活动、Feed流推荐...
    0
    1930次阅读
    0条评论
  • 本文是通过 SQL 计算同时在线问题,即求最高在线人数以及最高峰时间段。 0 需求分析 数据为主播ID,stt表示开播时间,edt表示下播时间。 idsttedt 10012021-06-14 12122021-06-1...
    0
    2409次阅读
    0条评论
  • LSM tree (log-structured merge-tree) 是一种对频繁写操作非常友好的数据结构,同时兼顾了查询效率。LSM tree 是许多 key-value 型或日志型数据库所依赖的核心数据结构,例如...
    0
    2962次阅读
    0条评论
  •   日常用 Python 做数据分析最常用到的就是查询筛选了,按各种条件、各种维度以及组合挑出我们想要的数据,以方便我们分析挖掘。东哥总结了日常查询和筛选常用的种骚操作,供各位学习参考。本文采用 sklearn 的 bo...
    0
    6092次阅读
    0条评论
  • 对于数据人尤其是数据产品和分析师,最难排查(头疼)的问题就是指标为什么升/降/没数,一旦业务方提出这种问题就意味着有大半天的时间要花在确认指标口径+计算逻辑+埋点采集上,而且要同时跟业务方、分析师、数据产品、数仓甚至是负...
    0
    2328次阅读
    0条评论
  • 伴随着日趋激烈、数字化转型的不断深入,不同企业对自身的敏捷化要求也逐步提高。因为只有提高敏捷性,企业才能迅速适应变化,更好地应对日趋纷杂的业务场景,进而赢取自身的发展主动性。因此,许多企业通过采用现代应用程序开发的模式,...
    0
    2279次阅读
    0条评论
ta 的专栏

成就与认可

  • 获得 3 次赞同

    获得 0 次收藏
关闭

站长推荐 上一条 /9 下一条

返回顶部