数据分析概述

当今世界对信息技术的依赖程度在不断加深,每天都会有大量的数据产生,我们经常会感到数据越来越多,但是要从中发现有价值的信息却越来越难。这里所说的信息,可以理解为对数据集处理之后的结果,是从数据集中提炼出的可用于其他场合的结论性的东西�����而从原始数据中抽取出有价值的信息的这个过程我们就称之为数据分析,它是数据科学工作的一部分。

数据科学图示
数据分析是有针对性的收集、加工、整理数据并采用统计、挖掘等技术对数据进行探索、分析、呈现和解释的科学

数据分析师的职责和技能栈

主要职责

  1. 负责相关报表的输出
  2. 建立和优化指标体系
  3. 监控数据波动和异常,找出问题
  4. 优化和驱动业��,推动数字化运营
  5. 找出潜在的市场和产品的上升空间

核心技能

  • 计算机科学(数据分析工具、编程语言、数据库)
  • 数学和统计学(数据思维、统计思维)
  • 人工智能(机器学习中的数据挖掘算法)
  • 业务理解能力(沟通、表达、经验)
  • 总结和表述能力(商业PPT、文字总结)

数据分析流程

基础数据分析

  1. 确定目标(输入):理解业务,确定指标口径
  2. 获取数据:数据仓库(SQL提数)、电子表格、三方接口、网络爬虫、开放数据集等
  3. 清洗数据:����括对缺失值、重复值、异常值的处理以及相关的预处理
  4. 数据透视:排序、统计、分组聚合、交叉表、透视表等
  5. 数据呈现(输出):数据可视化,发布工作成果
  6. 分析洞察(后续):解释数据的变化,提出对应的方案

深入数据挖掘

  1. 确定目标(输入):理解业务,明确挖掘目标
  2. 数据准备:数据采集、数据描述、数据探索、质量判断等
  3. 数据加工:提取数据、清洗数据、数据变换、特殊编码、降维、特征选择等
  4. 数据建模:模型比较、模型选择、算法应用
  5. 模型评估:交叉检验、参数调优、结果评价
  6. 模型部署(输出):模型落地、业务改进、运营监控、报告撰写

数据分析相关库