Vincent's Blog

报告的类型周会、月会的业绩综述用描述性的统计数据去呈现业务的全貌，以及呈现关键节点发生的相关事件。一两句话总结趋势和问题点复盘和效果评估客观合理地还原事实的依据。不要写成“追责”报告。报告的重点放在经验的总结上。业务现状的分析需要对业务进行全盘的诊断，需要花费大量时间了解产品的细节。评估客户的需求是不是得到了满足。业务目标是不是合理。达成的进度是不是符合预期。组织的形态是否良性发展。这类型的报告如何写好? 写好提纲。使用思维导图的时候，标记好每条分支的优先级，按照优先级来探索细节。牢记报告的核心思想。聚焦业务需要改进和调整的部分。决策支持类的分析通常是关于某个命题的探讨，某件事做与不做的选择、得失。找到一个平衡点。数据分析师不单单是分析数据，更加需要提出自己的建议。视频链接：【干货知识｜如何写好数据分析报告】 https://www.bilibili.com/video/BV1vm4y1m7rg

阅读

咨询行业相关的英文书籍推荐

更新于2024-06-30 咨询 Consulting

以下是一些与咨询行业相关的英文书籍推荐，这些书籍涵盖了从入门到高级的各种主题，适合不同水平的读者： "The McKinsey Way" by Ethan M. Rasiel 这本书介绍了麦肯锡的工作方式和策略，提供了许多实用的咨询技巧和方法。 "The Trusted Advisor" by David H. Maister, Charles H. Green, and Robert M. Galford 这本书强调了咨询顾问如何建立客户信任关系，并提供了实际案例和建议。 "Flawless Consulting: A Guide to Getting Your Expertise Used" by Peter Block 这本书详细讨论了如何作为咨询顾问有效地提供建议和服务，帮助读者提高咨询能力。 "The Pyramid Principle: Logic in Writing and Thinking" by Barbara Minto 这本书介绍了金字塔原理，帮助咨询顾问提高逻辑思维和写作能力。 "The Management Consultant: Mast ...

机器学习

Lasso 回归

更新于2024-07-06 机器学习

Lasso 回归（Least Absolute Shrinkage and Selection Operator，最小绝对值收缩和选择算子）是一种线性回归方法，它通过引入 L1 正则化来避免过拟合，并进行特征选择。以下是对 Lasso 回归的详细解释：基本概念在普通的线性回归中，我们的目标是找到一组系数 $ $ ，使得以下损失函数最小化： \[ \text{RSS} = \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij})^2 \] 其中， $ y_i $ 是响应变量， $ x_{ij} $ 是第 $ i $ 个样本的第 $ j $ 个特征， $ _0 $ 是截距， $ _j $ 是第 $ j $ 个特征的系数。引入 Lasso 正则化 Lasso 回归通过在损失函数中加入一个 L1 正则化项来约束系数的大小： \[ \text{Loss} = \sum_{i=1}^n (y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij})^2 + \lambda \sum_{j=1}^p |\b ...

机器学习

岭回归（Ridge Regression）

更新于2024-06-30 机器学习

岭回归（Ridge Regression），也称为Tikhonov正则化，是一种用于处理多重共线性问题的线性回归技术。岭回归通过在损失函数中加入一个L2正则化项来防止过拟合，从而提高模型的泛化能力。其核心思想是引入一个惩罚项，使得回归系数不至于过大，从而缓解多重共线性带来的不稳定性。岭回归的目标函数如下： \[ \min_{w} \left\{ \sum_{i=1}^{n} (y_i - \sum_{j=1}^{p} x_{ij} w_j)^2 + \lambda \sum_{j=1}^{p} w_j^2 \right\} \] 其中： $ n $ 是样本数量。 $ p $ 是特征数量。 $ y_i $ 是第 $ i $ 个样本的真实值。 $ x_{ij} $ 是第 $ i $ 个样本的第 $ j $ 个特征值。 $ w_j $ 是第 $ j $ 个特征的回归系数。 $ $ 是正则化参数，控制惩罚项的权重。岭回归的优点：处理多重共线性：岭回归通过正则化减少了特征之间的共线性问题，使得回归系数更加稳定。防止过拟合：引入的L2正则化项可以避免模型过拟合，提高模型在测试集上的 ...

统计

泊松回归（Poisson Regression）

更新于2024-06-25 Poisson Regression 泊松回归

泊松回归（Poisson Regression）是一种统计建模方法，主要用于处理计数数据的回归分析。它是一种广义线性模型（GLM），特别适用于目标变量为非负整数（即计数数据）的情况。泊松回归的基础是泊松分布，适用于事件在固定时间或空间内发生的次数的建模。以下是泊松回归的关键特点和使用场景：泊松分布泊松回归假设目标变量 $ Y $ 服从泊松分布，其概率质量函数为： \[ P(Y = y) = \frac{\lambda^y e^{-\lambda}}{y!} \] 其中， $ $ 是泊松分布的参数，即事件发生的平均次数。模型形式泊松回归模型假设目标变量的对数期望值与解释变量 $ X $ 的线性组合有关： \[ \log(\lambda) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p \] 其中， $ $ 是目标变量的期望值， $ _0, _1, _2, , _p $ 是待估计的回归系数。链接函数泊松回归使用对数链接函数（log link function）将线性预测器 $ = _0 + _1 X_1 ...

机器学习

sklearn数据归一化和标准化

更新于2024-06-28 机器学习 Normalization Standardization

数据归一化和标准化是数据预处理中常用的技术，用于将数据转换到特定范围或分布，使得模型训练更加稳定和高效。以下是这两种方法的详细讲解及实现代码。数据归一化（Normalization）数据归一化是将数据按比例缩放，使之落入一个特定的范围（通常是[0, 1]或者[-1, 1]）。常用的归一化方法包括最小-最大归一化。最小-最大归一化公式： \[ x' = \frac{x - x_{min}}{x_{max} - x_{min}} \] 代码示例： 123456789101112131415161718import pandas as pdfrom sklearn.preprocessing import MinMaxScaler# 创建示例数据data = { 'Feature1': [10, 20, 30, 40, 50], 'Feature2': [1, 2, 3, 4, 5]}df = pd.DataFrame(data)# 初始化MinMaxScalerscaler = MinMaxScaler()# ...

机器学习

机器学习的解决问题流程

更新于2024-06-28 机器学习

机器学习的解决问题流程一般包括以下几个步骤：一、定义问题首先明确要解决的问题是什么，以及这个问题的业务背景和目标。例如，是要进行分类、回归、聚类还是降维。定义问题是机器学习项目的首要步骤，它奠定了整个项目的基础和方向。一个明确、具体的问题定义能够帮助团队聚焦在核心目标上，并确保所有后续工作都有明确的指引。以下是如何详细、深入地定义一个问题的步骤和要点： 1. 了解业务背景目的理解问题所在的业务领域及其背景，有助于识别问题的本质。步骤与业务相关人员（如产品经理、业务专家）沟通，了解业务流程、痛点和目标。调查相关行业的标准和规范，明确行业特定的需求和挑战。 2. 明确目标目的确定项目的主要目标和子目标，确保所有参与者对项目期望有一致的理解。步骤讨论并确定最终产品的预期效果，如提高客户满意度、增加销售额、降低成本等。定义具体、可衡量的目标（SMART原则：Specific, Measurable, Achievable, Relevant, Time-bound），例如“提高客户留存率10%”或“将预测误差降低到5%以下”。 3. 确定问题类型目的根据目标明确要 ...

统计

STAT313 chap1&2 Nonparametric Regression

更新于2024-06-25 STAT313

image.png image.png 好的，我们来谈谈非参数回归。在统计学中，非参数回归是一种不依赖于参数假设的回归分析方法。在普通的参数回归，比如线性回归中，我们假设因变量Y和自变量X之间有一个明确的参数化形式，例如，我们假设Y等于X乘以系数加上一个常数项。但在非参数回归中，我们不做这样的假设。你给出的PPT截图中给出了非参数回归的模型， $ Y = f(X) + $ ，其中: $ Y $ 是因变量，或者说是我们想要预测或估计的变量。 $ f(X) $ 是一个未知函数，它描述了X和Y之间的关系。在非参数回归中，这个函数的形式不是预先设定的。 $ $ 是误差项，表示除了X影响Y之外的随机扰动。这个误差项有一个重要的属性，即条件期望 $ E[| X] = 0 $ ，这意味着误差项在给定X的条件下，它的平均值是0，即误差是随机的，不会系统地偏离某一个值。非参数回归的目的是估计函数 $ f $ ，即找到一个函数 $ $ ，这个函数可以很好地拟合数据中的Y和X之间的关系，而不需要指定 $ f $ 的具体形式。例如，我们不需要假设 $ f $ 是线性的，或者是任何特定的数学形式。 ...

统计

广义距离（Generalised distance）

更新于2024-07-06

这页PPT介绍的是“广义距离”（Generalised distance）的概念。老规矩，先来总结：广义距离是一个多维度的度量，它衡量了一个点在考虑变量之间相关性的情况下，与均值向量的偏离程度。为什么要了解这些概念？因为广义距离是多元统计分析中的基础工具，它可以帮助你理解和处理多维数据集中各观测值的行为，尤其是它们如何相对于整体数据分布的中心位置分布。这些概念之间的联系：标准化距离在一维空间内量化单个数据点与均值的偏离程度。广义距离扩展了这一概念到多维空间，它不仅考虑单个数据点在每个维度上的偏离，而且还考虑了各个维度间的相关性。这两个概念都基于距离的概念，它们将距离从物理空间的直观理解推广到统计分布的上下文中。应用场景：异常值检测：在多元数据中，可以使用广义距离来识别那些与平均分布模式显著不同的观测值。聚类分析：在对数据进行分组时，广义距离可以帮助确定哪些观测值彼此相似，并因此应该被分类到同一个群体。多变量控制图：在质量管理中，利用广义距离可以监控多个相关过程变量的稳定性。判别分析：当需要根据观测数据将个体分类到不同预设类别中时，广义距离可以作为分类决策的依据。 ...

R语言

R语言List学习笔记

更新于2024-06-28 R语言

List 在 R语言中是一种非常重要的数据结构，因为它允许存储不同类型和大小的数据项。但是R语言中的 list 和其他很多编程语言中的 list 或 array 不完全相同。在R中，list 被设计为一个通用的容器，可以包含任何类型的对象，包括其他的 list。因此，它更接近其他编程语言中的结构或对象，但它仍然保持了序列的特点。上面的通用的容器指的是是 list 可以包含R中的任何类型的对象，不受限于某一种数据类型。它可以包括向量、矩阵、函数、其他 list 等，这使得 list 非常适合作为数据的组织和存储结构。而“序列”在这里的意思是，尽管 list 可以包含多种数据类型，但它仍然是一个有序的集合，即其中的元素是按照一定的顺序排列的。例如，当你创建一个 list 时，第一个元素是你添加的第一个元素，第二个是第二个，以此类推。因此，你可以通过索引号来访问 list 中的元素。创建List 使用 list() 函数可以创建一个List。例如： 12345678910> my_list <- list(item1=1, item2="hello", ...

Vincent Huang