网页数据抓取软件(Excel在企业中扮演的角色应该被重新定义了!)
优采云 发布时间: 2021-12-28 09:04网页数据抓取软件(Excel在企业中扮演的角色应该被重新定义了!)
全文共3246字,预计学习时间8分钟
如果您从事商业交易或在金融机构工作,Excel 是必备技能。
您可以使用它来分析价格和其他报价数据、评估投资组合、计算风险价值、执行验尸检查等。您精通数据透视表、Excel 公式、图表,甚至 VBA 和 PowerQuery。这使您可以快速执行计划。
但不知不觉中,当电子表扩展成几十个复杂的表格和杂乱无章的VBA代码时,阅读和维护这些表格将变得极其困难。而且如果按F9刷新,等待的时间甚至可以喝完一杯茶(如果这期间电脑没有死机的话)!
上面的说法是不是很耳熟?恐怕你是在疯狂地点头。
尽管电子表格非常有用,但如果用于分析数据,它并不能提供所寻求的所有答案。让我们来看看Excel如此受欢迎的原因及其缺点,以及使用Jupyter Notebook这个强大的分析工具来替代Excel的最重要原因。
我们的目标是让 Excel 做 Excel 擅长的事情,而将分析和自动化留给 Python 和 Jupyter Notebook。
Excel的优点
Excel 有几个优点。最值得一提的是内置函数的反应计算模型,让Excel简单而强大。电子表就像一块空白的窗帘。“业余程序员”可以使用 Excel 的特殊语言(即公式和 VBA)在电子表格中编写代码。
银行使用各种信息技术系统来执行关键业务流程。然而,越来越多的影子 IT 以电子表格的形式出*敏*感*词*融环境下从原型到进入市场的时间,Excel解决了这个问题!
Excel虽然很方便,但它是最合适的方法吗?
Excel 在企业中的角色应该重新定义。
图片来源:/@mbaumi
Excel的缺点
在涉及大量数据的高级响应式分析过程中,电子表格不是合适的工具。
以下是一些Excel重度用户面临的问题:
级联错误:Excel 臭名昭著的问题之一是错误可能会沿着列传播并最终蔓延到整个电子表格,就像雪球引起暴风雪一样。可怕的是,有些错误一经发现就无法补救。造成重大损失的案例不少。
· 可扩展性:Excel 表格的行数和列数是有限的。在处理呈指数级增长的数据集时,电子手表会很快耗尽存储空间或占用大部分中央处理器。这种情况的出现将大大增加数据污染的风险。
· 功能:在复杂的工作表中,更改一个数字可能会影响数百次重复计算。Excel 需要时间来重新计算每个结果。当影响达到一定程度时,不仅电子表本身的运行会变慢,其他所有需要存储空间的应用都会受到影响。
· 测试:电子表的正确性几乎无法测试,很难证明后续的改动没有造成其他影响。
· 可追溯性/故障排除:即使是很小的更改也可能严重篡改复杂的公式。发现和修复这种微小的变化是极其困难的。
· 包罗万象:数据和计算存储在Excel 文件中并在本地计算机上运行。这意味着合作是有限的,版本控制就像噩梦一样困难。并且数据会在上次更新后保持不变,而不是随着情况的变化实时更新。
传统软件在几十年前就已经解决了上述所有问题。
最后一点也很重要:
· 操作风险:所有电子表初期体积小,易于维护计算。但一些电子手表将成为永久性的企业级解决方案。它们在大量的业务流程中使用,但由于无法看到数据的全貌,难以保证很多财务、计算和监管流程的完整性。
图片来源:Pixabay
你好,程序员;再见,交易员
传统上,银行将量化交易团队划分为量化分析交易员和量化分析开发人员。前者提出想法,后者将这些想法写成可执行代码。如果你既是交易员又是专业程序员,那么这个划分就没有必要了。这给了你一个竞争优势:一方面,银行希望尽可能减少支出,从而降低失业风险;另一方面,您可以将自己的交易模式付诸实践,利用时间获取收益。一些单调的任务可以自动处理,解放你,编程其实很有创意!
这也是为了与时俱进。越来越多的年轻交易者拥有在大学学到的编程知识。因此,如果您想在就业中保持竞争力,您也需要参与其中。
如何使用 Python 和 Jupyter Notebooks 进行数据处理
对于知道Excel局限性的交易者和金融专家,如何解决这个问题?答案是:学会使用 Python 和 Jupyter Notebook。
Python
Python简单易学,功能丰富,因此在金融领域的应用越来越广泛。如今,它和Excel一样,是许多定量分析过程中不可或缺的工具。它不像C++(或Java)那么复杂,这意味着python的学习曲线没有那么陡峭,完成任务所需的代码量减少到1/5甚至1/10。
Python 的日益流行清楚地反映在大量的库中。这些库几乎可以支持交易者所需的所有功能。
· 数据读取、写入、清理、删除和交叉分析。
· 数学序列、统计序列和时间序列。
· 金融分析:交易与量化金融、市场数据分析、股票/衍生品市场分析、彭博数据接入、执行引擎、事后检验、风险分析等。
· 机器学习渠道(如预测市场价格)。
· 绘图和清晰/交互式可视化。
· SQL 支持。
· 发送电子邮件。
· 网页数据采集(如从互联网获取市场价格)。
· 任务自动化/计划。
· 集成 Excel(如果您真的喜欢使用 Excel)。
木星
遵循上述思想,Jupyter Notebook 是一个基于 Web 的编程环境。它可以管理各种文件。这些文件收录
代码、图表、小部件、丰富的叙述文本(包括链接、方程式等)和图片。更具体地说,您可以:
· 借助自动语法高亮、缩进和自动制表符完成/检查,在浏览器中编辑代码。
· 使用代码附带的计算结果通过浏览器运行代码。
它为计算提供了一个包罗万象的、独立的记录。这样,Jupyter 就可以取代 Excel 作为实时数据分析平台。
礼貌:Python 金融教程
Excel VS Jupyter
所以你可能会想:
我还应该使用 Excel 吗?当然!在处理以下情况时,电子手表仍然是最佳选择:
· 不太重视正确性和准确性
· 数据规模不是太大(对可扩展性没有要求)
· 无需实时更新
· 以Excel为草稿,快速整合原型
· 无需长期维护
您需要这样一个工具——它可以支持快速开发,确保正确性和可扩展性,同时拥有与 Excel 相同的响应模型。这就是 Jupyter Notebook 所提供的。
不用放弃Excel,但Jupyter Notebook是更好的数据分析工具!
Python/Jupyter 的十大最重要优势:
✔ 强大的数据操作能力——Python/Jupyter 是数据科学家的工具箱!
✔ 高级可视化功能——不再是无聊的表格!
✔更好的用户体验
✔ *敏*感*词*数据集处理——不再崩溃!
✔操作管理-使用多线程处理
✔ 测试驱动开发-注重质量!
✔ 开源——“有专门的库来处理这个问题!”
✔ 可追溯的错误
✔ 更简单的自动化
✔ 自我记录——不要低估这个功能的价值!
如何开始
进入这个领域的新人可能会被吓倒。但编程不是学习语言的语法,而是学习使用正确的语言和工具——即 Python 和 Jupyter——来解决问题。
点赞关注