Python 是数据科学 (DS) 和机器学习 (ML) 中最常用的脚本语言之一。根据“ PopularitY of Programming Languages ”,Python 是 Google 上搜索次数最多的语言。除了作为将各种 DS/ML 解决方案连接在一起的出色胶水语言之外,它还有许多库可以对数据进行虚拟处理。
大约一个月后,我们获得了 Python 的全新年度版本:3.11 版。我对这个新版本感到非常兴奋,因为这个版本的主要特点是速度显着提高。
要了解 Python 3.11 真正的速度有多快,最好的方法是自己运行测试。
1_XjHaXLsnx8KkRJdlZgJ9oQ.jpeg
对编程语言进行基准测试并非易事。当您阅读x比y快时,您应该始终对结果持保留态度。一种算法的实现可能比x更好,而另一种算法在y上更好。对于我们的基准测试,它有点简单,因为我们正在针对 Python 测试 Python,但我们可能从语言中选择了仅受到轻微影响的元素。考虑到这一点,我想介绍我用来进行基准测试的算法:使用蒙特卡洛方法估计 Pi。
这个算法的想法很简单,但是在大学的一些数学课程中第一次看到它让我大吃一惊。我们有一个大小为2r的正方形,在这个正方形中我们拟合一个半径为r的圆。现在我们采用一个随机数生成器,它在平面上生成数字:<-r, r>, <-r, r>。圆上的点与正方形上的点之间的比率(读取:所有点)是面积比的近似值,我们可以用它来近似 Pi。这在等式中更清楚一点:
2.png
在 Python 中,我将实际估计与测试脚本分开,这样我就可以重复测试并取平均值。此处未显示,但我还使用Argparse对脚本进行了参数化,这是一个用于解析来自命令行界面 (CLI) 的参数的标准库。Python 代码如下所示:
该脚本已准备好运行,但我们希望使用它来测试各种版本的 Python,而不仅仅是当前安装(或激活)的版本。测试多个 Python 版本的最简单方法是使用 Docker。Python 维护着许多 docker 镜像。自然是所有受支持的版本,还有一些生命周期结束 (EOL) 的版本,例如 2.7 或 3.2。它还具有用于发布候选版本的图像,例如版本 3.11。要使用 Docker,您需要安装它。在 Linux 和 Mac 中它相对容易,在 Windows 中我不太确定,但可能也不难。我建议只安装 docker CLI,桌面对我来说太臃肿了。要在容器化 Python 环境中运行本地脚本,请运行:
为了自动化各种版本的测试,我们当然也会使用 Python。这个脚本将简单地启动一个子进程来启动一个具有特定 Python 版本的容器,然后收集结果。没什么特别的:
运行这些测试时,绝对数量因机器而异,具体取决于处理器(CPU 很重)。以下是最近 7 个主要 Python 版本的结果:
3.png
新的 Python 3.11 每次运行耗时 6.4605 秒。Python 3.5 耗时 11.3014 秒。(Python 3.11 快 74.9%)
Python 3.6 耗时 11.4332 秒。(Python 3.11 快 77.0%)
Python 3.7 耗时 10.7465 秒。(Python 3.11 快 66.3%)
Python 3.8 耗时 10.6904 秒。(Python 3.11 快 65.5%)
Python 3.9 耗时 10.9537 秒。(Python 3.11 快 69.5%)
Python 3.10 耗时 8.8467 秒。(Python 3.11 快 36.9%)</pre>
Python 3.11 的基准测试平均耗时 6.46 秒。与之前的版本 (3.10) 相比,这几乎快了 37%。相当令人印象深刻!3.9 版和 3.10 版之间的差异大致相同,使 3.11 版快了近 70%!我已经在图 2 中绘制了所有时间。
在谈论速度时,我们总是有一个人说:如果你想要速度,为什么不使用 C。
C 比 Python 快得多!——那个人
虽然我的 C 有点生锈,但我还是想试试看。我使用了 GNU C++,因为它带有一个不错的时间测量库(chrono)。找到下面的代码:
众所周知,C++ 是一种编译语言,因此我们需要先编译源代码才能使用它。
编译后,只需运行构建可执行文件。输出应该是这样的:
Pi 约为 3.14227,计算时间为 0.25728 秒。
Pi 约为 3.14164,计算时间为 0.25558 秒。
Pi 约为 3.1423,计算时间为 0.25740 秒。
Pi 约为 3.14108,计算时间为 0.25737 秒。
Pi 约为 3.14261,计算时间为 0.25664 秒。每个循环平均需要 0.25685 秒来计算。
我们必须同意那个人的观点,因为它真的(阅读:真的)很快。执行我们之前在 Python 中编写的相同循环只需要 0.257 秒。让我们在之前的图中将其添加为一条线,如图 3 所示。
4.png
现在,在对之前的数字进行了更长时间的欣赏之后,我们清楚地看到了 Python 获得的动力。自 3.9 版以来,Python 的速度提高了约 35%。Python 开发人员提到,接下来的几个版本将显着提高速度,因此,我们可以假设这个速度将保持不变(是的,超级安全的假设)。
现在的问题是,在这种势头固定的情况下,Python 何时会超越 C++ 的时代。为此,我们当然可以使用外推法来预测下一个 Python 版本的循环时间。这些可以在图 4 中看到。
5.png
图 4:推断 Python 速度 -> Python 3.14 的速度将超过 C++。惊人!(作者图片)。
结果真的很惊人!保持这个速度,Python 3.14 将比 C++ 更快。确切地说,循环时间为-0.232秒,因此它会在您想要进行计算之前完成。时空连续体中似乎有一个洞,但这些计算是坚如磐石的。因此,我认为我们可能不得不质疑爱因斯坦和朋友的工作。