YJIT - 另一个 Ruby JIT¶ ↑
YJIT 是一个轻量级、极简的 Ruby JIT,内置于 CRuby 中。它使用基本块版本化 (BBV) 架构懒惰地编译代码。YJIT 目前支持 macOS、Linux 和 BSD 上的 x86-64 和 arm64/aarch64 CPU。该项目是开源的,并遵循与 CRuby 相同的许可证。
如果您在生产环境中使用 YJIT,请与我们分享您的成功案例!
如果您想了解更多关于所采用的方法,以下是一些会议演讲和出版物: - RubyKaigi 2023 主题演讲:优化 YJIT 的性能,从初始到生产 - RubyKaigi 2023 主题演讲:将 Rust YJIT 融入 CRuby - RubyKaigi 2022 主题演讲:开发 YJIT 的故事 - RubyKaigi 2022 演讲:为 YJIT 构建轻量级 IR 和后端 - RubyKaigi 2021 演讲:YJIT:在 CRuby 中构建新的 JIT 编译器 - 博客文章:YJIT:在 CRuby 中构建新的 JIT 编译器 - MPLR 2023 论文:评估 YJIT 在生产环境中的性能:一种务实的方案 - VMIL 2021 论文:YJIT:CRuby 的基本块版本化 JIT 编译器 - MoreVMs 2021 演讲:YJIT:在 CRuby 中构建新的 JIT 编译器 - ECOOP 2016 演讲:无需类型分析的 JavaScript 程序的跨过程类型专门化 - ECOOP 2016 论文:无需类型分析的 JavaScript 程序的跨过程类型专门化 - ECOOP 2015 演讲:通过懒惰的基本块版本化实现简单有效的类型检查删除 - ECOOP 2015 论文:通过懒惰的基本块版本化实现简单有效的类型检查删除
为了在您的出版物中引用 YJIT,请引用 MPLR 2023 论文
@inproceedings{yjit_mplr_2023, author = {Chevalier-Boisvert, Maxime and Kokubun, Takashi and Gibbs, Noah and Wu, Si Xing (Alan) and Patterson, Aaron and Issroff, Jemma}, title = {Evaluating YJIT’s Performance in a Production Context: A Pragmatic Approach}, year = {2023}, isbn = {9798400703805}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3617651.3622982}, doi = {10.1145/3617651.3622982}, booktitle = {Proceedings of the 20th ACM SIGPLAN International Conference on Managed Programming Languages and Runtimes}, pages = {20–33}, numpages = {14}, keywords = {dynamically typed, optimization, just-in-time, virtual machine, ruby, compiler, bytecode}, location = {Cascais, Portugal}, series = {MPLR 2023} }
当前限制¶ ↑
YJIT 可能不适合某些应用程序。它目前仅支持 macOS、Linux 和 BSD 上的 x86-64 和 arm64/aarch64 CPU。YJIT 将比 Ruby 解释器使用更多内存,因为 JIT 编译器需要在内存中生成机器代码并维护额外的状态信息。您可以使用YJIT 的命令行选项更改分配的可执行内存量。
安装¶ ↑
需求¶ ↑
您需要安装: - C 编译器,例如 GCC 或 Clang - GNU Make 和 Autoconf - Rust 编译器 rustc
和 Cargo(如果您想在开发/调试模式下构建) - Rust 版本必须为 >= 1.58.0。
要安装 Rust 构建工具链,我们建议您按照 推荐的安装方法 进行操作。Rust 还为许多源代码编辑器提供了一流的 支持。
构建 YJIT¶ ↑
首先克隆 ruby/ruby
仓库
git clone https://github.com/ruby/ruby yjit cd yjit
YJIT ruby
二进制文件可以使用 GCC 或 Clang 构建。它可以在开发(调试)模式或发布模式下构建。为了获得最佳性能,请使用 GCC 在发布模式下编译 YJIT。更详细的构建说明在 Ruby README 中提供。
# Configure in release mode for maximum performance, build and install ./autogen.sh ./configure --enable-yjit --prefix=$HOME/.rubies/ruby-yjit --disable-install-doc make -j && make install
或
# Configure in lower-performance dev (debug) mode for development, build and install ./autogen.sh ./configure --enable-yjit=dev --prefix=$HOME/.rubies/ruby-yjit --disable-install-doc make -j && make install
开发模式包括扩展的 YJIT 统计信息,但可能很慢。仅用于统计信息,您可以在统计模式下配置
# Configure in extended-stats mode without slow runtime checks, build and install ./autogen.sh ./configure --enable-yjit=stats --prefix=$HOME/.rubies/ruby-yjit --disable-install-doc make -j && make install
在 macOS 上,您可能需要指定在哪里可以找到一些库
# Install dependencies brew install openssl libyaml # Configure in dev (debug) mode for development, build and install ./autogen.sh ./configure --enable-yjit=dev --prefix=$HOME/.rubies/ruby-yjit --disable-install-doc --with-opt-dir="$(brew --prefix openssl):$(brew --prefix readline):$(brew --prefix libyaml)" make -j && make install
通常,configure 会选择默认的 C 编译器。要指定 C 编译器,请使用
# Choosing a specific c compiler export CC=/path/to/my/chosen/c/compiler
在运行 ./configure
之前。
您可以通过运行以下命令测试 YJIT 是否正常工作
# Quick tests found in /bootstraptest make btest # Complete set of tests make -j test-all
用法¶ ↑
示例¶ ↑
构建 YJIT 后,您可以使用构建目录中的 ./miniruby
,或者使用 chruby
工具切换到 YJIT 版本的 ruby
chruby ruby-yjit ruby myscript.rb
您可以通过使用 --yjit-stats
命令行选项运行 YJIT 来转储有关编译和执行的统计信息
./miniruby --yjit-stats myscript.rb
可以通过将 puts RubyVM::YJIT.disasm(method(:method_name))
添加到 Ruby 脚本中来打印为给定方法生成的机器代码。请注意,如果未编译该方法,则不会生成任何代码。
命令行选项¶ ↑
YJIT 支持上游 CRuby 支持的所有命令行选项,但也添加了一些 YJIT 特定的选项
-
--yjit
:启用 YJIT(默认情况下禁用) -
--yjit-exec-mem-size=N
:要分配的可执行内存块的大小,以 MiB 为单位(默认 64 MiB) -
--yjit-call-threshold=N
:YJIT 开始编译函数的调用次数。默认值为 30,当进程中的 ISEQ 数量达到 40,000 时,它会增加到 120。 -
--yjit-cold-threshold=N
: 当一个 ISEQ 被调用 N 次后,它将被视为冷代码,不再进行编译。较小的值意味着编译的代码更少(默认值为 200K)。 -
--yjit-stats
: 打印程序执行后的统计信息(会产生运行时开销)。 -
--yjit-stats=quiet
: 在运行程序时收集统计信息,但不打印它们。统计信息可以通过RubyVM::YJIT.runtime_stats
获取。(会产生运行时开销)。 -
--yjit-disable
: 即使其他--yjit*
标志启用,也禁用 YJIT,以便使用RubyVM::YJIT.enable
延迟启用它。 -
--yjit-code-gc
: 启用代码GC
(从 Ruby 3.3 开始默认禁用)。当可执行内存大小限制达到时,它将导致所有机器代码被丢弃,这意味着 JIT 编译将重新开始。这可以让你使用更低的可执行内存大小限制,但当限制达到时可能会导致性能略微下降。 -
--yjit-perf
: 使用perf
工具启用帧指针和性能分析。 -
--yjit-trace-exits
: 生成特定退出点的Marshal
跟踪转储。自动启用--yjit-stats
。 -
--yjit-trace-exits-sample-rate=N
: 仅在每 N 次出现时跟踪退出位置。
请注意,还有一个环境变量 RUBY_YJIT_ENABLE
可用于启用 YJIT。这对于某些部署脚本很有用,在这些脚本中,为 Ruby 指定额外的命令行选项不切实际。
你也可以在运行时使用 RubyVM::YJIT.enable
启用 YJIT。这可以让你在应用程序完成启动后启用 YJIT,从而避免编译任何初始化代码。
你可以使用 RubyVM::YJIT.enabled?
或检查 ruby --yjit -v
是否包含字符串 +YJIT
来验证 YJIT 是否已启用。
ruby --yjit -v ruby 3.3.0dev (2023-01-31T15:11:10Z master 2a0bf269c9) +YJIT dev [x86_64-darwin22] ruby --yjit -e "p RubyVM::YJIT.enabled?" true ruby -e "RubyVM::YJIT.enable; p RubyVM::YJIT.enabled?" true
基准测试¶ ↑
我们在 yjit-bench 存储库中收集了一组基准测试,并实现了一个简单的基准测试工具。此基准测试工具旨在禁用 CPU 频率缩放、设置进程亲和力和禁用地址空间随机化,以便基准测试运行之间的差异尽可能小。
生产部署的性能提示¶ ↑
虽然 YJIT 选项默认设置为我们认为最适合大多数工作负载的配置,但它们可能并不一定是最适合您的应用程序的配置。本节介绍一些提高 YJIT 性能的技巧,以防 YJIT 在生产环境中无法加速您的应用程序。
增加 –yjit-exec-mem-size¶ ↑
当 JIT 代码大小 (RubyVM::YJIT.runtime_stats[:code_region_size]
) 达到此值时,YJIT 将停止编译新代码。增加可执行内存大小意味着 YJIT 可以优化更多代码,但代价是使用更多内存。
如果您使用 --yjit-stats
启动 Ruby,例如使用环境变量 RUBYOPT=--yjit-stats
,RubyVM::YJIT.runtime_stats[:ratio_in_yjit]
将显示 YJIT 执行指令的比例(以百分比表示)。理想情况下,ratio_in_yjit
应该尽可能接近 99%,增加 --yjit-exec-mem-size
通常有助于提高 ratio_in_yjit
。
尽可能长时间运行工作进程¶ ↑
在进程重启之前,尽可能多次调用相同的代码非常有用。如果进程被频繁杀死,编译方法所花费的时间可能会超过编译方法带来的加速效果。
您应该监控每个进程处理的请求数量。如果您定期杀死工作进程,例如使用 unicorn-worker-killer
或 puma_worker_killer
,您可能需要降低杀死频率或提高限制。
减少 YJIT 内存使用量¶ ↑
YJIT 为 JIT 代码和元数据分配内存。启用 YJIT 通常会导致更多内存使用。本节介绍一些最小化 YJIT 内存使用量的技巧,以防它使用超过您的容量。
减少 –yjit-exec-mem-size¶ ↑
--yjit-exec-mem-size
选项指定 JIT 代码大小,但 YJIT 还使用内存来存储其元数据,元数据通常比 JIT 代码消耗更多内存。通常情况下,YJIT 在生产环境中会增加大约 3-4 倍于 --yjit-exec-mem-size
的内存开销,截至 Ruby 3.3。您应该将此值乘以工作进程的数量来估计最坏情况下的内存开销。
我们为 Shopify 的 Rails 单体应用使用 --yjit-exec-mem-size=64
,这是 Ruby 3.3 的默认值,但对于您的应用程序,更小的值(例如 32 MiB 或 48 MiB)可能更合适。在这样做时,您可能需要监控 RubyVM::YJIT.runtime_stats[:ratio_in_yjit]
,如上所述。
延迟启用 YJIT¶ ↑
如果您使用 --yjit
选项或 RUBY_YJIT_ENABLE=1
启用 YJIT,YJIT 可能会编译仅在应用程序启动期间使用的代码。RubyVM::YJIT.enable
允许您从 Ruby 代码中启用 YJIT,您可以在应用程序初始化后调用此方法,例如在 Unicorn 的 after_fork
钩子中。如果您使用任何 YJIT 选项 (--yjit-*
),YJIT 默认会在启动时开始,但 --yjit-disable
允许您在传递 YJIT 调整选项的同时以 YJIT 禁用模式启动 Ruby。
代码优化技巧¶ ↑
本节包含一些关于编写在 YJIT 上运行速度尽可能快的 Ruby 代码的技巧。其中一些建议是基于 YJIT 的当前限制,而其他建议则普遍适用。在您的整个代码库中应用这些技巧可能不切实际。您应该首先使用诸如 stackprof 之类的工具对您的应用程序进行分析,以便确定哪些方法占用了大部分执行时间。然后,您可以重构占用了大部分执行时间的特定方法。我们不建议您根据 YJIT 的当前限制修改整个代码库。
-
避免使用
OpenStruct
-
避免重新定义基本整数运算(例如 +、-、<、> 等)
-
避免重新定义
nil
、相等性等的含义 -
避免在代码的热点部分分配对象
-
最小化间接层
-
如果可以,避免包装对象的类
-
避免只调用另一个方法的方法,避免琐碎的单行方法
-
尝试编写代码,使相同的变量始终具有相同的类型
-
如果可以,使用
while
循环,而不是像Array#each
这样的 C 方法 -
这不是 Ruby 的惯用方式,但可能有助于热点方法
-
CRuby 方法调用代价高昂。避免诸如仅从哈希中返回值或返回常量的方法。
您还可以使用--yjit-stats
命令行选项查看哪些字节码导致 YJIT 退出,并重构您的代码以避免在代码的最热方法中使用这些指令。
其他统计信息¶ ↑
如果您使用--yjit-stats
运行ruby
,YJIT 将跟踪并在RubyVM::YJIT.runtime_stats
中返回性能统计信息。
$ RUBYOPT="--yjit-stats" irb irb(main):001:0> RubyVM::YJIT.runtime_stats => {:inline_code_size=>340745, :outlined_code_size=>297664, :all_stats=>true, :yjit_insns_count=>1547816, :send_callsite_not_simple=>7267, :send_kw_splat=>7, :send_ivar_set_method=>72, ...
一些计数器包括
-
:yjit_insns_count - 已执行的 Ruby 字节码指令数量
-
:binding_allocations - 分配的绑定数量
-
:binding_set - 通过绑定设置的变量数量
-
:code_gc_count - 进程启动以来编译代码的垃圾回收次数
-
:vm_insns_count - Ruby 解释器执行的指令数量
-
:compiled_iseq_count - 编译的字节码序列数量
-
:inline_code_size - 编译的 YJIT 块的大小(以字节为单位)
-
:outline_code_size - YJIT 错误处理编译代码的大小(以字节为单位)
-
:side_exit_count - 运行时发生的侧边退出次数
-
:total_exit_count - 运行时发生的退出次数,包括侧边退出
-
:avg_len_in_yjit - 编译块中在退出到解释器之前执行的平均指令数
以“exit_”开头的计数器显示 YJIT 代码发生侧边退出(返回到解释器)的原因。
性能计数器名称不能保证在 Ruby 版本之间保持一致。如果您好奇每个计数器的含义,通常最好在源代码中搜索它 - 但它可能会在以后的 Ruby 版本中发生变化。
--yjit-stats
运行后打印的文本包括其他信息,这些信息可能与RubyVM::YJIT.runtime_stats
中的信息命名不同。
贡献¶ ↑
我们欢迎开源贡献。您可以随意打开新的问题来报告错误或只是提出问题。关于如何使本自述文件对新贡献者更有帮助的建议非常受欢迎。
错误修复和错误报告对我们非常有价值。如果您在 YJIT 中发现错误,很可能之前没有人报告过它,或者我们没有一个好的重现方法,因此请打开一个问题并提供尽可能多的关于您的配置和您遇到问题的方式的描述。列出您用于运行 YJIT 的命令,以便我们能够轻松地在我们的端重现问题并进行调查。如果您能够生成一个小的程序来重现错误以帮助我们追踪它,那将非常感谢。
如果您想为 YJIT 贡献大型补丁,我们建议您在 Shopify/ruby 仓库 上创建一个 issue 或讨论,以便我们能够进行积极的讨论。一个常见的问题是,有时人们会在没有事先沟通的情况下向开源项目提交大型 pull request,而我们不得不拒绝它们,因为他们实现的工作不符合项目的設計。我们希望为您节省时间和避免挫折,因此请与我们联系,以便我们能够就如何贡献您希望合并到 YJIT 的补丁进行富有成效的讨论。
源代码组织¶ ↑
YJIT 源代码分为以下部分: - yjit.c
:YJIT 用于与 CRuby 其他部分交互的代码 - yjit.h
:YJIT 向 CRuby 其他部分公开的 C 定义 - yjit.rb
:公开给 Ruby 的 YJIT
Ruby 模块 - yjit/src/asm/*
:我们用来生成机器代码的内存中汇编器 - yjit/src/codegen.rs
:将 Ruby 字节码转换为机器代码的逻辑 - yjit/src/core.rb
:基本块版本控制逻辑,YJIT 的核心结构 - yjit/src/stats.rs
:收集运行时统计信息 - yjit/src/options.rs
:处理命令行选项 - yjit/src/cruby.rs
:手动公开给 Rust 代码库的 C 绑定 - yjit/bindgen/src/main.rs
:通过 bindgen 公开给 Rust 代码库的 C 绑定
CRuby 解释器逻辑的核心位于: - insns.def
:定义 Ruby 的字节码指令(编译成 vm.inc
) - vm_insnshelper.c
:Ruby 字节码指令使用的逻辑 - vm_exec.c
:Ruby 解释器循环
使用 bindgen 生成 C 绑定¶ ↑
为了将 C 函数公开给 Rust 代码库,您需要生成 C 绑定
CC=clang ./configure --enable-yjit=dev make -j yjit-bindgen
这使用 bindgen 工具根据 yjit/bindgen/src/main.rs
中列出的绑定生成/更新 yjit/src/cruby_bindings.inc.rs
。避免手动编辑此文件,因为它可能会在以后自动重新生成。如果您需要手动添加 C 绑定,请改为将其添加到 yjit/cruby.rs
中。
编码和调试技巧¶ ↑
有多个测试套件: - make btest
(参见 /bootstraptest
) - make test-all
- make test-spec
- make check
运行所有上述测试 - make yjit-smoke-test
运行快速检查以查看 YJIT 是否正常工作
测试可以像这样并行运行
make -j test-all RUN_OPTS="--yjit-call-threshold=1"
或者像这样单线程运行,以便更容易识别哪个特定测试失败
make test-all TESTOPTS=--verbose RUN_OPTS="--yjit-call-threshold=1"
要在 test-all
中调试单个测试
make test-all TESTS='test/-ext-/marshal/test_usrmarshal.rb' RUNRUBYOPT=--debugger=lldb RUN_OPTS="--yjit-call-threshold=1"
您也可以在 btest
中运行一个特定的测试
make btest BTESTS=bootstraptest/test_ractor.rb RUN_OPTS="--yjit-call-threshold=1"
在 test.rb
中有运行/调试您自己的测试/重现的快捷方式
make run # runs ./miniruby test.rb make lldb # launches ./miniruby test.rb in lldb
您可以在 LLDB 中使用 Intel 语法进行反汇编,使其与 YJIT 的反汇编保持一致
echo "settings set target.x86-disassembly-flavor intel" >> ~/.lldbinit
在 Apple 的 Rosetta 上运行 x86 YJIT¶ ↑
出于开发目的,可以在 Apple M1 上通过 Rosetta 运行 x86 YJIT。您可以在下面找到基本说明,但下面列出了几个注意事项。
首先,安装 Rosetta
$ softwareupdate --install-rosetta
现在,任何命令都可以通过 arch
命令行工具在 Rosetta 上运行。
然后,您可以在 x86 环境中启动您的 shell
$ arch -x86_64 zsh
您可以通过 arch
命令双重检查您当前的架构
$ arch -x86_64 zsh $ arch i386
您可能需要将 rustc
的默认目标设置为 x86-64,例如:
$ rustup default stable-x86_64-apple-darwin
在您的 i386 shell 中,安装 Cargo 和 Homebrew,然后开始编码吧!
Rosetta 注意事项¶ ↑
-
您必须为每个架构安装一个版本的 Homebrew
-
Cargo 默认情况下会安装在 $HOME/.cargo 中,我不知道在安装后更改架构的好方法
如果您使用的是 Fish shell,您可以 阅读此链接 以获取有关使开发环境更轻松的信息。
使用 Linux perf 进行分析¶ ↑
--yjit-perf
允许您使用 Linux perf 对 JIT 生成的函数以及其他原生函数进行分析。当您使用 perf record
运行 Ruby 时,perf 会查找 /tmp/perf-{pid}.map
来解析 JIT 代码中的符号,此选项允许 YJIT 将方法符号写入该文件,并启用帧指针。
以下是如何使用此选项与 Firefox Profiler 的示例(另请参见:使用 Linux perf 进行分析)
# Compile the interpreter with frame pointers enabled ./configure --enable-yjit --prefix=$HOME/.rubies/ruby-yjit --disable-install-doc cflags=-fno-omit-frame-pointer make -j && make install # [Optional] Allow running perf without sudo echo 0 | sudo tee /proc/sys/kernel/kptr_restrict echo -1 | sudo tee /proc/sys/kernel/perf_event_paranoid # Profile Ruby with --yjit-perf cd ../yjit-bench perf record --call-graph fp -- ruby --yjit-perf -Iharness-perf benchmarks/liquid-render/benchmark.rb # View results on Firefox Profiler https://profiler.firefox.com. # Create /tmp/test.perf as below and upload it using "Load a profile from file". perf script --fields +pid > /tmp/test.perf