4_Special_Relativity

4
狭义相对论
4.1
引言
在讨论牛顿(Newton)运动定律之前，我们先考虑了一些三维欧几里得空间(Euclidean 3-space)的几何性质。牛顿物理学基于这样一个观念：空间是绝对的，两点之间的距离是绝对的，但坐标系的选择是任意的。观察者可以相对于不同的原点建立笛卡尔坐标系(Cartesian coordinates)，坐标轴也可以有不同的取向。一个点的坐标构成了一个矢量，但这样的矢量并非绝对的，因为它依赖于原点和坐标轴的选择。然而，牛顿运动定律具有矢量形式，这种形式对于不同的观察者来说是相同的。

让我们更简单地说明这一点。两个紧挨着而面向不同方向的观察者，会对世界上正在发生的事情达成一致看法。如果他们看到一只鸟从地里拽出一条虫子并吃掉它，他们都会同意这件事发生在同一地点，耗时相同，但如果他们各自建立自己的空间坐标系，以自己所在位置为原点，以他们的正前方为1号轴，左侧为2号轴，上方为3号轴，那么对于这两位观察者来说，这只鸟的位置坐标是不同的，并且当鸟飞走时，它也具有不同的速度矢量和加速度矢量。然而，作用在鸟上的力与鸟的加速度之间的关系，对两位观察者来说是相同的。换句话说，尽管他们对运动的描述不同，但他们都认同这些运动定律。

为了讨论动力学，我们需要考虑四维时空(4-dimensional spacetime)。时空中的一点被称为一个事件(event)，它发生在一个时刻t和一个空间位置 x = (x1, x2, x3)。这些可以组合成一个量 X = (t, x)，即该事件的位置4-矢量。

在狭义相对论中，绝对的是时空，而不是空间。不同的观察者通常彼此相对运动，他们会建立起不同的坐标系。一个观察者并非一个事件，而是持续存在于所有时间之中。最重要的观察者是那些不受任何力作用的观察者。他们被称为惯性观察者，等同于牛顿动力学中在空间中以恒定速度运动的物体。物理定律被假定为对所有惯性观察者都是相同的，但事件的时间和空间坐标将相对于每个观察者而言。时间不再是一个绝对量，三维距离也不是。但在时空中，两个事件之间存在绝对的分离或间隔(interval)概念，它取代了欧几里得三维空间中绝对距离的概念。

狭义相对论的另一个关键特征是，光速是一个绝对常数，对所有惯性观察者都相同，即使他们处于相对运动中也是如此。我们将看到，两个事件——一个是发出闪光，另一个是接收到它——之间的间隔为零，并且所有观察者都对此达成一致。

物理世界(The Physical World). Nicholas Manton and Nicholas Mee, 牛津大学出版社 (2017).
版权归 Nicholas Manton and Nicholas Mee 所有。DOI 10.1093/acprof:oso/9780198795933.001.0001

104
狭义相对论

让我们为一个（惯性）观察者定义间隔(interval)的概念。时空的原点 O 是时间 t = 0、位置 x = 0 的事件 (0, 0)。假设另一事件发生在时间与位置 X = (t, x)。这两个事件之间的平方间隔 τ² 定义为
τ² = t² − x₁² − x₂² − x₃² ，或等价地
τ² = t² − x · x 。
(4.1)
注意，τ² 可以是正、负或零，因此 τ 本身可以是实数或虚数。如果 t² > x · x，那么 τ 是实数，并且当 t 为正时取正，当 t 为负时取负。任意两个事件 X = (t, x) 与 Y = (u, y) 之间的平方间隔为
τ²

(t − u)² − (x − y) · (x − y)

(t − u)² − |x − y|² 。
(4.2)
具有这种几何结构的时空，即平方间隔 τ² 中的时间贡献与空间贡献之间带有负号，称为闵可夫斯基空间(Minkowski space)。或者，这种几何被称为洛伦兹几何(Lorentzian)。如果用的是加号，τ² 就会是四维欧几里得空间中两点之间的距离平方。

假设第二个观察者建立了一个坐标系，时间坐标为 t′，空间坐标为 x′ = (x′₁, x′₂, x′₃)。假设第二个观察者用来标定空间轴单位的尺子与第一个观察者所用的相同，时间单位的标定也使用同类型的时钟。（这相当于一个隐含的假设：在三维欧几里得空间中，不同观察者使用同类型的尺子测量其笛卡尔坐标轴上的距离。）

在狭义相对论中，事件之间的间隔对于两个观察者是相同的。如果对于第一个观察者，事件位于 X = (t, x) 和 Y = (u, y)；对于第二个观察者，位于 X′ = (t′, x′) 和 Y′ = (u′, y′)，那么
(t − u)² − (x − y) · (x − y) = (t′ − u′)² − (x′ − y′) · (x′ − y′) 。
(4.3)
因此，将第二个观察者的坐标与第一个观察者的坐标联系起来的变换保持间隔不变，这与三维欧几里得空间中保持距离不变的变换类似。这样的变换通常包含时空原点的平移，但如果不包含平移，则称其为洛伦兹变换(Lorentz transformation)，它类似于三维空间中的纯旋转。¹

洛伦兹变换可以是纯粹的空间旋转，但通常会将时间坐标与空间坐标混合。当第一个和第二个观察者以恒定速度相对运动时，就会发生这种混合。因为狭义相对论的基本假设是物理定律对所有这样的观察者都相同，所以定律必须不受洛伦兹变换影响，并具有洛伦兹协变形式。

尽管我们此前没有明确讨论，但在牛顿物理学中存在一个类似的结果，称为伽利略不变性(Galilean invariance)。它指出，对于彼此以恒定速度相对运动的两个观察者，一个物体系统的运动定律是相同的。特别是，即使质心的速度不同，物体系统的相对运动在两个观察者看来也是一样的。这解释了为什么我们感觉不到地球的运动——尽管我们随它一起运动。在相对论中，洛伦兹不变性扮演着同样的角色，但它统一了空间和时间。

¹ 与旋转一样，洛伦兹变换被假定为坐标的线性变换。

洛伦兹变换
105
注意到地球绕太阳的大速度（在一天的时标上几乎恒定），以及为什么在平稳飞行的飞机上饮料可以像在地面上一样被送上并饮用。伽利略不变性有其局限性，然而，它在电磁理论中并不精确适用，而且尽管伽利略不变性对观察者的相对速度没有设定上限，但在实践中，只有当相对速度远小于光速时它才是精确的。

我们现在更详细地考察洛伦兹变换（Lorentz transformations）。

4.2 洛伦兹变换

让我们关注两个惯性观察者，他们的时空原点O重合，因为原点的平移并不十分重要。考虑一个事件X，对于第一个观察者坐标为（t，x），对于第二个观察者坐标为（t’，x’）。X与O之间的间隔平方对两个观察者是相同的，因此
t² - x · x = t’² - x’ · x’。 (4.4)

第一个观察者在原始坐标中是静止的，对所有t有x = 0，因此在时空中沿着t轴移动。这条直线称为观察者的世界线。类似地，第二个观察者在带撇坐标系中是静止的，有x’ = 0，沿着时空的t’轴移动。

洛伦兹变换有两种基本类型。较简单的一种是空间旋转，时间坐标不变。两个观察者之间没有相对移动，但它们的空间轴取向不同。在这里，分别有t’² = t² 和 x’ · x’ = x · x。更明确地说，假设第二个观察者的轴相对于第一个观察者的轴在（x₁, x₂）平面内旋转了θ角。坐标之间的关系为
t’ = t
x₁’ = x₁ cos θ - x₂ sin θ
x₂’ = x₁ sin θ + x₂ cos θ
x₃’ = x₃。 (4.5)

方程（4.4）得到满足，因为cos²θ + sin²θ = 1，所以
x₁’² + x₂’² = (x₁² cos²θ - 2x₁x₂ cos θ sin θ + x₂² sin²θ)
+ (x₁² sin²θ + 2x₁x₂ cos θ sin θ + x₂² cos²θ)
= x₁² + x₂²， (4.6)

且显然有t’² - x₃’² = t² - x₃²。因此X与O之间的间隔得以保持。两个仅相差一个旋转的观察者沿着同一条世界线运动，因为他们的时间轴是重合的。

图4.1显示了时空点X相对于两组坐标轴（略去了t和x₃）。两组轴之间的夹角是旋转角θ。X的每个坐标由平行于一条轴的作图线（红色）与另一条轴的交点指示。² x₁轴和x₂轴上的尺度间隔相等，而x₁’轴和x₂’轴上的尺度也相同。这一点由连接点（x₁, x₂）=（1，0）与点（x₁’，x₂’）=（1，0）的圆弧片段所指示。这些点到O的距离相等。

² 在三维空间中，X的x₃坐标由平行于x₁轴和x₂轴的平面与x₃轴的交点给出。

106
狭义相对论
X
O
(1, 0)
(1, 0)
θ
x₁
x₂
x₁’
x₂’
图4.1 在（x₁，x₂）平面内的旋转。

更有趣的一类洛伦兹变换是助推（boost）。它将一个惯性观察者的坐标系变换为另一个以恒定速度相对于第一个观察者运动的观察者的坐标系。如果相对运动沿着x₁轴，助推会混合时间坐标t和空间坐标x₁。这一时空变换是平面内旋转的双曲类比³，并同样有一个参数θ。它为
t’ = t cosh θ - x₁ sinh θ
x₁’ = -t sinh θ + x₁ cosh θ
x₂’ = x₂
x₃’ = x₃。 (4.7)

³ 回忆双曲函数 cosh θ = ½(e^θ + e^{-θ})， sinh θ = ½(e^θ - e^{-θ}) 以及 tanh θ = sinh θ / cosh θ。

洛伦兹变换
107
这满足方程(4.4)，因为恒等式 cosh² θ − sinh² θ = 1，所以
t′² − x′₁² =
(t² cosh² θ − 2t x₁ cosh θ sinh θ + x₁² sinh² θ)
− (t² sinh² θ − 2t x₁ cosh θ sinh θ + x₁² cosh² θ)
= t² − x₁²，
(4.8)
而且显然 x′₂² + x′₃² = x₂² + x₃²。在转动的语境下，θ 是转动角；但在这里，在推动(boost)的语境下，θ 被称为**快度(rapidity)**。一般的洛伦兹变换是坐标的线性变换，由转动和推动组合而成，共有六个参数。它可以表示为一个作用在 (t, x₁, x₂, x₃) 上的 4×4 矩阵，满足方程(4.4)。

X
O
(1, 0)
(1, 0)
φ
x₁
t
t′
x′₁
图4.2 一个洛伦兹推动将 (t, x₁) 坐标变换为 (t′, x′₁) 坐标。这里 tan φ = tanh θ = v。

推动的效果如图4.2所示。这个图不像转动的图那样直观清晰。这是因为页面上的（欧几里得）几何与它试图表示的洛伦兹几何并不相同。t′ 轴和 x′₁ 轴相对于 t 轴和 x₁ 轴以同样的角度相互挤拢。点 X 的坐标同样由平行于一条轴的构造线（红色）与另一条轴的交点标出。t 轴和 x₁ 轴上的单位（分别以秒和光秒为单位）具有相等的间距，因此从 O 点发出、速率为1的光线沿着与坐标轴成45°角的直线前进。

108
狭义相对论
沿着t′轴和x′
1轴的单位也具有相等的间距，但与沿着t轴和x1轴的间距不同。然而，对于第一个观察者是光线的，对于第二个观察者仍然是光线。
我们可以如下计算t轴和t′轴之间的夹角φ。沿着t轴，即x1 = 0处，第一个观察者静止。沿着t′轴，即x′
1 = 0处，第二个观察者静止，但相对于第一个观察者以某个速度v运动。因此，对于第一个观察者，这个轴就是直线x1 = vt，所以夹角φ由tan φ = v给出。从公式(4.7)我们看到，x′
1 = 0意味着x1 = (tanh θ)t。因此
tan φ = tanh θ = v 。
(4.9)
类似地，在方程(4.7)中令x1 = 0，可以验证按照第二个观察者的观点，第一个观察者正以速度v = −tanh θ运动。随着θ从−∞变化到∞，v从−1变化到1，φ从−45°变化到45°。 boost速度v不能超过光速(c = 1)。
接下来，我们计算沿着t′轴的尺度，相对于沿着t轴的尺度。t′轴上的点(t′, x′
1) = (1, 0)对于第一个观察者的坐标为(t, x1) = (cosh θ, sinh θ)。对于两个观察者而言，到原点的间隔都是1。图中标出了t′轴上t′ = 1的点。该点位于双曲线t2 − x2
1 = 1上，该双曲线上的所有点到原点O的间隔都是1。
存在一种很好的替代方式来理解为什么boost(4.7)保持平方间隔τ 2不变。这个boost可以重新表达为
t′ − x′
1

(t − x1)eθ
t′ + x′
1

(t + x1)e−θ
x′
2

x2
x′
3

x3 。
(4.10)
将前两个方程相加和相减即可重新得到方程(4.7)。将第一个方程乘以第二个方程表明t′2 − x′
1
2 = t2 − x2
1。因此，boost的效果是在(t, x1)-平面内沿一条对角轴将坐标拉伸eθ，并沿垂直的对角轴将坐标等比压缩e−θ，如图4.2所示。
到目前为止，一个boost看起来纯粹是一种几何构造，一种坐标变换，但物理在boost下的不变性具有物理后果。其中之一就是时间膨胀(time dilation)。经典例子是μ子衰变。μ子是一种基本粒子，与电子类似但质量更大。它总是以相同的方式衰变——衰变成一个电子、一个中微子和一个反中微子。这种衰变是量子力学的，发生在一个随机的时间段之后，但半衰期是一个确定的时间T，这意味着对于一个静止的μ子来说，它存活时间T的概率为1/2。对于当前的讨论，我们可以简单地假定μ子的寿命为T。
μ子在粒子碰撞中产生，或者来自其他粒子的衰变。因此，μ子经常以非常高的速度运动，接近光速。让我们考虑一个在时空原点产生并沿x1方向以速度v = tanh θ运动的μ子。和以前一样，设第一个观察者静止，并假定第二个观察者在x1方向以速度v运动。对于第二个观察者来说，μ子是静止的。事实上，第二个观察者可以被视为μ子本身。

洛伦兹变换
109
对于第二个观察者，μ子在时刻 t′ = T 、位置 x′1 = 0 处衰变。由洛伦兹 boost 公式（4.7）可知，对于第一个观察者，衰变发生在时刻 t 和位置 x1，满足：
T = t cosh θ − x1 sinh θ ,
0 = −t sinh θ + x1 cosh θ .
(4.11)
第二个方程意味着 x1/t = tanh θ ，确认 μ 子具有速度 tanh θ 。从第一个方程中消去 x1，我们得到
T = t ( cosh θ − sinh² θ / cosh θ ) = t / cosh θ .
(4.12)
所以 t = T cosh θ ，这比时刻 t = T 要晚，因为 cosh θ > 1 。因此，第一个观察者看到的运动粒子比第二个观察者看到的静止粒子具有更长的寿命。这就是时间膨胀。时间膨胀的倍数与图4.2所示完全相同，在该图中，位于 (t′, x′1) = (1, 0) 的时空事件的时间 t 等于 cosh θ 。
对于第一个观察者，粒子衰变的位置是 x1 = T sinh θ 。这个位置很容易测量，因为它是 μ子径迹中的一个“弯折”处，μ子在那里变成一个电子（看不见的中微子和反中微子携走了部分动量）。仅凭这一测量结果，如果没有独立知道 μ子的速度，就很难证实时间膨胀。不过，可以通过飞行时间测量来确定速度，即测量 μ子穿过两个不会显著降低 μ子速度的探测器所需的时间。
注意，T sinh θ （即 μ子飞行的距离）可以远大于 T （即 μ子如果没有时间膨胀而基本上以光速运动的飞行距离）。因此，由高层大气中宇宙线碰撞产生的 μ子频繁撞击地面，即使 T 的量级是 10⁻⁶ 秒，而 10⁻⁶ 光秒仅为大约 300 米。
μ子并没有什么特殊之处，其他粒子的衰变同样会发生时间膨胀，不过如果它们的寿命比 μ子短得多或长得多，测量起来可能更困难。时间膨胀的一个具体演示是在1971年提供的，当时约瑟夫·哈费勒（Joseph Hafele）和理查德·基廷（Richard Keating）携带四台原子钟乘坐商业航班分别向东和向西环绕地球旅行，证实了由于以相当低的速度运动而产生的非常微小的膨胀效应。
与时间和空间轴成45°的世界线，如图4.3所描绘，代表光线。通过时空点 X 的所有光线构成通过 X 的光锥。根据公式（4.2），沿光线的两个事件 X 和 Y 之间的间隔为零，因为对于速度为 1 的运动，有 |x − y| = |t − u| 。由于间隔是洛伦兹不变量，所有观察者对光线的解释和光速都达成一致。这与麦克斯韦方程组一致，后者预言了绝对不变的光速。
在相对论早期，光速不受源运动影响被视为一件令人惊讶的事情。假设对于一个观察者，一个闪光由一个静止的源发出。相对于第一个观察者进行 boost 的第二个观察者，会认为第一个观察者和光源在运动，然而光速却不受此影响。如果光是由速度依赖于源速度的粒子组成，这将是悖论性的，但在经典上，光是在绝对时空中传播的波，所以光速成为一个绝对常数是相当合理的。两个观察者所感知到的光并非全同，因为光的频率和波长都不同。

110
狭义相对论
t
x 1
x1
t
图4.3 光的世界线。
麦克斯韦方程组具有洛伦兹协变形式，我们将在后文看到这一点，因此所有电磁场现象，而不仅仅是光速不变，都与狭义相对论的原理一致。事实上，洛伦兹变换最初正是通过研究麦克斯韦方程组发现的。支持洛伦兹协变性的证据得到了阿尔伯特·迈克尔逊(Albert Michelson)和爱德华·莫雷(Edward Morley)对光速测量的补充。他们实验的目的是确定光速是否依赖于光束相对于地球运动的方向。令他们大为惊讶的是，他们发现光在所有方向上以相同速度传播，并且不受光源运动的影响，而光源运动随地球绕太阳公转而变化。迈克尔逊-莫雷实验装置如图4.4所示。
爱因斯坦关于狭义相对论的关键论文题为《论动体的电动力学》。他的关键贡献在于提出不仅电磁学，而是所有物理学都应该具有洛伦兹不变性，并找到满足这一要求的牛顿动力学修正形式。我们接下来将研究相对论性粒子动力学，之后回顾麦克斯韦方程组的洛伦兹协变性。

4.3 相对论动力学
粒子动力学定律需要被修正以具有洛伦兹协变形式。完成修正后，对于与光速相比运动缓慢的粒子，可以恢复牛顿运动定律。在狭义相对论中，讨论点粒子比讨论有限大小的物体更为简便。
我们首先需要速度的相对论性概念，然后是加速度的概念。这些现在是四分量量，而非我们熟悉的三维矢量。静止粒子的世界线具有恒定的x，在时空中平行于t轴。世界线上两个无限接近的事件，(t, x)和(t + δt, x)，其中δt为正，它们之间的间隔为δτ = δt。运动粒子具有世界线X(t) = (t, x(t))，因此在时刻t，粒子的位置为x(t)。

相对论动力学
111
可移动反射镜
光源
分束器
干涉图样
固定反射镜
图4.4 迈克尔逊-莫雷实验示意图。一束光照射到半镀银镜上，该镜将光束分成两束相互垂直的光束。这两束光被反射回来，穿过半镀银镜到达屏幕，并在屏幕上形成干涉图样。其中一个反射镜是固定的，另一个是可移动的，这样可以改变光程长度。整个装置可以旋转，从而改变光束相对于地球在空间运动的方向。
这条世界线通常是弯曲的，因为粒子的速度可能会改变。沿世界线上两个无限接近的事件X(t) = (t, x(t))和X(t + δt) = (t + δt, x(t + δt))之间的平方间隔为
δτ² = δt² − |x(t + δt) − x(t)|². (4.13)
这是正的，因为粒子的速度总是小于光速。我们可以将方程(4.13)改写为
δτ² = (1 − |(x(t + δt) − x(t))/δt|²) δt². (4.14)
这里的分数量正是粒子的通常速度v，因此
δτ = (1 − |v|²)^(1/2) δt, (4.15)
由此我们得到导数之间的有用关系
d/dτ = (1 − |v|²)^(−1/2) d/dt. (4.16)

112
狭义相对论

我们可以考虑世界线 (X(t) = (t, \mathbf{x}(t))) 对时间的导数，作为速度的一种洛伦兹(Lorentz)式类比。这是一个四分量矢量 ((1, \mathbf{v}))。然而，尽管位置四矢量 (X) 在洛伦兹变换下简单变换，但 (t) 并非如此，因此对 (t) 求导不是协变的。另一方面，沿世界线的参数 (\tau) 是洛伦兹不变的，所以正确的做法是将 (X) 对 (\tau) 求导。因此，我们定义粒子的相对论性四速度 (V) 为

[
V = \frac{dX}{d\tau} = \frac{d}{d\tau} (t, \mathbf{x}(t)).
\tag{4.17}
]

四矢量 (V) 的变换方式与 (X) 相同，利用方程 (4.16)，我们可以用通常的速度将 (V) 表示为

[
V = (1 - |\mathbf{v}|^2)^{-1/2} (1, \mathbf{v}).
\tag{4.18}
]

(V) 的第一个分量称为时间分量，其余三个分量称为空间分量。注意，(V) 的四个分量仅取决于 (\mathbf{v}) 的三个独立分量，因此存在一个对 (V) 的约束，我们稍后会将它明确写出。

量 ((1 - |\mathbf{v}|^2)^{-1/2}) 在狭义相对论中频繁出现，因此有专门的记号：

[
\gamma(v) = (1 - |\mathbf{v}|^2)^{-1/2}.
\tag{4.19}
]

这称为伽马因子，如果相关速度明确，有时简写为 (\gamma)。于是 (V = (\gamma, \gamma \mathbf{v}))。如果 (|\mathbf{v}|) 很小，可以做近似 (\gamma(v) = 1)，或更精确地 (\gamma(v) = 1 + \frac{1}{2}|\mathbf{v}|^2)。在所有情况下，(\mathbf{v}) 的三次及更高次项都可以略去。这就是非相对论极限，此时相对论性动力学退化为牛顿动力学。在非相对论极限下，四速度 (V) 为

[
V = \left( 1 + \frac{1}{2}|\mathbf{v}|^2, \mathbf{v} \right).
\tag{4.20}
]

一般而言，只要 (|\mathbf{v}|) 在 0.01 或更小的量级（正常单位下相当于 (3 \times 10^6 , \text{m s}^{-1})），这个近似就成立。这在日常生活中已是极高的速度，即便在太阳系动力学和太空旅行中也是如此。

注意到，对于任何小于光速的正 (|\mathbf{v}|)，都有 (\gamma(v) > 1)；而且若 (|\mathbf{v}| = \tanh \theta)，其中 (\theta) 是粒子从静止被加速后具有的快度，那么 (\gamma(v) = \cosh \theta)，(\gamma(v)|\mathbf{v}| = \sinh \theta)。这些量在我们之前关于时间膨胀的讨论中都出现过。

粒子的相对论性加速度定义为对 (\tau) 再求一次导数：

[
A = \frac{d^2 X}{d\tau^2} = \frac{d^2}{d\tau^2} (t, \mathbf{x}(t)).
\tag{4.21}
]

这个四加速度 (A) 可以通过对方程 (4.18) 求 (t) 导再用方程 (4.16) 而用通常的加速度 (\mathbf{a} = \frac{d^2 \mathbf{x}}{dt^2}) 和速度 (\mathbf{v}) 表示出来，但公式有些复杂且启发性不大。(A) 和 (V) 共同的重要性质是它们在洛伦兹变换下协变地变换，即与 (X) 的变换方式相同，因为 (\tau) 是不变量。这类似于以下陈述：在三维空间中，加速度 (\mathbf{a}) 和速度 (\mathbf{v}) 是欧几里得(Euclidean)式三维矢量，它们在旋转下与 (\mathbf{x}) 的变换方式相同，因为 (t) 是旋转不变的。

在欧几里得三维空间中，我们定义了两个矢量的旋转不变点积。类似地，在洛伦兹几何中，存在两个四维矢量 (X = (t, \mathbf{x})) 和 (Y = (u, \mathbf{y})) 的洛伦兹不变内积：
[
X \cdot Y = tu - \mathbf{x} \cdot \mathbf{y},
\tag{4.22}
]
其中 (\mathbf{x} \cdot \mathbf{y}) 是通常的点积。这在许多方面都很有用。(X) 与时空原点 (O) 之间的间隔平方为 (X \cdot X = t^2 - \mathbf{x} \cdot \mathbf{x})，而 (X) 与 (Y) 之间的间隔平方为
[
(X - Y) \cdot (X - Y) = X \cdot X - 2X \cdot Y + Y \cdot Y.
\tag{4.23}
]
对于四维速度 (V)，我们得到
[
V \cdot V = \gamma^2 - \gamma^2 \mathbf{v} \cdot \mathbf{v} = (1 - \mathbf{v} \cdot \mathbf{v})^{-1}(1 - \mathbf{v} \cdot \mathbf{v}) = 1.
\tag{4.24}
]
这正是粒子四维速度所预期的约束条件。将这个约束对 (\tau) 求导，可以推出 (A \cdot V = 0)，这也可以利用 (A) 和 (V) 的显式公式加以验证。

粒子具有一个洛伦兹不变的属性，即其质量 (m)，恒为正值。该质量定义为，由某个粒子在其参考系中静止的观测者，通过常规手段（例如用杠杆天平与标准质量比较）测得的数值。因此，还存在另一个四维矢量 (P = mV)，称为粒子的四维动量，其洛伦兹变换方式与 (V) 相同。它的分量为
[
P = (m\gamma, m\gamma \mathbf{v}).
\tag{4.25}
]
(V) 的约束条件 (4.24) 意味着 (P \cdot P = m^2)。将四维动量的时间分量和空间分量分别记作
[
P = (E, \mathbf{p}) = (m\gamma, m\gamma \mathbf{v}).
\tag{4.26}
]
(E = m\gamma) 称为相对论能量，(\mathbf{p} = m\gamma \mathbf{v}) 称为相对论三维动量。约束 (P \cdot P = m^2) 便成为重要关系式
[
E^2 - \mathbf{p} \cdot \mathbf{p} = m^2.
\tag{4.27}
]
在粒子物理探测器中，(E) 和 (\mathbf{p}) 可以被直接测量，通过上述关系式即可推知粒子的质量。一种变通情况是，当某个粒子（例如希格斯粒子）迅速衰变而不留下自身径迹时，其衰变产物留下的径迹可被用于测量它们的能量和动量。将这些量相加，即可得到原初衰变粒子的能量和动量，进而计算出它的质量。

在非相对论极限下，四维动量 (P) 退化为
[
P = \left( m + \frac{1}{2}m|\mathbf{v}|^2, m\mathbf{v} \right),
\tag{4.28}
]
其空间部分 (\mathbf{p} = m\mathbf{v}) 就是粒子的普通三维动量。时间分量则与通常的能量相关，因为它是粒子质量与通常动能之和。我们稍后将回到这一点。

114
狭义相对论
4-矢量 mA 类似于牛顿第二定律中的左侧项 ma。因此，质量为 m 的粒子的相对论运动方程为
mA = F ,
(4.29)
其中 F 是一个 4-矢量力。要使此方程具有内容，需要了解在感兴趣的物理情境下的 F。由于 A · V = 0 自动成立，任何 4-力必须满足约束条件
F · V = 0。设计合理的 4-力并不容易。我们在第2章中考虑过的引力没有一个简单的 4-矢量等价形式。此外，在空间上分离的粒子之间瞬时作用的力与相对论不相容，因为不同的观察者对空间分离事件的时间没有一致认识，对粒子之间的距离也没有一致认识。更重要的是，在相对论中，信号的最大速度是光速，因此超距的瞬时作用被排除了。
一种可以用 4-力描述的力是电磁场 E 和 B 对带电粒子施加的洛伦兹力 (Lorentz force)。只有粒子瞬时位置处的场强才有贡献。我们将在以 4-矢量形式重新考虑电磁场和麦克斯韦方程组之后，在下文讨论这一点。
另一个我们可以精确建模 4-力的情况是两个物体短暂碰撞然后分离。对于点粒子，碰撞是时空中单一位置的事件，所有观察者都对其位置有一致认识。这些力产生瞬时冲量，突然改变 4-速度。我们不需要知道这些变化的细节，因为它们取决于碰撞的性质，但是第一个粒子对第二个粒子施加的冲量是第二个粒子对第一个粒子施加的冲量的负值。这类似于牛顿第三定律。重要的结果是，在碰撞中总 4-动量守恒。我们通过假设 4-力在相同的（无穷小）间隔内作用，并且方向相反，从而得出相同的结论，因此
m(1)A(1) = F ,
且
m(2)A(2) = −F ,
(4.30)
其中 m(1) 和 A(1) 是第一个粒子的质量和 4-加速度，m(2) 和 A(2) 是第二个粒子的质量和 4-加速度。将这些方程相加得到 m(1)A(1) + m(2)A(2) = 0，因此 m(1)V (1) + m(2)V (2) 对 τ 的导数为零。所以
m(1)V (1) + m(2)V (2) = 常数 ,
(4.31)
确认了总 4-动量守恒。4-动量守恒是相对论动力学的一个基本结果。它将能量守恒和 3-动量守恒结合成一个单一的方程，具有令人惊讶且意义重大的后果，我们将会看到。
4.3.1 牛顿力学与相对论动力学的比较
到目前为止，我们的讨论主要集中在时空及其洛伦兹变换，以及速度、加速度和动量的相对论定义上。这一切都相当形式化，但牛顿力学和相对论动力学的预测确实存在真正的差异。特别是，4-动量守恒意味着根据牛顿力学和相对论动力学，两个粒子碰撞的结果是不同的。为了说明这一点，我们只需要考虑一次沿一条直线的弹性碰撞，例如

相对论动力学
115
x1轴方向。我们假设第一和第二个粒子具有已知的入射速度u(1)和u(2)。碰撞后，粒子质量不变，我们希望求得出射速度v(1)和v(2)。

在牛顿(Newton)动力学中，动量与能量守恒要求
m(1)v(1) + m(2)v(2) = m(1)u(1) + m(2)u(2) (4.32)
以及
1/2 m(1)(v(1))² + 1/2 m(2)(v(2))² = 1/2 m(1)(u(1))² + 1/2 m(2)(u(2))² 。 (4.33)
动能守恒，因为对于点粒子而言，不存在能够吸收内能的内部运动。由这两个方程，可以通过消去其中一个速度并得到关于另一个速度的二次方程来确定未知量v(1)和v(2)。一个有用的技巧是注意到其中一个解为v(1) = u(1)和v(2) = u(2)（此时粒子彼此错过），但我们关心的是另一个解。

在相对论动力学中，4-动量守恒要求
m(1)V(1) + m(2)V(2) = m(1)U(1) + m(2)U(2) ， (4.34)
其中U(1)和U(2)是粒子的入射4-速度，V(1)和V(2)是出射4-速度。U(1)的空间和时间分量分别为γ(u(1))u(1)和γ(u(1))，其他4-速度也类似。因此，相对论性动量和能量守恒要求
m(1)γ(v(1))v(1) + m(2)γ(v(2))v(2) = m(1)γ(u(1))u(1) + m(2)γ(u(2))u(2) (4.35)
以及
m(1)γ(v(1)) + m(2)γ(v(2)) = m(1)γ(u(1)) + m(2)γ(u(2)) 。 (4.36)
典型的特征是，在这类相对论方程中会出现包含平方根的γ因子。这些方程同样可确定未知量v(1)和v(2)，但代数运算现在更为复杂。和之前一样，一个平凡解是v(1) = u(1)和v(2) = u(2)，知道这一点有助于找到另一个解。

对于速度远小于光速的粒子，相对论方程与牛顿方程一致。要看出这一点，只需在方程(4.35)的所有四项中作近似γ ≃ 1，便可恢复动量守恒方程(4.32)。在方程(4.36)中，我们需要在所有四项中作近似γ(w) ≃ 1 + 1/2 w²，得到
m(1) + 1/2 m(1)(v(1))² + m(2) + 1/2 m(2)(v(2))² = m(1) + 1/2 m(1)(u(1))² + m(2) + 1/2 m(2)(u(2))² 。 (4.37)
消去m(1) + m(2)后，这与能量守恒方程(4.33)一致。

对于高速碰撞，牛顿情形和相对论情形中的方程明显不同，对出射速度v(1)和v(2)的预测也不同。无需赘述代数过程，一个例子便足以说明这一点。假设m(1) = 2且m(2) = 1，u(1) = 3/5，u(2) = 0。则在牛顿情形中，出射粒子的速度为v(1) = 1/5和v(2) = 4/5，而在相对论情形中速度不同，为v(1) = 9/41和v(2) = 21/29。（我们选取不等质量，因为若m(1) = m(2)，则两种情形下的出射速度均为v(1) = 0和v(2) = 3/5。）

116
狭义相对论
这里只出现有理数（简单分数）有点令人惊讶。容易证明，如果 (u(1)) 是有理数，(u(2) = 0)，且质量比为有理数，那么在牛顿情形中，(v(1)) 和 (v(2)) 也是有有理数。在相对论情形中，只要 (u(1)) 和 (\gamma(u(1))) 同为有理数，且 (u(2) = 0)，也可以证明 (v(1)) 和 (v(2)) 是有理数。这就是我们选择 (u(1) = \frac{3}{5}) 的原因。因为 ((3,4,5)) 是一组毕达哥拉斯三元组 (Pythagorean triad)，有 (\gamma(u(1)) = \frac{5}{4})。类似地，出射的相对论速度 (v(1) = \frac{9}{41}) 和 (v(2) = \frac{21}{29}) 分别与毕达哥拉斯三元组 ((9,40,41)) 和 ((20,21,29)) 相关联，因此 (\gamma(v(1)) = \frac{41}{40})，(\gamma(v(2)) = \frac{29}{20})。

总之，相对论 4-动量守恒以一种新的方式结合了牛顿关于动量守恒和能量守恒的概念，并且对于高速碰撞，在细节上产生了不同的结果。高能粒子碰撞实验表明，相对论预言是正确的，而牛顿动力学在此领域不再成立。

4.3.2 (E = mc^2)

现在我们来到相对论最著名、最深刻的预言之一。我们已经看到，对于一个粒子，4-动量的时间分量正是能量的相对论版本，即 (m\gamma(v))，其中 (m) 是质量，(v) 是通常的 3-速度。因为 (\gamma(0) = 1)，静止粒子的能量为 (E = m)。这被称为粒子的静止能量或静质量。如果我们没有将光速 (c) 取为 1，就会得到爱因斯坦 (Einstein) 的著名公式 (E = mc^2)。对于运动较慢的粒子，(\gamma(v) \simeq 1 + \frac{1}{2}|\mathbf{v}|^2)，相对论能量为
[
E \simeq m + \frac{1}{2}m|\mathbf{v}|^2 , \tag{4.38}
]
即静止能量与标准牛顿动能之和。

我们看到，在非相对论性速度的碰撞中，粒子的静止能量会相互抵消，因为它们在能量守恒方程 (4.37) 两边同样出现。因此，在牛顿动力学中可以忽略静止能量。爱因斯坦对相对论的信仰及其对物理学的深刻洞见，使他确信粒子的静止能量，即其质量 (m)，仍然具有物理意义，并且必定可以转化为其他形式的能量。这一预言当然是正确的，并已在核物理和粒子物理领域中以无数种方式得到证实。

例如，中子 (n) 的质量比质子 (p) 略大，它通过以下过程衰变，半衰期约为 10 分钟：
[
n \to p + e^- + \bar{\nu}_e , \tag{4.39}
]
其中 (e^-) 是电子，(\bar{\nu}_e) 是反电子中微子，是几种中微子中的一种。电子质量大约是中子与质子质量差的四分之一，而反中微子质量则更小得多。因此，虽然中子的大部分静止能量重新表现为质子的静止能量，少量表现为另外两个粒子的静止能量，但仍然有一些剩余能量。这些能量变成了出射粒子的动能。已经证实，在中子衰变中，总体上相对论 4-动量（即相对论动量和能量）是守恒的。

正如我们将在第 11 章讨论的那样，静止能量对于通过核裂变产生能量具有重要意义。像铀这样的重原子核，其静止能量略大于其裂变碎片的静止能量。多余的能量表现为产物的动能，

更多关于4-矢量
117
图 4.5 大型强子对撞机(Large Hadron Collider)的 ATLAS 探测器内两个质子的碰撞。质子被束流管遮挡，只能看到出射粒子。
这些能量可用于加热水、驱动涡轮机并发电。与中子衰变的情况一样，释放的动能不到原始原子核质量的 1%，但从日常角度看，这仍是非常巨大的能量。举例来说，如果一个出射粒子的相对论能量仅比其静能高出 0.5%，那么它的速度 v 就是光速的十分之一（因为当 v = 0.1 时，$\frac{1}{2}mv^2 = 0.005m$），这对蒸汽驱动涡轮机来说已经大得惊人。与等量原子在化学反应中释放的能量相比，这一能量也是巨大的。因此，运行核电站所需燃料的质量远少于燃煤、燃气或燃油电站。
反过来，也可以将粒子的动能转化为新粒子的静能（即质量）。这在粒子加速器的高能碰撞中经常发生。大型强子对撞机中两个质子的碰撞通常会产成数百个新粒子，如图 4.5 所示。之所以能做到这一点，是因为入射质子的总能量（主要是动能）约为 10 TeV，大约是一个质子静能的 $10^4$ 倍，因此有足够的能量产生数百个新的质子和反质子，每个都带有可观的动能。实际上，大多数新粒子是 π 介子、电子和 μ 子，它们的质量比质子小。
4.4
更多关于4-矢量
由于4-矢量的洛伦兹内积 (4.22) 中出现负号，考虑给每个4-矢量 X 配一个第二4-矢量 X 会很方便。这个 X 的时间分量与 X 相同，但空间分量的符号相反，所以如果 X = (t, x)，那么 X = (t, −x)。⁴ 类似的符号反转适用于所有4-矢量。X = (t, x) 与 Y = (u, y) 的内积可以写作 X·Y 或 X·Y，两者都定义为 $tu - \mathbf{x} \cdot \mathbf{y}$。
⁴ 在许多狭义相对论的表述中，X 的分量带有上标指标，而 X 的分量带有下标指标。我们稍后将使用这种记号。

118
狭义相对论

约定是，如果内积涉及两个都没有下划线的4-矢量，那么在空间点乘部分的前面会明确加上一个负号。如果其中一个4-矢量带有下划线，那么内积中就没有显式的负号，任何负号都来自带下划线4-矢量的空间分量。
存在从X的变换规则推出的X的洛伦兹变换规则。在旋转下，X和X的变换相同，因为对x的旋转也会旋转−x。然而，对于快度为θ的boost，当作用在X的分量上时，需要将boost公式中θ的符号反转。这很容易从方程(4.10)看出，其中交换x1和−x1需要同时交换eθ和e−θ。
在时空中，很自然地将偏导数∂/∂t和∇ = (∂/∂x1, ∂/∂x2, ∂/∂x3)组合成一个4-矢量算符，即∇的洛伦兹对应物。这是一个带下划线的4-矢量
∂ = ( ∂/∂t, ∇ ) . (4.40)
（必须检查洛伦兹变换的效果才能看出∂应该带下划线。大致而言，这是因为坐标出现在偏导数的“分母”中。）还有一个常规的4-矢量算符 ∂ = ( ∂/∂t, −∇ )。标量场ψ的导数组合成4-矢量
∂ψ = ( ∂ψ/∂t, ∇ψ ) 和 ∂ψ = ( ∂ψ/∂t, −∇ψ ) . (4.41)
另一个有用的算符是洛伦兹不变的波动算符 ∂·∂ = ∂²/∂t² − ∇²。这出现在波动方程中
∂²ψ/∂t² − ∇²ψ = 0 . (4.42)
回忆一下，平面波解是
ψ(x, t) = e^(i(k·x − ωt)) , (4.43)
波速为1（光速），因为方程(4.42)要求
ω² − k·k = 0 . (4.44)
ψ指数中的相位是4-矢量 K = (ω, k) 和 X = (t, x) 内积的负值，即 −K·X = k·x − ωt。因为K像4-矢量一样变换，不同观察者会感知到波具有不同的频率ω和空间波矢k。但所有观察者都一致认为速度为1，因为方程(4.44)是洛伦兹不变的条件 K·K = 0。

4.5 麦克斯韦方程组的相对论性特征

电磁学中的某些要素显然是4-矢量。电荷密度ρ和电流密度j组合成一个4-电流密度 J = (ρ, j)。守恒方程 ∂ρ/∂t + ∇·j = 0 可以简单地用4-矢量形式表示为
∂·J = 0 . (4.45)
符号正确是因为 ∂ = ( ∂/∂t, −∇ ) 中显式包含了负号。J是一个场，在整个时空中定义，但对于一个点粒子，电荷密度是奇异的，并且

麦克斯韦方程组的相对论性特征
119
集中在粒子的瞬时位置上。j 等于 ρ 乘以粒子速度 v，因此 J = (ρ, ρv)，这与粒子的 4-速度 V 密切相关。（没有显式伽马因子是因为 ρ 是一个密度。）一个粒子的总电荷 q 与其质量 m 一样，是洛伦兹不变量。
势 Φ 和 A 也组合成一个 4-矢量势 A = (Φ, A)。与 J 一样，这是一个在时空中处处有定义的场。洛伦兹规范条件，虽然不是电磁学最基本的方程，但可以简洁地写作 ∂·A = 0，因此是洛伦兹不变的。
为电场和磁场寻找一个洛伦兹协变的表述则更具挑战性。E 和 B 合起来有六个分量，并且根据公式 (3.57)，每个分量都是作用在势（可能是 Φ 或 A 的一个分量）上的时间或空间导数两项之和。场的 4-矢量版本涉及 ∂A，没有内积。就 ∂A 本身而言，它有十六个分量，但如果我们对其进行反对称化，那么只会剩下六个独立的分量。我们需要一个矩阵阵列来展示这一点。
∂A 是一个矩阵，其中每一项都是一个势的导数：
∂A =




∂Φ/∂t
∂A1/∂t
∂A2/∂t
∂A3/∂t
−∂Φ/∂x1
−∂A1/∂x1
−∂A2/∂x1
−∂A3/∂x1
−∂Φ/∂x2
−∂A1/∂x2
−∂A2/∂x2
−∂A3/∂x2
−∂Φ/∂x3
−∂A1/∂x3
−∂A2/∂x3
−∂A3/∂x3



.
(4.46)
它有一个转置形式 (∂A)ᵀ，行列互换：
(∂A)ᵀ =





∂Φ/∂t
−∂Φ/∂x1
−∂Φ/∂x2
−∂Φ/∂x3
∂A1/∂t
−∂A1/∂x1
−∂A1/∂x2
−∂A1/∂x3
∂A2/∂t
−∂A2/∂x1
−∂A2/∂x2
−∂A2/∂x3
∂A3/∂t
−∂A3/∂x1
−∂A3/∂x2
−∂A3/∂x3




.
(4.47)
反对称化的矩阵 F = ∂A − (∂A)ᵀ 被称为电磁场张量，它是
F =





0
∂A1/∂t + ∂Φ/∂x1
∂A2/∂t + ∂Φ/∂x2
∂A3/∂t + ∂Φ/∂x3
−∂Φ/∂x1 − ∂A1/∂t
0
−∂A2/∂x1 + ∂A1/∂x2
−∂A3/∂x1 + ∂A1/∂x3
−∂Φ/∂x2 − ∂A2/∂t
−∂A1/∂x2 + ∂A2/∂x1
0
−∂A3/∂x2 + ∂A2/∂x3
−∂Φ/∂x3 − ∂A3/∂t
−∂A1/∂x3 + ∂A3/∂x1
−∂A2/∂x3 + ∂A3/∂x2
0




.
(4.48)
F 对角线以下的每个分量都是其以上某个分量的负值。
这里的六个独立分量恰恰是 E 和 B 的六个分量，我们可以通过将 F 与表达式 (3.57) 比较并回顾旋度的定义 (3.22) 来看出这一点。用电场和磁场来表示，场张量是
F =




0
−E1
−E2
−E3
E1
0
−B3
B2
E2
B3
0
−B1
E3
−B2
B1
0



,
(4.49)
并且从时空的观点来看，它扮演着完整电磁场的角色。

120
狭义相对论
在洛伦兹变换下，∂A 作为洛伦兹4-矢量进行双重变换，因为 ∂ 和 A 各自作为4-矢量变换，而 (∂A)T 以类似方式变换。F 被称为4-张量。我们不准备给出 F 的全部洛伦兹变换公式。转动只是将 E 和 B 分别作为3-矢量进行旋转，但快度为 θ 的推促 (4.7) 的效果更为有趣。它产生的新场为
E′
1 = E1 ,
B′
1 = B1
E′
2 = E2 cosh θ −B3 sinh θ ,
B′
2 = B2 cosh θ + E3 sinh θ
E′
3 = E3 cosh θ + B2 sinh θ ,
B′
3 = B3 cosh θ −E2 sinh θ ,
(4.50)
这清楚地混合了电场和磁场的某些分量。这些公式可以用推促的速度 v = tanh θ 表示，只需像之前一样写出 cosh θ = γ(v) 和 sinh θ = γ(v)v 即可。

除 F 外，还存在第二个4-张量 eF，可以通过交换 E 和 B 并改变一个符号来构造。它被称为 F 的电磁对偶。其精确形式为
eF =




0
−B1
−B2
−B3
B1
0
E3
−E2
B2
−E3
0
E1
B3
E2
−E1
0



,
(4.51)
其中 F 中的 (E, B) 被替换为 (B, −E)。在推促下，eF 的洛伦兹变换方式与 F 相同。通过检查方程(4.50)可以看出这一点。同样，在转动下 eF 与 F 的变换方式相同，因为 E 和 B 在转动下的变换方式相同。

变换(4.50)的一个物理上有趣的结果是，对一个静止观察者表现为纯电场的东西，对一个运动观察者则表现为电场和磁场的组合。这并不真正令人惊讶。一个静止的带电粒子只产生电场，但对于一个运动的观察者，该粒子看起来在向相反方向运动，因此既携带电荷也携带电流。这位运动观察者看到的是由该粒子产生的电场和磁场的组合。类似地，一个静止的电流回路产生纯磁场，但对于一个运动的观察者，磁场构型在空间中被拖拽着移动，并且是随时间变化的，因此根据感应定律(3.26)，它会产生一个电场。

电场和磁场的混合影响了对作用在带电粒子上力的解释。例如，一个在纯磁场中运动的带电粒子会受到力并加速。但对于一个以粒子速度瞬时运动的观察者而言，粒子看起来是从静止开始加速，因此该力必定源于电场（因为对于静止粒子，洛伦兹力中磁场的贡献消失）。

这一切的顶峰是，麦克斯韦(Maxwell)方程组具有洛伦兹协变的特性。四个麦克斯韦方程合并成为仅涉及场张量 F 及其对偶 eF 的两个方程。它们是
∂· F

J ,
(4.52)
∂· eF

0 .
(4.53)
这里的内积是行4-矢量算符 ∂ 作用于的每一列……

麦克斯韦方程组的相对论特性
121
4-张量F和eF。结果是一个新的行4-矢量，其在第一个方程中等于J，在第二个方程中等于零。这两个方程具有明显洛伦兹协变的形式。

我们来检验这些方程与之前形式的麦克斯韦方程组的等价性。将方程(4.52)完整写出，得到
[
\left( \frac{\partial}{\partial t}, -\frac{\partial}{\partial x^1}, -\frac{\partial}{\partial x^2}, -\frac{\partial}{\partial x^3} \right)
\cdot
\begin{pmatrix}
0 & -E_1 & -E_2 & -E_3 \
E_1 & 0 & -B_3 & B_2 \
E_2 & B_3 & 0 & -B_1 \
E_3 & -B_2 & B_1 & 0
\end{pmatrix}
= (\rho, j_1, j_2, j_3).
\tag{4.54}
]
我们看到，第一个分量就是麦克斯韦方程 (\nabla \cdot \mathbf{E} = \rho)，而最后一个分量是
[
\frac{\partial}{\partial t}(-E_3) + \frac{\partial}{\partial x^1}(B_2) + \frac{\partial}{\partial x^2}(-B_1) = j_3,
\tag{4.55}
]
这是麦克斯韦方程(3.28)的一个分量。类似地，(4.53)的第一个分量是麦克斯韦方程 (\nabla \cdot \mathbf{B} = 0)，最后一个分量是
[
\frac{\partial}{\partial t}(-B_3) + \frac{\partial}{\partial x^1}(-E_2) + \frac{\partial}{\partial x^2}(E_1) = 0,
\tag{4.56}
]
这是麦克斯韦方程(3.26)的一个分量。每种情况下的中间两个分量则给出其余的方程。

洛伦兹力方程同样可以修改为洛伦兹协变的形式，这正是带电粒子以任意速度（可能接近光速）运动时的正确形式。原始的洛伦兹力涉及场 (\mathbf{E}) 和 (\mathbf{B}) 以及粒子的速度 (\mathbf{v})。相对论版本则涉及场张量 (F) 和4-速度 (V)。我们将 (V) 与 (F) 的每一列作内积（正如 (\partial \cdot F) 那样），再乘以粒子电荷 (q) 的负值，就得到洛伦兹4-力 (F = -q V \cdot F)。因此，质量为 (m)、电荷为 (q) 的粒子的相对论运动方程是
[
m A = -q V \cdot F,
\tag{4.57}
]
其中 (A) 是4-加速度。4-力 (F = -q V \cdot F) 满足约束 (F \cdot V = 0)，这是因为矩阵 (F) 的反对称性使得双重内积 (V \cdot F \cdot V) 为零。

相对论运动方程会给出与牛顿方程不同的预言。例如，在均匀电场中，牛顿带电粒子的速度会无限增加。相对论粒子也会加速，其能量不断增大，但它的速度被限制在光速以下。

我们应当检验，在牛顿极限下，即当 (v) 很小且 (\gamma \simeq 1) 时，原始的洛伦兹力定律(3.82)能否涌现出来。对于方程(4.57)的最后一个分量，左边是 (m a^3)，即 (m \mathbf{a}) 的第三个分量，而当 (V \simeq (1, \mathbf{v})) 时，右边是 (q (E_3 + v_1 B_2 - v_2 B_1))，即 (q (\mathbf{E} + \mathbf{v} \times \mathbf{B})) 的第三个分量。中间的两个分量则构成完整的3-矢量运动方程。方程(4.57)的第一个分量也很重要，但并非真正独立。它表明
[
m \frac{d\gamma}{d\tau} = q \gamma \mathbf{v} \cdot \mathbf{E},
\tag{4.58}
]
并将粒子的相对论能量 (m \gamma) 的变化率与电场 (\mathbf{E}) 对粒子所作的功等同起来。

122
狭义相对论
在牛顿极限下，上式约化为
d
dt
1
2m|v|2

= qv · E ,
(4.59)
这正是与洛伦兹力相关的能量方程 (3.83)。

麦克斯韦方程组和洛伦兹力定律的相对论形式带来了更深层的认识。从场张量及其对偶张量出发，我们可以构造两个独立的洛伦兹不变量（标量），它们刻画了每一时空点处电磁场的类型。这两个不变量是 F · F 和 F · eF，其中的内积同时按行与列进行。在实际操作中，这意味着计算第一个与第二个四维张量在同一矩阵位置上分量的十六个乘积，并将它们求和；若乘积涉及混合类时/类空分量（即顶行或左列的分量），则需加上一个负号。结果为
F · F

−2(E1E1 + E2E2 + E3E3 −B1B1 −B2B2 −B3B3)

−2(E · E −B · B) ,
(4.60)
F · e
F

−4(E1B1 + E2B2 + E3B3)

−4 E · B .
(4.61)

在上一章中我们讨论过一些特殊的电磁场。从这两个洛伦兹不变量的角度看，它们是特例。对于纯静电场，F · F 为负且 F · eF = 0；而对于纯静磁场，F · F 为正且 F · eF = 0。最后，对于电磁波，|E| = |B| 且 E 正交于 B，故有 F · F = F · eF = 0。

我们之前还考虑过带电粒子在恒定均匀场中的运动。由洛伦兹不变性，我们求得粒子在电场中的加速运动可推广到任何满足 F · F 为负且 F · eF = 0 的场，例如一个电场叠加一个较弱的垂直磁场；粒子在磁场中的圆周运动则推广到任何满足 F · F 为正且 F · eF = 0 的场。现在我们看到，另一个特殊情况是带电粒子在平面电磁波背景中的运动，此时 F · F = F · eF = 0。

4.6
相对论性最小作用量原理
在相对论理论中，作用量往往是洛伦兹不变量，因而与观察者无关。这意味着最小作用量原理 (principle of least action) 是表述相对论场与粒子动力学的一种特别优美的方式。我们将对此作简要讨论，但不再重新推导麦克斯韦方程组，也不重新推导带电粒子在电磁场中的相对论运动方程。

电磁场的作用量 (3.80) 是拉格朗日密度
L = 1
2E · E −1
2B · B + A · j −Φρ ,
(4.62)
在四维时空上的积分，积分元为 d⁴X = d³x dt。该积分元是洛伦兹不变量，因为洛伦兹变换矩阵的行列式为 1，这一点通过 2 × 2

相对论性最小作用量原理
123
简单旋转和boost的矩阵，
cos θ
−sin θ
sin θ
cos θ

和

cosh θ
−sinh θ
−sinh θ
cosh θ

.
(4.63)
拉格朗日量密度 L 可以借助4-矢势 A、4-电流 J 和4-张量场 F = ∂A −(∂A)T 紧凑地表示为
L = −1
4F · F −A · J ,
(4.64)
因此作用量为
S =
Z
−1
4F · F −A · J

d4X .
(4.65)
如果我们略去初始和最终时间 t0 与 t1，并在形式上对整个时空积分，该表达式显然是洛伦兹(Lorentz)不变的。
最小作用量原理要求，对于只在时空某个有限区域 Σ 内非零的场 A 的任意光滑变分，S 取稳定值。该原理导出麦克斯韦(Maxwell)场方程。不同的观测者将对作用量取稳定值的含义达成一致，尽管他们会使用不同的坐标来指定 Σ。
相比之下，我们此前使用的带电点粒子作用量（3.94）不是洛伦兹不变的，而且仅在粒子速度非相对论性时才有效。它需要一些修正，以适用于可与光速比拟的粒子速度。对于自由粒子，相对论性作用量定义为
S = −m
Z
1
γ(v) dt ,
(4.66)
积分形式上沿整个粒子世界线进行。在牛顿极限下，γ(v) ≃1 + 1
2|v|2，该式化为
S ≃
Z
−m + 1
2m|v|2

dt .
(4.67)
第一部分仅仅是一个负常数，第二部分是包含牛顿动能的标准作用量。因此，在略去一个常数后，相对论性作用量具有正确的牛顿极限。
于是，方程(4.15)意味着粒子作用量(4.66)可简化为
S = −m
Z
dτ ,
(4.68)
即沿粒子世界线的积分时空间隔的倍数。在这种形式下，它显然是洛伦兹不变的，并涉及最简单的可用量。对于类时世界线——如图4.6所示，其速度处处小于1的世界线——作用量为负，但对于由粒子接近光速运动的线段组成的世界线，它可以任意接近于零。自由粒子作用量在直线世界线上取最小值，此时粒子以恒定速度运动。

124
狭义相对论
类时路径
(允许)
类空路径
(不允许)
图4.6 大质量粒子的类时世界线。该世界线处处在光锥之内。
对于电荷为 q 的粒子与背景电磁场相互作用的情形，相对论性作用量是自由作用量(4.66)与方程(3.94)中出现的相互作用项 qA(x(t))·v −qΦ(x(t)) 对时间积分的组合。相互作用项无需相对论性修正，因为它们可以表示为4-矢量形式 −q
1
γ(v)V · A。这里，4-速度 V = γ(v)(1, v) 和4-矢势 A = (Φ, A) 均在粒子世界线上的时空点 X = (t, x(t)) 处取值。因此，带电粒子的总相对论性作用量为世界线积分
S =
Z
1
γ(v)(−m −qV · A) dt ,
(4.69)
它可以表达为明显洛伦兹不变的形式
S =
Z
(−m −qV · A) dτ .
(4.70)
对于与相对论性带电粒子耦合的动力电磁场，作用量是场作用量(4.65)（取 J=0）与每个粒子的世界线作用量(4.70)之和。最小作用量原理给出场和粒子的形式上正确的相对论性方程，但并未解决与第3章末尾讨论的自力和快速加速点粒子运动相关的困难。
相对论动力学的另一个例子是质量为 m 的点粒子与背景洛伦兹标量场 ψ 耦合的作用量。该作用量为
S = −m
Z
exp
1
mψ

dτ ,
(4.71)

其中积分沿着粒子世界线，ψ在世界线上的点X处取值。通过最小化S得到的运动方程为
mA = ∂ψ −(∂ψ · V )V . (4.72)
正如所要求的，右边的4-力满足与V内积为零的约束，因为V · V = 1。尽管有趣，但这个方程的物理应用不如相对论洛伦兹力定律(4.57)广泛。

4.7 延伸阅读

E. F. Taylor 和 J. A. Wheeler, 《时空物理：狭义相对论导论》(Spacetime Physics: Introduction to Special Relativity)（第2版），纽约: Freeman, 2001.
W. Rindler, 《相对论：狭义、广义与宇宙学》(Relativity: Special, General and Cosmological)（第2版），牛津: OUP, 2006.
关于相对论粒子碰撞和毕达哥拉斯三元数组的讨论，参见
N. S. Manton, 《有理相对论碰撞》(Rational Relativistic Collisions), arXiv:1406.3014 [physics.pop-ph], 2014.

4_Special_Relativity

(t − u)² − (x − y) · (x − y)

(t − x1)eθt′ + x′1

(t + x1)e−θx′2

x2x′3

这一切的顶峰是，麦克斯韦(Maxwell)方程组具有洛伦兹协变的特性。四个麦克斯韦方程合并成为仅涉及场张量 F 及其对偶 eF 的两个方程。它们是∂· F

J ,(4.52)∂· eF