无标题

发表于2026-05-02|更新于2026-05-02

|浏览量:

title: “后费曼物理学讲义：基础物理的启发之旅”
author:

Nicholas Manton
Nicholas Mee
date: 2026-05-02
language: zh-CN
rights: “翻译仅供个人学习使用”
…

Preface

序言
撰写这本书是一大乐事。它使我们有机会深入思考物理学的所有主要分支，以及它们如何联合起来，构成一幅关于物理世界的连贯图景。最终呈现的，是一部既简明扼要又全面透彻的物理学全景观览。数学是描述我们周围世界诸多现象的自然语言，正如理查德·费曼(Richard Feynman)和吉姆·阿尔-哈利利(Jim Al Khalili)等众多评论者所强调的，数学对于真正理解物理学至关重要。因此，我们的叙述必然是数学化的。我们清晰阐释了支撑现代基础物理的数学推理，并毫不回避地给出了关键方程及其解。

人们对宇宙的科学解释，从未有过如此强烈的求知欲。我们的目标是为基础物理学提供一次启迪人心的巡礼，任何至少学过高中物理和数学的人都能理解。对于那些刚刚走出校门的读者，这本书可以让他们一窥大学物理课程中的大部分内容。本书也适合那些在大学修读过科学或工程数学课程，并希望了解基础物理学直至当前研究前沿的读者。它或许也会吸引那些希望更多了解物理的数学家和计算机科学家。

解释物理世界是许多代人共同努力的成果。今天最优秀的理论，是建立在过去伟大理论的基础之上的。因此，若对牛顿(Newton)、麦克斯韦(Maxwell)、爱因斯坦(Einstein)以及众多为人类理解宇宙作出贡献的科学家所建立的经典物理学没有良好的理解，几乎不可能真正欣赏现代物理学。出于这个原因，书中的许多内容可能看起来是历史性的。然而，这些材料是以现代的风格呈现的，可能与它们最初的表述形式大不相同。我们研究方法的一个关键特征，是一种贯穿《物理世界》全书、如同主旋律般的统一思想——这就是变分原理，其中最重要的例子便是最小作用量原理(principle of least action)。几乎所有成功的物理理论都可以用这一思想来表述，它正是现代物理学的核心。我们的旅程还将带我们领略近年来的科学亮点，包括WMAP和Planck卫星对宇宙微波背景辐射的巡天观测、大型强子对撞机上希格斯玻色子的发现，以及LIGO对引力波的发现。

在此，我们要感谢众多朋友、同事和亲属，是他们鼓励我们写这本书。我们尤其要感谢约翰·巴罗(John Barrow)和乔纳森·埃文斯(Jonathan Evans)的鼓励与建议。

尼克·曼顿(Nick Manton)感谢安东尼·查尔斯沃思(Anthony Charlesworth)、海伦娜·艾塔(Helena Aitta)、罗杰·休曼(Roger Heumann)和艾伦·史密斯(Alan Smith)对本书的讨论和兴趣。他也感谢他的母校达利奇公学(Dulwich College)和查特豪斯公学(Charterhouse)的物理学会，为他提供了向高中毕业班(第六学级)学生讲解最小作用量原理(principle of least action)的机会。他特别感谢直到最近还在达利奇任教的阿拉斯代尔·肯尼迪(Alasdair Kennedy)。他还感谢安妮莉(Anneli)和本(Ben)的鼓励，以及他们在多轮写作和编辑过程中表现出的耐心。

尼克·米(Nick Mee)感谢父母长久以来的支持。他非常感谢约翰·伊斯特伍德(John Eastwood)在众多书籍签售活动中的协助，包括2013年10月在剑桥举行的公众天文学会（Society for Popular Astronomy）年会，那次活动促成了他与尼克·曼顿的一次偶然相遇，并最终促成了本书的撰写。同时，他也要感谢乔纳森·埃文斯(Jonathan Evans)在此次活动期间在冈维尔与凯斯学院(Gonville and Caius College)的热情款待。他还感谢马克·希基(Mark Sheeky)和黛布拉·南丁格尔(Debra Nightingale)的帮助和启发。他热忱感谢他通讯组的所有成员和博客读者给予的鼓励和热情。他特别感谢安吉(Angie)在又一个漫长项目中所表现出的耐心和坚韧。

我们感谢牛津大学出版社(Oxford University Press)的松克·阿德隆(Sonke Adlung)和阿尼娅·沃伦斯基(Ania Wronski)亲自参与将本书付梓，以及苏甘尼亚·卡伦巴耶拉姆(Suganiya Karumbayeeram)及其同事在本书制作过程中的贡献。我们也感谢姆海里·格雷(Mhairi Gray)编制了索引。我们要向在撰写本书过程中所参考其著作的众多作者表示感激。在每章末尾，我们都设有“扩展阅读”(Further Reading)部分，列出了一些关键的书籍和论文。

前言

0_Introduction

0
引言
我们生活在一个迷人世界中，各个尺度上都充满着引人注目的现象。我们正在膨胀的宇宙中充满了数以万亿计的星系，每个星系中心都栖息着一个超大质量黑洞。爆炸的恒星用生命的尘埃播撒星系，而八分钟路程外，一个炽烈的核熔炉释放出能量，使地球保持绿色、生机勃勃、充满生命。我们这颗大理石纹般的、多水的地球可能是独一无二的，也可能是众多演化出智慧生命的天体之一。在更小的尺度上，所有可见物质仅由少数几种基本粒子类型构成，但这些粒子组合成一百多种不同的原子，这些原子又以无数种方式键合在一起。
也许最令人惊讶的是，我们对这些能了解到如此之多，以及如今理解的精确程度。利用天然和人造材料，我们可以制造出令人惊叹的设备，这些设备改变了我们的生活，帮助我们更深入地探究宇宙的奥秘。一些重要的物理现象处于我们可观测的极限。偶尔发生的黑洞碰撞在时空结构中产生微小的涟漪，我们用最灵敏的仪器探测到它们。基本粒子中包括难以捉摸的中微子，它们每天大量穿过我们身体，但只在巨大的地下探测器中被偶尔捕捉到。在人类历史的大部分时间里，人们在日常生活中对物理世界知之甚少。我们确实有幸生活在这样一个时代，它的如此多的秘密正在被揭示。
作为物理学家，我们被永不停歇的好奇心所驱使，去探寻和解释自然的内在运作。这传统上是哲学家的领域，但精巧的理性论证只能带我们走这么远。真正的洞察力建立在实验研究和优美数学模型这两大支柱之上。正如理查德·费曼(Richard Feynman)所说：“如果你想了解自然，欣赏自然，就必须理解她所说的语言。”因此，我们在《物理世界》(The Physical World)中采用了一种毫不掩饰数学的风格。
我们将探索物理学的理论基础，并呈现这门学科本质统一性的宏伟愿景。我们的目标是提供一个广泛的物理学概览，为深入探究各章节所涵盖的主题提供必要的背景和动力。我们全面涵盖了物理定律，但在用相对简单的应用来说明这些定律时有所取舍。在选取材料时，我们融合了几条信息线索：基本定律及其所基于的哲学原理、定律的数学描述、定律的实验基础、定律的历史发展、我们当前理解的不足之处，以及尚待回答的悬而未决的问题。我们遵循阿尔伯特·爱因斯坦(Albert Einstein)的格言：“解释应尽可能简单，但不要更简单”，以提供一个
The Physical World. Nicholas Manton and Nicholas Mee, Oxford University Press (2017).
c⃝Nicholas Manton and Nicholas Mee. DOI 10.1093/acprof:oso/9780198795933.001.0001

2
引言
本书旨在诚实地阐述现代物理学家如何理解他们的学科。我们的目标是呈现一幅引人入胜的物理学图景，以清晰解释每一步骤的风格，简明地推导重要结果。书中数学的水平与《费曼物理学讲义》(Feynman Lectures on Physics)大致相当。我们假设读者熟悉代数，包括矩阵及其行列式，使用笛卡尔坐标和极坐标的几何，基础微积分，以及复数。

在第1章中，我们涵盖一些入门概念：矢量、物理学中变分原理的运用，以及偏微分。我们给出了偏导数易于理解的导论，因为它们是物理学大多数基本方程的基本组成部分，这些方程包括麦克斯韦电磁场方程组、量子力学的薛定谔方程和狄拉克方程，以及广义相对论的爱因斯坦方程。第2章讲述牛顿动力学，以及牛顿万有引力定律在太阳系天体运动中的应用。第3章主要讲述由麦克斯韦方程组描述的电磁场。

粒子和场是经典物理学的关键概念，但牛顿定律与麦克斯韦方程组彼此并不完全相容。爱因斯坦在构思其狭义相对论时解决了这个问题，如第4章所述。在狭义相对论中，通过引入时空这一新颖观念，空间和时间被统一了起来；但随之又出现了一个更深层的问题，因为狭义相对论与牛顿的引力理论不相容。爱因斯坦完成了他的革命，他表明一个相容的粒子、场和引力的理论需要时空是弯曲的，正如他的广义相对论所描述的那样。第6章专门讨论这一理论及其非凡的推论，例如黑洞的存在。为了激发本章中的某些想法，我们的讲述之前先在第5章讨论了弯曲空间，包括一些物理应用。弯曲空间比弯曲时空更容易形象化。

第7章和第8章是关于量子力学的，这是20世纪另一个革命性的思想，对于理解原子尺度上的各种现象至关重要。第9章将量子力学应用于材料的结构和性质，并解释了化学和固态物理学的基本原理。第10章是关于热力学的，它建立在温度和熵的概念之上。我们讨论若干实例，包括引发量子革命的黑体辐射分析。第11章纵览原子核，介绍其性质和行为。利用高能粒子束对原子核进行研究，得以更深地进入物质结构并探求其终极构造单元。第12章探索粒子物理学，并包含量子场论、标准模型和希格斯机制的简短描述。

全书之中，我们精心挑选了能够洞悉基本物理学的应用。第13章关于恒星就是一个延伸的实例，它汇集了物理学诸多分支的思想：引力、量子力学、热力学、核物理和粒子物理。第14章关于宇宙学，纵览始于大爆炸的宇宙整体的结构和演化。我们以第15章作结，该章讨论了遗留下来的一些基本问题，例如量子力学的诠释，以及粒子的终极本性。也简要探索了一些令人兴奋但带有猜测性的思想，以期更好地理解粒子，并将引力与粒子物理中的力统一起来。这些思想包括超对称、孤子和弦论。

延伸阅读
3
在《物理世界》(The Physical World)一书中，我们着重强调了物理学中变分原理的应用，特别是最小作用量原理(principle of least action)，这一方法处于现代理论物理的核心，却在大多数入门介绍中被忽视。我们认为这一概念理应得到更广泛的认知。将作用量(action)引入到理论物理的前沿，是费曼(Feynman)的伟大成就之一。我们对于最小作用量原理如何奠定牛顿(Newton)运动定律的基础，给出了一个简洁且略有新意的解释，并简要说明了作用量在电磁理论与广义相对论中的作用。我们对量子力学的处理方式是传统的，基于薛定谔方程(Schrödinger equation)，但我们也讨论了作用量的角色，以及这如何引出费曼的路径积分方法。

尽管本书主要涉及业已确立的物理学，我们仍描述了许多关键领域的最新进展，例如天体物理学、相对论、核物理与粒子物理。这些进展包括引力透镜、超大质量黑洞、石墨烯、玻色–爱因斯坦凝聚体(Bose–Einstein condensates)、超重核、暗物质、中微子振荡，以及希格斯玻色子(Higgs boson)与引力波的发现。

0.1
延伸阅读
R.P. 费曼(R.P. Feynman)，《费曼物理学讲义》(Feynman Lectures on Physics)（新千年版），纽约：Basic出版社，2010年。
M. 朗盖尔(M. Longair)，《物理学中的理论概念：对物理理论推理的另一种观点》(Theoretical Concepts in Physics: An Alternative View of Theoretical Reasoning in Physics)（第二版），剑桥：剑桥大学出版社(CUP)，2003年。
R. 彭罗斯(R. Penrose)，《通往实在之路：宇宙法则的完整指南》(The Road to Reality: A Complete Guide to the Laws of the Universe)，伦敦：Vintage出版社，2005年。

1_Fundamental_Ideas

1
基本思想
1.1
变分原理
我们日常生活中的许多活动都旨在优化某个量。我们经常尝试以最小的努力或尽可能快地完成任务。举一个简单的例子：我们可能会规划一次驾车旅行以最小化旅行时间，选择一条较长的路线以便在高速公路上行驶得更快。图1.1是城镇A和B之间的示意道路图。普通道路上的速度是50 mph，而经过F、G和H的高速公路上的速度是70 mph。最短旅行时间是沿路线AFGB的1 hr 24 mins，尽管这不是最短的路线。

A
5
F
75
B
10
15
G
70
14
H
图1.1 道路图，距离以英里计。普通道路上的速度是50 mph，高速公路上是70 mph。

值得注意的是，许多自然过程也可以类似地看作是在优化某个量。我们说它们满足一个变分原理。一根在两个点之间拉伸的弹性带沿着一条直线；这是最短路径，也最小化了弹性带的能量。我们可以如下理解为什么直线是最短路径。首先我们需要假设最短路径确实存在。在当前情况下这是显然的，但还有更复杂的优化问题不存在最优解。现在假设最短路径上某处有一段弯曲。任何弯曲段都可以近似为一个圆的一部分，如图1.2所示，并且利用一点三角学知识，我们可以验证直线段CD比圆弧CD短。实际上，圆弧的长度是2Rα，而直线段的长度是2R sin α，更短。因此，最短路径在某处是弯曲的这一假设是矛盾的。所以最短路径是直的。

图1.2

《物理世界》(The Physical World)。尼古拉斯·曼顿 (Nicholas Manton) 和尼古拉斯·米 (Nicholas Mee)，牛津大学出版社 (2017)。
© 尼古拉斯·曼顿和尼古拉斯·米。DOI 10.1093/acprof:oso/9780198795933.001.0001

变分原理
5
R
C
2α
D
图1.2 路径的任何弯曲部分都可以用圆的一部分来近似。穿过该圆的直弦比弯曲路径短。

图1.2

肥皂膜是另一个熟悉的、能量优化的物理例子。尽管它最初可能在振动，但肥皂膜最终会静止下来，处于静止状态。此时它的能量是其恒定的表面张力与面积的乘积，因此当面积最小时能量最小。对于三维空间中的任何光滑曲面，有两个主曲率半径，r1和r2；对于最小面积曲面，两个曲率半径相等，但指向相反的方向。曲面的每个区域都呈马鞍形，如图1.3所示。我们可以从物理上理解为什么表面张力会产生这种效果。在曲面的每个小面元上，两个曲率产生力。如果它们大小相等方向相反，则它们抵消，面元处于平衡。因此，物理中的能量和力的概念与几何中的最小面积概念之间有着密切的联系。我们将在第5章进一步讨论曲面的几何。

图1.3

图1.3 肥皂膜是最小面积曲面。两个曲率半径相等，但曲率方向相反。一个方向的曲率产生的力与另一个方向的曲率产生的力平衡。

图1.3

6
基本思想
1.1.1
几何光学——反射与折射
费马原理 (Fermat’s principle) 在光学领域是物理学中最早发现的最优化原理。它由皮埃尔·德·费马 (Pierre de Fermat) 于1662年提出。几何光学研究的是理想化的、无限细的光束，即光线。在现实世界中，使用抛物面镜或让光通过带有窄缝的屏幕，可以获得接近理想光线的狭窄光束。即使光不受这种物理限制，它仍然可以被视为沿不同方向传播的光线的集合。

费马原理指出，光线在给定两点A和B之间所取的路径，是使总传播时间最小的路径。这条路径可能是直线，也可能在穿过不同介质时发生弯折甚至弯曲。一个基本假设是，在给定介质中，光线具有确定的、有限的速度。在均匀介质中，例如空气、水或真空，传播时间等于路径长度除以光速。由于速度恒定，时间最小的路径也就是最短路径，即从A到B的直线路径。因此，光线在均匀介质中沿直线传播，这一点很容易验证。从位于A的光源以正确方向出发的光线将到达B；尽管光源可能向四面八方发光，但A和B之间连线上的任何一处小障碍物都会阻挡光线到达B，并在那里投下阴影。

费马原理可以用来理解光学的两个基本定律——反射定律和折射定律。首先考虑反射。假设在均匀介质中有一面长的平面镜，光源位于A点，光接收点B与A在镜子的同侧，如图1.4所示。考虑所有从A到B且只经镜面反射一次的可能光线。若要使光从A到B的传播时间最小，反射前后的路径段必须是直线。我们需要知道的是反射点X的位置。

图1.4

A
a
b
x
B
X
0
X
(L -X )
镜子
L
ϑ
ϕ
图1.4 光线在镜面上的反射。

图1.4

图中的坐标将x轴沿镜面设置，反射点X位于x = X处。考虑图中的各个长度，暂时忽略角度ϑ和ϕ。利用毕达哥拉斯定理确定路径长度，我们发现光经X点从A到B的时间为

变分原理

T = 1
c
p
a² + X² +
p
b² + (L −X)²
,
(1.1)

其中 c 是光沿两段直线路径的速度。T 对 X 的导数为

dT
dX = 1
c

X
√a² + X² −
L −X
p
b² + (L −X)²
!
,
(1.2)

当此导数为零时，旅行时间取极小值，从而得到关于 X 的方程：

X
√a² + X² =
L −X
p
b² + (L −X)² .
(1.3)

此时角度的概念就派上用场了，因为方程 (1.3) 等价于

cos ϑ = cos ϕ ,
(1.4)

这可以从图 1.4 中看出。因此 ϑ 和 ϕ 相等。我们并未明确求出 X，但这并不重要。重要的结果是：入射光线与反射光线在镜面处与法线的夹角相等。这就是反射的基本定律。事实上，通过化简方程 (1.3) 或考虑 cot ϑ = cot ϕ，我们得到 X/a = (L−X)/b，从而很容易解出 X。

图 1.4

折射现象与此大同小异。在折射中，光线从光速为 c₁ 的介质进入光速为 c₂ 的另一个质。折射的几何关系与反射有所不同，但差异并不显著，我们采用类似的坐标（见图 1.5）。根据费马原理 (Fermat’s principle)，从 A 到 B（或从 B 到 A）的实际光线的路径是使传播时间取极小值的路径。注意，除非 c₁ = c₂，否则这条路径绝非从 A 到 B 的最短路径（即两点间的直线）。最小时间路径存在一个弯折，正如我们之前考虑的高速公路旁路线一样。从 A 到 X 和从 X 到 B 的光线必须是直线，因为每段路径完全处于单一介质内且以单一速度传播。因此，光从 A 行至 B 的总时间为

图 1.5

T = 1
c₁
p
a² + X² + 1
c₂
p
b² + (L −X)² .
(1.5)

同样，当 T 对 X 的导数为零时，时间 T 取极小值，即

dT
dX = 1
c₁
X
√a² + X² − 1
c₂
L −X
p
b² + (L −X)² = 0 .
(1.6)

由此得到关于 X 的方程：

1
c₁
X
√a² + X² = 1
c₂
L −X
p
b² + (L −X)² .
(1.7)

我们并非真正想解出此方程，而是希望用更几何化的方式表达它。借助图 1.5 中的角度 ϑ 和 ϕ，该方程变为

图 1.5

1
c₁
cos ϑ = 1
c₂
cos ϕ ,
(1.8)

8
基本概念
X
0
介质2
光速 c2
介质1
光速 c1
X
ϕ
ϑ
(L - X)
L
x
b
a
A
B
图1.5 光线的折射。c2（介质2中的光速）小于c1（介质1中的光速）。

图1.5

或更实用的形式
cos ϕ = c2
c1
cos ϑ 。
(1.9)
这就是威里布罗德·斯涅尔(Willebrord Snell)折射定律。¹ 它将光线的角度与光速之比 c2 和 c1 联系起来。即使光速未知，斯涅尔定律也可以通过实验检验。为此，必须改变光束击中表面的角度，使 A 点和 B 点不再固定。当 cos ϕ 相对于 cos ϑ 绘图时，得到的图形是一条过原点的直线。

假设光线从空气进入水中。水中的光速小于空气中的光速，因此 c2 小于 c1，且 cos ϕ 小于 cos ϑ。所以 ϕ 大于 ϑ。如图1.5所示，容易验证，结果是光线向水面法线方向弯折进入水中。

图1.5

斯涅尔定律有许多有趣的推论。它是诸如光聚焦和透镜系统等应用的关键。它也解释了全内反射现象。当一束源自 B 点（位于光速较慢的介质中）的光线以较小的角度 ϕ 射向表面，使得 cos ϕ 接近 1，从而导致 cos ϑ > 1 时，全内反射就会发生。此时角度 ϑ 无解，因此光线无法穿越表面进入介质1，整束光都被内部反射回来。全内反射的临界入射角 ϕc 取决于两种介质中的光速之比。方程(1.9)表明

¹ 斯涅尔定律用光线与表面法线（垂直线）之间的夹角 ϕ′ = π/2 − ϕ 和 ϑ′ = π/2 − ϑ 表示可能更常见，此时其形式为 sin ϕ′ = (c₂/c₁) sin ϑ′。

变分原理
9
即 cos ϕc = c2 c1。这一结果对光纤中光信号传输等应用至关重要。

最初，折射定律是用方程(1.9)右端的折射率之比来表达的。正是通过考察费马原理(Fermat’s principle)，物理学家意识到该比值可以理解为光速之比。后来，当可以直接测量光在各种介质中的速度时，人们发现光在真空中传播速度最快，在空气中仅略慢一点。然而，在水或玻璃等密度更大的材料中，光速要慢得多，大约慢20%–40%。真空中的光速是一个绝对常数，为299,792,458 m s⁻¹，通常近似为3×10⁸ m s⁻¹。在稠密介质中，光速可能依赖于波长，因此当光线从空气进入玻璃或水时，不同颜色的光会偏折出不同的角度，这就是为何折射后的白光光束进入玻璃棱镜或水滴时会分解。

1.1.2 变分原理的适用范围

我们已经简要领略了如何将某些数学形式的自然定律用变分原理来表述。这些原理实际上要普适得多，在整个物理学中随处可见。无论是粒子的运动、场的波形、量子态，还是时空本身的形状，我们都发现自然过程总是在优化某个物理量。通常这意味着该量取极大值或极小值，但也可能是鞍点。²最重要的这类量被称为作用量(action)，许多物理定律都可以表述为最小作用量原理(principle of least action)。分析这些原理的恰当数学工具称为变分法(calculus of variations)。它是普通微积分的推广，带有自己额外的工具，我们将在后文介绍。

早在18世纪，让·勒朗·达朗贝尔(Jean le Rond D’Alembert)、莱昂哈德·欧拉(Leonhard Euler)和约瑟夫-路易·拉格朗日(Joseph-Louis Lagrange)就意识到牛顿运动定律可以从最小作用量原理推导出来。19世纪30年代，威廉·罗文·哈密顿(William Rowan Hamilton)完善了这一方法。我们现在知道，关于电场和磁场的麦克斯韦方程组也来自电磁作用量原理，1915年大卫·希尔伯特(David Hilbert)证明了爱因斯坦新发现的、用弯曲时空描述引力的方程也源于一个作用量原理。甚至经典物理与量子力学之间的关系，也是通过作用量原理才能最好地理解。这一思想由保罗·狄拉克(Paul Dirac)首创，并由费曼(Feynman)完善。如今，作用量原理被视为概括粒子与场行为的最佳方法。

以这种方式表述物理理论的一个优点是，最小作用量原理简洁且易于记忆。例如，在麦克斯韦对电磁学的原始表述中，关于电磁场的方程有20个。在由约西亚·威拉德·吉布斯(Josiah Willard Gibbs)提出的现代矢量记法下，麦克斯韦方程组为四个，再补充以带电粒子的洛伦兹力定律(Lorentz force law)。而作用量则不同，它是从电磁场和带电粒子轨迹构造出的单一量，我们将在第3章中加以描述。在建立更复杂的基本粒子规范理论(gauge theories)（见第12章）乃至弦理论(string theory)等更高深的理论时，这种简洁性至关重要。

² 地形中的鞍点是指高度的驻点，类似于山口，但既非极大值也非极小值。

10
基本思想
在第2章中，我们将回到这些思想，并展示如何从最小作用量原理(principle of least action)出发来理解牛顿力学。通过考虑物理物体在空间中运动的所有可能的无穷小变化，我们将推导出牛顿运动定律。不过，我们首先必须用数学来描述这种运动发生的舞台。

1.2
欧几里得空间与时间
我们熟悉的3维欧几里得空间(Euclidean space)，简称3-space，常记为R³，是物理世界戏剧上演的舞台。这出戏剧在时间中展开，但在非相对论物理学中，时间与空间并未统一，因此我们暂时不需要对时间进行几何描述。3-space具有欧几里得对称性，包括旋转和平移，其中平移是不带旋转的刚性移动。最基本的几何概念是两点之间的距离，并且这个距离在平移和旋转下保持不变。以不依赖于位置和方向的方式来表述物理定律是很自然的。这样，当整个物理系统被平移或旋转时，定律的形式不会改变。这赋予了这些定律一种几何意义。

P
x
O
A
B
x₁
x₂
x₃
1-轴
2-轴
3-轴
图1.6 用矢量x表示点P。

图1.6

空间中的一个点最容易用笛卡尔坐标(Cartesian coordinates)来描述。为此需要选取一个原点O，以及一组相互正交（即成直角）的坐标轴。每个点P唯一地由三个实数表示，合起来写成一个矢量x = (x₁, x₂, x₃)。通常，我们不区分一个点和代表它的矢量。如图1.6所示，要从O到达P，先沿1-轴移动距离x₁到A，然后平行于2-轴移动距离x₂到B，最后平行于3-轴移动距离x₃到P。O本身用矢量(0, 0, 0)表示。

图1.6

x的长度或大小是从O到P的距离，记为|x|。这个距离可以利用毕达哥拉斯(Pythagoras)定理计算。OAB是一个直角三角形，所以从O到B的距离是√(x₁² + x₂²)，又因为OBP也是一个直角三角形，所以距离

欧几里得空间与时间
11
从 O 到 P 的距离是
p
(x2
1 + x2
2) + x2
3。因此距离的平方为
|x|2 = x2
1 + x2
2 + x2
3 ,
(1.10)
这是毕达哥拉斯(Pythagoras)定理的三维形式。如果绕 O 作旋转，距离 |x| 保持不变。

将 x 变到 x′ 的旋转可以是主动的，使得 x′ 与 x 是真正不同的点。或者，旋转可以是被动的，即坐标轴旋转，但点 x 实际上没有改变。所发生的一切只是 x 相对于旋转后的轴获得一组新的坐标 x′ = (x′
1, x′
2, x′
3)。在两种情况下 |x′| = |x|。

点 x 和 y 之间距离的平方为
|x −y|2 = (x1 −y1)2 + (x2 −y2)2 + (x3 −y3)2 .
(1.11)
这个距离不受旋转和平移的影响。平移将所有点平移一个固定矢量 c，因此 x 和 y 被平移到 x + c 和 y + c。差值 x −y 不变，因此 |x −y| 也不变。

y
x
O
ϑ
图 1.7 两个矢量的点积为 x · y = |x||y| cos ϑ。

图 1.7

当考虑一对矢量 x 和 y 时，引入它们的点积是很有用的
x · y = x1y1 + x2y2 + x3y3 .
(1.12)
一个特例是 x · x = x2
1 + x2
2 + x2
3 = |x|2，将 x 的长度的平方表示为 x 与其自身的点积。x · y 是否受旋转影响并不是显而易见的。然而，如果我们展开方程 (1.11) 右边的项，我们得到
|x −y|2 = |x|2 + |y|2 −2x · y ,
(1.13)
由于 |x|、|y| 和 |x −y| 都不受旋转影响，x · y 也必定不受影响。我们可以利用这个结果得到 x 和 y 点积的一个更方便的表达式。将其应用于边长分别为 |x|、|y| 和 |x −y| 的三角形，如图 1.7 所示，我们可以重新整理表达式 (1.13)，然后利用余弦定理得到

图 1.7

x · y = 1
2(|x|2 + |y|2 −|x −y|2) = |x||y| cos ϑ ,
(1.14)
其中 ϑ 是矢量 x 和 y 之间的夹角。

由此可知，如果 x · y = 0，并且矢量 x 和 y 的长度不为零，那么 cos ϑ = 0，因此 x 与 y 之间的夹角为 ϑ = ± π
2，这两个矢量是正交的。

12
基本思想
例如，笛卡尔坐标轴的基向量 (1, 0, 0)、(0, 1, 0) 和 (0, 0, 1) 全都是单位长度，且它们中任意两个的点积都为零，因此它们是正交的。
关键的是，在欧几里得三维空间中，向量的长度以及它们之间的夹角在任何所有向量一同旋转的变换下都是不变的，这就是为什么点积是一个有用的构造。像 x · y 这样不受旋转影响的量被称为标量（scalars）。

还有一个进一步的、同样有用的构造。从两个向量 x 和 y 可以构造出第三个向量，即它们的叉积（cross product）x × y，如图 1.8 所示。其分量为

图 1.8

x × y = (x₂y₃ −x₃y₂, x₃y₁ −x₁y₃, x₁y₂ −x₂y₁) 。
(1.15)
叉积之所以有用，是因为如果 x 和 y 都绕任意轴旋转，那么 x × y 也会随之一起旋转。（如果有人发明了 x 和 y 的另一种向量积，其分量为 (x₂y₃, x₃y₁, x₁y₂)，那么它就不会具有这种旋转性质，也就几乎没有什么几何意义。）与点积 x · y 不同，叉积 x × y 在旋转下并非不变。我们称它在旋转下与 x 和 y 协变（covariantly）。“协变”的意思是“随之而变”或“以相同方式变换”，这是一个在物理学中经常出现的概念。

O
x
y
x×y
ϑ
图 1.8 叉积 x × y 是一个长度为 |x||y| sin ϑ 的向量。

图 1.8

我们可以通过考虑 x × y 与第三个向量 z 的点积来验证 x × y 的这种旋转协变性。利用方程 (1.15) 和 (1.12)，我们得到
(x × y) · z = x₂y₃z₁ −x₃y₂z₁ + x₃y₁z₂ −x₁y₃z₂ + x₁y₂z₃ −x₂y₁z₃ 。
(1.16)
这个结果一般不为零，但如果 z = x 或 z = y，则容易看出上述六项两两抵消，结果为零。这意味着 x × y 与 x 正交，也与 y 正交，如图 1.8 所示。因此，当受到旋转作用时，x × y、x 和 y 的方向必然全部一起转动。现在我们只需检验的是

图 1.8

欧几里得空间与时间
13
x × y 的长度在旋转下是不变的。用分量表示，x × y 的平方长度为
|x × y|² = (x₂y₃ − x₃y₂)² + (x₃y₁ − x₁y₃)² + (x₁y₂ − x₂y₁)² ,
(1.17)
经过一点代数运算，它可以重新表达为
|x × y|² = (x · x)(y · y) − (x · y)² .
(1.18)
右边只包含旋转不变的量，因此 |x × y| 同样是不变的。右边可以用长度和角度表示为 |x|²|y|² − |x|²|y|² cos² ϑ，这简化为 |x|²|y|² sin² ϑ。因此向量 x × y 的长度为 |x||y| sin ϑ。
当交换 x 和 y 时，两个量 x·y 和 x×y 具有相反的对称性。x·y = y·x，但 x×y = −(y×x)，这从方程 (1.12) 和 (1.15) 可以清楚地看出。后一个关系意味着对于任意 x，有 x×x = 0。
由三个向量 x、y 和 z，可以构造出两个有用的几何量。一个是标量 (x×y)·z。它具有一些良好的对称性，可以利用方程 (1.16) 来验证，特别地
(x × y) · z = x · (y × z) .
(1.19)
另一个几何量是双重叉乘 (x × y) × z，它是一个向量。它可以通过一个重要恒等式用点乘来表示：
(x × y) × z = (x · z)y − (y · z)x .
(1.20)
这个恒等式在旋转下是协变的，利用叉乘定义 (1.15) 很容易检验。为了对其形式获得一些直观理解，注意到 x × y 正交于 x 和 y 张成的平面，再与 z 取叉乘得到的是一个正交于 x×y 的向量，因此回到该平面内。所以 (x×y)×z 必须是 x 和 y 的线性组合。这个向量也必须正交于 z，而恒等式右边显然满足这一点，因为
((x·z)y − (y·z)x)·z = (x·z)(y·z) − (y·z)(x·z) = 0 .
(1.21)
我们之所以较为详细地讨论了 x·y 和 x×y 的这些性质，是因为物理定律需要以一种当整个物理系统被旋转或平移时不会改变的方式来表达。更为重要的是，如果被动地旋转坐标轴或平移原点，物理定律也不应改变。因此点乘和叉乘在物理情境中频繁出现，例如在能量和角动量的公式中。在下一节，我们将遇到一个用 ∇ 表示的偏导数向量，当我们看到它出现在电磁理论中的 ∇·E 和 ∇×E 这样的表达式中时（其中 E 是电场向量），不应感到惊讶。我们将在第 3 章定义并使用这些量。
从几何学上讲，在我们于第 4 章讨论相对论之前，关于时间没有太多需要补充。在非相对论物理中，我们使用另一个笛卡儿坐标 t 来表示时间。给定时间 t₁ 和 t₂，有物理意义的是它们之间的间隔 t₂ − t₁。

14
基本思想
物理上具有意义。物理现象不受时间平移的影响。如果一个过程可以从t₁开始并在t₂结束，那么它同样可以从t₁ + c开始并在t₂ + c结束。假设某个系统在t = 0时开始，并在t = T时回到相同状态。那么它将重复，并在t = 2T、t = 3T等时刻再次回到相同状态。这一特性有着我们非常熟悉的实际应用，那就是时钟。

1.3
偏导数
三维空间中的物理学常常涉及多元函数。当一个函数依赖于多个变量时，我们需要考虑它对所有这些变量的导数。假设φ(x₁, x₂, x₃)是定义在欧几里得三维空间(Euclidean 3-space)中的一个光滑函数。偏导数
∂φ/∂x₁正是对x₁的普通导数，而将x₂和x₃视为固定或常量。它可以在任意点x = (x₁, x₂, x₃)处求值。通过固定x₂和x₃，本质上就是将φ视为沿通过x点且平行于1-轴的直线上关于x₁的函数，而偏导数∂φ/∂x₁正是沿这条直线的普通导数。偏导数∂φ/∂x₂和∂φ/∂x₃在x点处的定义类似，分别沿通过x点且平行于2-轴和3-轴的直线求导。

对于显式已知的函数，求其偏导数很容易。例如，若φ(x₁, x₂, x₃) = x₁³x₂⁴x₃，那么∂φ/∂x₁可通过求x₁³的导数并将x₂⁴x₃视为常数得到，对∂φ/∂x₂和∂φ/∂x₃也类似处理。因此
∂φ/∂x₁ = 3x₁²x₂⁴x₃, ∂φ/∂x₂ = 4x₁³x₂³x₃, ∂φ/∂x₃ = x₁³x₂⁴. (1.22)

回顾一下，通过使用函数f(x)的普通导数，记作f’(x)，我们可以在δx很小时求得f(x + δx)的近似值：
f(x + δx) ≃ f(x) + f’(x)δx. (1.23)
类似地，通过使用偏导数∂φ/∂x₁，我们得到
φ(x₁ + δx₁, x₂, x₃) ≃ φ(x₁, x₂, x₃) + (∂φ/∂x₁)δx₁. (1.24)
通过组合φ在x点的三个偏导数，我们得到更强的结果
φ(x₁ + δx₁, x₂ + δx₂, x₃ + δx₃)
≃ φ(x₁, x₂, x₃) + (∂φ/∂x₁)δx₁ + (∂φ/∂x₂)δx₂ + (∂φ/∂x₃)δx₃. (1.25)
这给出了φ在靠近x的任意点x + δx处的近似值。

这里有一个隐含的假设，即∂φ/∂x₂在点(x₁ + δx₁, x₂, x₃)处的值与其在点(x₁, x₂, x₃)处基本相同，对∂φ/∂x₃也类似。这正是我们之前假设φ是光滑函数的原因。

φ的偏导数集合构成一个矢量(vector)，记作∇φ：
∇φ = { ∂φ/∂x₁, ∂φ/∂x₂, ∂φ/∂x₃ }. (1.26)

偏导数
15
类似地，δx = (δx1, δx2, δx3) 是一个矢量。方程(1.25)可以更简洁地写为
φ(x + δx) ≃ φ(x) + ∇φ · δx ,
(1.27)
这个结果我们将反复使用。右边是一个真正的点积，当坐标轴旋转时它保持不变。∇φ 被称为 φ 的梯度(gradient)。
理解函数的一个好方法是通过它的等值面。对于三维空间中的函数 φ，等值面就是 φ 为常数的曲面。如果 δx 是穿过点 x 的等值面的任意切向量，那么 φ(x + δx) − φ(x) 在 δx 的一阶近似下 ≃ 0，因此 ∇φ · δx = 0。所以 ∇φ 与 δx 正交，这意味着 ∇φ 是一个垂直于等值面的矢量，如图 1.9 所示。事实上，∇φ 指向 φ 最陡上升的方向，其大小就是沿该方向 φ 随距离增加的速率。这印证了“梯度”这个名称。

图 1.9

∇φ
图 1.9 曲线代表 φ 的等值线。箭头表示梯度 ∇φ。

图 1.9

可能存在某些点 x，使得三个偏导数都为零，即 ∇φ = 0。此时 x 是 φ 的一个驻点(stationary point)。该驻点究竟是极小值、极大值还是鞍点，取决于 φ 在 x 处的二阶偏导数。
φ 有九个可能的二阶偏导数；它们包括 ∂²φ/∂x²₁、∂²φ/∂x₁∂x₂、∂²φ/∂x₂∂x₁ 和 ∂²φ/∂x²₂。混合偏导数 ∂²φ/∂x₁∂x₂ 是先对 x₂ 求导，然后再将结果对 x₁ 求导得到的；而 ∂²φ/∂x₂∂x₁ 的求导顺序则相反。
例如，对于函数 φ(x1, x2, x3) = x3_1x4_2x3，我们有
∂²φ/∂x²₁ = 6x1x4_2x3 , ∂²φ/∂x₁∂x₂ = 12x2_1x3_2x3 ,
∂²φ/∂x₂∂x₁ = 12x2_1x3_2x3 , ∂²φ/∂x²₂ = 12x3_1x2_2x3 .
(1.28)
注意，这两个混合偏导数实际上是相等的。这是一个重要而且普遍成立的结果。

16
基本概念
1-轴
2-轴
(x1, x2)
(x1, x2+δx2)
(x1+δx1, x2)
(x1+δx1, x2+δx2)
图 1.10 一个无穷小矩形，显示了可以在其上计算函数 φ 的四个位置。

图 1.10

要证明这个结果，我们需要考虑图 1.10 所示的 φ 取值矩形，并用两种方法估计下式：

图 1.10

φ(x1 + δx1, x2 + δx2, x3) − φ(x1 + δx1, x2, x3) − φ(x1, x2 + δx2, x3) + φ(x1, x2, x3) . (1.29)
一种估计是沿垂直边作差的差：
{φ(x1 + δx1, x2 + δx2, x3) − φ(x1 + δx1, x2, x3)} − {φ(x1, x2 + δx2, x3) − φ(x1, x2, x3)}
≃ ∂φ/∂x₂ (x1 + δx1, x2, x3) δx2 − ∂φ/∂x₂ (x1, x2, x3) δx2
≃ ∂²φ/∂x₁∂x₂ (x1, x2, x3) δx1δx2 .
(1.30)
另一种估计，通过重新组合括号，是沿水平边作差的差：
{φ(x1 + δx1, x2 + δx2, x3) − φ(x1, x2 + δx2, x3)} − {φ(x1 + δx1, x2, x3) − φ(x1, x2, x3)}
≃ ∂φ/∂x₁ (x1, x2 + δx2, x3) δx1 − ∂φ/∂x₁ (x1, x2, x3) δx1
≃ ∂²φ/∂x₂∂x₁ (x1, x2, x3) δx1δx2 .
(1.31)
由于这两式 (1.30) 和 (1.31) 的左边是相同的，因此混合偏导数必定相等。这个结果称为混合（二阶）偏导数的对称性，因为在交换求导次序时存在对称性。我们以后将利用这一点，例如，在研究麦克斯韦(Maxwell)方程组和推导各种热力学关系时。
φ 的二阶偏导数有一个特别重要的组合，称为 φ 的拉普拉斯算子(Laplacian)，记作 ∇²φ。它是
∇²φ = ∂²φ/∂x²₁ + ∂²φ/∂x²₂ + ∂²φ/∂x²₃ ,
(1.32)

偏导数
17
它是一个标量，在坐标轴旋转时保持不变。如果把
[
\left( \frac{\partial}{\partial x_1}, \frac{\partial}{\partial x_2}, \frac{\partial}{\partial x_3} \right)
]
视为一个导数向量，并写成
[
\nabla^2 \phi = \left( \frac{\partial}{\partial x_1}, \frac{\partial}{\partial x_2}, \frac{\partial}{\partial x_3} \right) \cdot \left( \frac{\partial \phi}{\partial x_1}, \frac{\partial \phi}{\partial x_2}, \frac{\partial \phi}{\partial x_3} \right),
\tag{1.33}
]
或者更紧凑地写成 (\nabla^2 \phi = \nabla \cdot \nabla \phi)，其标量性质就很明显了。更正式地，(\nabla^2 = \nabla \cdot \nabla)。对于我们熟悉的例子 (\phi = x_1^3 x_2^4 x_3)，
[
\nabla^2 (x_1^3 x_2^4 x_3) = \frac{\partial^2}{\partial x_1^2}(x_1^3 x_2^4 x_3) + \frac{\partial^2}{\partial x_2^2}(x_1^3 x_2^4 x_3) + \frac{\partial^2}{\partial x_3^2}(x_1^3 x_2^4 x_3) = 6x_1 x_2^4 x_3 + 12 x_1^3 x_2^4 x_3,
\tag{1.34}
]
这是一个典型的非零结果。然而，有许多函数的拉普拉斯量是零，例如 (x_1^2 - x_2^2) 和 (x_1 x_2 x_3)。

在三维空间中，我们经常需要求一个仅依赖于到原点 (O) 的径向距离 (r) 的函数 (f(r)) 的梯度或拉普拉斯量。这里 (r^2 = x_1^2 + x_2^2 + x_3^2)。这些计算可能有点繁琐，因为 (r) 涉及平方根，但如果使用 (r^2) 来计算会简单些。我们先求梯度。根据链式法则，
[
\nabla (r^2) = 2r \left( \frac{\partial r}{\partial x_1}, \frac{\partial r}{\partial x_2}, \frac{\partial r}{\partial x_3} \right) = 2r \nabla r.
\tag{1.35}
]
另一方面，直接对 (x_1^2 + x_2^2 + x_3^2) 求偏导数可得
[
\nabla (r^2) = (2x_1, 2x_2, 2x_3) = 2\mathbf{x}.
\tag{1.36}
]
比较这两个表达式，我们得到
[
\nabla r = \frac{\mathbf{x}}{r} = \hat{\mathbf{x}}.
\tag{1.37}
]
(\mathbf{x}) 是大小为 (r) 的矢量，(\hat{\mathbf{x}}) 是在每一点（除 (O) 外）都沿径向向外的单位矢量。我们也可以通过注意到 (r) 的等值面是以 (O) 为中心的球面，且 (r) 随到 (O) 距离的增加率处处为 1 来理解方程 (1.37)。方程 (1.35) 很容易推广。对于一般的函数 (f(r))，链式法则给出
[
\nabla (f(r)) = f’(r) \nabla r = f’(r) \frac{\mathbf{x}}{r} = f’(r) \hat{\mathbf{x}}.
\tag{1.38}
]
这个结果最重要的例子是
[
\nabla \left( \frac{1}{r} \right) = -\frac{1}{r^2} \hat{\mathbf{x}},
\tag{1.39}
]
在考虑静电学和引力的平方反比律力时这个结果很有用。

18
基本概念
接下来，我们来求 (f(r)) 的拉普拉斯量。我们有 (\nabla (f(r)) = \frac{1}{r} f’(r) \mathbf{x})，所以
[
\nabla^2 (f(r)) = \nabla \cdot \nabla (f(r)) = \nabla \cdot \left( \frac{1}{r} f’(r) \mathbf{x} \right).
\tag{1.40}
]
根据通常的莱布尼茨(Leibniz)法则，最后一个表达式有两项贡献。其中一项是 (\nabla) 作用在函数 (\frac{1}{r} f’(r)) 上，给出贡献
[
\left( \frac{1}{r} f’’(r) - \frac{1}{r^2} f’(r) \right) \frac{\mathbf{x}}{r} \cdot \mathbf{x} = f’’(r) - \frac{1}{r} f’(r),
\tag{1.41}
]
这里我们再次应用了结果 (1.38)。另一项是点积，其中 (\nabla) 的分量 (\left( \frac{\partial}{\partial x_1}, \frac{\partial}{\partial x_2}, \frac{\partial}{\partial x_3} \right)) 分别作用在 (\mathbf{x}) 的三个分量 ((x_1, x_2, x_3)) 上，给出数字 3，因此第二项贡献是 (\frac{3}{r} f’(r))。把这两项相加，结果是
[
\nabla^2 (f(r)) = f’’(r) + \frac{2}{r} f’(r).
\tag{1.42}
]
最重要的例子是
[
\nabla^2 \left( \frac{1}{r} \right) = \frac{2}{r^3} + \frac{2}{r} \left( -\frac{1}{r^2} \right) = 0.
\tag{1.43}
]
这个方程在除 (O) 以外的所有点都成立。(\frac{1}{r}) 在 (O) 处无穷大，因此它在 (O) 的梯度没有定义，其拉普拉斯量也没有定义。我们说 (\frac{1}{r}) 在 (O) 点奇异。仅依赖于变量 (r) 且拉普拉斯量（除可能在 (O) 点外）为零的最一般的函数是 (\frac{C}{r} + D)，其中 (C) 和 (D) 是常数。

1.4 (\mathrm{e})、(\pi) 与高斯积分
超越数 (\mathrm{e}) 和 (\pi) 在整个数学和物理学中出现，在下文中也将频繁使用。指数函数 (\mathrm{e}^x)（常写作 (\exp x)）及其复数对应 (\mathrm{e}^{\mathrm{i}x}) 也将经常出现。(\mathrm{e}) 和 (\pi) 之间有两个引人注目的关系。一个是著名的欧拉(Euler)关系
[
\mathrm{e}^{\mathrm{i} \pi} = -1,
\tag{1.44}
]
另一个是高斯积分公式
[
\int_{-\infty}^{\infty} \mathrm{e}^{-x^2} ,dx = \sqrt{\pi}.
\tag{1.45}
]
我们将在本节解释这些关系，并描述实指数函数和复指数函数的两个基本物理应用。

指数函数由以下级数定义
[
\mathrm{e}^x = 1 + x + \frac{1}{2} x^2 + \frac{1}{6} x^3 + \cdots + \frac{1}{n!} x^n + \cdots,
\tag{1.46}
]
对所有 (x) 都是正的。显然 (\mathrm{e}^0 = 1)。欧拉常数 (\mathrm{e}) 定义为 (\mathrm{e}^1)，即级数在 (x=1) 时的和。它的数值是 (\mathrm{e} = 2.718\dots)。通过逐项展开，可以验证
[
\mathrm{e}^{x+y} = \mathrm{e}^x \mathrm{e}^y,
\tag{1.47}
]
这是指数函数的关键性质。这个性质使得将 (\mathrm{e}^x)（作为级数）与 (\mathrm{e}) 的 (x) 次幂等同起来是自洽的。举例来说，(\mathrm{e}^2)（作为级数）等于…

e, π 与高斯积分
19
（两个级数的乘积）所以 e² = e × e。对级数(1.46)逐项求导，很容易看出
d
dx(eˣ) = eˣ 。
(1.48)
这个简单公式的重要性将在第1.4.1节中阐述。
指数函数向虚数宗量的推广使用同样的级数展开来定义：
eⁱˣ = 1 + ix − ½ x² − ⅙ i x³ + ··· + iⁿ/n! xⁿ + ··· ，
(1.49)
其中 i² = −1。该展开的实部和虚部正是众所周知的 cos x 和 sin x 的级数展开：
cos x = 1 − ½ x² + 1/24 x⁴ + ··· ，
(1.50)
sin x = x − ⅙ x³ + ··· ，
(1.51)
因此
eⁱˣ = cos x + i sin x 。
(1.52)
现在，cos π = −1 而 sin π = 0，所以若将值 x = π 代入该表达式，我们就得到了欧拉关系式 eⁱᵖ = −1。将其升至 2n 次幂，我们看到一个推论是对任意整数 n 都有 e²ⁿⁱᵖ = 1。

1.4.1 放射性衰变
2
1
0
放射性原子核
数目
N₀
0
3
4
5
6
7
8
样品年龄 (τ½)
½ N₀
图1.11 放射性衰变。

20
基本思想
放射性于1896年由亨利·贝克勒尔(Henri Becquerel)发现。当放射性原子核衰变时，它会变成另一种原子核。放射性原子核数目 N 的变化率由以下定律描述：
dN/dt = −λ N ，
(1.53)
其中 λ 称为衰变常量。放射性呈指数衰减，因为微分方程(1.53)的解为
N = N₀ e^(−λ t) ，
(1.54)
其中 N₀ 是 t = 0 时放射性原子核的初始数目。该解如图1.11所示。取对数，我们得到
ln(N/N₀) = −λ t 。
(1.55)
半数原子核衰变所需的时间 τ_½ 被称为放射性物质的半衰期。它由 ln(½) = −λ τ_½ 给出，因而
τ_½ = ln 2 / λ 。
(1.56)
我们也可以算出放射性原子核的平均寿命 t̄。所有 N₀ 个原子核最终都会衰变，因此我们可以对衰变时刻求平均，得到
t̄ = 1/N₀ ∫₀^(N₀) t dN
= −1/(λ N₀) ∫₀^(N₀) ln(N/N₀) dN
= −1/(λ N₀) [N ln N − N − N ln N₀]₀^(N₀)
= 1/λ ，
(1.57)
其中第二行我们用方程(1.55)替换了 t。
放射性为文物年代测定提供了极为有用的工具。如果我们知道某样品物质最初含有 N₀ 个放射性原子核，而现在含有 N 个，那么我们就可以确定从该物质形成以来所经过的时间 t：
t = 1/λ ln(N₀/N) = (τ_½ / ln 2) ln(N₀/N) 。
(1.58)
根据不同的时间尺度，可以使用不同的放射性原子核。例如，铀-238的半衰期约为45亿年，已被用于测定陨石年代，从而确定太阳系的年龄；碳-14的半衰期为5730年，被用于测定考古遗迹的年代。

e, π 和高斯积分
21
x
图 1.12 平面波 ei(kx−ωt) 以速度 ω/k 沿 x 方向传播。随着时间的推移，固定位置处的波振幅保持不变，而波的相位则绕圆周旋转。图中展示了该波分解为其实部和虚部，它们是两个相互垂直的正弦波，相对相位差为 π/2。
1.4.2 波与周期函数
我们可以将随位置 x 和时间 t 变化、向 x 正方向传播的波表示为 ei(kx−ωt)，其中 k 和 ω 为正，如图 1.12 所示。根据欧拉关系，在 kx 相差 2π 整数倍的位置，波是相同的，因此波长为 2π/k。类似地，在 ωt 相差 2π 整数倍的时间，波也是相同的，因此周期为 2π/ω。k 和 ω 分别称为波的波数和角频率。
波的相位在 kx−ωt 等于常数的位置保持不变。因此，相位在一个以速度 ω/k 移动的点 x 处保持恒定，这就是波的速度。如果 k 为负而 ω 仍为正，则波向相反方向传播。
波的实部和虚部分别是 cos(kx −ωt) 和 sin(kx −ωt)。它们被称为正弦波，但其中一个是相对于另一个有 π/2 的相移。许多类型的波，例如电磁波和流体表面的波，都是实数的，但在量子力学中，自由运动粒子的波函数是一个复波。
1.4.3 高斯积分
高斯函数 e−x2 的积分（如图 1.13 所示）不能用标准函数表示，因此从 −∞ 到 X 的不定积分不是初等的。另一方面，从 −∞ 到 ∞ 的定积分的值为
I = ∫_{-∞}^{∞} e^{-x^2} dx = √π 。 (1.59)
这是最简单的高斯积分。它在物理学中经常出现，我们稍后会用到它。

22
基本思想
0
0.2
0.4
0.6
0.8
e –x^2
1.0
–1
–2
–3
1
2
3
图 1.13 高斯函数。
I 可以通过一个相当巧妙的技巧来计算。我们首先考虑它的平方，
I^2 = ∫_{-∞}^{∞} e^{-x_1^2} dx_1 ∫_{-∞}^{∞} e^{-x_2^2} dx_2 。 (1.60)
这可以表示为二维积分
I^2 = ∫_{R^2} e^{-x_1^2 - x_2^2} d^2x ， (1.61)
其中积分区域是整个平面 R^2。现在转换到极坐标。令 r 为径向坐标，ϑ 为角坐标。那么，根据毕达哥拉斯定理 r^2 = x_1^2 + x_2^2，积分测度为 d^2x = r dr dϑ。于是
I^2 = ∫_{0}^{2π} ∫_{0}^{∞} e^{-r^2} r dr dϑ = 2π ∫_{0}^{∞} e^{-r^2} r dr 。 (1.62)
ϑ 的范围是 2π，因为从几何上看，2π 是单位圆的周长。额外的因子 r 使得对 r 的积分成为初等积分，结果为
I^2 = 2π [ -½ e^{-r^2} ]{0}^{∞} = π ， (1.63)
因此 I = √π，如所断言。
更一般的高斯积分是
I(α) = ∫{-∞}^{∞} e^{-αx^2} dx = 1/√α ∫_{-∞}^{∞} e^{-y^2} dy = √(π/α) ， (1.64)
其中我们使用了代换 y = √α x。另一个有用的技巧允许我们计算高斯函数乘以 x 的偶次幂的积分序列。对积分 I(α) 关于 α 求导会带下一个因子 −x^2，因此
∫_{-∞}^{∞} x^2 e^{-αx^2} dx = - dI(α)/dα = - d/dα √(π/α) = 1/(2α) √(π/α) 。 (1.65)

e、π与高斯积分
23
再一次对α求导，我们得到
∫ ∞
−∞
x⁴e^{-αx²} dx = −d/dα ( √π / (2α^{3/2}) ) = (3/(4α²)) √(π/α) . (1.66)
我们可以继续对α求导，以计算所有形如 ∫ ∞_{−∞} x^{2n} e^{-αx²} dx 的积分。
如果高斯函数乘以x的奇次幂，被积函数是奇函数，在 x → −x 变换下是反对称的，因此 ∫ ∞_{−∞} x^{2n+1} e^{-αx²} dx = 0。当下限为0时，这些积分可以通过代换 y = x²，然后分部积分来计算，得到
∫ ∞0 x^{2n+1} e^{-x²} dx = 1/2 ∫ ∞_0 y^n e^{-y} dy = [ −1/2 y^n e^{-y} ]0^∞ + (1/2)n ∫ ∞_0 y^{n-1} e^{-y} dy = (1/2)n ∫ ∞_0 y^{n-1} e^{-y} dy . (1.67)
重复这一步骤n次，我们得到 ∫ ∞_0 y^n e^{-y} dy = n! ∫ ∞_0 e^{-y} dy = n!，因此
∫ ∞_0 x^{2n+1} e^{-x²} dx = 1/2 n! . (1.68)
基本的高斯积分和这些变形在物理学的许多领域中都很有用，尤其是在量子力学和量子场论中。
通过考虑I的n次幂，我们还可以得到一些有趣的几何结果，
I^n = ∫ ∞{−∞} e^{-x_1^2} dx_1 ∫ ∞{−∞} e^{-x_2^2} dx_2 ··· ∫ ∞_{−∞} e^{-x_n^2} dx_n , (1.69)
它可以重新表示为一个n维积分
I^n = ∫_{R^n} e^{-x_1^2 - x_2^2 - \cdots - x_n^2} d^n x . (1.70)
现在转换到n维球极坐标 r, Ω，其中Ω共同表示n−1个角坐标。根据n维空间中的勾股定理(Pythagoras’ theorem)，r² = x_1² + x_2² + ··· + x_n²，积分测度 d^n x 变为 r^{n-1} dr dΩ，其中dΩ表示n维空间中单位球面的体积元，即单位 (n−1)-球面。于是
I^n = ∫ ∫ ∞_0 e^{-r²} r^{n-1} dr dΩ . (1.71)
对dΩ的积分是单位 (n−1)-球面的总体积，而剩下的径向积分是上面考虑过的高斯积分之一。
例如，在 I³ 的情形中，径向积分与积分(1.65)形式相同，但下限为0（且α=1）。其值为 1/4 √π，是整个高斯积分的一半，因此
I³ = 1/4 √π A (1.72)
其中A是单位2-球面的面积，即我们熟悉的球面。我们知道 I = √π，所以 I³ = π√π，因此 A = 4π，这就是我们熟知的球面面积的结果。

24
基本思想
球面。注意，在这个计算中，使用高斯积分，我们无需显式选择角坐标即可求出A。

通过类似的计算，我们可以得到一个不太为人所知的结果，即四维空间中单位球面的体积，即3-球面。正如2-球面是包围三维球体的二维曲面，3-球面则是包围四维空间球体的三维体积。方程(1.71)变为
I4 = V
Z ∞
0
e−r2 r3 dr ,
(1.73)
其中V是单位3-球面的体积。利用I4 = π2以及n=1时的积分(1.68)，即R ∞
0
e−r2 r3 dr = 1
2，我们求出V = 2π2。
1.4.4
最陡下降法
在许多物理应用中，我们会遇到无法精确计算的积分，其中被积函数是某种高斯函数变体与另一个函数的乘积。我们将在第11章考虑核聚变时看到这样的例子。在这种情况下，基本的高斯积分可以用来估计这些更复杂的积分。假设g(x)在α和β之间于x0处有一个最大值；那么，由于g′(x0) = 0且g′′(x0) < 0，我们可以在x0附近使用展开g(x) ≃g(x0) −1
2|g′′(x0)|(x −x0)²。这意味着积分
I =
Z β
α
F(x) exp(g(x)) dx
(1.74)
可以近似为
I ≃exp(g(x0))
Z β
α
F(x) exp

−1
2|g′′(x0)|(x −x0)2

dx .
(1.75)
进一步，如果F(x)在x0附近变化缓慢，那么它可以被视为常数F(x0)并从积分中提出，得到
I ≃F(x0) exp(g(x0))
Z β
α
exp

−1
2|g′′(x0)|(x −x0)2

dx .
(1.76)
由于被积函数集中在x0点附近，我们可以将积分限扩展到±∞，而不会显著影响积分值，所以
I
≃
F(x0) exp(g(x0))
Z ∞
−∞
exp

−1
2|g′′(x0)|(x −x0)2

dx

F(x0) exp(g(x0))
s
2π
|g′′(x0)| ,
(1.77)
其中最后一步我们用到了高斯积分(1.64)。
这被称为最陡下降近似。只要二阶导数g′′(x0)的绝对值很大，并且g和F在x0附近的泰勒展开中的高阶项可以被忽略，这个近似就是准确的。

进一步阅读
25
1.5
进一步阅读
关于变分原理及其历史的概述，参见
D.S. 莱蒙斯(D.S. Lemons)，《完美形式：变分原理、方法及其在基础物理学中的应用》(Perfect Form: Variational Principles, Methods, and Applications in Elementary Physics)，普林斯顿：普林斯顿大学出版社(PUP)，1997年。
H.H. 戈尔茨坦(H.H. Goldstine)，《变分法史：从十七世纪到十九世纪》(A History of the Calculus of Variations: from the 17th through the 19th Century)，纽约：施普林格(Springer)，1980年。
关于本书所用数学的全面概览，请查阅
K.F. 赖利(K.F. Riley)、M.P. 霍布森(M.P. Hobson)和S.J. 本斯(S.J. Bence)，《物理与工程数学方法》(Mathematical Methods for Physics and Engineering)（第3版），剑桥：剑桥大学出版社(CUP)，2006年。

2_Motions_of_Bodies-Newton’s_Laws

2
物体的运动——牛顿定律
2.1
引言
在这个城市居住的时代，我们很少能目睹苍穹的全部美丽，观星似乎只是一种昂贵而有趣但终究毫无价值的消遣。然而，我们不应忘记，科学始于天文学。在16世纪最后三十年，第谷·布拉赫(Tycho Brahe)将天文学提升到了一个全新的精度水平。他设计并制造了大型仪器，使他能够对夜空进行系统而精确的观测，在几十年的时间里标绘出行星的位置，并引入了许多如今科学家在收集数据时常规使用的程序，例如寻找误差来源并估计其大小。1601年第谷去世后，约翰内斯·开普勒(Johannes Kepler)潜心对这些观测进行艰苦的分析，寻找能够解释行星运动的模型。经过数年紧张的探索，开普勒于1609年发表了对行星如何绕太阳运动的一种新颖而简洁的描述。他的结论总结为三条定律。第一定律描述了行星轨道的形状，它是一个椭圆，太阳位于椭圆的一个焦点上。第二定律描述了行星在椭圆轨道上运行时，随着它接近和远离太阳，相对速率的变化。第三定律将行星的轨道周期与其到太阳的距离联系起来。
开普勒的定律纯粹是描述性的，他未能找到真正的因果解释。他最好的猜测是，太阳的旋转以某种方式带动着行星绕转。这个问题在17世纪的大部分时间里都没有得到解决。正是渴望找到开普勒定律的力学解释，促使艾萨克·牛顿(Isaac Newton)发展了他的力学体系，并于1687年发表在《原理》(Principia)中。牛顿建立在他人工作的基础上，最著名的是开普勒、伽利略·伽利莱(Galileo Galilei)和杰雷米亚·霍罗克斯(Jeremiah Horrocks)，但他个人的成就是里程碑式的。牛顿创立了第一个理性力学，并刺激了整个科学的发展。这带来了一场革命，最终导致了现代世界的诞生。
尽管牛顿是第一个理解微积分的人，但他的《原理》是用经典几何学的语言写成的。不过，我们不会详述牛顿最初的表述方式，而是采用牛顿之后很久才发展起来的数学风格。例如，牛顿是第一个认识到对于速度、加速度和力，它们的方向与它们的大小同样重要，因此必须将它们视为向量(vector)。然而，我们将使用的向量符号直到19世纪末才发展起来。
我们从概述牛顿运动定律开始，并展示如何从最小作用量原理(principle of least action)推导出这些定律。接着，我们将考虑一些重要的例子，出自《物理世界》，尼古拉斯·曼顿与尼古拉斯·米著，牛津大学出版社(2017)。©尼古拉斯·曼顿与尼古拉斯·米。DOI 10.1093/acprof:oso/9780198795933.001.0001

27
在三维空间中的物体运动，并证明如果我们假设太阳与行星之间的吸引力随它们之间距离的平方反比减小，那么开普勒(Kepler)定律便可以从牛顿(Newton)运动定律推出。

2.2 牛顿运动定律 (Newton’s Laws of Motion)

牛顿定律描述一个或多个大质量物体的运动。单个物体具有确定的质量 (m)。物体的内部结构和形状通常可以忽略，此时物体可被视为一个具有确定位置 (x) 的点粒子。随着它的运动，其位置在空间中描绘出一条曲线 (x(t))。稍后我们将证明，尽管复合物体尺寸有限，但它们可以被当作具有一个称为质心的单一中心位置来处理。

牛顿第一定律指出，物体以恒定速度运动是自持的，无需力的作用。速度 (v) 是物体位置 (x(t)) 的时间导数，
[
v = \frac{dx}{dt}. \tag{2.1}
]
在没有力的情况下，速度是常量 (v_0)，因此 (\frac{dx}{dt} = v_0)，物体位置作为时间的函数为
[
x(t) = x(0) + v_0 t, \tag{2.2}
]
其中 (x(0)) 是初始时刻 (t=0) 的位置。该物体以恒定速率 (|v_0|) 沿直线运动，而若速度为零，则物体静止。

牛顿第二定律定义了我们所说的力的含义。它指出，若一个力作用在质量为 (m) 的物体上，则该物体会加速。加速度 (a) 和力 (F) 是平行的矢量，它们之间的关系为
[
ma = F. \tag{2.3}
]
这是牛顿力学中大多数涉及力的计算的出发点。

牛顿第二定律与微积分密切相关。加速度是速度的时间导数，进而是位置的二阶时间导数，
[
a = \frac{dv}{dt} = \frac{d^2x}{dt^2}. \tag{2.4}
]
在给定力的情况下，方程 (2.3) 就变成了关于物体位置随时间变化的二阶微分方程，
[
m\frac{d^2x}{dt^2} = F. \tag{2.5}
]
如果没有力，则加速度为零，速度恒定，这恰好重述了第一定律，因此第一定律可被视为第二定律的一个特例。

方程 (2.5) 是牛顿力学成功的关键。它具有巨大的预测能力，但为了使用它，我们需要一些关于力 (F) 所取形式的独立信息。对于带电粒子所受的电场力和磁场力，我们可以利用电场和磁场的概念得到这些信息，这一点将在第3章中讨论。弹簧产生的力，以及描述碰撞和摩擦的各种接触力，也可以用简单的代数表达式来表示。至于引力的情况，

28
物体的运动——牛顿(Newton)定律
牛顿指出，只有当太阳与行星之间的作用力遵循反平方定律时，开普勒定律才能得到解释，对此我们稍后会加以说明。
对于地球表面附近的物体，牛顿万有引力定律可以简化，从而容易求出它们的运动。地球对质量为 m 的物体施加的力方向向下，大小为 mg，其中 g = 9.81 m s⁻² 是一个正数常量，它由牛顿万有引力常数 G 与地球的质量和半径组合而成。在这种情况下，牛顿第二定律简化为
ma = −mg
(2.6)
式中 a 是向上的加速度。m 被消去，这对由引力产生的加速度总是成立，因此 a = −g。加速度 a 为负，当然是指向下。g 称为重力加速度。对所有物体它都是相同的，在这种简化情形下与物体的位置无关。
假设运动是纯垂直的，我们来更仔细地考察作为微分方程的方程 (2.6)。消去 m 后，方程 (2.6) 变为
d2z
dt2 = −g ,
(2.7)
其中 z 是物体相对某一参考水平面的高度。其解为
z(t) = −1
2gt2 + u0t + z0 ,
(2.8)
式中 z₀ 和 u₀ 分别是 t = 0 时刻的高度和向上的速度。对于任意的 z₀ 和 u₀，z 对 t 的图线是一条抛物线，若时间区间有限则为抛物线的一部分，如图 2.1 所示。

图 2.1

z0
t
O
z
图 2.1 重力作用下的运动。

图 2.1

我们也可以考虑非垂直运动，例如炮弹这类抛射体的运动。物体在竖直平面内运动，以 z 为竖直坐标，x 为水平坐标。由于引力没有水平分量，物体没有水平加速度，因此 x 与 t 成线性关系。适当选取 x 的原点后，x 就是 t 的某个常数倍，这个倍数即为速度的恒定水平分量。我们假设该倍数不为零。另一方面，运动的竖直部分仍由方程 (2.8) 给出。我们并非将 z 对 t 作图，而是可以

最小作用量原理
29
现在我们来绘制 z 关于 x 的图像。这仅仅需要对 t 轴进行重新标度，因为 x 是 t 的倍数。图 2.1 展示的是物体在 (x, z) 平面内的抛物线轨迹，而不是高度作为时间的函数。

图 2.1

牛顿第三定律指出，每一个作用力都有一个方向相反的反作用力。如果第一个物体对第二个物体施加一个力 F，那么同时第二个物体也对第一个物体施加一个力 −F。这一点可以在台球的碰撞中，以及质量相当的天体（如双星）的运动中观察到。事实上，这正是用来发现邻近恒星星系中存在行星的方法之一：当一颗未见行星绕恒星旋转时，该恒星的视位置会发生振荡。类似地，当一个质量为 m 的物体靠近地球表面时，地球对它施加一个向下的引力 mg，同时该物体对地球施加一个大小相等但向上的引力，尽管这可能微小到难以测量。不过，如果该质量悬挂在一个弹簧上，那么弹簧会对该质量施加一个向上的力 mg 阻止其下落，而该质量则会施加一个向下的力 mg 拉伸弹簧，从而使得 m 能够被测量出来。
我们或许有坚实物观测证据来支持牛顿第三定律，但它成立的深层原因并不是显而易见的。我们将在后文看到，在最小作用量原理的框架下，第三定律可以从一个简单的几何观念推导出来。
2.3 最小作用量原理
大质量物体的运动都有一个共同点。无论是抛向空中的重重球体，还是行星绕太阳的运动，都存在一个与该物体能量相关的量，称为作用量，当沿着物体实际运动的路径计算时，这个量取可能的最小值。作用量在物体的轨迹上取极小值这一事实被称为最小作用量原理。在实践中，该原理被用来推导运动方程，我们很快会看到，这些方程与用更标准方法导出的结果完全相同。最小作用量原理表明，从某种意义上说，我们观察到的实际运动，是所有可能发生的可想运动中的最优运动。
这似乎表明自然界以一种高效的方式运作，以最小的努力依照某种计划行事。当然，自然界并非有意识地“试图”优化其表现，也根本不存在什么计划。实际上，并不需要任何预见性，因为只需要局部信息就足够了，这也是轨迹最优的条件能够重新表达为微分方程的原因。最小作用量原理实际上比牛顿力学更为基本，其适用范围远远超出了牛顿物理学。从根本上说，几乎所有的物理定律——描述从最小基本粒子到膨胀宇宙中星系运动的一切——都可以用某种形式的最小作用量原理来理解。事实上，我们可以把理论物理学家和应用数学家们的终极目标，视为在物理学的每一个分支中，找出作用量所应具有的正确形式。
不考虑最小作用量原理也可以。我们可以仅仅使用运动方程。这是整个物理学中沿用的传统方法，但令人惊讶的是，最小作用量原理似乎比运动方程更加基本。对这一观点的论证，在费曼的一次极负盛名的演讲中得到了充满独特热情的阐述。该论证的一个关键论点在于，最小作用量原理不仅仅是获得经典运动方程的一种技巧，

30
物体的运动——牛顿定律
粒子与场。它在经典理论与量子理论的关系中也扮演着核心角色。

使用最小作用量原理有若干优点。首先是概念上的，它在物理科学的各个领域似乎都是一个基本且统一的原则。其次，它的数学表述基于时空几何，以及速度和能量这些核心概念，而牛顿第二定律中的变量——加速度和力——则成为次要的、派生的概念。这很有用，因为速度比加速度更简单，能量比力更容易从直觉上理解。使用牛顿定律时，总会面临力是如何产生的以及什么决定了它们的形式这类问题。第三个优点是，作用量原理比运动方程更少。一个物体系统的所有运动方程都源于一个单一的原理。同样，电磁场的全部四个麦克斯韦方程也源于一个作用量原理。最后一个优点是，作用量可以使用任何坐标系写出，这使得理解某些类型的运动变得更容易。例如，将运动方程从笛卡尔坐标转换为极坐标相当繁琐，但如果从最小作用量原理出发，极坐标下的方程可以相对容易地获得。

那么缺点是什么呢？嗯，它需要更复杂的数学技术。作用量是能量贡献的组合，对时间进行积分，而推导运动方程的标准方法是变分法，这是函数空间中的微积分，而不是初等微积分。此外，由最小作用量原理导出的运动方程是微分方程，仍然需要求解。

还有一个明显的物理问题，即由最小作用量原理导出的运动方程没有摩擦项，这意味着能量是守恒的，运动会永远持续下去。摩擦必须单独添加，但这实际上利大于弊。在基本层面上，这表达了能量确实守恒的事实。摩擦项是一种处理能量耗散的现象学方法，即能量转移到所考虑系统之外的微观自由度。

变分法听起来可能令人生畏，但幸运的是，最小作用量原理及其推论可以变得更容易理解。在第一章中，我们通过展示在涉及光线的费马原理的某些应用中不需要变分法，已经开始了这条道路。我们使用几何学结合初等微积分获得了物理上重要的结果。很快，我们将对一维运动的物体提出最小作用量原理，并重新推导出牛顿第二运动定律。对于一个简单的例子——在线性势中的运动，它对应于恒定的力，我们可以再次使用初等微积分。扩展这个论证，我们可以继续推导出一般势中的运动方程。为了完整性，我们也给出变分法的推导。

在2.4节中，我们讨论两个相互作用物体的最小作用量原理，这引出了牛顿第三定律和动量守恒定律。我们还表明，对于一个由两个或多个部分组成的复合体，存在一个关于其质心的自然概念。这是通过考虑该物体的总动量而显现出来的。

最小作用量原理
31
2.3.1
一维运动
让我们看看如何利用最小作用量原理推导出牛顿(Newton)第二运动定律。最简单的情形是考虑单个物体的一维运动，比如沿 x 轴的运动。设 x(t) 为该物体的一条可能路径，但不一定是实际经过的路径。物体的速度为
v = dx
dt ,
(2.9)
它也是 t 的函数。
为了建立最小作用量原理，我们假定一个运动的物体具有两类能量。第一类是因其速度而具有的动能。动能与运动方向无关，因此对于速度 v 和速度 −v 是相同的，这就暗示动能是 v² 的某个倍数。它还依赖于别的什么吗？直观上，几个物体的总动能等于各个物体动能之和。N 个相同的物体以相同速度一起运动，其动能是一个物体动能的 N 倍，质量也是一个物体的 N 倍。因此动能正比于质量，也正比于速度的平方。我们假定，一个质量为 m、速度为 v 的物体的动能 K 为
K = 1
2mv2 = 1
2m
dx
dt
2
,
(2.10)
其中引入因子 1/2 是为了便于与牛顿定律衔接。
物体的第二类能量是势能。势能源于环境，与速度无关。它取决于其他物体的存在以及它们彼此相互作用的方式，无论是电的、引力的还是其他形式。我们假定，物体的势能是其位置的函数 V (x)。实际上我们只需要知道物体在每一时刻 t 所在位置 x(t) 处的 V 值，所以严格地，我们写作 V (x(t))。然而，重要的是 V 在物体可能到达的一切位置——即某个范围内的所有 x——都有定义。我们常说物体在势 V 中运动。
势能 V (x) 的形式取决于具体的物理情境，要进行计算就必须知道它，正如使用牛顿第二定律时必须知道力才能解出物体的运动一样。V (x) 有时具有简单的形式。例如，若物体是自由的，与环境没有显著的相互作用，则 V 与位置无关，只是一个常数 V₀。我们稍后将看到，这个常数的数值没有任何物理效应。对于靠近地球表面的物体，我们直觉上知道，将物体举高需要能量，因此物体的势能随高度增加而增大。将物体举高一段高度 h 需要一定的能量，再举高相同的高度 h 还需要同样的能量。同样，将两个质量均为 m 的物体举高 h 所需的能量是将一个质量为 m 的物体举高 h 所需能量的两倍。这便导致如下断言：物体被举高 h 时势能的增加量为 mgh，正比于质量和高度，并乘以一个常数 g。我们之后会看到，g 就是重力加速度。因此，物体在某个参考水平面之上高度为 x 处的总势能为
V (x) = V0 + mgx ,
(2.11)
其中常数 V₀ 同样没有物理效应。（在本节中，为保持一致，我们用 x 作为表示高度的坐标，而不再像之前那样用 z。）对于一个系在……

32
物体的运动——牛顿定律
被拉伸的弹簧，其势能为V(x)=1/2 kx^2，是x的二次函数；在其他情况下，V的形式或是已知的，或是可以假设的。
我们现在考虑物体在初始时刻t0从初始位置x0运动到稍后时刻t1的最终位置x1。我们将采用哈密顿（Hamilton）对作用量的定义，这已成为现在的标准定义，尽管历史上曾有过其他定义。对于每一种可能的运动，作用量S定义为
S = ∫_{t0}^{t1} ( 1/2 m (dx/dt)^2 − V(x(t)) ) dt . (2.12)
被积函数是物体在时刻t的动能减去势能。这里的减号至关重要，它解释了为何我们之前会谈到两种类型的能量。二者的区别在于，一种依赖于速度，另一种则不依赖。作用量有时也写成简洁的形式
S = ∫_{t0}^{t1} (K − V) dt , (2.13)
或者更简明地写为
S = ∫_{t0}^{t1} L dt , (2.14)
其中L = K − V 被称为拉格朗日量（Lagrangian）。作用量是拉格朗日量的时间积分，这不仅适用于单个物体在一维中的运动，也适用于更普遍的情形。
最小作用量原理（principle of least action）现在断言：在所有连接固定端点的可能路径x(t)中，物体实际所走的路径X(t)是使作用量S取最小值的那一条。¹
请注意，我们并不是仅对单个量——比如物体在中间时刻½(t0+t1)的位置——求极小值，而是对无穷多个表征所有可能路径（包含所有可能的摆动）的变量求极小，这是一个微妙得多的问题。为了着手处理，我们必须做出物理上合理的假设：路径x(t)具有一定的光滑性。换言之，可接受的路径是那些加速度保持有限、因而速度连续的路径。图2.2展示了几条典型的可接受路径。

图2.2

现在我们就能明白，为什么V0——无论是作为一个常数势，还是作为一个附加在非常数势上的常数项，如方程(2.11)中那样——没有任何影响。将它代入积分(2.14)时，它对作用量S的贡献只不过是−(t1 − t0)V0，这本身是一个常数，与路径x(t)无关。寻找使S最小的路径X(t)不会受到这一常数贡献的影响。因此，我们通常会直接略去V0。

2.3.2
一个简单的例子和一种简单的方法
最小作用量原理可以应用的一个简单例子是：势能V(x)是x的线性函数，即V(x)=kx，其中k为常数。我们将确定物体在时间区间−T ≤ t ≤ T内的运动，并假设初始位置为x(−T) = −X，最终位置为x(T) = X。这样选取初始和最终时刻及位置……

¹ 通常情况如此，但有时作用量是取驻值而非极小值。运动方程不受这一区别的影响。

最小作用量原理
33
x0
t0
t1
t
x1
x
图2.2 可能的路径x(t)。

图2.2

位置的选择可能看起来有些刻意，但通过将时间t和位置x的原点选在初始和最终的时刻与位置的中点（正如这里所做的那样），总是可以简化计算。如此选择，利用了空间和时间的欧几里得对称性。

接下来，考虑从初始位置到最终位置的可能路径x(t)中一个非常有限的类别。假设x(t)的图像是一条经过给定端点的抛物线，如图2.3所示，那么x(t)就是一个形如At² + Bt + C的二次函数。这个表达式中有三个参数，但由于有两个端点约束条件，因此只有一个参数是自由的。为了满足这些约束条件，x(t)必须取如下形式

图2.3

x(t) = X
T t + 1
2a(t² −T²) 。
(2.15)
X
T 是平均速度，它由端点的x和t值决定。a是自由参数，它等于（恒定的）加速度，因为 d²x
dt² = a。与a成正比的项在端点处为零，因此按要求有 x(−T) = −X 和 x(T) = X。
对于方程(2.15)所给出的路径，其速度为
dx
dt = X
T + at
(2.16)
因此动能为 K =
1
2m
X
T + at
²。在时刻t，势能为kx(t)，即k乘以表达式(2.15)。结合动能和势能，我们得到作用量
S =
∫ T
−T
{
1
2m
( X
T + at
)²
−k
( X
T t + 1
2a(t² −T²)
) }
dt ，
(2.17)
这是一个关于t的二次函数的积分。由于积分区间是从−T到T，所有线性项的积分结果为零。

34
物体的运动——牛顿定律
–X
–T
T
t
X
x
图2.3 具有不同加速度的抛物线路径。

图2.3

移除这些项后，我们有
S

∫ T
−T
[ 1
2m
( X²
T² + a²t²
)
−1
2ka(t² −T²)
]
dt

mX²
T + 1
3ma²T³ + 2
3kaT³ 。
(2.18)
为了满足最小作用量原理，我们必须找到使S取最小值的a值。这是标准的微积分运算。将S对a求导，我们得到
dS
da = 2
3maT³ + 2
3kT³ ，
(2.19)
并令其等于零，从而给出关系式
ma = −k 。
(2.20)
因此，使S最小化的加速度a为−1
mk，将其代入方程(2.15)便得到物体的运动方程：
X(t) = X
T t −k
2m(t² −T²) 。
(2.21)
（对于这个a值，作用量为 S = mX²
T
−k²T³
3m ，但这并不太重要。）
我们可以这样理解方程(2.20)。线性势 V(x) = kx 产生一个力 −k，而方程(2.20)正是牛顿第二定律，其中加速度a为常数且等于−1
mk。对于势 V(x) = V₀ + kx，结果将是相同的。
在这个简单例子中，我们的方法确定了真实的运动。然而，这种方法看起来很不完备，因为我们并没有在所有穿过端点的路径上最小化S，而只是在具有恒定加速度的抛物线路径子类上进行了最小化。下一步就是要证明，这种方法比它表面看起来的要更好，并且将引导我们得到完全一般势 V(x) 的正确运动方程。

最小作用量原理
35
2.3.3 一般势中的运动和牛顿(Newton)第二定律
现在我们来考虑在一维一般势 (V(x)) 中运动的最小作用量原理。作用量 (S) 由方程 (2.12) 给出，仍然带有端点条件 (x(t_0) = x_0) 和 (x(t_1) = x_1)。我们假设存在一条满足这些条件并使 (S) 取极小值的路径 (X(t))。

X
X(T + δ)
T +δ
t
X(T)
T
图 2.4 在极短时间间隔内可能的抛物线路径。

图 2.4

运动 (X(t)) 必然使得在 (t_0) 和 (t_1) 之间的任意更小时间子区间上，作用量都取极小值。否则，我们可以修改该子区间内的路径，从而减小总作用量。因此，让我们关注时间区间 (T) 到 (T + \delta)，其中 (\delta) 非常小，并在此子区间上最小化作用量。假设在此区间内的实际运动是从 (X(T)) 到 (X(T + \delta))，且 (X(T + \delta)) 非常接近 (X(T))。由于这些时间和空间间隔非常小，我们可以做一些近似。最简单的近似是假设势 (V) 为常数，且 (X) 随 (t) 线性变化。但这过于简单，我们从中得不到任何东西。更精细的近似是假设 (V(x)) 在 (X(T)) 和 (X(T + \delta)) 之间随 (x) 线性变化，并且路径 (X(t)) 随 (t) 二次变化，因此其图像是一条抛物线，如图 2.4 所示。由于 (V(x)) 是线性的，它具有确定的斜率 (\frac{dV}{dx})，可在 (X(T)) 和 (X(T + \delta)) 之间视为常数。而在该区间内 (X(t)) 是二次的，其图像为抛物线，运动通常具有某个加速度。

图 2.4

现在我们可以利用上一小节中的简单计算。在那里我们证明了，如果势是线性的，斜率为 (k)，即 (V(x) = V_0 + kx)，那么在抛物线路径中，使作用量取极小值的路径是满足 (ma)（质量乘以加速度）等于 (-k) 的那条。当应用于从 (T) 到 (T+\delta) 的短时间间隔时，这意味着 (ma) 等于 (-\frac{dV}{dx})，即在 (X(T)) 处计算的势的斜率的负值。

这是关键结果。通过在一个短时间间隔内用抛物线近似 (X(t)) 的图像，我们求出了加速度。虽然我们只在一个短间隔内最小化了作用量，但同样的分析适用于任何其他短间隔。一般而言，(-\frac{dV}{dx}) 会随间隔不同而变化，因此加速度也会变化。

36
物体的运动——牛顿定律
如果将加速度写成x对时间的二阶导数，我们就得到从最小作用量原理导出的普遍运动方程
md2x
dt2 = −dV
dx ,
(2.22)
真实的运动X(t)就是这个方程的解。
方程(2.22)具有牛顿第二运动定律的形式。我们把作用于物体的力F等同于−dV
dx 。这其实就是最小作用量原理带给我们的主要启示。势V(x)是基本的输入量，而力F(x)则由它导出。力是势的负导数。它是x的函数，并且需要在物体所在的位置——即x(t)——进行求值。
表达式F = −dV
dx 可能以相关的形式F∆x = −∆V 为人们所熟悉。F∆x是物体移动一小段距离∆x时所做的功∆W。在没有摩擦的情况下，物体的动能增加∆W。对我们而言∆W = −∆V ，所以当物体加速时，动能的增加等于势能的减少。
牛顿第一定律是方程(2.22)的一个特例。如果势V是一个常数V0，那么它的导数为零，因此没有力，运动方程变为
md2x
dt2 = 0 ,
(2.23)
这意味着dx
dt 是常数，物体作匀速运动。即使是在非常数势V(x)中，在任何满足dV
dx = 0的点ex处，也都没有力。这些点是势中物体能够保持静止的可能平衡点。这样的平衡点可能是稳定的，也可能不是。
我们之前论证过，接近地球表面的物体的引力势为V(x) = V0 + mgx，但尚未确认g的解释。对于这个势，−dV
dx = −mg，这正是方程(2.6)中出现的、作用在质量为m的物体上的引力，所以g就是重力加速度。
由于方程(2.22)是普遍的，我们现在可以回过头来检验，我们在2.3.2节处理线性势V(x) = kx时所做的简化，给出的答案是正确的还是错误的。事实上，我们得到的运动方程(2.20)是正确的。这是因为力是常数−k，所以加速度是常数。因此，真实的运动X(t)是t的二次函数，其图像是一条抛物线。
2.3.4
变分法
我们从最小作用量原理出发推导了运动方程(2.22)，但我们的方法基于涉及抛物线的计算，并不是最严格的，也不容易推广到更复杂的问题。为了完整起见，我们在这里展示如何利用变分法使作用量S最小化。和之前一样，这个方法会给出真实路径X(t)所遵循的微分方程，也就是牛顿第二运动定律。人们仍需解这个微分方程才能找到X(t)。
回顾一下，对于一条在固定端点x(t0) = x0和x(t1) = x1之间的一般路径x(t)，
S =
Z t1
t0

1
2m
dx
dt
2
−V (x(t))
!
dt .
(2.24)

最小作用量原理
37
与之前一样，假设存在一条光滑路径 (x(t) = X(t))，能使作用量取最小值。令 (S_X) 表示这条最优路径的作用量，即有
[
S_X = \int_{t_0}^{t_1}
\left(
\frac{1}{2m}\left(\frac{dX}{dt}\right)^2 - V(X(t))
\right)
dt .
\tag{2.25}
]
现在假设 (x(t) = X(t) + h(t)) 是一条无限接近 (X(t)) 的路径。由于 (h(t)) 是无穷小量，我们可以忽略 (h(t)) 的二次项。(h(t)) 称为路径的变分，而 (X(t) + h(t)) 称为变分后的路径。对于变分后的路径，速度为
[
\frac{dx}{dt} = \frac{dX}{dt} + \frac{dh}{dt}
\tag{2.26}
]
动能为
[
K = \frac{1}{2m}
\left( \frac{dX}{dt} + \frac{dh}{dt} \right)^2 .
\tag{2.27}
]
略去关于 (h) 的二次项，得到
[
K = \frac{1}{2m}
\left(\frac{dX}{dt}\right)^2 + m\frac{dX}{dt}\frac{dh}{dt} .
\tag{2.28}
]
接下来我们对势能做类似分析。对于变分后的路径，(t) 时刻的势能为 (V(X(t) + h(t)))。我们使用通常的微积分近似（如方程 (1.23)）
[
V(X(t) + h(t)) = V(X(t)) + V’(X(t)) , h(t) .
\tag{2.29}
]
此处 (V) 是只有一个变量（最初为 (x)）的函数，我们对 (x) 求导得到 (V’)。

将动能和势能的结果结合起来，得到变分后路径的作用量 (S_{X+h}) 为
[
S_{X+h} = \int_{t_0}^{t_1}
\left(
\frac{1}{2m}\left(\frac{dX}{dt}\right)^2 + m\frac{dX}{dt}\frac{dh}{dt} - V(X(t)) - V’(X(t)) , h(t)
\right)
dt .
\tag{2.30}
]
右边第一项和第三项既不含 (h) 也不含 (\frac{dh}{dt})，它们正是式 (2.25) 中构成 (S_X) 的项，因此
[
S_{X+h} = S_X + \int_{t_0}^{t_1}
\left(
m\frac{dX}{dt}\frac{dh}{dt} - V’(X(t)) , h(t)
\right)
dt .
\tag{2.31}
]
现在我们对积分中的第一项进行分部积分，使两项都含有公因子 (h(t))。对 (\frac{dh}{dt}) 积分并对 (m \frac{dX}{dt}) 微分，得到
[
S_{X+h} = S_X +
\left[ m\frac{dX}{dt} h(t) \right]_{t_0}^{t_1}

\int_{t_0}^{t_1}
\left(
m\frac{d^2X}{dt^2} + V’(X(t))
\right)
h(t) , dt .
\tag{2.32}
]
(h(t)) 是一个非常一般的（无穷小）函数，但它在 (t_0) 和 (t_1) 处必须为零，因为最小作用量原理适用于在 (t_0) 和 (t_1) 处端点固定的路径。因此，函数 (m \frac{dX}{dt} h(t)) 在两个端点处均为零，故
[
S_{X+h} - S_X = -
\int_{t_0}^{t_1}
\left(
m\frac{d^2X}{dt^2} + V’(X(t))
\right)
h(t) , dt .
\tag{2.33}
]
在端点之间，(h(t)) 不受任何约束。（我们甚至可以让它变号，如果我们愿意的话。）

38
物体的运动——牛顿定律
由此可知，如果积分中乘以h(t)的括号表达式不为零，我们总能找到某个h(t)使得SX+h −SX为负值²，从而SX+h将小于SX，这与路径X使作用量取极小值的假设相矛盾。因此，只有当括号表达式在t₀到t₁之间的所有时刻t都为零时，SX才是作用量的极小值。换言之，最小作用量原理要求
md²x/dt² + V′(x(t)) = 0 。
(2.34)
这就是实际路径x(t)=X(t)必须满足的微分方程，它与方程(2.22)相同。在变分法的语境中，它被称为与作用量S相关的欧拉-拉格朗日方程(Euler–Lagrange equation)。
如前所述，方程(2.34)是牛顿第二定律的一种表述形式，其中力由下式给出
F(x) = −V′(x) 。
(2.35)
我们从最小作用量原理推导出了牛顿第二定律。然而，这里的基本量不再是力，而是势V。

2.3.5 端点的不重要性
最小作用量原理的一个表面问题是，它似乎要求提前指定初始时刻t₀和最终时刻t₁，并在这些时刻对路径设定端点条件。然而，实际情况并非如此。通常，t₀和t₁并无特殊之处。运动可能在t₀之前就已开始，并可能在t₁之后继续。事实上，让我们假设运动在所有时间上发生，且满足运动方程(2.34)。选择固定端点的问题可以通过以下方式避免。我们形式上定义作用量为
S = ∫ (½m(dx/dt)² − V(x(t))) dt 。
(2.36)
此处没有指定任何端点。我们不能将端点选为−∞和∞，因为那样S通常会无穷大。现在考虑一个路径变分，它将实际运动x(t)=X(t)替换为x(t)=X(t)+h(t)，其中h为无穷小量，且仅在某个有限但任意的时间区间I上非零。h还应是连续的，这样它在首次变为非零的时刻以及最后为非零的时刻都不会发生跳变。考虑作用量S在任意包含I的更大时间区间I′上的积分。最小作用量原理要求，在此更大区间I′上定义的S，对于h的任何变分在一阶上保持不变，这意味着实际运动在较小区间I上始终遵守运动方程，因为这是h非零的唯一区间。计算过程与前一节完全相同，并得以成立是因为h在I的端点处为零。反过来，这意味着运动方程在所有时间上都被遵守，因为区间I可以自由选择，且总存在一个包含I的更大区间I′。对I选择的自由性表明我们没有破坏时间平移不变性。

² 这一论断并非完全显然，但若假设括号表达式连续且在某个点非零，则可以严格证明。

多个物体的运动与牛顿第三定律
39
图2.5 科斯塔极小曲面(Costa’s minimal surface)，由保罗·尼兰德(Paul Nylander)绘制。该极小曲面原本会向外延伸至无穷，但为清晰起见，这里显示为由三个环所界定的形状。

图2.5

摆脱预设边界条件这一思路，对于其他变分问题同样有用。我们可以将肥皂膜视为在三维空间中无限延展的极小曲面。最明显的这类曲面是平坦的平面膜，但还有许多更不寻常的例子。我们不能说这些膜的总面积是极小值，因为它们的面积是无穷大。更确切地说，该曲面是在如下意义上极小的：如果我们考虑对膜做一个无穷小的变形，该变形连续且仅在某个有限区域 Σ 内非零，那么作为该变形的结果，膜在一个更大的有限区域 Σ′ 内的面积在一阶近似下不发生变化。这意味着在 Σ 内的每一点，膜都服从我们在 1.1 节末尾所陈述的曲率条件，即曲面的两个主曲率大小相等但方向相反。因为 Σ 是任意选取的，整个膜都服从该曲率条件。图 2.5 展示了这样一个曲面的例子。

图 2.5

2.4
多个物体的运动与牛顿第三定律
现在我们将利用最小作用量原理，为两个在一维空间中运动并通过势相互作用的物体组成的系统推导牛顿第三定律。作用量仍然是单一的量，但现在它涉及两个物体。设这两个物体的可能路径分别为 x(1)(t) 和 x(2)(t)，它们的质量分别为 m(1) 和 m(2)。动能为
K = 1/2 m(1) (dx(1)/dt)^2 + 1/2 m(2) (dx(2)/dt)^2. (2.37)
对于势能 V，我们假设背景环境是均匀的，且不产生动力学效应。于是 V 是仅依赖于两物体间距 l = x(2) − x(1) 的某个函数。这是由于欧几里得对称性，在一维情形下该对称性归结为沿 x 轴的平移对称性。因此势能为 V(l) = V(x(2) − x(1))。（通常，V 只依赖于距离的大小 |x(2) − x(1)|，但这并非必要。）

40
物体的运动——牛顿定律
这对物体的作用量为
S =
Z t1
t0

1
2m(1)
dx(1)
dt
2
+ 1
2m(2)
dx(2)
dt
2
−V

x(2)(t) −x(1)(t)
!
dt .
(2.38)
两个物体的可能路径是相互独立的，但路径的端点
x(1)(t0)、x(2)(t0) 和 x(1)(t1)、x(2)(t1) 必须事先指定。最小作用量原理指出，两个物体的真实路径（我们记为 X(1)(t) 和 X(2)(t)）使 S 达到极小。与之前一样，这一原理将导出运动方程。通过要求在独立的路径变分 X(1)(t) → X(1)(t) + h(1)(t) 和 X(2)(t) → X(2)(t) + h(2)(t) 下，极小化的作用量没有一阶变分，就可以找到这些方程。遵循与单个物体时得到方程 (2.34) 相同的分析过程，我们发现这些方程具有牛顿第二定律的形式，
m(1) d2x(1)
dt2
+ ∂V
∂x(1)

0 ,
m(2) d2x(2)
dt2
+ ∂V
∂x(2)

0 .
(2.39)
这里出现了偏导数，是因为 V 同时依赖于 x(1) 和 x(2)，但 V 实际上只是单一变量 l = x(2) − x(1) 的函数。令 V ′ 表示导数 dV
dl 。那么，根据链式法则，
∂V
∂x(2) = V ′ 且
∂V
∂x(1) = −V ′。因此，两个物体的运动方程 (2.39) 简化为
m(1) d2x(1)
dt2
−V ′(x(2) −x(1))

0 ,
m(2) d2x(2)
dt2
+ V ′(x(2) −x(1))

0 .
(2.40)
对于物体 1，力是 V ′(x(2) − x(1))，而对于物体 2，力是 −V ′(x(2) − x(1))。这两个力大小相等、方向相反。这样我们就推导出了牛顿第三定律，并看到它是势能平移不变性的结果，而平移不变性又源于空间的欧几里得对称性。
这就引出了动量，它是质量与速度的乘积。单个物体的牛顿第二定律的形式提示我们，将动量 p 定义为
p = mv = mdx
dt
(2.41)
会很有用。此时，单个物体的运动方程 (2.34) 变为
dp
dt + V ′(x(t)) = 0 .
(2.42)
由于 −V ′ 是作用在物体上的力，方程 (2.42) 表明力等于物体动量的变化率。如果 V ′ 为零，即没有力，那么 p 就是常量，我们就说动量守恒。

多个物体的运动与牛顿第三定律
41
当涉及两个或更多物体时，动量概念更为有用。假设我们将方程(2.40)中的两个式子相加。力项相互抵消，剩下
m(1) d2x(1)
dt2

m(2) d2x(2)
dt2
= 0 .
(2.43)
对此积分一次，我们得到
m(1) dx(1)
dt
m(2) dx(2)
dt
= 常数 .
(2.44)
用两个物体的动量 p(1) 和 p(2) 表示，即
p(1) + p(2) = 常数 .
(2.45)
这是一个重要的结果。尽管两个物体的相对运动可能很复杂，但总动量 Ptot = p(1) + p(2) 并不随时间改变；它是守恒的。这源于我们导出牛顿(Newton)第三定律时所基于的假设：空间是均匀的，因此物体与环境没有相互作用，仅彼此之间有相互作用。
一种解释是，这两个物体充当了一个复合单体，其总动量等于各组成部分动量之和。该复合体的总动量守恒，这正是对不受外力作用的单个物体所期待的结果。我们可以进一步为复合体确定其作为单个物体时所对应的等效中心位置。注意到
Ptot = m(1) dx(1)
dt
m(2) dx(2)
dt
= d
dt
m(1)x(1) + m(2)x(2) ,
(2.46)
并且复合体的总质量为 Mtot = m(1) + m(2)。因此，我们可写为
Ptot = Mtot
d
dt
m(1)
Mtot
x(1) + m(2)
Mtot
x(2)
.
(2.47)
这就将总动量表示成了单体形式，即总质量与速度 dXCM
dt
的乘积，后者是中心位置
XCM = m(1)
Mtot
x(1) + m(2)
Mtot
x(2) .
(2.48)
的时间导数。XCM 被称为质心。它是各组成部分位置以其质量为权重的平均值，若质量相等则简化为普通平均。由于总动量守恒，XCM 以恒定速度运动。本质上，无论其组成部分的内部运动如何，复合体都遵循牛顿第一定律。
这一分析可以推广到 N 个物体。如果 N 个物体通过依赖于它们各自位置的势 V 相互作用，那么可以从单一的 least action (最小作用量原理) 推导出所有物体的运动方程。每个方程都具有该物体的牛顿第二定律的形式。如果整个系统与

42
物体的运动——牛顿定律
环境，则系统具有平移不变性，且V仅取决于物体的相对位置。在此情况下，作用于N个物体的合力为零，即F(1) + F(2) + · · · + F(N) = 0。这是牛顿第三定律更一般的形式，但它蕴含了通常的第三定律。例如，由所有其他物体施加在第一个物体上的力F(1)，与施加在其他物体上的合力F(2) + · · · + F(N)大小相等、方向相反。

我们可以为每个物体定义动量，p(1) = m(1) dx(1)/dt，p(2) = m(2) dx(2)/dt等，以及总动量Ptot = p(1) + p(2) + · · · + p(N)。对于一个孤立系统，其中F(1) + F(2) + · · · + F(N) = 0，Ptot守恒。由此推得，若我们对N个物体定义总质量为Mtot = m(1) + m(2) + · · · + m(N)，质心为
XCM = m(1)/Mtot x(1) + m(2)/Mtot x(2) + · · · + m(N)/Mtot x(N), (2.49)
则质心具有恒定的速度。我们可以将这N个物体视为构成一个单一的复合体，其特征由总质量和简单的质心运动描述。总动量为
Ptot = Mtot dXCM/dt. (2.50)
如果这个复合体并非孤立于环境，则合力Ftot将不为零。此时质心的运动方程为
Mtot d²XCM/dt² = Ftot. (2.51)
这一简洁的结论有助于我们理解复合系统的运动，比如一起绕太阳运行的地球和月球。

2.5 单个物体在三维空间中的运动
在大多数实际问题中，我们需要考虑三维空间中的运动。势能V取决于所涉全部物体的位置，因此对于N个物体，V是3N个变量的函数。我们需要能对其中任意变量求导，这要求进一步运用偏导数。

现在让我们仅考虑一个物体。其轨迹为x(t)，速度为v(t)。与一维情况相同，物体的动能K正比于其质量及速率平方，
K = ½mv·v = ½m dx/dt · dx/dt. (2.52)
由于点积的关系，即使v的方向改变，K也保持不变。该物体同样具有势能V(x)。

单物体在三维空间中的运动
43
对于在初始点x₀和终点x₁之间、在时间t₀和t₁沿轨迹x(t)运动的物体，其作用量为
S

∫ₜ₀ᵗ¹
(½m dx/dt · dx/dt − V(x(t)))
dt

∫ₜ₀ᵗ¹
(½m (dx₁/dt)² + ½m (dx₂/dt)² + ½m (dx₃/dt)² − V(x₁(t), x₂(t), x₃(t)))
dt .
(2.53)
这与方程(2.38)形式相似，但解释却截然不同。在这里，(x₁(t), x₂(t), x₃(t))是单个物体位置的三个分量，而此前x⁽¹⁾(t)和x⁽²⁾(t)是两个物体（在一维空间中）的位置。数学上这毫无区别，将最小作用量原理应用于作用量(2.53)，便可得到运动方程
m d²x₁/dt² + ∂V/∂x₁ = 0 ,
m d²x₂/dt² + ∂V/∂x₂ = 0 ,
m d²x₃/dt² + ∂V/∂x₃ = 0 .
(2.54)
我们可以利用梯度∇的定义(1.26)，将这些方程合并为矢量方程
m d²x/dt² + ∇V = 0 ,
(2.55)
这正是牛顿第二定律(2.3)，其中力F = −∇V。F并非位置的任意函数，因为并非每个矢量函数F(x)都能表示为标量函数V(x)梯度的负值。方程(2.55)有着恰如其分的几何解释。回想∇V指向势函数V最陡上升的方向，因此力指向最陡下降的方向，其大小与斜率成正比。
物体在三维空间中的动量是p = mv。因此方程(2.55)的另一种表述形式为
dp/dt + ∇V = 0 ,
(2.56)
再次表明力是动量的变化率。

2.5.1 谐振子
矢量微分方程(2.55)通常只能通过数值积分求解，但存在重要的例外。谐振子便是其中一个可解析求解的案例，其势函数V是x₁、x₂和x₃的二次函数。一般的二次函数V(x₁, x₂, x₃) = ½Ax₁² + ½Bx₂² + ½Cx₃² + Dx₁x₂ + Ex₁x₃ + Fx₂x₃处理起来有些棘手。我们可以利用动能K的旋转不变性对其进行简化。总有可能选取一组新的带撇坐标系³，保持K的表达式不变，但消去V中的混合项，使得V(x₁, x₂, x₃) = ½Ax₁² + ½Bx₂² + ½Cx₃²。

³严格来说，这里应使用带撇坐标和系数，然后再略去撇号。

44
物体的运动——牛顿定律
假设A、B和C为正数，因此势能在原点O处有极小值。为简化此例，再设m = 1。作用量为
S = 1
2
Z t1
t0
( dx1
dt
2
+
dx2
dt
2
+
dx3
dt
2
−Ax2
1 −Bx2
2 −Cx2
3
)
dt ,
(2.57)
其中没有坐标的混合项。对S求极小给出运动方程
d2x1
dt2 + Ax1 = 0 ,
d2x2
dt2 + Bx2 = 0 ,
d2x3
dt2 + Cx3 = 0 .
(2.58)
这是三个退耦合的一维谐振子，其通解为
x1(t)

α1 cos
√
At + β1 sin
√
At
x2(t)

α2 cos
√
Bt + β2 sin
√
Bt
x3(t)

α3 cos
√
Ct + β3 sin
√
Ct ,
(2.59)
描述围绕O点稳定平衡的频率为
√
A、
√
B 和
√
C 的振荡。
三维谐振子是一个重要且有用的例子。即使势V不是二次型的，只要它在ex处有一个稳定平衡点，我们往往可以用V的二次近似，并将ex附近的小振幅振荡视为谐振动。
如果系数A、B、C中有一个或多个为负或为零，方程(2.58)的解也不难找到。例如，若A < 0，第一个方程的通解为 x1(t) = α1 exp
√
−At + β1 exp −
√
−At；若A = 0，则 x1(t) = α1t + β1。它们分别描述在不稳定平衡点和中性平衡点附近的运动。
谐振子势的一个特例是
V (x1, x2, x3) = 1
2A(x2
1 + x2
2 + x2
3) = 1
2Ar2 .
(2.60)
这个势具有旋转不变性，或称各向同性。此时只有一个频率
√
A，一般的振荡解可以写成矢量形式
x(t) = α cos
√
At + β sin
√
At .
(2.61)
运动沿α 和 β 张成的平面内的椭圆轨道进行，椭圆中心在O点。适当选择时间起点，可以使α为半长轴，β为半短轴。霍罗克斯(Horrocks)等人将开普勒轨道比作单摆的椭圆轨道，后者在小振荡下由谐振子势描述。关键区别在于，开普勒发现太阳位于椭圆轨道的焦点上，而非中心。
2.6
中心力
现在我们来讨论牛顿(Newton)在《原理》(Principia)中处理的一个关键问题。考虑一个物体在一般的势 V (r) 中运动，该势仅依赖于径向

中心力
45
与点 O 的距离。回忆方程 (1.38) 中 ∇V (r) 的一般形式。利用此式，运动方程 (2.54) 成为
md²x₁
dt² + V′(r)x₁/r = 0 ,
md²x₂
dt² + V′(r)x₂/r = 0 ,
md²x₃
dt² + V′(r)x₃/r = 0 ,
(2.62)
或写成矢量形式，
md²x
dt² + 1/r V′(r)x = 0 .
(2.63)
这表明加速度正比于径向矢量 x，直接指向或背离 O，因此 O 充当力的中心。由于这个原因，V(r) 被称为中心势，相应的力被称为中心力。各向同性谐振子就是一个例子，此时 V(r) = ½ Ar² 且 V′(r) = Ar。

对于在中心势中运动的物体，动能和势能均不因绕 O 的转动而改变，其重要后果是存在一个守恒量——物体的角动量。这是一个矢量 l，利用位置 x 与速度 v 的叉积定义：
l = m x × v = m x × dx/dt .
(2.64)
角动量的另一种表达式为 l = x × p，其中 p = mv 是物体的普通线动量。

为了证明 l 是常矢量，我们对方程 (2.64) 求导，应用莱布尼茨法则，然后利用运动方程 (2.63)，最后注意到任何矢量与自身的叉积为零：
dl/dt

m dx/dt × dx/dt + m x × d²x/dt²

m dx/dt × dx/dt − 1/r V′(r) x × x

0 .
(2.65)
因此角动量 l 是守恒的。

角动量守恒的一个直接结果就是轨道是平面的。回想 l = m x × v 意味着 l 正交于 x 和 v。将 l、x 和 v 视为从原点 O 指出来的矢量（必要时可对 v 作平行移动）。由于 l 是常矢量，x 和 v 必定位于通过 O 且与 l 正交的固定平面内，因此若无其他力作用，x 将保持在这个平面内，v 也同样如此。如果我们选择坐标轴，使 3 轴沿 l 方向，那么运动就发生在通过 O 且与 3 轴正交的平面内，该平面内的笛卡尔坐标我们现在记为 x 和 y，于是 x(t) = (x(t), y(t), 0)。开普勒(Johannes Kepler)最早分析行星运动时的发现之一，就是行星的轨道保持在穿过太阳的一个固定平面内。这有时被称为开普勒第零定律。这里我们已看到，对于在任意中心势中运动、并以太阳为力心的行星，该定律都成立。

同样有用的是用极坐标来考虑角动量守恒，此时 x = r cos ϕ，y = r sin ϕ。利用这些坐标，物体变化的位置为
x(t) = r(t) ( cos ϕ(t), sin ϕ(t), 0 ) .
(2.66)

46
物体的运动——牛顿定律
因此，使用莱布尼茨(Leibniz)法则，
dx
dt = dr
dt

cos ϕ(t), sin ϕ(t), 0

r(t)dϕ
dt

−sin ϕ(t), cos ϕ(t), 0

.
(2.67)
只有右侧第二项对 l 有贡献，因为第一项沿 x 方向，它与 x 的叉积为零。于是我们得到
l = mx × dx
dt = m

0, 0, r2(t) dϕ
dt

.
(2.68)
正如预期，l 沿第三轴方向，且由于 l 守恒，其大小为常量 l。方程 (2.68) 意味着
mr2(t) dϕ
dt = l .
(2.69)
因此，对于中心势中的运动，角速度 dϕ
dt 与到 O 点距离的平方成反比，所以物体远离 O 时角速度比靠近 O 时小。

这个结果有一个简洁的几何解释。到时间 t 为止，矢径扫过的轨道部分面积为
1
2
Z
r2 dϕ = 1
2
Z t
0
r2(t′)dϕ
dt′ dt′ =
l
2mt .
(2.70)
面积扫过的速率，即其时间导数，因此具有恒定值
l
2m。这就是开普勒(Kepler)第二定律。它适用于任何中心势中的轨道，是角动量守恒的结果。

通常，在吸引性中心势中，当 l 不为零时，一般轨道呈图 2.6 所示形式。运动沿平面轨迹进行，该轨迹并不闭合形成重复图形。即便如此，存在一种周期性，称为进动(precession)。从 B 到 C 的运动重复从 A 到 B 的运动，但旋转了某个角度 ϕ0。这种重复无限继续，每次回到轨道最外点时都再旋转 ϕ0 角。

图 2.6

只要 l ̸= 0，轨道就不能穿过 O，因为在 O 处，方程 (2.64) 意味着 l 将为零（因为 x = 0 而 v 有限）。不过注意，若 l 为零，则 x×v = 0，因此 x 和 v 平行。此时运动沿某条固定径向线进行，并可能穿过 O。

2.6.1
圆轨道
当轨道为圆形时，径向距离 r 和角速度 dϕ
dt 保持不变，因此这是考虑有心力运动最简单的情况。让我们找出角速度与力强度之间的关系。

假设轨道为
x(t) = r

cos ϕ(t), sin ϕ(t), 0

,
(2.71)
其中 r 和 dϕ
dt 为常数。

中心力
47
A
B
C
O
ϕ0
ϕ0
图 2.6 轨道的进动。

图 2.6

速度为
v = dx
dt = rdϕ
dt

−sin ϕ(t), cos ϕ(t), 0

,
(2.72)
这是一个与 x 正交因而与轨道相切的矢量。加速度为
a = d2x
dt2 = −r
dϕ
dt
2
cos ϕ(t), sin ϕ(t), 0

,
(2.73)
它是位置矢量 x 的负倍数，因此是指向 O 的矢量。
这确立了一个重要结果：在半径为 r、角速度为 dϕ
dt 的圆轨道上，加速度指向圆心，大小为
|a| = r
dϕ
dt
2
.
(2.74)
对于中心势 V (r)，指向 O 的力大小为 V ′(r)，因此圆轨道满足运动方程 ma = F，只要
mr
dϕ
dt
2
= V ′(r) .
(2.75)
如果力是吸引的，则 V ′(r) 为正，在任何固定半径 r 处都有解，角速度为
dϕ
dt = ±
1
mrV ′(r)
1
2
,
(2.76)
其中符号决定绕圆运动的方向。角动量的大小为
l = mr2 dϕ
dt =
mr3V ′(r)
1
2 .
(2.77)

48
物体的运动——牛顿定律
φ 的范围是 2π，因此由方程 (2.76)，该半径处轨道的周期为
T = 2π
[ 1
mr V ′(r)
]−1/2
.
(2.78)
对于各向同性谐振子，V ′(r) = Ar，故 T 与轨道半径无关，这与熟知的事实一致：对于微小振动，摆的周期与振幅无关。然而，这排除了将谐振子作为行星轨道模型的可能性，因为开普勒(Kepler)第三定律指出，对于半径为 r 的圆轨道，周期 T 正比于 r^{3/2}。开普勒定律意味着 [1/(mr) V ′(r)]^{-1/2} ∝ r^{3/2} 或 V ′(r) ∝ 1/r^2。这是牛顿(Newton)得以推断太阳与行星之间的力按平方反比律减弱的关键。

2.7
吸引的平方反比律力
物理上，中心力最重要的例子是吸引的平方反比律力，它源于势 V (r) = −C/r，其中 C 为正。物体在该势中的运动方程为
m d^2x/dt^2 + (C/r^3) x = 0 .
(2.79)
物体受到指向 O 的大小为 C/r^2 的平方反比律力。牛顿著名的论证是，只有当两个大质量球对称物体之间的引力具有这种形式时，才能解释开普勒关于行星运动的所有定律。若质量分别为 m(1) 和 m(2)，间距为 r，则力的大小为
G m(1) m(2) / r^2
(2.80)
其中 G 是牛顿万有引力常数。我们将在 2.10 节中讨论两体在相互引力作用下的运动，但现在先考虑第一个物体远重于第二个物体的简单情形。这样，我们可以认为第一个物体静置于 O 点，而第二个物体围绕它运行。这是行星绕太阳运动的一个合理一级近似。⁴
设 O 处物体的质量为 m(1) = M，绕行物体的质量为 m(2) = m。引力为 (GMm/r^3) x，于是绕行物体的运动方程 (2.79) 变为
d^2x/dt^2 + (GM/r^3) x = 0 .
(2.81)
m 已消去，正如对引力所预期的那样。轨道与 m 无关，尽管角动量和能量等物理量确实依赖于 m。为方便起见，在本节余下部分我们设 m = 1。
我们来求运动方程 (2.81) 的一般轨道。与在任何中心势中一样，角动量矢量 l = x × v 守恒，且运动

⁴ 这仅仅是太阳系运动的一种近似，因为还必须考虑其他行星的引力。如果物体是非球形的，还需要进一步修正。

吸引力的平方反比定律力

逆平方定律力的情形下，还唯一地存在另一个守恒矢量，称为龙格–楞次矢量(Runge–Lenz vector)，
[
\mathbf{k} = \mathbf{l} \times \mathbf{v} + \frac{GM}{r} \mathbf{x},
\tag{2.82}
]
它位于运动平面内。

验证 (\mathbf{k}) 守恒比验证 (\mathbf{l}) 守恒稍显复杂。对时间求导，我们得到
[
\frac{d\mathbf{k}}{dt} = -\frac{GM}{r^3} \mathbf{l} \times \mathbf{x} + GM \left( \nabla \left( \frac{1}{r} \right) \cdot \mathbf{v} \right) \mathbf{x} + \frac{GM}{r} \mathbf{v},
\tag{2.83}
]
其中第一项来自对 (\mathbf{v}) 求导并利用运动方程 (2.81)，第二项是因为任何空间变量函数 (f) 的时间导数为 (\nabla f \cdot \frac{d\mathbf{x}}{dt} = \nabla f \cdot \mathbf{v})（由链式法则），最后一项直接来自 (\mathbf{x}) 的时间导数。现在我们将 (\mathbf{l}) 替换为 (\mathbf{x} \times \mathbf{v})，并利用方程 (1.39) 代入梯度项，得到
[
\frac{d\mathbf{k}}{dt} = -\frac{GM}{r^3} (\mathbf{x} \times \mathbf{v}) \times \mathbf{x} - \frac{GM}{r^3} (\mathbf{x} \cdot \mathbf{v}) \mathbf{x} + \frac{GM}{r} \mathbf{v}.
\tag{2.84}
]
最后，我们利用双重叉积恒等式 (1.20) 的形式 ((\mathbf{x} \times \mathbf{v}) \times \mathbf{x} = (\mathbf{x} \cdot \mathbf{x})\mathbf{v} - (\mathbf{x} \cdot \mathbf{v})\mathbf{x} = r^2\mathbf{v} - (\mathbf{x} \cdot \mathbf{v})\mathbf{x})，可以看到右侧所有项都互相抵消。因此 (\frac{d\mathbf{k}}{dt} = 0)。

龙格–楞次矢量 (\mathbf{k}) 的守恒是关于平方反比力作用下运动的一个关键事实。其后果是 (\mathbf{k}) 的方向固定，因此不存在进动，更重要的是，有界轨道会闭合形成椭圆。为了证明这一点，我们必须首先回顾椭圆的几何性质。椭圆在 ((X, Y)) 平面上的标准方程，以其中心为原点，为
[
\frac{X^2}{a^2} + \frac{Y^2}{b^2} = 1,
\tag{2.85}
]
其中 (a > b)。椭圆的取向使得 (a) 和 (b) 分别是半长轴和半短轴的长度，如图 2.7 所示。离心率 (e) 通过 (b^2 = (1 - e^2)a^2) 定义，它指定了椭圆偏离圆的程度。椭圆的两个焦点位于 (X) 轴上，在 (X = \pm ea) 处。对于椭圆上的任意一点，到两个焦点的距离之和为 (2a)。

图 2.7

我们需要将位于 (X = ea) 的焦点移到原点，并找出椭圆在该位置下的方程。因此令 (x = X - ea)，(y = Y)。代入方程 (2.85)，两边乘以 (b^2)，然后用 ((1 - e^2)a^2) 替换 (b^2)，我们得到
[
(1 - e^2)(x + ea)^2 + y^2 = (1 - e^2)a^2,
\tag{2.86}
]
因此，展开后，
[
(1 - e^2)x^2 + 2e(1 - e^2)ax + (1 - e^2)e^2a^2 + y^2 = (1 - e^2)a^2.
\tag{2.87}
]

50
Chapter 2 物体的运动——牛顿定律

[
\begin{array}{c}
\includegraphics[width=0.45\textwidth]{ellipse_figure.png} % 示意图，此处保留描述
\end{array}
]
图 2.7 椭圆：(F_1) 和 (F_2) 是椭圆的焦点，(a) 是半长轴的长度，(b) 是半短轴的长度。(e) 是离心率。

图 2.7

从等式两边减去项 ((1 - e^2)e^2a^2) 得到
[
(1 - e^2)x^2 + 2e(1 - e^2)ax + y^2 = (1 - e^2)^2 a^2,
\tag{2.88}
]
这可以重新整理为
[
x^2 + y^2 = \left( ex - (1 - e^2)a \right)^2.
\tag{2.89}
]
现在引入极坐标，(x = r \cos \phi) 和 (y = r \sin \phi)，并对方程 (2.89) 取平方根，得到椭圆的方程
[
r = -er \cos \phi + (1 - e^2)a,
\tag{2.90}
]
重新整理成最终形式
[
r(1 + e \cos \phi) = (1 - e^2)a.
\tag{2.91}
]
这就是一个焦点在原点的椭圆的极坐标方程。

现在我们可以证明，在平方反比力作用下的轨道是一个椭圆，且一个焦点在力心。回忆一下，轨道在 ((x, y)) 平面内，守恒的龙格–楞次矢量 (\mathbf{k}) 也在该平面内。定义龙格–楞次矢量的方程 (2.82) 涉及速度和位置，但引人注目的是，我们可以直接从中得到一个仅依赖于位置矢量 (\mathbf{x}) 的轨道方程。为此，我们将方程 (2.82) 的两边与 (\mathbf{x}) 点乘，得到
[
\mathbf{k} \cdot \mathbf{x} = (\mathbf{l} \times \mathbf{v}) \cdot \mathbf{x} + GMr.
\tag{2.92}
]
现在，利用恒等式 ((\mathbf{l} \times \mathbf{v}) \cdot \mathbf{x} = \mathbf{l} \cdot (\mathbf{v} \times \mathbf{x}))，并将 ((\mathbf{v} \times \mathbf{x})) 替换为 (-\mathbf{l})，我们得到
[
\mathbf{k} \cdot \mathbf{x} = -|\mathbf{l}|^2 + GMr,
\tag{2.93}
]
这就是所需形式的方程，其中速度已消去。

平方反比吸引力
51
如果我们取向坐标轴使得 (\boldsymbol{k}) 沿着负 (x) 轴，那么 (\boldsymbol{k} \cdot \boldsymbol{x} = -kx = -kr \cos \phi)，其中 (k) 是 (\boldsymbol{k}) 的大小。将此代入方程 (2.93) 得到 (-kr \cos \phi = -l^{2} + GMr)，整理可得
[
r \left( 1 + \frac{k}{GM} \cos \phi \right) = \frac{l^{2}}{GM}.
\tag{2.94}
]
这个轨道方程正是以原点为一个焦点的椭圆的极坐标方程，如方程 (2.91) 所给。偏心率为 (e = \dfrac{k}{GM})，长度参数 (a) 由 ((1 - e^{2})a = \dfrac{l^{2}}{GM}) 给出。这些量分别由龙格–楞次(Runge–Lenz)矢量和角动量矢量的大小决定，而这些大小又由初始条件确定。力心位于原点，即椭圆的一个焦点。因此，平方反比吸引力下的轨道正好具有开普勒(Kepler)在研究行星时所发现的形式。开普勒第一定律指出，行星的轨道是一个椭圆，太阳位于其中一个焦点上。

我们已经推导出了轨道的几何形式，但尚未明确求出物体沿轨道运行的速率。整理方程 (2.94) 得
[
\frac{1}{r} = \frac{GM}{l^{2}} \left( 1 + \frac{k}{GM} \cos \phi \right),
\tag{2.95}
]
再利用极坐标下角动量的公式 (2.69) 有 (\dfrac{\mathrm{d}\phi}{\mathrm{d}t} = \dfrac{l}{r^{2}})。于是将方程 (2.95) 平方并乘以 (l)，就得到关于角运动的微分方程
[
\frac{\mathrm{d}\phi}{\mathrm{d}t} = \frac{G^{2} M^{2}}{l^{3}} \left( 1 + \frac{k}{GM} \cos \phi \right)^{2}.
\tag{2.96}
]
这个方程不容易求解。

不过，总的轨道周期却具有简单的形式。由椭圆的极坐标方程 (2.91) 可知，从几何上看，轨道上离原点最远的点出现在 (\cos \phi = -1) 处，距离为 (r_{\max} = (1 + e)a)；离原点最近的点出现在 (\cos \phi = 1) 处，距离为 (r_{\min} = (1 - e)a)。对于开普勒轨道，从方程 (2.94) 可以读出 (r_{\max} = \dfrac{l^{2}}{GM - k}) 和 (r_{\min} = \dfrac{l^{2}}{GM + k})。因此
[
\frac{1}{2}(r_{\max} + r_{\min}) = a = \frac{GMl^{2}}{G^{2} M^{2} - k^{2}},
\tag{2.97}
]
且
[
r_{\max} r_{\min} = (1 - e^{2}) a^{2} = b^{2} = \frac{l^{4}}{G^{2} M^{2} - k^{2}}.
\tag{2.98}
]
轨道面积由椭圆面积公式 (A = \pi a b) 给出，因此为
[
A = \pi \frac{GMl^{2}}{G^{2} M^{2} - k^{2}} \left( \frac{l^{4}}{G^{2} M^{2} - k^{2}} \right)^{\frac{1}{2}} = \pi \frac{GMl^{4}}{(G^{2} M^{2} - k^{2})^{\frac{3}{2}}} = \pi \frac{l}{(GM)^{\frac{1}{2}}} a^{\frac{3}{2}}.
\tag{2.99}
]
由方程 (2.70)，轨道周期 (T) 等于轨道面积 (A) 除以

52
物体的运动——牛顿定律
面积扫过的速率，1/2 l。因此
T =
2π
(GM)
1/2 a
3/2 .
(2.100)
这就是一般椭圆轨道的开普勒第三定律：轨道周期的平方与轨道半长轴长度的立方成正比。
在太阳系中，太阳作为主导引力天体，M 代表太阳的质量 M⊙。因此，第三定律中与 a
3/2 相乘的常数是
2π
(GM⊙)
1/2 ，对于所有行星、小行星及其他绕太阳运行的天体，这个常数都是相同的。对于圆轨道，半长轴 a 也就是其半径。
2.8
G 与地球的质量
要确定地球、其他行星以及太阳的质量，需要独立测定牛顿常数 G。如果能够在地面实验中测量已知质量和已知间距物体之间的引力，这便有可能实现。牛顿本人认为这样的测量过于困难，但到了18世纪末，一个精确的结果已被获得。
1774年，皇家学会指派皇家天文学家内维尔·马斯基林(Nevil Maskelyne)组织一支探险队，前往苏格兰的希哈利恩山(Schiehallion)，以测量组成该山的物质的引力。他们在山附近制作了一个摆，并在山的两侧测量由恒星确定的铅垂线与摆线之间的夹角。选择希哈利恩山是因为其形状简单，使得其质量易于估算，并且它位置相对孤立，因此可以忽略任何邻近山脉的引力效应。即便如此，这次探险也未能测得一个非常精确的 G 值。
1798年，亨利·卡文迪什(Henry Cavendish)采用约翰·米歇尔(John Michell)设计的方法，得出了更好的结果。他使用扭秤来测量铅球之间的引力，装置如图2.8所示。有两个固定的小球形质量 m(2)，在它们之间是一个悬挂在细丝上的横梁，横梁两端各有一个大的球形质量 m(1)。每个质量 m(1) 都被拉向离其较近的固定质量 m(2)。这会使细丝扭转，直到达到一个产生等量回复力的平衡位置。这个回复力与扭转角之间存在线性关系，F = cϑ。如果 c 的值已知，那么引力就很容易求得。这个实验的精妙之处在于，横梁的方向会围绕其平衡位置振荡，而振荡周期可以用来确定常数 c。由于力非常小，振荡周期很长——大约20分钟。

图2.8

有了 c 的值，就可以求得引力。悬挂细丝上的一面镜子使得横梁的方向可以被精确测定，因此可以测量平衡位置处的偏转角 ϑ。这给出了平衡了质量 m(1) 和 m(2) 之间引力 Gm(1)m(2)/d² 的回复力大小，其中 d 是平衡时两质量间的距离。由于 d 和质量已知，G 就可以计算出来。
卡文迪什在他伦敦市中心住宅的客厅里进行了这个实验。相当了不起的是，他得到的值与现今的最佳值误差在1%以内，该值为
G = 6.67 × 10⁻¹¹ m³ kg⁻¹ s⁻² .
(2.101)

复合物体与质心运动
53
m(1)
m(1)
d
ϑ
m(2)
m(2)
d
图 2.8 Michell–Cavendish 实验的示意图。

图 2.8

利用这一结果，我们可以得到地球的质量。接近地球表面的物体向下的加速度为 g = GM
R2 ，其中 M 是地球的质量，R 是其半径。地球的半径自古已知，因此已知 g 和 G 后，便可计算出 M。地球的质量为 M ≃5.97 × 1024 kg，其平均密度为 5.51 × 103 kg m−3。这比地表发现的大多数岩石都致密得多，但与地球具有致密金属核心的事实相符，这一点已被地震学数据和地球磁场表明。

2.9
复合物体与质心运动
当单个物体在有心势中运动时，角动量守恒，但普通的线动量并不守恒，因为力心破坏了平移不变性。另一方面，对于彼此相互作用但不受外力作用的 N 个物体系统，总线动量和总角动量均守恒。我们将在此探讨质心运动对这两种守恒量的贡献。
设这 N 个物体具有随时间变化的位置 x(1), . . . , x(N) 和速度 v(1), . . . , v(N)，其中上标是物体的标号。系统的势是某个函数 V (x(1), . . . , x(N))。由欧几里得对称性，将所有物体平移任意矢量 c 后，势不变，因此

54
物体的运动——牛顿定律
V (x(1) + c, . . . , x(N) + c) = V (x(1), . . . , x(N)) 。
(2.102)
对于无穷小 c，利用方程(1.27)，这意味着
c · ∇(1)V + · · · + c · ∇(N)V = 0 ，
(2.103)
其中 ∇(k) 是与位置变量 x(k) 相关的梯度算符。由于 c 是任意的，可得
∇(1)V + · · · + ∇(N)V = 0 ，
(2.104)
类似地，将所有物体绕 O 点作无穷小旋转，V 保持不变。无穷小旋转将 x 移至 x + α × x，其中旋转轴沿 α 方向，旋转角为无穷小量 |α|。V 的不变性意味着
α × x(1) · ∇(1)V + · · · + α × x(N) · ∇(N)V = 0 ，
(2.105)
此式可以重新表达（利用方程(1.19)）为
α ·
h
x(1) × ∇(1)V + · · · + x(N) × ∇(N)V
i
= 0 。
(2.106)
由于 α 是任意的，
x(1) × ∇(1)V + · · · + x(N) × ∇(N)V = 0 。
(2.107)
现在我们来考虑不变性质(2.104)和(2.107)的推论。运动方程为
m(k) d2x(k)
dt2
+ ∇(k)V = 0 ，
k = 1, . . . , N 。
(2.108)
将它们相加，并利用方程(2.104)，我们得到
m(1) d2x(1)
dt2
+ · · · + m(N) d2x(N)
dt2
= 0 。
(2.109)
积分一次得
m(1) dx(1)
dt
+ · · · + m(N) dx(N)
dt
= 常数。
(2.110)
这个常矢量就是总动量 Ptot，即所有物体的动量 p(k) = m(k) dx(k)
dt 之和。Ptot 与质心运动直接相关，因为
Ptot

d
dt

m(1)x(1) + · · · + m(N)x(N)

Mtot
d
dt
m(1)
Mtot
x(1) + · · · + m(N)
Mtot
x(N)

Mtot
dXCM
dt
，
(2.111)
其中
XCM = m(1)
Mtot
x(1) + · · · + m(N)
Mtot
x(N)
(2.112)
是质心。方程(2.111)是方程(2.50)的三维类比。守恒的总动量等于总质量乘以质心速度，因此

复合物体与质心运动
55
这个速度是恒定的。物体之间的相对运动对总动量没有贡献。

为了求总角动量，我们对第k个物体的运动方程(2.108)与位置$\mathbf{x}{(k)}$取叉积，并再次求和，得到
[
m{(1)} \mathbf{x}{(1)} \times \frac{d^2 \mathbf{x}{(1)}}{dt^2} + \cdots + m_{(N)} \mathbf{x}{(N)} \times \frac{d^2 \mathbf{x}{(N)}}{dt^2} = 0
\tag{2.113}
]
其中用到了方程(2.107)。此方程可表示为
[
\frac{d}{dt} \left( m_{(1)} \mathbf{x}{(1)} \times \frac{d\mathbf{x}{(1)}}{dt} + \cdots + m_{(N)} \mathbf{x}{(N)} \times \frac{d\mathbf{x}{(N)}}{dt} \right) = 0,
\tag{2.114}
]
因为所有项 $\frac{d\mathbf{x}{(k)}}{dt} \times \frac{d\mathbf{x}{(k)}}{dt}$ 均为零。积分后得到
[
m_{(1)} \mathbf{x}{(1)} \times \frac{d\mathbf{x}{(1)}}{dt} + \cdots + m_{(N)} \mathbf{x}{(N)} \times \frac{d\mathbf{x}{(N)}}{dt} = \text{常数}.
\tag{2.115}
]
这个常矢量是守恒的总角动量 $L_{\text{tot}}$，它还有另一种表达式
[
\begin{aligned}
L_{\text{tot}} &= m_{(1)} \mathbf{x}{(1)} \times \mathbf{v}{(1)} + \cdots + m_{(N)} \mathbf{x}{(N)} \times \mathbf{v}{(N)} \
&= \mathbf{x}{(1)} \times \mathbf{p}{(1)} + \cdots + \mathbf{x}{(N)} \times \mathbf{p}{(N)} .
\end{aligned}
\tag{2.116}
]
$L_{\text{tot}}$ 是所有 $N$ 个物体的角动量贡献之和。

现在我们可以看到质心的运动如何贡献于总角动量 $L_{\text{tot}}$（回忆一下，质心运动是 $P_{\text{tot}}$ 的全部来源）。首先假设质心静止于 $O$ 且 $P_{\text{tot}}$ 为零。由于物体间的相对运动，由方程(2.116)给出的 $L_{\text{tot}}$ 通常不为零。现在，如果我们通过将 $\mathbf{x}{(k)}$ 移至 $\mathbf{x}{(k)} + \mathbf{X}{\text{CM}}$ 并将 $\mathbf{v}{(k)}$ 移至 $\mathbf{v}{(k)} + \mathbf{V}{\text{CM}}$ 来将此相对运动与质心运动结合起来，其中 $\mathbf{V}{\text{CM}}$ 为常矢量且 $\frac{d\mathbf{X}{\text{CM}}}{dt} = \mathbf{V}{\text{CM}}$，那么新的守恒角动量为
[
\begin{aligned}
L’{\text{tot}} &= \sum_{1}^{N} m_{(k)} (\mathbf{x}{(k)} + \mathbf{X}{\text{CM}}) \times (\mathbf{v}{(k)} + \mathbf{V}{\text{CM}}) \
&= L_{\text{tot}} + \mathbf{X}{\text{CM}} \times \left( \sum{1}^{N} m_{(k)} \mathbf{v}{(k)} \right) + \left( \sum{1}^{N} m_{(k)} \mathbf{x}{(k)} \right) \times \mathbf{V}{\text{CM}} \
&\quad + M_{\text{tot}} \mathbf{X}{\text{CM}} \times \mathbf{V}{\text{CM}} .
\end{aligned}
\tag{2.117}
]
矢量 $\sum_{1}^{N} m_{(k)} \mathbf{v}{(k)}$ 是原来的总动量，它为零，而根据方程(2.112)中质心的定义，我们看到 $\sum{1}^{N} m_{(k)} \mathbf{x}{(k)}$ 是 $M{\text{tot}}$ 乘以原来的质心位置，它也是零矢量。因此
[
L’{\text{tot}} = L{\text{tot}} + M_{\text{tot}} \mathbf{X}{\text{CM}} \times \mathbf{V}{\text{CM}} = L_{\text{tot}} + \mathbf{X}{\text{CM}} \times \mathbf{P}{\text{tot}} .
\tag{2.118}
]
质心的运动对总角动量贡献了 $M_{\text{tot}} \mathbf{X}{\text{CM}} \times \mathbf{V}{\text{CM}}$，并且这一项是常数，因为它的时间导数只涉及 $\mathbf{V}{\text{CM}} \times \mathbf{V}{\text{CM}}$，而它为零。

56
物体的运动——牛顿(Newton)定律
我们得出结论：对于一般的质心运动，由N个物体构成的系统的总角动量L′
tot
包含两个部分，且每一部分都不随时间改变。质心运动的贡献并不十分显著，因为它依赖于我们选为原点的O点。真正有趣的是原本的量Ltot，它是相对于质心的角动量。我们将其称为系统的内禀角动量，或系统的自旋。当我们将来讨论量子力学时，会发现粒子和原子的自旋是量子化的，即它只能取与普朗克常数¯h成正比的离散值。这种自旋不受质心整体运动的影响。

一个处于相对运动中的物体系统，例如一个星系中的恒星或由许多原子组成的固体，可以被视为一个旋转的复合体。如果系统像固体那样作刚性转动，这种理解尤为恰当。固体的自旋角动量与整个物体的角速度及其转动惯量有关。

2.10
开普勒(Kepler)二体问题
在此，我们简要说明两个物体在它们相互的引力作用下，其运动如何转化为我们在2.7节中讨论过的单体有心力问题。

如前所述，设两物体的质量分别为m(1)和m(2)。它们的运动方程为
m(1) d²x(1)/dt² + Gm(1)m(2)/|x(2) −x(1)|³ (x(1) −x(2)) = 0 ,
m(2) d²x(2)/dt² + Gm(1)m(2)/|x(2) −x(1)|³ (x(2) −x(1)) = 0 ,
(2.119)
其中平方反比力大小相等，方向相反。

将这两个方程相加，我们可确证质心具有恒定的速度，而消去重复的质量因子并相减后，得到
d²(x(2) −x(1))/dt² + G(m(1) + m(2))/|x(2) −x(1)|³ (x(2) −x(1)) = 0 ,
(2.120)
这就是相对运动方程。分离矢量x(2) −x(1)遵循一个吸引性的平方反比有心力方程，如同方程(2.81)那样，但其中的常数GM被替换为GMtot = G(m(1) + m(2))。因此，分离矢量沿一条遵循开普勒三定律的椭圆轨道运动。

相对于质心，第二个物体所走的路径是x(2) −XCM，其中XCM由方程(2.112)定义。该式可简化为
x(2) − (m(1)x(1) + m(2)x(2))/(m(1) + m(2)) = m(1)/(m(1) + m(2)) (x(2) −x(1)) ,
(2.121)
因此第二个物体相对于质心的运动是分离矢量运动的一个缩小版本。假设分离矢量沿着半长轴为a的椭圆运动，那么第二个物体则沿着半长轴为a(2) = (m(1)/Mtot) a的椭圆运动，且质心位于该椭圆的一个焦点上。交换标号(1)和(2)，我们看到

开普勒二体问题
57
第一个天体也沿椭圆轨道运动，质心位于椭圆的一个焦点上，但其半长轴为 a(1) = m(2)
Mtot a。将这些表达式结合起来可得
a = a(1) + a(2) ,
a(1)
a(2) = m(2)
m(1) .
(2.122)
开普勒第三定律现在取如下形式
T =
2πa
3
2
(GMtot)
1
2 =
2π(a(1) + a(2))
3
2
G
1
2 (m(1) + m(2))
1
2 .
(2.123)
这些关系已被证明对天体物理学家非常有用。两个此类天体的轨道如图2.9所示。该图表明，当考虑两个天体时，由分离矢量所描绘的椭圆的两个焦点都具有动力学作用。
两体间万有引力作用线
FA
FB
质心
+
+
+
质量较小恒星的轨道
质量较大恒星的轨道
绝对轨道
图2.9 双星系统。
2.10.1
双星
恒星常常存在于双星系统中。许多这类系统已被观测了几十年甚至几个世纪，它们随时间在天空中相对位置的变化也已被绘制成图。如果恒星的轨道平面垂直于我们的视线，且我们知道系统的距离⁵，便有可能确定每颗恒星的质量。知道了系统距离后，通过测量轨道在天空中的视大小，就能很容易地确定轨道的实际大小。如果我们知道每条轨道半长轴的长度，那么恒星质量之比为 m(2)
m(1) = a(1)
a(2) 。然后可以利用开普勒第三定律 (2.123)，由观测到的轨道周期以及半长轴之和 a = a(1) + a(2) 得到总质量 Mtot。因此，我们可以分别确定每颗恒星的质量。

⁵在一年当中，由于地球绕太阳公转时位置的改变，恒星的位置会发生轻微移动。这被称为视差，它可以用于测量恒星的距离。

58
物体的运动——牛顿定律
唯一的缺点是，大多数双星轨道并非恰好面向我们，这给该方法带来了一些不确定性。图2.10展示了夜空中最亮的恒星天狼星A（Sirius A）及其暗淡的伴星天狼星B（Sirius B）的轨道，这是经过多年望远镜观测测量得到的。从地球上看，这些轨道呈倾斜视角，因此，尽管轨道看起来是椭圆形的，我们却无法在椭圆焦点处看到系统的质心（在图中为原点）。
–3
–2
–1
1
2
3
4
5
6
7
8
6
角秒
1980
1990
2000
2010
1960 角秒
1900
1910
1920
1930
1940
1950
1960
1970
天狼星A
与
天狼星B
在天空中
“交织”
的运动。
1980
1990
2000
5
4
3
2
1
–1
–2
–3
–4
天狼星B - 碳星
天狼星A
图2.10 天狼星A和B的轨道。
确定邻近双星系统中恒星的质量，对于天体物理学家构建精确的恒星理论极为重要。我们将在第13章中探索这一引人入胜的主题。
2.11
拉格朗日点
对于相互引力的三体问题，一般来说不存在解析解。然而，当其中两个质量远大于第三个时，存在五个点，可将可忽略质量的第三个天体置于这些点上，使其相对于另外两个天体保持位置固定。这些点以18世纪数学家约瑟夫-路易斯·拉格朗日（Joseph-Louis Lagrange）的名字命名为拉格朗日点（Lagrangian points），分别记为L1到L5。它们如图2.11所示。L1到L3是不稳定固定点，而L4和L5是稳定固定点。

图2.11

我们将假设质量为 m(1) 和 m(2) 的两个天体的轨道是圆形的，且 m(1) ≫ m(2)。此时这两个天体间的距离恒定，且角速度相同且恒定。一个位于该系统拉格朗日点上的检验质量 m(3) 将围绕质心以与另外两个质量相同的角速度运行，因此 dϕ(3)
dt
= dϕ(2)
dt
= dϕ(1)
dt 。

拉格朗日点
59
m(1)
L1
L5
L4
L2
L3
60°
60°
m(2)
图 2.11 m(1) ≫ m(2) 系统中的拉格朗日点。以太阳和地球为例，系统的质心位于太阳体内深处。

图 2.11

拉格朗日点 L1 和 L2
L2 点位于 m(2) 的远侧，并且在 m(1) 的延长线上，如图 2.12 所示。其位置可如下理解。根据开普勒第三定律，比 m(2) 更远离 m(1) 的检验质量通常会有比 m(2) 更长的轨道周期。然而，在 L2 点，m(2) 的引力叠加在 m(1) 的引力之上，从而减小了该处检验质量的轨道周期。在 m(2) 轨道外恰好合适的径向距离 r 处，检验质量的轨道周期与 m(2) 的轨道周期精确匹配。

图 2.12

m(2)
m(1)
m(1)R
m(1)+m(2)
L3
L2
L1
R
XCM
r
r
m
R
m(1)+m(2)
L1
R
XCM
r
图 2.12 拉格朗日点 L1 和 L2，标示了 m(1)、m(2)、XCM 与 L1、L2 之间的距离。

图 2.12

L1 点位于同一条直线上，但在 m(1) 与 m(2) 之间。在这种情况下，m(2) 抵消了 m(1) 的一部分引力，从而增大了检验质量的轨道周期。同样地，在 m(2) 轨道内恰好合适的径向距离 r 处（这里的 r 未必相同，尽管事实上相同），检验质量的轨道周期再次与 m(2) 的轨道周期精确匹配。
现在我们将确定 L2 和 L1 点的距离 r。两者的计算十分相似，因此我们一并处理。设 R = |x(2) − x(1)| 为 m(1) 与 m(2) 之间的距离，则 m(1) 和 m(2) 到质心 XCM 的距离分别为 a(1) = m(2)R / (m(1)+m(2)) 和 a(2) = m(1)R / (m(1)+m(2))，且 R = a(1) + a(2)。因此，检验质量到质心 XCM 的距离为 a(3) = m(1)R / (m(1)+m(2)) + κr，其中在 L2 点 κ = 1，在 L1 点 κ = −1。检验质量绕 XCM 做圆周运动，因此满足方程 (2.75)，其中 F = V ′(r) 等于作用在检验质量上的引力之和。由此给出

G m(1) m(3)
(R + κr)² + κ G m(2) m(3)
r²
= m(3)
⎛⎝
m(1)R
m(1) + m(2) + κr
⎞⎠
⎛⎝ dϕ(3)
dt
⎞⎠²
.
(2.124)

第一项是朝向 m(1) 的引力，第二项是朝向 m(2) 的引力，右边的项是质量乘以做圆周运动所需的向心加速度。
在拉格朗日点处，检验质量的角速度等于 m(1) 和 m(2) 的角速度。应用于圆轨道的二体问题开普勒第三定律 (2.123) 给出角速度为

⎛⎝ dϕ(3)
dt
⎞⎠²

⎛⎝ dϕ(1)
dt
⎞⎠²

⎛⎝ dϕ(2)
dt
⎞⎠²

⎛⎝ 2π
T
⎞⎠²
= G(m(1) + m(2))
R³
.
(2.125)

将此式代入方程 (2.124) 并消去公因子 G m(3)，我们得到

m(1)
(R + κr)² + κ m(2)
r²

⎛⎝
m(1)R
m(1) + m(2) + κr
⎞⎠
m(1) + m(2)
R³
.
(2.126)

当 m(1) ≫ m(2) 时，上式简化为

m(1)
(R + κr)² + κ m(2)
r²
≃ (R + κr) m(1)
R³ ,
(2.127)

经整理各项后，变为

m(1)
⎧⎨⎩
1
R²
⎡⎣
1 + κr
R
⎤⎦⁻²
− 1
R² − κr
R³
⎫⎬⎭
≃ −κ m(2)
r²
.
(2.128)

对于 m(1) ≫ m(2)，显然 R ≫ r，因此 (1 + κr/R)⁻² ≃ 1 − 2κr/R + … ，于是

−m(1)
⎛⎝ 3κr
R³
⎞⎠
≃ −κ m(2)
r²
.
(2.129)

κ 抵消，距离 r 为

r ≃
⎛⎝
m(2)
3 m(1)
⎞⎠¹⁄³
R ,
(2.130)

对于 L2 和 L1 均相同。
太阳的质量为 1.99 × 10³⁰ kg，地球的质量为 5.97 × 10²⁴ kg，由此得出 r 值为 0.01R。地球与太阳之间的平均距离 R 约为 1.5 × 10⁸ km，因此 r 为 1.5 × 10⁶ km，大约是月球到地球平均距离的四倍。

拉格朗日点
61
图2.13 从日地L1点观测，月球正越过地球表面。该照片由NASA深空气候观测站（DSCOVR）拍摄。

图2.13

地球。L1位于地球轨道内侧，与地日连线直线上距离为r处，而L2则位于地球另一侧同等距离处，远离太阳。这两个位置适合放置各类空间探测器。例如，太阳与日光层观测站（SOHO）部署在L1点，而威尔金森微波各向异性探测器（WMAP）则部署在L2点，以最大限度地减少从地球、月球和太阳接收到的微波辐射。图2.13为从L1点拍摄的月球与地球照片。

图2.13

拉格朗日点 L3
L3位于m(2)的正对面，在其轨道的远侧，如图2.11所示。L3刚好在m(2)的轨道外侧，尽管L3到m(1)的距离小于R。这是可能的，因为m(2)的轨道半径为

图2.11

m(1)R
m(1)+m(2) < R。若L3与m(1)的距离为R−r，则L3与m(2)的距离为2R−r。L3到二体质心XCM的距离等于到m(1)的距离加上m(1)到XCM的距离，即R −r +
m(2)R
m(1)+m(2) 。为求r，我们将L3处试验质量所受的引力与维持其在相同角速度下做圆周运动所需的力匹配，因此有
m(1)
(R −r)2 +
m(2)
(2R −r)2 =
(
R −r +
m(2)R
m(1) + m(2)
) m(1) + m(2)
R3
.
(2.131)

62
物体运动——牛顿定律
采用与之前相同的近似，即m(1) ≫m(2) 且 R ≫r，我们保留与m(2)R和m(1)r成正比的项，而略去与m(2)r成正比的项，得到
m(1)
R2
(
1 + 2r
R
)

m(2)
4R2 ≃
(
(R −r)(m(1) + m(2)) + m(2)R
) 1
R3 .
(2.132)
归并各项后，我们得到结果
3m(1)r
R3
≃7m(2)
4R2 ,
因此
r ≃7
12
m(2)
m(1) R .
(2.133)
因而L3的轨道半径，即L3到XCM的距离为
a(3) ≃R −7
12
m(2)
m(1) R +
m(2)R
m(1) + m(2) ≃R + 5
12
m(2)
m(1) R .
(2.134)
拉格朗日点 L4 与 L5
点L4与L5各自处于等边三角形的一个顶点，而m(1)与m(2)构成该三角形的另两个顶点，如图2.11所示。由对称性，对两点位置的考量相同。我们考虑L4。通过图2.14可以理解其位置。a(2)是m(2)受m(1)引力吸引的加速度。类似地，a(1)是m(1)受m(2)引力吸引的加速度，因此

图2.14

图2.11

|a(1)|
|a(2)| =
m(2)
m(1) 。质量m(1)和m(2)围绕它们的质心XCM运转。m(1)的轨道半径为a(1) =
m(2)R
m(1)+m(2) ，m(2)的轨道半径为a(2) =
m(1)R
m(1)+m(2) 。这些半径的比值为
a(1)
a(2) = m(2)
m(1) = |a(1)|
|a(2)| .
(2.135)
这是理解L4位置的关键关系，因为它意味着加速度矢量的大小|a(i)|与位移矢量的大小a(i)成正比，如图2.14所示。

图2.14

L4到m(2)的距离与m(1)到m(2)的距离相同，因此位于L4的试验粒子受m(2)作用的加速度a(3)(2)与m(1)受m(2)作用的加速度大小相等，即
|a(3)(2)| =
|a(1)|。类似地，L4到m(1)的距离与m(2)到m(1)的距离相同，因此
|a(3)(1)| =
|a(2)|。由于加速度矢量与位移矢量成正比，试验粒子的合加速度a(3)指向二体系统的质心，如图2.14所示。

图2.14

此外，在L4处的试验粒子角速度与m(1)和m(2)的角速度相同，我们将马上证明。m(2)做圆周运动，因此其加速度大小为
|a(2)| = a(2)
(dϕ(2)
dt
)2
,
(2.136)
类似地，|a(1)| = a(1) (dϕ(1)
dt )2 和 |a(3)| = a(3) (dϕ(3)
dt )2，其中a(3)是L4到质心的距离。

能量守恒
63
m(1)
m(2)
a(1)
a(2)
a(3)
a(3)(1)
a(3)(1)
XCM
L4
图 2.14 拉格朗日点 L4。

图 2.14

从图中可以看出，
|a(1)|
a(1) = |a(2)|
a(2) = |a(3)|
a(3) ,
因此
dϕ(1)
dt
= dϕ(2)
dt
= dϕ(3)
dt
.
(2.137)
在太阳-木星系统的 L4 和 L5 点发现了若干小行星。这些天体被称为特洛伊族小行星 (trojans)。据信，在太阳-海王星的 L4 和 L5 点也存在着大量特洛伊族小行星。

2.12
能量守恒
我们迄今忽略的一个重要问题是总能量及其守恒。直接从最小作用量原理 (principle of least action) 来理解能量守恒有些微妙。相反，利用运动方程会更容易。让我们从一个物体在一维运动的例子开始，其运动方程为
md2x
dt2 + dV
dx = 0 。
(2.138)
两边乘以 dx
dt ，我们得到
md2x
dt2
dx
dt + dV
dx
dx
dt = 0 ,
(2.139)
该方程可以表示为一个全导数，
d
dt

1
2m
dx
dt
2

V (x(t))
!
= 0 。
(2.140)

64
物体的运动——牛顿定律
因此
1
2m
dx
dt
2

V (x(t)) = 常数。
(2.141)
这个常数就是该物体守恒的总能量，记作 E。注意总能量是动能与势能之和，E = K + V。这里的符号是加号，而不是出现在拉格朗日量 L = K − V 中的减号。

对于在三维空间中受一般力 F(x) 作用的物体，能量不一定守恒。然而，如果力来源于势能 V (x)——如果运动方程由最小作用量原理导出则总是如此——那么力具有形式 F(x) = −∇V (x)。在这种情况下，同样存在一个守恒的总能量 E = K + V。因此，任何可以表示为 F = −∇V 的力都被称为保守力 (conservative)。

能量守恒的证明与一维情形几乎无异。我们将运动方程 (2.55) 与 dx
dt 点乘，得到
md2x
dt2 · dx
dt + ∇V · dx
dt = 0 。
(2.142)
第一项是动能 K = 1
2m dx
dt · dx
dt 的时间导数，第二项是势能 V (x) 的全时间导数。这源于
V (x(t + δt)) ≃V

x(t) + dx
dt δt

≃V (x(t)) + ∇V · dx
dt δt 。
(2.143)
因此总能量
E = K + V = 1
2mdx
dt · dx
dt + V (x(t))
(2.144)
的时间导数为零。

对于一个由 N 个相互作用的物体组成的系统，总能量同样是守恒的，前提是力来源于一个单一的势能函数 V，这也恰恰是运动方程能够从最小作用量原理导出的条件。守恒的能量就是 N 个物体的动能与系统势能之和，
E =
N
X
1
1
2m(k) dx(k)
dt
· dx(k)
dt
+ V (x(1), . . . , x(N)) 。
(2.145)
与动量和角动量守恒的情况类似，考察质心运动对总能量的贡献是富有启发性的。假设初始时质心静止于 O 点，总能量由表达式 (2.145) 给出。现在给各物体的速度叠加上一个质心速度 VCM。势能 V 不受质心运动影响，因为它只依赖于物体的相对位置。新的总能量为
E′

N
X
1
1
2m(k)
dx(k)
dt
+ VCM

·
dx(k)
dt
+ VCM

+ V (x(1), . . . , x(N))

E + 1
2MtotVCM · VCM ,
(2.146)
其中含单次 VCM 的项消失，因为初始总动量之和

摩擦与耗散
65
PN
1 m(k) dx(k)
dt
如果质心最初静止，则为零。
我们看到守恒的能量（2.146）式是两部分之和，且每一部分自身都不随时间变化。第二部分是复合物体整体的动能。第一部分是相对于质心的总能量。这个能量称为物体系统的内能。当我们从热力学角度讨论能量时，关注的将是内能，而质心运动没有热力学意义。例如，气体分子的温度取决于气体的内能，不受质心运动的影响。

2.13 摩擦与耗散 (Friction and Dissipation)

在真空中运动的物体，比如太阳系中的行星和航天器，或者粒子加速器中的基本粒子，受到的摩擦可以忽略不计。但在大气中下落的物体、在桌面上滑动或滚动的物体，以及机动车辆都会受到摩擦。

摩擦力是一种复杂的力，通常作用于物体表面，其效应是耗散物体的机械能。物体的动能与势能之和不再守恒，因为一部分能量以热的形式在物体内部和周围介质中耗散掉。我们不会详细讨论这种能量耗散，不过热作为一种能量形式将在第10章讨论。这里我们只探讨摩擦力影响运动的最简单方式。

物体所受的摩擦力取决于物体相对于与其表面接触的介质的速度。假设介质静止。在最简单的模型中，摩擦力与物体的速度成正比，且方向相反。受到摩擦的一维运动物体的运动方程（2.22）式变为
md2x
dt2 = −dV
dx −µdx
dt .
(2.147)
µ是一个正常数，称为摩擦系数。这个简单的模型在有限的速度范围内成立。在高速下，摩擦力通常随速度增加得更快，而在极低速度下，新的粘性表面力起主导作用。

在一些特殊情况下，我们可以很容易地求解运动方程（2.147）。如果V为常数，那么没有摩擦时物体以恒定速度运动，但存在摩擦时，解为
x(t) = x0 + mu0
µ

1 −e−µ
m t
,
(2.148)
其中x0和u0是t = 0时的位置和速度。物体最终停在位置x0 + mu0
µ，但需要无穷长的时间。实际上，由于粘性力的存在，物体经过有限时间后就会停止。另一个例子是物体在重力作用下在大气中下落。此时−dV
dx = −mg，物体很快趋近一个终极速度，不再加速。终极速度为−mg
µ。

对于摩擦引起的能量耗散率，有一个颇为普遍的结果。考虑在三维空间中的N个物体，它们通过势V相互作用，并假设每个物体都受到一个与自身速度成正比的摩擦力。运动方程为

66
物体的运动——牛顿(Newton)定律
方程(2.108)的修改版本，
m(k) d2x(k)
dt2

∇(k)V = −µdx(k)
dt
,
k = 1, . . . , N .
(2.149)
将这些方程中的每一个与速度 dx(k)
dt 点乘，并相加，我们得到
dE
dt = −µ
N
X
1
dx(k)
dt
· dx(k)
dt
(2.150)
其中 E = K + V 是机械能 (2.145)。因此，只要任何物体仍在运动，机械能 E 就总是减少。方程 (2.150) 的右边与总动能 K 差别不大。事实上，如果所有 N 个物体具有相同的质量 m，那么能量耗散率可以表示为
d
dt(K + V ) = −2µ
m K .
(2.151)
2.14
进一步阅读
J.B. Barbour, The Discovery of Dynamics (动力学的发现), Oxford: OUP, 2001.
T.W.B. Kibble 和 F.H. Berkshire, Classical Mechanics (经典力学) (5th ed.), London: Imperial College Press, 2004.
L.D. Landau 和 E.M. Lifshitz, Mechanics: Course of Theoretical Physics, Vol. 1 (力学：理论物理学教程，第1卷), Oxford: Butterworth-Heinemann, 1981.
要获得一个用于最小化一维运动粒子作用量的动手工具，可以查看
E.F. Taylor 和 S. Tuleja 的 Principle of Least Action Interactive (最小作用量原理互动程序)，该程序可在此处获取：
www.eftaylor.com/software/ActionApplets/LeastAction.html

3_Fields-Maxwell’s_Equations

3
场——麦克斯韦方程组
3.1
场
前一章的基本物理要素是空间和时间，以及一组运动的物体。这些物体被当作粒子来处理，位于有限个点上，它们之间的空间中不存在任何物理的东西。空间是完全空虚的，但尽管如此，粒子之间仍存在相互作用。这被称为超距作用(action at a distance)。
然而，从早期开始，人们就认为粒子之间没有任何物理介质就能相互作用是相当难以置信的。勒内·笛卡尔(René Descartes)等人提出，唯一合理的假设是力通过直接接触或通过占据粒子之间空间的流体来传递。现代的观点是，空间中充斥着各种不同类型的场，而这些场正是粒子所受势能和力的原因。起初，力的场描述被看作是牛顿超距作用的一种数学重构，或许只是一种物理虚构——但后来人们意识到，场遵循其自身的动力学方程，而且有可能在某些大范围的空间中，即便没有任何粒子，动力学场也可以存在。
这一方法的重大突破来自詹姆斯·克拉克·麦克斯韦(James Clerk Maxwell)对电场和磁场的处理。在此之前，这些场一直仅与电荷和电流联系在一起，但麦克斯韦方程组还允许在没有源的情况下存在动力学的电场和磁场。这些可以被解释为光波。光显然是物理的，因此场也是物理的。
如今，场在物理学思想中占据着核心地位。我们相信空间中处处充满着大量不同类型的场。除了电磁场，还有杨-米尔斯规范场(Yang–Mills gauge ﬁelds)和希格斯场(Higgs ﬁelds)。即便是电子这样最具代表性的粒子，也有一个与之相关的场，称为狄拉克场(Dirac ﬁeld)。这些场都是动力学的。当场向粒子传递力时，它们携带着能量和动量，这些能量和动量会发生变化。还有一种引力场，我们可以用它来重新表述前一章所讨论的引力。最引人注目的是，爱因斯坦(Einstein)证明，唯一能自洽地动力学描述引力场的方式，就是将其解释为时空几何本身的形变。
因此，通过场，粒子、粒子之间的力以及时空的底层几何实现了物理上的统一。一个尚未完全实现的梦想是，所有物理现象都源于一个纯粹几何的场论。
场的通常概念是一块长着东西的土地。以此类推，物理学家们，从迈克尔·法拉第(Michael Faraday)开始，采纳了这个术语，而它也不算太糟。当庄稼生长时，它们具有随地点而变化的属性。对于大范围

68
场——麦克斯韦方程组
S
N
图3.1 磁体周围的磁场。

图3.1

与其关注单个植物的数量，我们可以考察平均量，例如植物的密度。这就是单位面积上的植物数量，本质上是一个在空间和时间上都连续变化的量。植物的平均高度是另一个在空间和时间上连续变化的量。农民可能追求均匀的植物密度和均匀的高度，但更常见的是，这些量会随空间变化。高度肯定会随时间变化。

在物理学中，场的意义就类似于上面描述的量——植物密度和高度。场是在空间和时间中变化的物理量。它们通常是光滑函数，这意味着我们可以对空间和时间变量进行任意次数的微分。场不仅仅是空间和时间的数学函数，因为它具有某种物理实在性。场与函数之间的关系，类似于粒子轨迹与几何曲线之间的关系。

物理学中场的最早例子出现在对流体的描述中。我们现在知道流体由无数粒子——原子或分子构成，但它们在我们看来如同连续的物质。关键的量是密度，即单位体积流体的质量，以及流体速度。通常假设流体速度存在于流体中的每一点，并且在点与点之间平滑变化。因此，速度是一个定义在流体所占据的整个区域上的函数v(x, t)，同样地，密度是函数ρ(x, t)。ρ在每个点只有一个值，并且不受空间坐标轴旋转的影响。这样的量被称为标量场。流体速度是一个矢量场。

在本章中，我们将首先讨论标量场，利用最小作用量原理（principle of least action）来寻找其动力学方程。标量场方程可以用来描述声波。然后，我们讨论电场和磁场，以及它们的动力学方程——麦克斯韦(Maxwell)方程组。静磁场是相当熟悉的。我们可以通过撒在覆盖磁体的纸上的铁屑的排列，来直观地看到磁体周围的场，如图3.1所示。之后，我们将考虑带电粒子和电……

图3.1

电流作为电场和磁场的源，以及带电粒子在受到场影响时的运动方程。电流归根结底是由运动带电粒子引起的，但通常将其视为独立概念更为方便。麦克斯韦方程组最重要的解之一是描述光的电磁波。

电磁场与众多带电粒子相互作用的动力学框架，接近于成为所有电磁现象的一个完整且自洽的理论。场和粒子的动力学方程可以从单一的最小作用量原理(principle of least action)推导出来。然而，有几个问题需要进一步探讨。其一是需要对以接近光速高速运动的粒子修改牛顿运动方程。我们将在第四章狭义相对论中处理此问题。第二个问题是将带电粒子理想化为点粒子。如果粒子经历非常大的加速度并辐射大量能量，这就会产生问题。此时点粒子的运动方程就不明确了。实验上的指导还无法获得，因为这种加速度需要极强的电场或磁场，而这在实验室环境中尚未实现。

人们很想将牛顿引力场当作标量场来讨论——但这只是一种近似，将引力作为动力学理论的唯一自洽处理是通过爱因斯坦的广义相对论方程，因此我们将引力的进一步讨论推迟到第六章。量子化场论及其与基本粒子物理学的关系将在第十二章讨论。

3.2 标量场方程

标量场比电磁场简单。它是一个单分量实函数 ψ(x, t)，在整个空间有定义。给定时刻的场称为场位形，场的动力学演化可以看作是场位形（无限维）空间中的一条光滑轨迹。需要为连接初始时刻 t0 的给定位形 ψ(x, t0) 和最终时刻 t1 的位形 ψ(x, t1) 的任意场轨迹定义作用量 S。通过对 S 应用最小作用量原理，我们可以推导出动力学标量场方程，这是一种波动方程。

与粒子类似，拉格朗日量 L 是动能和势能的组合。动能是 ψ 的时间偏导数的平方的一半，并对空间积分，
K = ∫ 1/2 (∂ψ/∂t)^2 d^3x. (3.1)
（本章中，空间积分均在全三维空间 R^3 上进行。）K 类似于单位质量粒子的动能，但因为它是对空间的积分，所以所有空间点的场都有贡献。K 不受坐标轴旋转或原点平移的影响。换句话说，K 具有欧几里得不变性。

势能的选择余地更大。一个可能的贡献是 ψ 的某个函数的积分，我们记为 U(ψ)。由于 ψ 是 x 的函数，更精确的写法是 U(ψ(x))，并对其积分。U 可以是任何熟悉的函数，例如正弦函数或指数函数，但在三维空间中通常取为 ψ 的多项式。这一贡献类似于粒子的势能 V(x)。场的另一个特征是它的梯度 ∇ψ，包含了它的空间偏导数。这给出了第二个

70
场——麦克斯韦方程组
可能的贡献，即对空间积分 \frac{1}{2}c^2\nabla\psi \cdot \nabla\psi ，其中 c 是一个非零常数。
那么总势能为
[
V = \int \left{ \frac{1}{2}c^2\nabla\psi \cdot \nabla\psi + U(\psi) \right} d^3x,
\tag{3.2}
]
而这同样是欧几里得不变的。注意 V 只依赖于每一时刻的场位形，这就是为什么它被称为势能。人们还可以考虑 V 中的其他项，例如，ψ 的梯度的更高次幂。涉及不同位置 ψ 的乘积并对空间积分的贡献称为非定域项——它们会导致这样的动力学方程：某一点的场演化会在其他点产生瞬时效应，从而否定了我们引入场的理由。因此我们不允许它们出现。引入场的主要动机之一是物理信号应以有限速度传播，以避免超距作用。

我们需要谈一谈函数 U 的整体形状以及边界条件。要得到一个令人满意的稳定场论，U(ψ) 应在某个有限的 ψ 值处取极小值。在本章中，我们将假设 U 在 ψ=0 处有唯一的极小值。这类函数的例子有 U(ψ)=\frac{1}{2}\mu^2\psi^2（μ 非零）和 U(ψ)=\frac{1}{2}\mu^2\psi^2+\frac{1}{4}\nu\psi^4（ν 为正）。极小值在 ψ 的另一值处的理论本质上是等价的，因为通过场的重定义 ψ→ψ+常数，极小值可以被移到 ψ=0。我们将假设 U 的极小值为零，就像在这两个例子中那样。这确保了对于场位形 ψ=0，总势能为零而非无穷大。最后，我们施加边界条件：当 |x|→∞ 时，ψ→0。换言之，在空间无穷远处，场使 U 极小化，且势能密度消失。在任何有限点 x 处，只要 ψ≠0 或梯度非零，势能密度为正。

位形 ψ=0 处处存在于空间且对全部时间成立，这称为经典真空。场依然处处存在于时空中，但它的势能和动能都为零，即可能的最小值。这样的场不携带能量或动量。

标量场 ψ 的总作用量 S 是拉格朗日量 L=K-V 对时间的积分，即
[
S = \int_{t_0}^{t_1} \int \left{ \frac{1}{2} \left( \frac{\partial\psi}{\partial t} \right)^2 - \frac{1}{2}c^2\nabla\psi \cdot \nabla\psi - U(\psi) \right} d^3x , dt.
\tag{3.3}
]
被积函数，即花括号内的量，称为拉格朗日密度，记作 \mathcal{L}(x,t)。它只依赖于 (x,t) 处的场值，以及 (x,t) 的一个无穷小邻域内的场值，这些场值贡献了时间和空间导数。因此 \mathcal{L} 被称为是定域的。拉格朗日量 L 是 \mathcal{L} 对空间的积分，再对时间积分一次就得到作用量。

最小作用量原理决定了场的动力学。ψ 的场方程就是 S 取驻值的条件，而要找到这个条件我们需要使用变分法。让我们固定初始时刻 t_0 和最终时刻 t_1 的场位形，并假设 S 对某条轨迹 ψ(x,t)=\Psi(x,t) 取驻值，其中 \Psi 满足边界条件 \Psi\to0 当 |x|\to\infty，以及给定的 t_0 和 t_1 处的端点条件。现在考虑场的变分 ψ(x,t)=\Psi(x,t)+h(x,t)，并保持边界条件。

标量场方程
71
以及端点条件，并要求 $S$ 在 $h$ 的一阶近似下保持不变。对于 $S$ 中的第一项和第三项，计算与导出粒子运动的方程 (2.31) 基本相同。对于第二项，我们需要使用展开式
[
\frac{1}{2}c^2 \nabla \psi \cdot \nabla \psi = \frac{1}{2}c^2 \nabla \Psi \cdot \nabla \Psi + c^2 \nabla \Psi \cdot \nabla h
\tag{3.4}
]
（只保留到 $h$ 的一阶项）。方程 (2.31) 的类似形式为
[
S_{\Psi+h} = S_{\Psi} + \int_{t_0}^{t_1} \int \left{ \frac{\partial \Psi}{\partial t} \frac{\partial h}{\partial t} - c^2 \nabla \Psi \cdot \nabla h - U’(\Psi) h \right} d^3x , dt .
\tag{3.5}
]
在时间方向和空间方向上进行分部积分，将含有 $h$ 的导数的项转化为仅依赖于 $h$ 的项。边界项和端点项全部消失，得到结果
[
S_{\Psi+h} = S_{\Psi} + \int_{t_0}^{t_1} \int \left{ -\frac{\partial^2 \Psi}{\partial t^2} + c^2 \nabla^2 \Psi - U’(\Psi) \right} h , d^3x , dt .
\tag{3.6}
]
由于 $\Psi$ 使 $S$ 取驻值，对于任意变分 $h(x, t)$，$S_{\Psi+h}$ 必须等于 $S_{\Psi}$，因此乘以 $h$ 的花括号内的量必须处处为零。这就给出了场方程（我们用场 $\psi$ 而非 $\Psi$ 来写出）
[
\frac{\partial^2 \psi}{\partial t^2} - c^2 \nabla^2 \psi + U’(\psi) = 0 .
\tag{3.7}
]
对于一般的函数 $U$，这个偏微分方程是一个非线性波动方程，求解起来很困难。重要的是，作用量中的梯度项并非可有可无；如果没有它，场在每个空间点上将完全独立地演化。

由于作用量 $S$ 在所有欧几里得对称性下保持不变，因此存在多个守恒量。场有守恒动量，也有守恒角动量。它们都是某些密度在空间上的积分，这些密度依赖于场的时间和空间导数。也存在守恒能量，它简单地就是 $E = K + V$，换句话说
[
E = \int \left( \frac{1}{2} \left( \frac{\partial \psi}{\partial t} \right)^2 + \frac{1}{2} c^2 \nabla \psi \cdot \nabla \psi + U(\psi) \right) d^3x .
\tag{3.8}
]

在最简单的标量场理论版本中，$U$ 不存在。这在物理上是可以接受的，并且仍然可以施加 $\psi$ 在空间无穷远处为零的边界条件。方程 (3.7) 于是简化为线性波动方程
[
\frac{\partial^2 \psi}{\partial t^2} - c^2 \nabla^2 \psi = 0 .
\tag{3.9}
]

72
场——麦克斯韦方程组
3.3
波
波动方程 (3.9) 的基本解是一个三维平面波，形式为
[
\psi(x, t) = e^{i(k \cdot x - \omega t)} ,
\tag{3.10}
]
其中 $k$ 是波矢，$\omega$ 是（角）频率。波长为 $\frac{2\pi}{|k|}$。对于任一与 $k$ 正交的空间平面上的所有 $x$（在固定时刻），$\psi$ 的相位满足
[
k \cdot x - \omega t = \text{常数} ,
\tag{3.11}
]
这就是它被称为平面波的原因。方程 (3.9) 中对时间的二阶导数从 $\psi$ 的指数中拉下两个 $-i\omega$ 因子，即一个 $-\omega^2$ 因子，而拉普拉斯算子 $\nabla^2 = \frac{\partial^2}{\partial x_1^2} + \frac{\partial^2}{\partial x_2^2} + \frac{\partial^2}{\partial x_3^2}$ 拉下 $-k_1^2 - k_2^2 - k_3^2 = -k \cdot k = -|k|^2$，因此平面波 (3.10) 满足线性波动方程，只要
[
\omega^2 = c^2 |k|^2 .
\tag{3.12}
]
因此 $k$ 是任意常矢量，但 $\omega$ 必须取 $c|k|$ 或 $-c|k|$。平面波如图 3.2 所示。

图 3.2

平面波的速度 $c$ 由以下条件决定：在一点 $x$ 以速度 $c$ 沿 $k$ 的方向移动时，波的相位在时间上保持不变。将方程 (3.11) 对时间求导，并令 $\frac{dx}{dt} = c$，我们得到 $k \cdot c - \omega = 0$。所以波速 $|c|$ 为 $\frac{|\omega|}{|k|}$，这正是作用量和场方程中的参数 $c$。波速与频率和波矢的方向均无关。
[
\text{k} \quad \frac{2\pi}{|k|}
]
图 3.2 平面波。

图 3.2

波
73
基本的平面波解不是实的，也不满足在空间无穷远处为零的边界条件——但由于波动方程是线性的，其通解是基本解（ω = ±c|k|）的线性叠加，形式为
ψ(x, t) =
∫ ［
C(k)e^{i(k·x−c|k|t)} + D(k)e^{i(k·x+c|k|t)}］
d³k .
(3.13)
通过对复函数 C(k) 和 D(k) 施加适当的约束，ψ 变为实的并满足边界条件。在 ψ 作为 x 的函数与 C 和 D 作为 k 的函数之间进行变换，是傅里叶变换(Fourier transform)的一个例子。

对于一维空间中的线性波动方程，存在一个相当优美的通解，只要所有贡献波矢 k 都沿同一方向，该解也可用于三维波动。在一维情形下，坐标为 x 和 t，波动方程为
∂²ψ/∂t² − c² ∂²ψ/∂x² = 0 .
(3.14)
这可以写成因式分解形式
( ∂/∂t + c ∂/∂x ) ( ∂/∂t − c ∂/∂x ) ψ = 0 ,
(3.15)
如果需要，因子的顺序可以交换。第二个算子作用于任何 x + ct 的函数时结果为零，因为
∂/∂t f(x + ct) = c f’(x + ct) = c ∂/∂x f(x + ct) ,
(3.16)
而第一个算子作用于任何 x − ct 的函数时结果为零。因此，波动方程(3.14)的通解为
ψ(x, t) = f(x + ct) + g(x − ct)
(3.17)
其中 f 和 g 是任意（光滑）函数。这些函数由初始数据确定：即 t = 0 时的 ψ 和 ∂ψ/∂t。

函数 f(x + ct) 在 t 增加 a 同时 x 减少 ca 时保持不变。因此，该函数是一个以速度 c 沿负 x 方向移动的波形。类似地，g(x − ct) 是一个以速度 c 沿正 x 方向移动的波形。这些波分别称为左行波(left-moving)和右行波(right-moving)。如果初始波局域在空间的某个有限区间内，外部为零，那么它是左行波和右行波的某种组合，随着时间的推移，这些波会分离开来。在两列分离的波之间的场值是均匀且恒定的，但不一定为零。

构造一个纯单向传播（比如右行）的波是很容易的。这正是描述定向闪光的一类波，其贡献波矢沿光束方向，波前与光束正交。只要光束宽度远大于波长，一维近似就是合理的。

74
场——麦克斯韦方程组
三维标量波动方程的另一种形式也值得一提。假设函数 U 不为零，而是具有形式 U(ψ) = 1/2 μ²ψ²。此时的场方程仍然是线性的，被称为克莱因-戈登方程 (Klein–Gordon equation)，即
∂²ψ/∂t² − c²∇²ψ + μ²ψ = 0 。
(3.18)
如前所述，平面波解具有指数形式 (3.10)，但 ω 与波矢 k 的关系变为
ω² = c²|k|² + μ² 。
(3.19)
此时波具有一个最小频率 ω = μ，且波速依赖于频率。同样可以利用傅里叶分析 (Fourier analysis) 来理解具有局域、实轮廓的更一般的解。

标量场理论有一些应用，其中之一是声波。气体的密度是一个标量。密度的小扰动 ψ 可由作用量 (3.3) 在 U 为零时描述。恒定的均匀平衡密度并不出现，因为作用量中的两项都涉及导数。（S 前还有一个总的常数因子，但这不影响场方程。）此时波动方程 (3.9) 就是声波所满足的方程，c 是声速。c 取决于气体的压缩率及其平衡密度。

在粒子物理的背景下考虑相对论性标量场时，克莱因-戈登方程还会再次出现。

3.4 散度与旋度
在三维空间中，我们已经看到将三个偏导数组合成一个矢量算符会很方便：
∇ = ( ∂/∂x₁ , ∂/∂x₂ , ∂/∂x₃ ) 。
(3.20)
它作用在标量场 ψ 上给出梯度 ∇ψ。

∇ 可以用两种几何上自然的方式作用在矢量场 V(x) = (V₁(x), V₂(x), V₃(x)) 上，类似于两种乘积 x · y 和 x × y。第一种是 ∇·V，称为 V 的散度，或记作 div V；第二种是 ∇×V，称为 V 的旋度，或记作 curl V。在坐标轴转动下，∇ 和 V 的分量以相同的方式旋转，因此 ∇·V 是标量，在转动下不变，而 ∇×V 是矢量，随 V 及其他矢量一同旋转。

具体地，V 的散度定义为
∇·V = ∂V₁/∂x₁ + ∂V₂/∂x₂ + ∂V₃/∂x₃ 。
(3.21)
注意与点积定义 (1.12) 的类比。由于 ∇·V 是 x 的函数，它是一个标量场。如果某区域中 ∇·V 为正，则该区域是 V 的源，V 倾向于向外指；如果 ∇·V 为负，则 V 倾向于向内指。

旋度 ∇×V 的定义为
∇×V = ( ∂V₃/∂x₂ − ∂V₂/∂x₃ , ∂V₁/∂x₃ − ∂V₃/∂x₁ , ∂V₂/∂x₁ − ∂V₁/∂x₂ ) 。
(3.22)
同样，注意与叉积定义 (1.15) 的类比。∇×V 是一个具有三个分量的矢量场，它是 V 如何环流的一个量度。

关于一般矢量场的散度和旋度的几个结果对我们很重要。首先，如果 V 可以表示为某个标量场 Φ 的 −∇Φ，那么 ∇× V = −∇× ∇Φ = 0。（负号可以被吸收进 Φ 中，但明确写出来可以与力与势之间的关系 F = −∇V 联系起来。）这很容易验证。例如，∇× V 的第一个分量为
−∂/∂x₂ ∂Φ/∂x₃ + ∂/∂x₃ ∂Φ/∂x₂,
(3.23)
由于混合偏导数的对称性，其为零。一个更深刻的结果是其逆命题：如果在某个（单连通的）空间区域中 ∇× V = 0，那么在该区域内存在一个标量场 Φ 使得 V = −∇Φ，并且 Φ 除了可以加上一个常数外是唯一的。

其次，如果 V 可以表示为某个矢量场 W 的 ∇× W，那么 ∇· V = 0。这也容易验证，因为
∇· (∇× W) = ∂/∂x₁ (∂W₃/∂x₂ − ∂W₂/∂x₃) + ∂/∂x₂ (∂W₁/∂x₃ − ∂W₃/∂x₁) + ∂/∂x₃ (∂W₂/∂x₁ − ∂W₁/∂x₂) = 0 .
(3.24)
结果为零，因为由混合偏导数的对称性，各项成对地抵消。同样，其逆命题更为深刻：如果在某个区域内 ∇· V = 0，则存在一个矢量场 W 使得 V = ∇× W。这个场 W 除了可以加上一个标量的梯度 ∇λ（其旋度恒为零，因此对 V 没有贡献）外是唯一的。如果想要确定 W，可以施加进一步的条件，比如 ∇· W = 0，但这并非总是可取的。

在麦克斯韦理论中有两个矢量场，电场 E 和磁场 B。我们会看到 ∇· B 总是为零，因此 B 可以表示为 ∇× A。A 被称为矢量势。∇× E 有时为零，如果是这样，E 可以表示为 −∇Φ。Φ 被称为标量势。即使当 ∇× E 不为零时，也存在一个起着重要作用的标量势。

3.5 电磁场与麦克斯韦方程组
许多电和磁的现象自古以来就为人们所知。这些现象包括通过摩擦琥珀和其他材料产生的静电、被称为磁石的天然磁性岩石、电鳗等生物产生的电击，以及闪电现象。然而，理解这些形形色色的现象并认识到它们之间的联系花了很长时间。一个早期突破是18世纪中叶本杰明·富兰克林(Benjamin Franklin)认识到物体可以带电，并且电荷可以是正或负。第二个根本性突破是1800年亚历山德罗·伏打(Alessandro Volta)发明了电池，因为这为研究者们提供了现成的电力用于实验，而对这种电池产生的电流的研究表明，电流是电荷的流动。

下一个重大发现是1820年汉斯·克里斯蒂安·奥斯特(Hans Christian Ørsted)发现的电与磁之间存在联系的暗示。奥斯特观察到导线中流动的电流对附近磁罗盘的影响，如图3.3所示。这个微小的效应最终导致了科学史上最伟大的统一之一——电磁学理论。沿着这条路的一个关键概念步骤是迈克尔·法拉第(Michael Faraday)的提议

图3.3

76
场——麦克斯韦方程组
图3.3 导线周围的磁场。

图3.3

通过设定整个空间中存在着电场E和磁场B，能够最好地描述电现象和磁现象。它们都是矢量，分量为E = (E₁, E₂, E₃)和B = (B₁, B₂, B₃)，并且是位置x和时间t的函数。E和B可以通过检验电荷和检验磁体来测量（见图3.4）。若在点x处放置一个电荷q，它会受到大小为qE的电场力。若在点x处放置一个小磁体，它会沿B的方向排列，而B的强度会影响这一过程发生的快慢。更精确地说，作用在磁体上的力矩或扭转力正比于B的强度。我们假定即使移除了检验装置，E和B依然存在。尽管这一观点曾引发争议，但其强大的解释力最终消除了怀疑论者的疑虑。

图3.4

q
E
B
图3.4 电场力与磁场力。

图3.4

一个棘手的问题是如何将检验电荷自身产生的场纳入总场之中。如果检验电荷很小但并非无穷小，它会对总场有所贡献。然而，在大多数情况下，这种贡献可以忽略不计，影响检验电荷的实际上是由所有其他电荷和电流产生的场。只有当检验电荷以极高的加速度运动时，我们才需要担心检验电荷与其自身场之间的相互作用。

电磁场与麦克斯韦方程组 77
要理解像导电金属这类材料内部的场也相当困难。我们现代对材料的看法使问题简化了。材料内部有各种带电粒子在其中运动。因此，从根本上说，我们需要一个关于 E 和 B 以及它们与运动点粒子相互作用的理论。宏观介质（如导体、介电绝缘体或铁磁体）的场方程，可以通过对其组成粒子所产生的场进行平均来得到。

基于一个多世纪以来众多科学家的实验工作，如查尔斯·库仑(Charles de Coulomb)、让-巴蒂斯特·毕奥(Jean-Baptiste Biot)和菲利克斯·萨伐尔(Félix Savart)、奥斯特(Ørsted)、安德烈-马里·安培(André-Marie Ampère)，尤其是法拉第(Faraday)，麦克斯韦(Maxwell)找到了 E 和 B 所满足的方程的最终形式。这些场的源是电荷密度 ρ 和电流密度 j，它们都是 x 和 t 的函数。麦克斯韦以分量形式写下了他的方程组，因此在 1865 年他关于电磁学的决定性论文中，共有 20 个方程。后来，奥利弗·亥维赛(Oliver Heaviside)[^1]于 1884 年使用向量表示法将其改写为更简洁优美的形式。通常所知的麦克斯韦方程组就是以这种形式呈现的。它们是
∇· E

ρ , (3.25)
∇× E

−∂B
∂t , (3.26)
∇· B

0 , (3.27)
∇× B

j + ∂E
∂t . (3.28)

麦克斯韦方程组 (3.25)–(3.28) 通常包含常数参数 ε0 和 µ0。我们选择了亥维赛-洛伦兹单位制(Heaviside–Lorentz system of units)，在该单位制中这两个常数都为 1。即使在这种单位制中，光速 c 通常也会出现在方程中，但我们进一步选择了使用时空单位，其中 c = 1。这不是标准的国际单位制(SI)，但我们的选择极大地简化了数学，并且在讨论相对论和量子场论时最为有用。（对此感到不适的读者应查阅许多讨论单位制的电磁学教材，并使用国际单位制。）

电荷单位是根据相距单位距离的两个电荷之间的电力来定义的。电流单位是根据相隔单位距离的两条平行载流导线之间的磁力来定义的。由于电流由运动电荷组成，问一下运动电荷所受磁力与电力之比是合理的，如图 3.5 所示。在什么速度下这两种力大小相当？答案是电磁理论中作为一个基本参数出现的速度。这个速度原来就是光速。

图 3.5

将光速设为 1 有充分的理由。历史上，时间和长度单位是基于地球定义的，通过一个时钟将一秒测量为一日的 1/86,400。保存在巴黎的一根金属棒被用作定义一米长度的标准。该棒的长度大约是北极到赤道距离的 10−7 倍。那时光速是一个需要测量的量，随着实验技术的改进，其数值逐年变化。更近一些，人们决定根据特定原子能级跃迁所发射光子的频率来定义时间单位，并根据光的波长来定义长度单位。

[^1]: 大约在同一时期，海因里希·赫兹(Heinrich Hertz)和约西亚·威拉德·吉布斯(Josiah Willard Gibbs)也做了同样的工作。

78
场——麦克斯韦方程组
q
FE
FE
FB
FB
q
图3.5 运动电荷产生场和力。

图3.5

相同的光子。因此，现在约定光速的值为精确的 c = 299,792,458 m s−1，这个整数给出了与历史上米和秒的概念最吻合的数值。由于 c 是一个纯整数，没有基本意义，因此将其设为 c = 1 更为合理。时间单位仍可视为秒(s)，但长度单位现在是光秒，精确等于 299,792,458 m。

这样做也有其物理依据。我们通常不会选择长度和时间单位使得气体中的声速为 1；这是因为声速并不具有普适性，而是依赖于气体的成分和温度。然而，现在人们知道真空中的光速是普适的。它不依赖于波长，因此所有光子和其它质量可以忽略的基本粒子（如中微子）本质上以相同的速度运动。粒子物理学中的所有场方程以及狭义和广义相对论的公式都使用相同的因子 c 来关联长度和时间，所以将这个普适因子设为 1 是合理的。正是爱因斯坦(Einstein)最早洞察到光速是终极速度极限，因而是一个特殊的量。

3.5.1 麦克斯韦方程组告诉我们什么

有些电磁学教材会花许多章节讨论启发麦克斯韦方程组的现象。另一些则从这些方程开始，花许多章节求解它们并探索其推论。这里我们将简要概述每个方程告诉我们的信息，尽管实际上需要将所有方程放在一起考虑才能得出这些结论。

第一个方程 ∇·E = ρ 表明，电荷密度 ρ 是电场 E 的源。如果 ρ 为正，则 E 的方向从源指向外，并且强度随着远离源而减弱。电荷密度可以局域在一个点上，这便建立了带电点粒子模型。

第三个方程 ∇·B = 0 表明，不存在与电荷密度类似的磁对应物，因此没有通常称为磁单极子的带磁粒子。磁场 B 的行为类似于不可压缩流体的速度 v，它满足 ∇·v = 0，没有源或汇。事实上，在任何完整的闭合曲面上，B 的净向外通量为零。像条形磁铁这样的磁偶极子，可能看起来两端具有强度相反而极性相反的磁极，但实际上 B 是循环的，通过从

电磁场与麦克斯韦方程组(Maxwell’s equations)

磁体产生的磁场B的场线，从磁体一端经由外部空间到达另一端，再穿过磁体材料返回。若非如此，将磁体掰成两半，其中一半就会成为磁通量的源，另一半则成为汇。事实上，磁体所产生的B场的源头，是磁体材料中存在的电流j，而非磁体两端附近的磁极。

第二个麦克斯韦方程，∇× E = −∂B∂t，表明在磁场B随时间变化的任何区域，E都会环绕该区域形成环流。设C为一条固定的闭合曲线，它包围一个曲面，该曲面有B的通量穿过。当通量增减时，便会产生一个电场E，该电场往往沿着C的某一取向。如果几何曲线C被替换为一根实实在在的导线，那么电场就会在导线中产生电流。这就是法拉第电磁感应定律(Faraday’s law of induction)，如图3.6所示。它是发电的基础。在发电站，机械动力驱动磁体（实际上是电磁体）运动，时变磁场生成电流，电流随后沿电缆远距离输送，供我们所有的电气机械和装置使用。

图3.6

图3.6 电磁感应：运动的磁体产生电场。

图3.6

电场在金属导线中产生电流的机制如下。导线呈电中性，通常由带正电的离子和带负电的电子组成。电场对两者都施加力，但离子因维持固体金属完整性的机械力而不会移动。然而，电子可以自由运动，并在电场中加速。它们不会无限加速，而是达到一个与E成正比的最大速度，因为电流受到导体电阻的限制。其结果就是，电流密度j与外加电场E成正比，这就是欧姆定律(Ohm’s law)的一种形式。这种电流流动的图景被称为德鲁德理论(Drude theory)。该理论在电子发现后的早期岁月里取得过一些成功，但后来发现它颇为幼稚。实际上，导体中电子的行为只有在量子理论的框架下才能被精确模化。我们将会在第9章考察固体中电子的量子理论。

第四个麦克斯韦方程，∇× B = j + ∂E∂t，描述了B环绕电流的环流，即奥斯特(Ørsted)观察到的现象。电流通常在导线中流动，但也可以是带电粒子束。事实上，简化后的方程∇× B = j

80
场——麦克斯韦方程组
图3.7 螺线管周围的磁场。

图3.7

安培(Ampère)定律很好地描述了这一点，被称为安培定律。安培定律对于由电池和大多数发电网络产生的闭合电路中的电流有效。它也足以理解通过称为螺线管的线圈的电流所产生的磁场，该磁场与条形磁铁的磁场非常相似，如图3.7所示。然而，麦克斯韦(Maxwell)意识到，当电路不闭合时，安培定律本身是不正确的。例如，在图3.8所示的装置中会有电流流动。电流可以通过电池短暂驱动，或者通过穿过不完整导线回路内部的变化磁通量（更长时间）来驱动。当电流流动时，顶部极板上会积累异号电荷，它们共同构成一个电容器，并且根据第一个麦克斯韦方程，极板之间还会建立电场。麦克斯韦注意到，当从导线周围的区域移动到极板间缝隙周围的区域时，磁场应该平滑变化。极板上的电荷并不直接产生磁场，但极板间随时间变化的电场却会产生磁场。第四个麦克斯韦方程考虑了B由电流密度j和E的时间导数两者共同产生。

图3.7

这第二个产生B的源——变化的电场——并未被早期科学家通过实验发现，因为通过导线连接到电池的电容器往往会迅速充电然后稳定下来，因此没有足够的时间来观察这一效应。另一方面，缓慢变化的电场虽然有足够的时间来观察效应，但只能产生非常微弱的磁场。

麦克斯韦方程组与电荷守恒是一致的。电荷可以流动，但既不能被创造也不能被消灭。电荷/电流守恒方程为
∇· j + ∂ρ/∂t = 0 。
(3.29)

电场电荷导线导电板 +q E + – – – – – + + + + –q
图3.8 电容器中的电流流动和电荷积累。
这表明，电荷密度ρ(x, t)在点x处可以随时间变化，但它只有在有净电流密度j流入x时才能增加，或者在有净电流密度流出时才能减少。

麦克斯韦方程组意味着电荷守恒必须成立。为了看清这一点，对第一个麦克斯韦方程(3.25)取时间导数，并交换导数∂/∂t和∇的顺序（由于混合偏导数的对称性，这是允许的），得到
∇· ∂E/∂t = ∂ρ/∂t 。
(3.30)
利用第四个麦克斯韦方程(3.28)替换∂E/∂t，上式变为
∇· (∇× B − j) = ∂ρ/∂t ，
(3.31)
由于∇·(∇× B)自动为零（回忆方程(3.24)和相关讨论），此式简化为电荷/电流守恒方程(3.29)。注意，如果没有麦克斯韦在方程(3.28)中添加的额外项，就会出现不一致。较简单的安培定律仅在∇· j = 0时成立，这对于闭合电路中的电流是成立的，但如果空间中某处的电荷密度随时间变化，则不再成立。

3.6
静电场
麦克斯韦方程组最简单的解是静电场。当没有电流和磁场，且电荷密度ρ是静态时，就会出现这种情况。此时电场E也是静态的。麦克斯韦方程(3.27)和(3.28)被平凡地满足，剩下的方程为
∇· E = ρ(x) ，
∇× E = 0 。
(3.32)

82
场——麦克斯韦方程组
其中第二个方程意味着E可以表示为−∇Φ，正如3.4节所解释的那样，
在这种情况下，第一个方程就变为∇·∇Φ = −ρ(x)。现在回想一下，算子∇·∇就是拉普拉斯算符∇²，因此静电学的基本方程是
∇²Φ = −ρ(x) 。 (3.33)
这就是标量势Φ的泊松方程。ρ是Φ的源，但不能完全确定Φ，因为拉普拉斯方程∇²Φ = 0有许多解。
然而，如果电荷被局限在一个有限区域内，那么我们可以施加边界条件：当|x| → ∞时，Φ → 0，这样Φ便是唯一的。

为了寻找泊松方程的解，让我们首先考虑电荷密度ρ和势Φ都是球对称且光滑、并且ρ在某个半径R之外为零的情况。电荷密度和势是函数ρ(r)和Φ(r)，其中r是径向坐标。利用拉普拉斯算符的球坐标形式，如方程(1.42)所示，泊松方程简化为
d²Φ/dr² + (2/r) dΦ/dr = −ρ(r) 。 (3.34)
这等价于
d/dr (r² dΦ/dr) = −r²ρ(r) 。 (3.35)
积分，然后两边乘以4π，得到
4πr² dΦ/dr = −∫₀ʳ 4πr’²ρ(r’) dr’ 。 (3.36)
（若要求Φ在原点光滑，则没有进一步的积分常数。）右边是半径为r的球内电荷的负值，我们将其记为Q(r)。因此
dΦ/dr = −Q(r)/(4πr²) ， (3.37)
而Φ本身可以通过再积分一次得到。这里出现的4π从泊松方程的形式中看并不明显；它与单位球面的面积为4π有关。电场为E = −∇Φ = −(dΦ/dr) x̂，正如我们在方程(1.38)中所见，因此
E(x) = (Q(r)/(4πr²)) x̂ ， (3.38)
这是一个径向的、强度为Q(r)/(4πr²)的场。E在原点处为零，因为当r → 0时，Q(r)比r²更快地趋于零。

当r大于R时，电荷密度为零，因此Q(r) = Q，其中Q是总电荷。因此，电场按平方反比定律衰减，
E(x) = (Q/(4πr²)) x̂ 。 (3.39)
在此，势Φ满足拉普拉斯方程，因此如我们在第1章末尾所论证的，它必须具有形式Φ(r) = C/r + D。如果C = Q/(4π)，则dΦ/dr的值正确，并且Φ满足

静电场
83
无穷远处的边界条件，如果D = 0。因此，总电荷为Q的球对称电荷分布外部的势为
Φ(r) = Q/(4πr) 。 (3.40)
一个特殊情况是半径为R的球内均匀球对称电荷密度ρ₀。总电荷为Q = (4/3)πR³ρ₀。球外，势为Φ(r) = Q/(4πr)，电场为E(x) = (Q/(4πr³)) x。球内，dΦ/dr由方程(3.37)给出，其中Q(r) = (4/3)πr³ρ₀。积分可得，Φ本身是二次表达式
Φ(r) = (Q/(8πR))(3 − r²/R²) ， (3.41)
积分常数被确定为使得Φ在r = R处连续，该处Φ等于Q/(4πR)。
因此球内电场为
E(x) = (Q/(4πR³)) x ， (3.42)
线性地趋于原点处的零。

一般结果(3.39)和(3.40)最有趣的特点是：外部电场和势仅依赖于总电荷，而与电荷如何径向分布无关，如图3.9所示。这一点最初是由牛顿(Newton)在引力背景下用不同方法确立的。他证明，小的检测物体受到的大而球对称物体的引力，与该大物体的全部质量都集中在其中心时的引力相同。

图3.9

图3.9 带电体外部的电场。

图3.9

84
场——麦克斯韦方程组
利用公式(3.40)，我们可以继续寻找泊松方程的更一般解。首先，考虑电荷密度集中于原点且总电荷²为q的极限情况。那么势为
Φ(x) =
q
4π|x| ,
(3.43)
该势除原点外处处有限，原点处Φ有一个奇点。对于位于X处的点电荷，我们只需将|x|替换为|x − X|。泊松方程是线性的，因此如果存在位于x(1), . . . , x(N)处的一系列电荷q(1), . . . , q(N)，则总势通过叠加或线性叠加得到。势为
Φ(x) =
N
X
k=1
q(k)
4π|x − x(k)| .
(3.44)
对于光滑的电荷密度ρ（不一定球对称），其解则可通过将该表达式中的求和替换为积分而得到。因此原泊松方程(3.33)的通解为
Φ(x) =
Z
ρ(x′)
4π|x − x′| d3x′ .
(3.45)
它处处光滑。
我们比较详细地讨论了泊松方程及其解，因为正如我们马上会看到的，同样的方程也出现在静磁学中，并且在牛顿引力中考虑有限大小物体时也会出现。
3.6.1
电荷与偶极矩
考虑一个局域但光滑的电荷密度，不要求相对原点球对称，并假设在某个有限半径R0之外电荷密度为零。势Φ(x)是泊松方程的解(3.45)，在半径R0之外它自动满足拉普拉斯方程。在远处，Φ可以展开成到原点距离r的倒数幂级数。从展开式的前几项我们可以了解电荷分布的主要特征，尽管无法分辨其所有精细细节。首项只依赖于总电荷，下一项则依赖于所谓的电荷分布的电偶极矩，它是一个矢量。
为求出电荷和偶极矩以及它们在势中产生的项，我们需要当|x′| ≪ |x|时1/|x−x′|的展开式。这可通过
|x − x′|2

(x − x′) · (x − x′)
≃
r2 − 2x · x′
(3.46)

r2

1 − 2x
r2 · x′

(3.47)
推导，其中r2 = |x|2是到原点距离的平方，我们已舍去项|x′|2。

² 我们用符号Q表示复合物体的总电荷，用q表示点状物体或粒子的电荷。

静电场
85
求倒数并开方，得
[
\frac{1}{|x - x’|} \simeq \frac{1}{r} \left( 1 + \frac{x}{r^2} \cdot x’ \right) = \frac{1}{r} + \frac{x}{r^3} \cdot x’ .
\tag{3.48}
]
将此代入泊松方程的解，我们得到大 (r) 时的两个主要项，
[
\Phi(x) \simeq \frac{1}{4\pi r} \int \rho(x’) , d^3x’ + \frac{x}{4\pi r^3} \cdot \int x’ \rho(x’) , d^3x’ .
\tag{3.49}
]
这里的积分分别是总电荷
[
Q = \int \rho(x’) , d^3x’ ,
\tag{3.50}
]
和偶极矩
[
p = \int x’ \rho(x’) , d^3x’ .
\tag{3.51}
]
那么对于大 (r)，势的主要项可以更紧凑地写成
[
\Phi(x) \simeq \frac{Q}{4\pi r} + \frac{p \cdot x}{4\pi r^3} ,
\tag{3.52}
]
且两者都满足拉普拉斯方程。电荷项按 (1/r) 衰减，与球对称电荷分布产生的势相同；偶极项按 (1/r^2) 衰减，是偏离球对称性的量度。电场为 (E = -\nabla \Phi)，其偶极部分按 (1/r^3) 衰减，并具有非平凡的角度依赖关系。

在电荷分布平移（例如平移矢量 (a)）下，总电荷 (Q) 不变，但偶极矩变为
[
\tilde{p} = \int (x’ + a) \rho(x’) , d^3x’ = p + Q a .
\tag{3.53}
]
因此，若存在净电荷，偶极矩会改变，且可通过适当选择 (a)（或等价地，适当选择原点）将其设为零。当 (Q) 不为零时，偶极矩没有不变的物理意义。然而，如果没有净电荷，则偶极矩在平移下是不变的，因此更具有意义。例如，我们将在第9章看到，HCl 是一种极性分子，没有净电荷，但氢离子带正电，氯离子带负电。该分子具有电偶极矩。它随着分子的转动而转动，但其大小与分子的取向无关。

最简单的偶极子是一个点负电荷 (-q) 和一个点正电荷 (q)，相距为 (d)。其偶极矩为 (p = qd)。

当电荷运动时，电荷分布的偶极矩通常是随时间变化的。振荡偶极子是电磁波的主要来源，我们接下来将讨论这一点。

86
场——麦克斯韦方程组
3.7
电磁波

麦克斯韦(Maxwell)方程组涉及场 E 和 B。这些场是物理的，尽管它们不易直观想象，特别是当它们随时间变化时。令人惊讶的是，如果引入一组新的场，方程会得到简化。这些新场完全不可直接观测，但它们似乎也是物理的，并且是基本的。新场就是标量势 Φ 和矢量势 A，在 3.4 节已简要提及。Φ 是静电学中出现的势的含时版本，而 A 通常也是含时的。

引入 Φ 和 A 的动机在于，对于任意满足两个无源麦克斯韦方程 (3.26) 和 (3.27) 的 E 和 B，我们总能找到这些新场，而且 E 和 B 共有六个分量，而 Φ 和 A 只有四个。

无论 B 是否随时间变化，它都可以表示为
B = ∇× A ,
(3.54)
因为 ∇·B = 0。对时间求导得 ∂B/∂t = ∇× ∂A/∂t，将此表达式代入第二个麦克斯韦方程 (3.26)，我们得到
∇×
(
E + ∂A/∂t
)
= 0 .
(3.55)

现在回想一下，旋度为零的矢量场是某个标量场的梯度。因此我们总可以写出
E + ∂A/∂t = −∇Φ .
(3.56)
这推广了静电学关系式 E = −∇Φ。合起来，用 Φ 和 A 表示的 E 和 B 的表达式为
E = −∂A/∂t −∇Φ ,
B = ∇× A .
(3.57)
当 E 和 B 以这种方式表达时，麦克斯韦方程 (3.26) 和 (3.27) 自动满足。

我们稍早前解释过，这两个麦克斯韦方程，特别是法拉第(Faraday)感应定律 (3.26)，是具有重大物理意义的实验发现，有着重要的实际应用。通过引入 Φ 和 A，并用它们表示 E 和 B，我们似乎将感应定律归结为数学上的平凡结论，即混合偏导数对称性的结果。这种观点是误导性的。更好的观点是，法拉第（在没有意识到的情况下）发现，即使对于随时间变化的电场和磁场，场 Φ 和 A 也具有物理存在，正如早先已认识到它们对于静态场是存在的，在静态场中 E = −∇Φ 且 B = ∇× A。

对于给定的 E 和 B，场 Φ 和 A 并不是唯一的。我们可以作如下替换
Φ → Φ − ∂λ/∂t ,
A → A + ∇λ ,
(3.58)
其中 λ(x, t) 是任意函数。由方程 (3.57) 定义的 B 不受影响，因为 ∇×∇λ = 0，而 E 也不受影响，因为在方程 (3.57) 中，涉及 λ 的附加项相互抵消。变换 (3.58) 称为规范变换。(这一术语是

电磁波
87
现已通用，但它源于一个不同的语境，那里确实涉及测量规范（gauge）的改变，即长度尺度的改变。）通过规范变换相联系的两个场 Φ 和 A 应被视为物理上等价的。

现在我们可以将 E 和 B 的表达式 (3.57) 代入剩余的麦克斯韦方程 (3.25) 和 (3.28) 中。方程 (3.25) 变为
−∇·
∂A
∂t + ∇Φ

= ρ ,
(3.59)
或者，重新整理导数顺序后，
−∂
∂t(∇· A) −∇2Φ = ρ .
(3.60)
方程 (3.28) 变为
∇× (∇× A) = j −
∂2A
∂t2 + ∇∂Φ
∂t

.
(3.61)
利用恒等式 ∇× (∇× A) = ∇(∇· A) −∇2A，它类似于方程 (1.20)，方程 (3.61) 可以重新表达为
∂2A
∂t2 −∇2A + ∇

∇· A + ∂Φ
∂t

= j .
(3.62)
从 (E, B) 到 (Φ, A) 的过渡的一个特点在此变得清晰。麦克斯韦方程只包含场的一次时间导数，而方程 (3.62) 包含 A 的二次时间导数。

方程 (3.60) 和 (3.62) 看起来并不优美，但存在简化的可能。由于 Φ 和 A 并不唯一，我们可以根据自己的方便再施加一个条件。这称为规范固定条件（gauge fixing condition）。最佳选择取决于具体情形。有时取 ∇· A = 0，这称为库仑规范（Coulomb gauge）；有时取 Φ = 0，这称为时间规范（temporal gauge）。这里最好施加洛伦兹规范条件（Lorenz gauge condition），它以路德维希·洛伦兹（Ludvig Lorenz）命名，
∇· A + ∂Φ
∂t = 0 .
(3.63)
如果势 (Φ, A) 最初不满足此条件，我们可以找到一个函数 λ，使得在规范变换 (3.58) 之后它们满足该条件。

在洛伦兹规范下，方程 (3.62) 简化为
∂2A
∂t2 −∇2A = j ,
(3.64)
并且我们可以在方程 (3.60) 中用 −∂Φ
∂t 替换 ∇· A，得到
∂2Φ
∂t2 −∇2Φ = ρ .
(3.65)
这是麦克斯韦方程组的一个显著简化。A 和 Φ 均遵循波动方程，分别以 j 和 ρ 作为源。A 和 Φ 并非彼此独立，因为有规范条件 (3.63)——但这是合理的，因为 j 和 ρ 也并非独立，它们满足电荷/电流守恒方程 (3.29)。

形式为方程 (3.64) 和 (3.65) 的麦克斯韦方程组预言了麦克斯韦的前辈们未曾想象的新现象。它们意味着振荡的电流和电荷会产生类似波动的电磁场，这些场以光速（c = 1）在空间中传播，并且可见光只是更为宽广的电磁波谱的一小部分。对这些思想的首次实验证实是由海因里希·赫兹（Heinrich Hertz）在 1887 年完成的。他在一个导线回路中产生电流，该电流在回路的一个间隙处产生火花。在实验室另一端几米之外的地方，赫兹制作了一个接收器，它对火花产生的电磁信号作出响应，如图 3.10 所示。当然，如今产生各种类型的电磁波已是司空见惯。无线电波通常通过让振荡电流通过天线（aerial or antenna）来产生。

图 3.10

图 3.10 赫兹探测电磁波的实验。

图 3.10

无论它们如何产生，电磁波都可以通过求解无源波动方程来理解。这些方程就是令方程 (3.64) 和 (3.65) 中的 j 和 ρ 均为零。最简单的解是平面波，它是标量场论中平面波解的四分量版本。其形式为
A(x, t) = eAei(k·x−ωt) ,
Φ(x, t) = eΦei(k·x−ωt) .
(3.66)
ω 是角频率，k 是波矢，无源波动方程意味着它们必须满足
ω2 = k · k = |k|2 .
(3.67)

电磁波
89
因此波速 |ω|/|k| 等于1，即光速。矢量振幅 eA 和标量振幅 eΦ 为常数，由于 Lorenz 规范条件 (3.63)，它们满足关系 k · eA − ωeΦ = 0。

在我们使用的单位制下，波速必然是光速，但最初麦克斯韦方程组中的各种单位与场定义均基于电荷与电流间的作用力。从方程导出的电磁波速度是否会与任何已知速度有关联，这一点绝非显而易见，因为当时无人知晓光是一种电磁现象，尽管法拉第(Faraday)在1845年演示磁场能对光的偏振产生微弱但可察觉的影响时，就已发现这可能成立的线索。麦克斯韦(Maxwell)意识到，他的方程所预言的波具有多种性质，例如不同的偏振，与已知的光的性质相符，并且关键在于它们以实测的光速传播。唯一合理的结论是，光必定是电磁波的一个实例。这是科学史上最卓越的突破之一。

真空中的光速与频率或者说波长无关。这与关系式 (3.67) 一致，但与标量场关系式 ω^2 = |k|^2 + μ^2 中参数 μ 取非零值的情况相矛盾。由于对 k 没有限制，电磁波可以有任意短或任意长的波长。波的频率由波源的振荡频率决定。频率变化，波长也随之变化。如图 3.11 所示，现已观测到范围极广的波长，它们或在实验室中产生，或来自宇宙过程。其中包括波长约 100 m 的长波无线电信号、约 1 m 的现代 VHF 无线电与无线宽带信号、夜视技术中探测到的约 10^{−4} m 的红外波、范围从 7×10^{−7} m（红色）到 4×10^{−7} m（紫色）的可见光、约 10^{−10} m 的 X 射线，以及约 10^{−11} m 的实验室同步辐射“光”。核衰变与粒子对撞中产生的 γ 射线波长约为 10^{−13} m。波长如此之短的电磁波已不能很好地用经典电磁现象来描述，而须在量子理论中将其视为由单个光子组成。

图 3.11

无线电波微波红外可见光紫外 X射线 γ射线
10^2 m 1 m 10^{-2} m 10^{-4} m 10^{-6} m 10^{-8} m 10^{-10} m 10^{-12} m
图 3.11 电磁波谱。

图 3.11

现在我们来考虑电磁平面波的电场和磁场的几何结构，如图 3.12 所示。给定如方程 (3.66) 中的 A 和 Φ，由公式 (3.57) 可得

图 3.12

E = (iω eA − i k eΦ) e^{i(k·x−ωt)} (3.68)
和
B = i k × eA e^{i(k·x−ωt)} . (3.69)
此外还有 Lorenz 规范条件，即 k · eA − ω eΦ = 0。
k 与 eA 之间的关系并不显然，但我们可以通过更精确地确定规范来澄清问题。对于电磁波，可以将 eA 规范固定为

90
场——麦克斯韦方程
波矢k正交。于是k · eA = 0，故eΦ = 0。此时波具有振幅为ω eA的电场E（与k正交的矢量），以及振幅为k × eA的磁场B（同时正交于E与k）。在我们的单位制中，E与B的振幅大小相等，因为|ω| = |k|。称该波沿E方向（或等价地eA方向）极化。这种极化是横波性质的，因其正交于波传播方向k。
B
E
k
图3.12 电磁波

图3.12

在不太精确的规范固定下，eA仍可能具有平行于k的分量；这称为纵向极化分量，若存在则伴随着非零的eΦ。然而该纵向分量没有物理效应，因为它会在E与B中消失，并可通过规范变换λ(x, t) = ie
Φ
ω ei(k·x−ωt)予以消除，该变换同样使eΦ归零。此规范变换保持洛伦兹规范条件，因λ满足波动方程。
3.8
静磁学
稳定电流产生静态磁场。若同时无电荷密度与电场，则麦克斯韦方程约化为
∇· B = 0 ,
∇× B = j .
(3.70)
电流密度j须满足电流守恒方程∇· j = 0，即(3.29)式的静态形式。(3.70)中第一式意味着B仍可表为∇× A，而第二式化为
∇× (∇× A) = j .
(3.71)
我们再次利用恒等式∇× (∇× A) = ∇(∇· A) −∇2A，并结合库仑规范条件∇· A = 0以固定规范。（当场为静态时，库仑规范等价于洛伦兹规范。）则(3.71)简化为
∇2A = −j ,
(3.72)

静磁学
91
这就是静磁学的基本方程。它是泊松方程(3.33)的矢量版本。A的每个分量都满足通常的泊松方程，其源为j的对应分量。取散度后可见∇²(∇·A) = 0，这与库仑规范条件一致。
我们可以通过类比标量泊松方程的解(3.45)来求解(3.72)。结果为
A(x) =
∫
j(x′)
4π|x −x′| d³x′ 。
(3.73)
磁场B是此A表达式的旋度。导数作用在积分内，对变量x进行，求得
B(x) =
∫
j(x′) ×
x −x′
4π|x −x′|³ d³x′ ，
(3.74)
这就是毕奥-萨伐尔定律(Biot–Savart law)。
推导此结果的另一方法是考虑∇×(∇×B)。方程(3.70)进而化为
∇²B = −∇× j 。
(3.75)
这又是泊松方程，其解为
B(x) =
∫ (∇× j)(x′)
4π|x −x′| d³x′ 。
(3.76)
通过分部积分可由此得到毕奥-萨伐尔定律。
A或B的解都不像静电学中的解那样简单。在静磁学中，带电球壳的对应物是圆形电流环。它只具有圆对称性，而非球对称性。这样一个电流环产生的磁场如图3.13所示。该磁场不能表示为x的初等函数，但可用椭圆积分（如此命名是因为它们用于计算椭圆的周长）表示。对于穿过回环中心的对称轴上的场，有一个简单表达式。在距回环的距离r远大于回环半径时，场也得到简化。此时主导场为磁偶极场，其源称为电流分布的磁矩。

图3.13

或许最有用的磁场是由螺线管产生的磁场。实际上，螺线管是一个密绕的圆柱形导线线圈，其中有稳定电流通过。数学上，它是一个有限长圆柱，其上环流着均匀的电流密度（电流没有平行于圆柱轴线的分量）。螺线管产生的磁场描绘在图3.7中。若螺线管长度有限，则没有简单精确的场公式，但沿其内部场近似均匀，而从两端发出的场近似等同于放在两端的相反磁极所产生的场。总场几乎等同于条形磁铁的场；条形磁铁是一种材料物体，因原子尺度上的量子效应而有效产生稳定电流，其电流几何形态与螺线管相同。

图3.7

92
场——麦克斯韦方程组
图3.13 载流导线周围的磁场。

图3.13

3.9 电磁场的 least action 原理（最小作用量原理）
回顾牛顿动力学中，一维运动物体的运动方程为
md2x
dt2 = −dV
dx ,
(3.77)
这是一个关于x的单变量二阶微分方程。该方程可以从最小作用量原理推导出来。通过引入动量变量p，运动方程可以表示为一阶系统
dx
dt

1
mp ,
dp
dt

−dV
dx .
(3.78)
消去p即可恢复方程(3.77)。一阶系统将x和p置于更加对称的地位，是动力学哈密顿表述的基础。
麦克斯韦方程组也是一个一阶动力学系统。E和B的出现相当对称，并且只有它们的时间一阶导数显式出现。我们不清楚哪个场——如果有的话——类似于x，哪个类似于p。这可能使得为电磁场寻找最小作用量原理变得困难。通过使用场A和Φ，这个问题得以解决。基本场是A，它类似于粒子动力学中的位置型变量，麦克斯韦方程组则约化为关于A的二阶动力学方程，该方程可以从最小作用量原理推导出来。
场A在规范变换下会改变，因此A中只有部分是规范不变且物理的。磁场B = ∇×A捕获了A在给定时刻所包含的局部的、规范不变的信息。同时回想E = −∂A
∂t −∇Φ。其中第一项−∂A
∂t是一个速度型变量，减去∇Φ则挑选出规范不变的部分，即物理的电场。

洛伦兹力
93
场 E。如果拉格朗日量中只出现 A 和 ∂A/∂t，欧拉–拉格朗日方程将完全决定 A 的时间演化。由于规范不变性，实际情况并非如此。A 的演化存在一定的任意性，而引入 Φ 正是为了考虑这一点。
经过这番铺垫，我们可以给出拉格朗日量和作用量。假设电荷密度 ρ 和电流密度 j 是事先给定的时空函数，并满足电荷/电流守恒约束 (3.29)。那么电磁场的拉格朗日量为
L =
∫ {
1
2
E · E −
1
2
B · B + A · j − Φρ
}
d3x ,
(3.79)
作用量为
S =
∫ t1
t0
L dt .
(3.80)
A 是基本的动力学场，且如前所述，E = −∂A/∂t − ∇Φ，B = ∇ × A。Φ 是另一个独立的场。对于无源电磁场，½ E·E 的积分是动能，½ B·B 的积分是势能。项 A·j − Φρ 表示场与外部源的相互作用，它们也对能量有贡献。
欧拉–拉格朗日方程通过对 A 和 Φ 取作用量的极小值得到。这涉及到考虑 A 和 Φ 的小变分，并像通常那样进行分部积分。欧拉–拉格朗日方程（我们不再重新推导）将重新给出方程 (3.60) 和 (3.62) 形式的麦克斯韦方程组。
作用量中没有 ∂Φ/∂t 项，因此 Φ 不是动力学场。Φ 是所谓拉格朗日乘子或辅助场的一个例子，∇Φ 项的出现并不破坏这种解释。注意方程 (3.62) 包含 A 的二阶时间导数，但方程 (3.60) 只涉及其一阶时间导数。仍然可以通过固定规范来简化方程，但不应从拉格朗日量中移除 Φ。例如，在库仑规范 ∇·A = 0 下，方程 (3.60) 瞬时地将 Φ 与 ρ 联系起来。这是关于 Φ 的一种约束方程，而非动力学方程，但在物理上仍然有效。

3.10 洛伦兹力

我们已经将电荷和电流当作电磁场的源来介绍，但并未详细考虑它们的动力学。电荷彼此之间施力，电流也是如此。例如，为了在一匝线圈中维持大电流，必须将线圈刚性地固定在某个框架中，否则它会因线圈不同部分之间作用的磁力而松散开来。
静止电荷之间的力是库仑力。一般形状的电流环路之间的力由安培（Ampère）算出，但形式相当复杂。比这两者更基本的是电磁场对不一定处于静止状态的带电点粒子所施加的力。这就是以亨德里克·洛伦兹（Hendrik Lorentz）命名的洛伦兹力，其表达式为
F = q(E + v × B) .
(3.81)
由于是点状的，位于 x 处的粒子受到的力只取决于当地的场值 E(x) 和 B(x)，以及粒子的电荷 q 和速度 v。电力

场——麦克斯韦方程组

qE 的方向与 E 相同，且与粒子速度无关。磁力 qv × B 正交于磁场和速度。

因此，电荷为 q、质量为 m 的粒子的运动方程为
md²x/dt² = q ( E + dx/dt × B ),
(3.82)
其中我们用 dx/dt 表示速度。这是带电粒子的牛顿(Newton)第二定律，右侧为洛伦兹(Lorentz)力。加速度与速度项的组合我们之前见过，对于受摩擦力作用的粒子，但这里没有摩擦，因为磁力与速度正交，不做功。这一点可以通过将方程(3.82)与 dx/dt 点乘得到
d/dt ( ½ m dx/dt · dx/dt ) = qE · dx/dt .
(3.83)
我们看到，粒子动能的变化率等于电场做功的速率。

一个静止电荷对另一个施加的库仑(Coulomb)力可以从洛伦兹力得出。位于原点的电荷 q(1) 产生电场
E(x) = q(1)/(4πr²) ˆx = q(1)/(4πr³) x .
(3.84)
作用于位置 x 处的电荷 q(2) 的力为
F = q(1)q(2)/(4πr³) x ,
(3.85)
这是一个平方反比律力。更一般地，位于 x(1) 的电荷 q(1) 对位于 x(2) 的电荷 q(2) 施加的库仑力为
F = q(1)q(2)(x(2) − x(1)) / (4π|x(2) − x(1)|³) .
(3.86)
电荷 q(2) 对电荷 q(1) 施加的力大小相等、方向相反，符合牛顿第三定律。

这对电荷的库仑势能为
V = q(1)q(2) / (4π|x(2) − x(1)|) .
(3.87)
这类似于一对质量 m(1) 和 m(2) 在这些位置上的引力势能，V = −Gm(1)m(2)/|x(2)−x(1)|，但注意后一量是负的，而对于同号电荷，库仑能量为正。引力总是吸引的，但库仑力对同号电荷是排斥的，对异号电荷是吸引的。

当多个带电粒子相互作用时，每个粒子上的总力在良好近似下是所有其他粒子施加的库仑力之和。还有磁力

洛伦兹力

当粒子之间存在相对运动时会有修正，但如果相对速度远小于光速，这些修正很小。

知道了作用力，就可以计算带电粒子在固定背景电磁场中的运动。一般来说，这相当复杂，但如果背景场是均匀且静态的，问题会简化。这里我们将描述最简单的情况。首先是均匀电场中的运动。若电场为 $\boldsymbol{E} = (0, 0, E)$，则运动方程 (3.82) 意味着粒子具有平行于3轴的恒定加速度，大小为 $\frac{qE}{m}$。如果粒子在 $t=0$ 时从原点静止出发，其后的位置为 $\boldsymbol{x}(t) = \left(0, 0, \frac{qE}{2m}t^2\right)$。任何匀速运动都可以叠加于此。

更有趣的是在均匀静态磁场中带电粒子的运动。运动方程为
$$
m\frac{d^2\boldsymbol{x}}{dt^2} = q \frac{d\boldsymbol{x}}{dt} \times \boldsymbol{B} ,
\tag{3.88}
$$
可积分一次得到
$$
m\frac{d\boldsymbol{x}}{dt} = q\boldsymbol{x} \times \boldsymbol{B} + \boldsymbol{u} ,
\tag{3.89}
$$
其中 $\boldsymbol{u}$ 是恒定速度。速度 $\frac{d\boldsymbol{x}}{dt}$ 平行于 $\boldsymbol{B}$ 的分量保持不变。对于垂直于 $\boldsymbol{B}$ 的运动，$\boldsymbol{u}$ 的影响可以通过坐标平移来抵消。因此，我们假设已完成这一平移，并将 $\boldsymbol{u}$ 设为零。若 $\boldsymbol{B} = (0, 0, B)$，则（利用叉积定义 (1.15)）运动方程投影到 $(x_1, x_2)$ 平面的分量为
$$
m\frac{dx_1}{dt} = qB x_2 , \quad m\frac{dx_2}{dt} = -qB x_1 .
\tag{3.90}
$$
这表明 $x_1^2 + x_2^2$ 的时间导数为零，因为
$$
\frac{d}{dt}(x_1^2 + x_2^2) = 2x_1\frac{dx_1}{dt} + 2x_2\frac{dx_2}{dt} = \frac{2qB}{m}(x_1 x_2 - x_2 x_1) = 0 .
\tag{3.91}
$$
所以 $x_1^2 + x_2^2 = R^2$，其中 $R$ 是常数，投影运动在一个圆上。如果我们将 $x_1 = R\cos\phi(t)$, $x_2 = R\sin\phi(t)$，那么当 $\frac{d\phi}{dt} = -\frac{qB}{m}$ 时，方程 (3.90) 得到满足。因此，粒子以恒定的角频率 $\omega = \frac{qB}{m}$ 稳定地绕圆运动，该频率称为回旋频率 (cyclotron frequency)。圆的中心可以位于任何位置（当考虑常数 $\boldsymbol{u}$ 时），半径 $R$ 也是任意的；回旋频率与这些参数无关。一般情况下，当粒子的速度包含平行于 $\boldsymbol{B}$ 的分量时，粒子将沿螺旋线行进。

$R$ 随着粒子速度的增加而增大。因此，如果带电粒子穿过一个均匀磁场区域，可以从其轨迹的曲率半径测量其速度。这被应用于粒子探测器中，例如大型强子对撞机 (Large Hadron Collider) 的 CMS 和 ATLAS 探测器。

磁场中的圆周运动也是粒子加速器的基础。1932年，欧内斯特·劳伦斯 (Ernest Lawrence) 发明了一种早期加速器，称为回旋加速器 (cyclotron)，其示意图如图3.14所示。回旋加速器由两个中空的D形金属部件构成，其直边之间有一个狭窄的间隙。该装置

96
场——麦克斯韦方程组
质子源
“D形盒”
高速质子束
高频加速电压
图3.14 回旋加速器。
置于均匀恒定磁场中。如我们所见，以恒定速度运动的带电粒子在这样的磁场中沿圆形轨道运动。回旋加速器的关键设计特征是在间隙处施加一个振荡电场，并使振荡的时间与粒子经过间隙的时刻同步。这样，粒子每次穿过间隙时都会被进一步加速。结果是，从装置中心注入的粒子会以越来越大的速度向外作螺旋运动，直至从外缘的开口射出，并被引向靶体。

近期的加速器，如欧洲核子研究中心(CERN)的大型强子对撞机，拥有一个半径固定的环形磁铁系统。同样，粒子以相对较低的能量注入，并由电场脉冲加速。随着粒子速度增加，磁场必须逐步同步增强，以保持相同的曲率半径，使粒子维持在环中。由于磁场强度与不断增加的粒子速度同步变化，这类装置被称为同步加速器(synchrotrons)。直线粒子加速器，例如斯坦福直线加速器中心(SLAC)的加速器，则纯粹利用电场来加速粒子。因为粒子只从一端到另一端通过一次，其电场必须比环形加速器中的强得多。

在所有这些加速器中，粒子的运动速度都接近光速，因此运动方程(3.82)需要作相对论性修正。我们将在下一章探讨这个问题。

我们已经较为详细地讨论了电磁场施加在带电粒子上的力。现在简要提一下施加在电荷或电流分布上的力。正如一个电荷为q的粒子对电荷密度ρ有贡献一样，一个电荷为q、速度为v的运动粒子也对电流密度j有贡献。由作用在粒子上的洛伦兹力可以得出，电场施加在一个电荷分布上的总力为
∫ ρ(x)E(x) d³x
(3.92)
而磁场施加的总力为
∫ j(x) × B(x) d³x
(3.93)

洛伦兹力
97
在一个电流分布上。对于一个小电流环，磁力的净效应是产生一个作用在环上的力矩。

3.10.1 从最小作用量原理导出洛伦兹力

电荷为 ( q ) 的粒子的运动方程 (3.82) 可以从最小作用量原理推导出来。其作用量为
[
S = \int_{t_0}^{t_1} \left( \frac{1}{2} m \frac{d\mathbf{x}}{dt} \cdot \frac{d\mathbf{x}}{dt} + q \mathbf{A}(\mathbf{x}(t)) \cdot \frac{d\mathbf{x}}{dt} - q \Phi(\mathbf{x}(t)) \right) dt ,
\tag{3.94}
]
这是三维空间中粒子在势场中运动的作用量 (2.53) 的推广。这里粒子同时与标势 (\Phi) 和矢势 (\mathbf{A}) 相互作用，而且它们可以依赖时间。与方程 (3.79) 和 (3.80) 中不同，(\Phi) 和 (\mathbf{A}) 是背景场，只有带电粒子的轨迹 (\mathbf{x}(t)) 是变分的。

通常，( S ) 是针对连接固定端点 (\mathbf{x}(t_0)) 和 (\mathbf{x}(t_1)) 的一类粒子路径定义的，欧拉-拉格朗日方程 (Euler–Lagrange equation) 是 ( S ) 取极小值的条件。这个方程再现了运动方程 (3.82)。( S ) 的被积函数包含一个标准的动能项，以及一个类似于方程 (2.53) 中 ( V(\mathbf{x}(t)) ) 的势能项 ( q \Phi(\mathbf{x}(t)) )，但中间那个与速度成线性的项是新的。当对 (\mathbf{x}(t)) 进行变分时，(\mathbf{A}(\mathbf{x}(t))) 和 (\frac{d\mathbf{x}}{dt}) 都会改变。这就产生了运动方程中的 (\frac{d\mathbf{x}}{dt} \times \mathbf{B}) 项以及 (\mathbf{E}) 项中的 (\frac{\partial \mathbf{A}}{\partial t}) 部分。

运动方程只依赖于规范不变量 (\mathbf{E}) 和 (\mathbf{B})，而作用量 ( S ) 看起来并非规范不变的。一个规范变换将 (\mathbf{A}) 和 (\Phi) 替换为新的势 (\mathbf{A}’ = \mathbf{A} + \nabla \lambda) 和 (\Phi’ = \Phi - \frac{\partial \lambda}{\partial t})，作用量则变为
[
S’ = S + q \int_{t_0}^{t_1} \left( \nabla \lambda \cdot \frac{d\mathbf{x}}{dt} + \frac{\partial \lambda}{\partial t} \right) dt = S + q \int_{t_0}^{t_1} \frac{d}{dt} \big( \lambda(\mathbf{x}(t)) \big) dt .
\tag{3.95}
]
被积函数是 (\lambda(\mathbf{x}(t))) 的全时间导数，即沿粒子轨迹计算的 (\lambda) 的时间导数。积分给出 ( S’ = S + q \lambda(\mathbf{x}(t_1)) - q \lambda(\mathbf{x}(t_0)) )。附加项只依赖于端点处的 (\lambda) 值，而与它们之间的轨迹 (\mathbf{x}(t)) 无关，因此它们不影响运动方程。在这个意义上，作用量是规范不变的。

这个例子说明了一个更普遍的原理：场，甚至作用量，并不总是严格规范不变的，但物理是规范不变的。我们应当把规范变换视为某种不可观测的事物，它影响物理的数学描述，但不影响物理本身。

如果 (\mathbf{A}) 和 (\Phi) 都不依赖时间，那么 (\mathbf{E} = -\nabla \Phi) 且 (\mathbf{B} = \nabla \times \mathbf{A})，我们可以预期粒子具有守恒的能量。一个一般性的结果是，拉格朗日量中与速度成线性的项对能量没有贡献。能量是动能（速度的二次项）与势能（与速度无关）之和。因此，对于作用量 (3.94)，能量为
[
E = \frac{1}{2} m \frac{d\mathbf{x}}{dt} \cdot \frac{d\mathbf{x}}{dt} + q \Phi(\mathbf{x}(t)) .
\tag{3.96}
]
这解释了为什么 (\Phi) 被称为势；(\Phi(\mathbf{x})) 是位于 (\mathbf{x}) 处的单位电荷粒子的势能。

98
场——麦克斯韦方程组
E的时间导数为零，因为
dE
dt

md²x
dt² · dx
dt + q∇Φ(x(t)) · dx
dt

qE · dx
dt + q∇Φ(x(t)) · dx
dt

0 .
(3.97)
这里，我们利用运动方程(3.82)代换了 m d²x
dt²，并注意到
dx
dt × B 与 dx
dt 正交。在第二项中我们使用了链式法则，最后注意到对于静态场，E = −∇Φ。

3.11
场能量与动量
在电磁理论中评估能量并不总是这么简单直接。麦克斯韦方程组规定了场的动力学，但没有规定电荷和电流源的动力学，除了要求电荷/电流守恒。电荷和电流除了受到电磁洛伦兹力外，还受到其所处材料中的机械力和约束。这些材料通常并不简单，并且通常会耗散能量。

如果所有的源都是带电点粒子，能够在空间中自由运动，情况会更简单。电磁场和带电粒子的耦合系统是闭合的，具有单一作用量，并且应该具有守恒的总能量。不幸的是，在这种情况下出现了新的困难，那就是点粒子具有奇异性，它们产生的场似乎具有无穷大的能量。尽管如此，能量在多种情形下仍有意义，并且可以计算。

我们从静电学开始。对于静态电荷密度且没有电流的情况，我们可以假设磁场 B 和矢量势 A 为零。场的拉格朗日量(3.79)简化为
L =
Z 1
2∇Φ · ∇Φ −Φρ

d³x .
(3.98)
虽然 1
2∇Φ·∇Φ 来自电场贡献，通常被视为动能项，但这里我们可以将其解释为对势能的贡献（符号相反）。因此，在静电学中存在势能
V =
Z
−1
2∇Φ · ∇Φ + Φρ

d³x ,
(3.99)
场的总作用量在 V 取极值时稳定，而这要求泊松方程 ∇²Φ = −ρ 成立。

只要 Φ 满足泊松方程，方程(3.99)中 V 的两项贡献就紧密相关。这通过维里关系
Z
(∇Φ · ∇Φ −Φρ) d³x = 0 ,
(3.100)
来表达，该关系很容易推导。假设我们将 Φ 替换为 μΦ，其中 μ 为实数。V 变为

场能量与动量
99
可以写成µ的函数，形式为
V (µ) =
Z
−1
2µ2∇Φ · ∇Φ + µΦρ

d3x ,
(3.101)
其导数为
dV
dµ =
Z
{−µ∇Φ · ∇Φ + Φρ} d3x .
(3.102)
现在，泊松方程(Poisson’s equation)是V在Φ的所有变分下保持稳态的条件，包括用µΦ替换Φ，
因此当µ = 1时，dV
dµ必须为零，在这种情况下方程
(3.102)退化到位力关系(3.100)。
利用这一点，我们可以从V中消去Φρ或∇Φ · ∇Φ，因此V有替代表达式
V = 1
2
Z
∇Φ · ∇Φ d3x ,
(3.103)
或
V = 1
2
Z
Φρ d3x .
(3.104)
第一个积分完全用电场表示能量，因为∇Φ·∇Φ = E·E。
如果我们使用泊松方程的解(3.45)，第二个积分变为
V =
Z Z
ρ(x)ρ(x′)
8π|x −x′| d3x d3x′ ,
(3.105)
它完全用电荷密度表示V。
光滑电荷分布的势能是有限的，但对于位于原点的点电荷q，它产生的电场由方程(3.39)给出，且
V =
Z ∞
0
q2
32π2r4 4πr2 dr ,
(3.106)
这是一个发散积分，代表电荷的自能。对于一组静态或缓慢运动的点电荷，可以减去一个无穷常数，得到一个有效的势能来表示电荷之间的有限相互作用能，但对于快速运动和加速的电荷，这是不可能的。这些发散不再仅仅是静电场的发散。
让我们回到动力学电磁场。在没有源的情况下，能量E是场中动能和势能的总和。从拉格朗日量(Lagrangian)(3.79)我们读出
E = 1
2
Z
(E · E + B · B) d3x ,
(3.107)
并可以使用无源麦克斯韦方程组验证这是守恒的。将方程(3.28)与E点乘，方程(3.26)与B点乘，然后相减，我们得到
1
2
∂
∂t(E · E + B · B) + ∇· (E × B) = 0 ,
(3.108)
因此能量E的时间导数是全导数−∇· (E × B)的积分，对于在无穷远处衰减足够快的场，这个积分自动为零。

100
场——麦克斯韦方程组
因此，场的能量密度为
1
2(E · E + B · B)，而方程(3.108)的解释是矢量E × B为能流密度。场
同时还携带动量，矢量E × B也是场的动量
密度。电磁波由正交的场E和B构成，因此E × B
非零。它在波矢k的方向上同时携带能量和动量。
3.12
粒子与场的动力学
至此，我们几乎完成了对电磁理论的综述。我们介绍了麦克斯韦方程组，它们将电场和磁场与电荷和电流源联系起来。这些源可以是宏观的，例如导线中的电流，也可以是运动的点粒子。场并未完全由这些源决定，因为存在不需要源的独立电磁波解。我们还介绍了带电粒子在电磁场中的运动方程。
静态、球对称电荷分布（包括点电荷）的电场特别简单，但我们还没有解释如何求运动带电粒子产生的场。这在技术上相当复杂，并会引出概念上的深层次问题。
原则上，可以确定与沿轨迹x(t)运动、电荷为q的点粒子相关的电荷密度ρ和电流密度j。电荷密度不是光滑函数，而是高度局域的。类似地，也存在一个局域的电流密度，正比于粒子速度，并且只要q不变，守恒方程(3.29)就得到满足。
麦克斯韦方程组决定了粒子周围的场。电场是静止荷电点粒子场的修正，粒子速度导致了磁场的产生。此外，粒子的加速度会在远离粒子处产生一个向外传播的电磁波。这部分场随离粒子的距离成反比衰减，因此主导了与其他部分场相关的平方反比律衰减。它还带走了一部分能量和动量。已知这些场，就可以研究多个相互作用带电粒子的完整动力学。每个粒子主要受其他粒子产生的场影响，而不受自身自场的影响。
对于N个带电粒子和电磁场，存在一个总作用量。这本质上是粒子作用量和场A与Φ的作用量之和，其中相互作用项仅出现一次。拉格朗日量为
L

N
X
k=1
1
2m(k) dx(k)
dt
· dx(k)
dt

q(k)A(x(k)(t)) · dx(k)
dt
−q(k)Φ(x(k)(t))

+1
2
Z
(E · E −B · B) d3x .
(3.109)
其中通常有E = −∂A
∂t −∇Φ 和 B = ∇×A。这里的第k个粒子具有质量m(k)、电荷q(k)和轨迹x(k)(t)。将粒子耦合到矢势和标势的相互作用项与方程(3.94)中的相同，但它们也与方程(3.79)中的相同，因为电流密度j和电荷密度ρ具有与N个点粒子相关的高度局域化形式，方程(3.79)中A · j和Φρ的积分约化为方程(3.109)中的求和。

粒子与场的动力学
101
将最小作用量原理应用于这个总系统，可得出以带电粒子为源的麦克斯韦方程组，以及每个粒子的运动方程。棘手的是，作用在每个粒子上的电场和磁场包含了粒子自身场的贡献，而自场在粒子所处位置是奇异的。电自场的主要部分不会产生净力，因为它是球对称的，在球对称带电粒子上平均为零；但自场的某些次主导部分并非球对称，确实会产生作用力。

如果粒子加速并发射电磁波，简单丢弃自作用力将导致矛盾。因为电磁辐射带走了能量，这会使粒子本身损失动能而减速。辐射还带走了动量，若要总体上动量守恒，粒子就必须受到一个补偿力。

约瑟夫·拉莫尔(Joseph Larmor)估算出加速带电粒子的能量辐射率为
1
6π q²
|d²x/dt²|² 。
(3.110)
它与粒子加速度的平方成正比。可以引入一个粒子上的有效自作用力，使其产生等效的动能损失，至少在时间平均的意义上是如此。这个力正比于粒子加速度的时间导数。然而，这只是一个近似，仅在加速度不是很大且变化不剧烈时才成立。之所以是近似，是因为辐射能量必须全局地定义，并且只能通过考虑包围粒子的大球面上的场来计算。从粒子加速到辐射到达这个大球面之间存在延迟，这给反作用的时间定位及其瞬时强度带来了一些不确定性。

大约在1900年，马克斯·亚伯拉罕(Max Abraham)、洛伦兹(Lorentz)等人曾尝试解决这些不确定性，此类努力一直延续至今。一个关键的想法是赋予带电粒子（如电子）一个有限大小的结构。电子需要的半径约为10⁻¹⁵米，与原子核的大小相当。不幸的是，具有这种结构的电子会因其各部分之间的库仑排斥而爆炸，除非有更强的、非电磁起源的未知力将其束缚在一起。

迄今为止，对电子可能存在的内部结构的研究主要停留在理论层面，缺乏实验的指引。这是因为所提出的半径非常小，电磁波穿越这段距离所需的相应时间也极短。实验需要产生频率极高的强场，才能使电子获得足够大的加速度，从而需要对洛伦兹力进行显著修正。目前可用的最强聚焦激光场尚未完全达到这一条件，但借助下一代的激光器，或许有可能研究对洛伦兹力的修正。

总而言之，对场与带电点粒子相互作用进行完全自洽的处理似乎尚不可能，尽管这些问题还没有严重到影响粒子加速器设计和运行的程度。现代的观点认为，所有物质都应该用场来描述。粒子是涌现出来的现象，并非真正是点状的。有一种在数学上极具吸引力的粒子结构理论，我们将在本书结尾处简要讨论。该理论将粒子模型化为一个孤子(soliton)，即一个光滑的局域化结构。

102
场——麦克斯韦方程组
非线性经典场中的结构。尽管孤子确实存在于自然界，但目前还没有太多证据表明它们可以描述像电子这样的基本粒子。

这就是经典电磁理论的终点，也是粒子物理学的起点。高能粒子碰撞探测了电子、质子和中子等粒子的内部结构。这些研究表明，质子具有更小的带电夸克组成的亚结构，而目前还没有证据表明电子具有亚结构。我们将在第12章回到粒子物理学的这些方面，但它们并不属于经典电磁理论的部分。理解粒子物理学需要量子场论，并且人们一度认为量子理论将完全消除与点状粒子相关的困难。尽管量子场论在粒子物理学中取得了成功，但实际情况并非如此。

3.13
延伸阅读
P. Lorrain 和 D.R. Corson，《电磁学：原理与应用》（第2版），纽约：Freeman，1990年。
J.D. Jackson，《经典电动力学》（第3版），奇切斯特：Wiley，1999年。
L.D. Landau 和 E.M. Lifschitz，《场论经典：理论物理学教程，第2卷》（第4版），牛津：Butterworth-Heinemann，1975年。

4_Special_Relativity

4
狭义相对论
4.1
引言
在讨论牛顿(Newton)运动定律之前，我们先考虑了一些三维欧几里得空间(Euclidean 3-space)的几何性质。牛顿物理学基于这样一个观念：空间是绝对的，两点之间的距离是绝对的，但坐标系的选择是任意的。观察者可以相对于不同的原点建立笛卡尔坐标系(Cartesian coordinates)，坐标轴也可以有不同的取向。一个点的坐标构成了一个矢量，但这样的矢量并非绝对的，因为它依赖于原点和坐标轴的选择。然而，牛顿运动定律具有矢量形式，这种形式对于不同的观察者来说是相同的。

让我们更简单地说明这一点。两个紧挨着而面向不同方向的观察者，会对世界上正在发生的事情达成一致看法。如果他们看到一只鸟从地里拽出一条虫子并吃掉它，他们都会同意这件事发生在同一地点，耗时相同，但如果他们各自建立自己的空间坐标系，以自己所在位置为原点，以他们的正前方为1号轴，左侧为2号轴，上方为3号轴，那么对于这两位观察者来说，这只鸟的位置坐标是不同的，并且当鸟飞走时，它也具有不同的速度矢量和加速度矢量。然而，作用在鸟上的力与鸟的加速度之间的关系，对两位观察者来说是相同的。换句话说，尽管他们对运动的描述不同，但他们都认同这些运动定律。

为了讨论动力学，我们需要考虑四维时空(4-dimensional spacetime)。时空中的一点被称为一个事件(event)，它发生在一个时刻t和一个空间位置 x = (x1, x2, x3)。这些可以组合成一个量 X = (t, x)，即该事件的位置4-矢量。

在狭义相对论中，绝对的是时空，而不是空间。不同的观察者通常彼此相对运动，他们会建立起不同的坐标系。一个观察者并非一个事件，而是持续存在于所有时间之中。最重要的观察者是那些不受任何力作用的观察者。他们被称为惯性观察者，等同于牛顿动力学中在空间中以恒定速度运动的物体。物理定律被假定为对所有惯性观察者都是相同的，但事件的时间和空间坐标将相对于每个观察者而言。时间不再是一个绝对量，三维距离也不是。但在时空中，两个事件之间存在绝对的分离或间隔(interval)概念，它取代了欧几里得三维空间中绝对距离的概念。

狭义相对论的另一个关键特征是，光速是一个绝对常数，对所有惯性观察者都相同，即使他们处于相对运动中也是如此。我们将看到，两个事件——一个是发出闪光，另一个是接收到它——之间的间隔为零，并且所有观察者都对此达成一致。

物理世界(The Physical World). Nicholas Manton and Nicholas Mee, 牛津大学出版社 (2017).
版权归 Nicholas Manton and Nicholas Mee 所有。DOI 10.1093/acprof:oso/9780198795933.001.0001

104
狭义相对论

让我们为一个（惯性）观察者定义间隔(interval)的概念。时空的原点 O 是时间 t = 0、位置 x = 0 的事件 (0, 0)。假设另一事件发生在时间与位置 X = (t, x)。这两个事件之间的平方间隔 τ² 定义为
τ² = t² − x₁² − x₂² − x₃² ，或等价地
τ² = t² − x · x 。
(4.1)
注意，τ² 可以是正、负或零，因此 τ 本身可以是实数或虚数。如果 t² > x · x，那么 τ 是实数，并且当 t 为正时取正，当 t 为负时取负。任意两个事件 X = (t, x) 与 Y = (u, y) 之间的平方间隔为
τ²

(t − u)² − (x − y) · (x − y)

(t − u)² − |x − y|² 。
(4.2)
具有这种几何结构的时空，即平方间隔 τ² 中的时间贡献与空间贡献之间带有负号，称为闵可夫斯基空间(Minkowski space)。或者，这种几何被称为洛伦兹几何(Lorentzian)。如果用的是加号，τ² 就会是四维欧几里得空间中两点之间的距离平方。

假设第二个观察者建立了一个坐标系，时间坐标为 t′，空间坐标为 x′ = (x′₁, x′₂, x′₃)。假设第二个观察者用来标定空间轴单位的尺子与第一个观察者所用的相同，时间单位的标定也使用同类型的时钟。（这相当于一个隐含的假设：在三维欧几里得空间中，不同观察者使用同类型的尺子测量其笛卡尔坐标轴上的距离。）

在狭义相对论中，事件之间的间隔对于两个观察者是相同的。如果对于第一个观察者，事件位于 X = (t, x) 和 Y = (u, y)；对于第二个观察者，位于 X′ = (t′, x′) 和 Y′ = (u′, y′)，那么
(t − u)² − (x − y) · (x − y) = (t′ − u′)² − (x′ − y′) · (x′ − y′) 。
(4.3)
因此，将第二个观察者的坐标与第一个观察者的坐标联系起来的变换保持间隔不变，这与三维欧几里得空间中保持距离不变的变换类似。这样的变换通常包含时空原点的平移，但如果不包含平移，则称其为洛伦兹变换(Lorentz transformation)，它类似于三维空间中的纯旋转。¹

洛伦兹变换可以是纯粹的空间旋转，但通常会将时间坐标与空间坐标混合。当第一个和第二个观察者以恒定速度相对运动时，就会发生这种混合。因为狭义相对论的基本假设是物理定律对所有这样的观察者都相同，所以定律必须不受洛伦兹变换影响，并具有洛伦兹协变形式。

尽管我们此前没有明确讨论，但在牛顿物理学中存在一个类似的结果，称为伽利略不变性(Galilean invariance)。它指出，对于彼此以恒定速度相对运动的两个观察者，一个物体系统的运动定律是相同的。特别是，即使质心的速度不同，物体系统的相对运动在两个观察者看来也是一样的。这解释了为什么我们感觉不到地球的运动——尽管我们随它一起运动。在相对论中，洛伦兹不变性扮演着同样的角色，但它统一了空间和时间。

¹ 与旋转一样，洛伦兹变换被假定为坐标的线性变换。

洛伦兹变换
105
注意到地球绕太阳的大速度（在一天的时标上几乎恒定），以及为什么在平稳飞行的飞机上饮料可以像在地面上一样被送上并饮用。伽利略不变性有其局限性，然而，它在电磁理论中并不精确适用，而且尽管伽利略不变性对观察者的相对速度没有设定上限，但在实践中，只有当相对速度远小于光速时它才是精确的。

我们现在更详细地考察洛伦兹变换（Lorentz transformations）。

4.2 洛伦兹变换

让我们关注两个惯性观察者，他们的时空原点O重合，因为原点的平移并不十分重要。考虑一个事件X，对于第一个观察者坐标为（t，x），对于第二个观察者坐标为（t’，x’）。X与O之间的间隔平方对两个观察者是相同的，因此
t² - x · x = t’² - x’ · x’。 (4.4)

第一个观察者在原始坐标中是静止的，对所有t有x = 0，因此在时空中沿着t轴移动。这条直线称为观察者的世界线。类似地，第二个观察者在带撇坐标系中是静止的，有x’ = 0，沿着时空的t’轴移动。

洛伦兹变换有两种基本类型。较简单的一种是空间旋转，时间坐标不变。两个观察者之间没有相对移动，但它们的空间轴取向不同。在这里，分别有t’² = t² 和 x’ · x’ = x · x。更明确地说，假设第二个观察者的轴相对于第一个观察者的轴在（x₁, x₂）平面内旋转了θ角。坐标之间的关系为
t’ = t
x₁’ = x₁ cos θ - x₂ sin θ
x₂’ = x₁ sin θ + x₂ cos θ
x₃’ = x₃。 (4.5)

方程（4.4）得到满足，因为cos²θ + sin²θ = 1，所以
x₁’² + x₂’² = (x₁² cos²θ - 2x₁x₂ cos θ sin θ + x₂² sin²θ)
+ (x₁² sin²θ + 2x₁x₂ cos θ sin θ + x₂² cos²θ)
= x₁² + x₂²， (4.6)

且显然有t’² - x₃’² = t² - x₃²。因此X与O之间的间隔得以保持。两个仅相差一个旋转的观察者沿着同一条世界线运动，因为他们的时间轴是重合的。

图4.1显示了时空点X相对于两组坐标轴（略去了t和x₃）。两组轴之间的夹角是旋转角θ。X的每个坐标由平行于一条轴的作图线（红色）与另一条轴的交点指示。² x₁轴和x₂轴上的尺度间隔相等，而x₁’轴和x₂’轴上的尺度也相同。这一点由连接点（x₁, x₂）=（1，0）与点（x₁’，x₂’）=（1，0）的圆弧片段所指示。这些点到O的距离相等。

² 在三维空间中，X的x₃坐标由平行于x₁轴和x₂轴的平面与x₃轴的交点给出。

106
狭义相对论
X
O
(1, 0)
(1, 0)
θ
x₁
x₂
x₁’
x₂’
图4.1 在（x₁，x₂）平面内的旋转。

更有趣的一类洛伦兹变换是助推（boost）。它将一个惯性观察者的坐标系变换为另一个以恒定速度相对于第一个观察者运动的观察者的坐标系。如果相对运动沿着x₁轴，助推会混合时间坐标t和空间坐标x₁。这一时空变换是平面内旋转的双曲类比³，并同样有一个参数θ。它为
t’ = t cosh θ - x₁ sinh θ
x₁’ = -t sinh θ + x₁ cosh θ
x₂’ = x₂
x₃’ = x₃。 (4.7)

³ 回忆双曲函数 cosh θ = ½(e^θ + e^{-θ})， sinh θ = ½(e^θ - e^{-θ}) 以及 tanh θ = sinh θ / cosh θ。

洛伦兹变换
107
这满足方程(4.4)，因为恒等式 cosh² θ − sinh² θ = 1，所以
t′² − x′₁² =
(t² cosh² θ − 2t x₁ cosh θ sinh θ + x₁² sinh² θ)
− (t² sinh² θ − 2t x₁ cosh θ sinh θ + x₁² cosh² θ)
= t² − x₁²，
(4.8)
而且显然 x′₂² + x′₃² = x₂² + x₃²。在转动的语境下，θ 是转动角；但在这里，在推动(boost)的语境下，θ 被称为**快度(rapidity)**。一般的洛伦兹变换是坐标的线性变换，由转动和推动组合而成，共有六个参数。它可以表示为一个作用在 (t, x₁, x₂, x₃) 上的 4×4 矩阵，满足方程(4.4)。

X
O
(1, 0)
(1, 0)
φ
x₁
t
t′
x′₁
图4.2 一个洛伦兹推动将 (t, x₁) 坐标变换为 (t′, x′₁) 坐标。这里 tan φ = tanh θ = v。

图4.2

推动的效果如图4.2所示。这个图不像转动的图那样直观清晰。这是因为页面上的（欧几里得）几何与它试图表示的洛伦兹几何并不相同。t′ 轴和 x′₁ 轴相对于 t 轴和 x₁ 轴以同样的角度相互挤拢。点 X 的坐标同样由平行于一条轴的构造线（红色）与另一条轴的交点标出。t 轴和 x₁ 轴上的单位（分别以秒和光秒为单位）具有相等的间距，因此从 O 点发出、速率为1的光线沿着与坐标轴成45°角的直线前进。

图4.2

108
狭义相对论
沿着t′轴和x′
1轴的单位也具有相等的间距，但与沿着t轴和x1轴的间距不同。然而，对于第一个观察者是光线的，对于第二个观察者仍然是光线。
我们可以如下计算t轴和t′轴之间的夹角φ。沿着t轴，即x1 = 0处，第一个观察者静止。沿着t′轴，即x′
1 = 0处，第二个观察者静止，但相对于第一个观察者以某个速度v运动。因此，对于第一个观察者，这个轴就是直线x1 = vt，所以夹角φ由tan φ = v给出。从公式(4.7)我们看到，x′
1 = 0意味着x1 = (tanh θ)t。因此
tan φ = tanh θ = v 。
(4.9)
类似地，在方程(4.7)中令x1 = 0，可以验证按照第二个观察者的观点，第一个观察者正以速度v = −tanh θ运动。随着θ从−∞变化到∞，v从−1变化到1，φ从−45°变化到45°。 boost速度v不能超过光速(c = 1)。
接下来，我们计算沿着t′轴的尺度，相对于沿着t轴的尺度。t′轴上的点(t′, x′
1) = (1, 0)对于第一个观察者的坐标为(t, x1) = (cosh θ, sinh θ)。对于两个观察者而言，到原点的间隔都是1。图中标出了t′轴上t′ = 1的点。该点位于双曲线t2 − x2
1 = 1上，该双曲线上的所有点到原点O的间隔都是1。
存在一种很好的替代方式来理解为什么boost(4.7)保持平方间隔τ 2不变。这个boost可以重新表达为
t′ − x′
1

(t − x1)eθ
t′ + x′
1

(t + x1)e−θ
x′
2

x2
x′
3

x3 。
(4.10)
将前两个方程相加和相减即可重新得到方程(4.7)。将第一个方程乘以第二个方程表明t′2 − x′
1
2 = t2 − x2
1。因此，boost的效果是在(t, x1)-平面内沿一条对角轴将坐标拉伸eθ，并沿垂直的对角轴将坐标等比压缩e−θ，如图4.2所示。

图4.2

到目前为止，一个boost看起来纯粹是一种几何构造，一种坐标变换，但物理在boost下的不变性具有物理后果。其中之一就是时间膨胀(time dilation)。经典例子是μ子衰变。μ子是一种基本粒子，与电子类似但质量更大。它总是以相同的方式衰变——衰变成一个电子、一个中微子和一个反中微子。这种衰变是量子力学的，发生在一个随机的时间段之后，但半衰期是一个确定的时间T，这意味着对于一个静止的μ子来说，它存活时间T的概率为1/2。对于当前的讨论，我们可以简单地假定μ子的寿命为T。
μ子在粒子碰撞中产生，或者来自其他粒子的衰变。因此，μ子经常以非常高的速度运动，接近光速。让我们考虑一个在时空原点产生并沿x1方向以速度v = tanh θ运动的μ子。和以前一样，设第一个观察者静止，并假定第二个观察者在x1方向以速度v运动。对于第二个观察者来说，μ子是静止的。事实上，第二个观察者可以被视为μ子本身。

洛伦兹变换
109
对于第二个观察者，μ子在时刻 t′ = T 、位置 x′1 = 0 处衰变。由洛伦兹 boost 公式（4.7）可知，对于第一个观察者，衰变发生在时刻 t 和位置 x1，满足：
T = t cosh θ − x1 sinh θ ,
0 = −t sinh θ + x1 cosh θ .
(4.11)
第二个方程意味着 x1/t = tanh θ ，确认 μ 子具有速度 tanh θ 。从第一个方程中消去 x1，我们得到
T = t ( cosh θ − sinh² θ / cosh θ ) = t / cosh θ .
(4.12)
所以 t = T cosh θ ，这比时刻 t = T 要晚，因为 cosh θ > 1 。因此，第一个观察者看到的运动粒子比第二个观察者看到的静止粒子具有更长的寿命。这就是时间膨胀。时间膨胀的倍数与图4.2所示完全相同，在该图中，位于 (t′, x′1) = (1, 0) 的时空事件的时间 t 等于 cosh θ 。

图4.2

对于第一个观察者，粒子衰变的位置是 x1 = T sinh θ 。这个位置很容易测量，因为它是 μ子径迹中的一个“弯折”处，μ子在那里变成一个电子（看不见的中微子和反中微子携走了部分动量）。仅凭这一测量结果，如果没有独立知道 μ子的速度，就很难证实时间膨胀。不过，可以通过飞行时间测量来确定速度，即测量 μ子穿过两个不会显著降低 μ子速度的探测器所需的时间。
注意，T sinh θ （即 μ子飞行的距离）可以远大于 T （即 μ子如果没有时间膨胀而基本上以光速运动的飞行距离）。因此，由高层大气中宇宙线碰撞产生的 μ子频繁撞击地面，即使 T 的量级是 10⁻⁶ 秒，而 10⁻⁶ 光秒仅为大约 300 米。
μ子并没有什么特殊之处，其他粒子的衰变同样会发生时间膨胀，不过如果它们的寿命比 μ子短得多或长得多，测量起来可能更困难。时间膨胀的一个具体演示是在1971年提供的，当时约瑟夫·哈费勒（Joseph Hafele）和理查德·基廷（Richard Keating）携带四台原子钟乘坐商业航班分别向东和向西环绕地球旅行，证实了由于以相当低的速度运动而产生的非常微小的膨胀效应。
与时间和空间轴成45°的世界线，如图4.3所描绘，代表光线。通过时空点 X 的所有光线构成通过 X 的光锥。根据公式（4.2），沿光线的两个事件 X 和 Y 之间的间隔为零，因为对于速度为 1 的运动，有 |x − y| = |t − u| 。由于间隔是洛伦兹不变量，所有观察者对光线的解释和光速都达成一致。这与麦克斯韦方程组一致，后者预言了绝对不变的光速。

图4.3

在相对论早期，光速不受源运动影响被视为一件令人惊讶的事情。假设对于一个观察者，一个闪光由一个静止的源发出。相对于第一个观察者进行 boost 的第二个观察者，会认为第一个观察者和光源在运动，然而光速却不受此影响。如果光是由速度依赖于源速度的粒子组成，这将是悖论性的，但在经典上，光是在绝对时空中传播的波，所以光速成为一个绝对常数是相当合理的。两个观察者所感知到的光并非全同，因为光的频率和波长都不同。

110
狭义相对论
t
x 1
x1
t
图4.3 光的世界线。

图4.3

麦克斯韦方程组具有洛伦兹协变形式，我们将在后文看到这一点，因此所有电磁场现象，而不仅仅是光速不变，都与狭义相对论的原理一致。事实上，洛伦兹变换最初正是通过研究麦克斯韦方程组发现的。支持洛伦兹协变性的证据得到了阿尔伯特·迈克尔逊(Albert Michelson)和爱德华·莫雷(Edward Morley)对光速测量的补充。他们实验的目的是确定光速是否依赖于光束相对于地球运动的方向。令他们大为惊讶的是，他们发现光在所有方向上以相同速度传播，并且不受光源运动的影响，而光源运动随地球绕太阳公转而变化。迈克尔逊-莫雷实验装置如图4.4所示。

图4.4

爱因斯坦关于狭义相对论的关键论文题为《论动体的电动力学》。他的关键贡献在于提出不仅电磁学，而是所有物理学都应该具有洛伦兹不变性，并找到满足这一要求的牛顿动力学修正形式。我们接下来将研究相对论性粒子动力学，之后回顾麦克斯韦方程组的洛伦兹协变性。

4.3 相对论动力学
粒子动力学定律需要被修正以具有洛伦兹协变形式。完成修正后，对于与光速相比运动缓慢的粒子，可以恢复牛顿运动定律。在狭义相对论中，讨论点粒子比讨论有限大小的物体更为简便。
我们首先需要速度的相对论性概念，然后是加速度的概念。这些现在是四分量量，而非我们熟悉的三维矢量。静止粒子的世界线具有恒定的x，在时空中平行于t轴。世界线上两个无限接近的事件，(t, x)和(t + δt, x)，其中δt为正，它们之间的间隔为δτ = δt。运动粒子具有世界线X(t) = (t, x(t))，因此在时刻t，粒子的位置为x(t)。

相对论动力学
111
可移动反射镜
光源
分束器
干涉图样
固定反射镜
图4.4 迈克尔逊-莫雷实验示意图。一束光照射到半镀银镜上，该镜将光束分成两束相互垂直的光束。这两束光被反射回来，穿过半镀银镜到达屏幕，并在屏幕上形成干涉图样。其中一个反射镜是固定的，另一个是可移动的，这样可以改变光程长度。整个装置可以旋转，从而改变光束相对于地球在空间运动的方向。

图4.4

112
狭义相对论

我们可以考虑世界线 (X(t) = (t, \mathbf{x}(t))) 对时间的导数，作为速度的一种洛伦兹(Lorentz)式类比。这是一个四分量矢量 ((1, \mathbf{v}))。然而，尽管位置四矢量 (X) 在洛伦兹变换下简单变换，但 (t) 并非如此，因此对 (t) 求导不是协变的。另一方面，沿世界线的参数 (\tau) 是洛伦兹不变的，所以正确的做法是将 (X) 对 (\tau) 求导。因此，我们定义粒子的相对论性四速度 (V) 为

[
V = \frac{dX}{d\tau} = \frac{d}{d\tau} (t, \mathbf{x}(t)).
\tag{4.17}
]

四矢量 (V) 的变换方式与 (X) 相同，利用方程 (4.16)，我们可以用通常的速度将 (V) 表示为

[
V = (1 - |\mathbf{v}|^2)^{-1/2} (1, \mathbf{v}).
\tag{4.18}
]

(V) 的第一个分量称为时间分量，其余三个分量称为空间分量。注意，(V) 的四个分量仅取决于 (\mathbf{v}) 的三个独立分量，因此存在一个对 (V) 的约束，我们稍后会将它明确写出。

量 ((1 - |\mathbf{v}|^2)^{-1/2}) 在狭义相对论中频繁出现，因此有专门的记号：

[
\gamma(v) = (1 - |\mathbf{v}|^2)^{-1/2}.
\tag{4.19}
]

这称为伽马因子，如果相关速度明确，有时简写为 (\gamma)。于是 (V = (\gamma, \gamma \mathbf{v}))。如果 (|\mathbf{v}|) 很小，可以做近似 (\gamma(v) = 1)，或更精确地 (\gamma(v) = 1 + \frac{1}{2}|\mathbf{v}|^2)。在所有情况下，(\mathbf{v}) 的三次及更高次项都可以略去。这就是非相对论极限，此时相对论性动力学退化为牛顿动力学。在非相对论极限下，四速度 (V) 为

[
V = \left( 1 + \frac{1}{2}|\mathbf{v}|^2, \mathbf{v} \right).
\tag{4.20}
]

一般而言，只要 (|\mathbf{v}|) 在 0.01 或更小的量级（正常单位下相当于 (3 \times 10^6 , \text{m s}^{-1})），这个近似就成立。这在日常生活中已是极高的速度，即便在太阳系动力学和太空旅行中也是如此。

注意到，对于任何小于光速的正 (|\mathbf{v}|)，都有 (\gamma(v) > 1)；而且若 (|\mathbf{v}| = \tanh \theta)，其中 (\theta) 是粒子从静止被加速后具有的快度，那么 (\gamma(v) = \cosh \theta)，(\gamma(v)|\mathbf{v}| = \sinh \theta)。这些量在我们之前关于时间膨胀的讨论中都出现过。

粒子的相对论性加速度定义为对 (\tau) 再求一次导数：

[
A = \frac{d^2 X}{d\tau^2} = \frac{d^2}{d\tau^2} (t, \mathbf{x}(t)).
\tag{4.21}
]

这个四加速度 (A) 可以通过对方程 (4.18) 求 (t) 导再用方程 (4.16) 而用通常的加速度 (\mathbf{a} = \frac{d^2 \mathbf{x}}{dt^2}) 和速度 (\mathbf{v}) 表示出来，但公式有些复杂且启发性不大。(A) 和 (V) 共同的重要性质是它们在洛伦兹变换下协变地变换，即与 (X) 的变换方式相同，因为 (\tau) 是不变量。这类似于以下陈述：在三维空间中，加速度 (\mathbf{a}) 和速度 (\mathbf{v}) 是欧几里得(Euclidean)式三维矢量，它们在旋转下与 (\mathbf{x}) 的变换方式相同，因为 (t) 是旋转不变的。

在欧几里得三维空间中，我们定义了两个矢量的旋转不变点积。类似地，在洛伦兹几何中，存在两个四维矢量 (X = (t, \mathbf{x})) 和 (Y = (u, \mathbf{y})) 的洛伦兹不变内积：
[
X \cdot Y = tu - \mathbf{x} \cdot \mathbf{y},
\tag{4.22}
]
其中 (\mathbf{x} \cdot \mathbf{y}) 是通常的点积。这在许多方面都很有用。(X) 与时空原点 (O) 之间的间隔平方为 (X \cdot X = t^2 - \mathbf{x} \cdot \mathbf{x})，而 (X) 与 (Y) 之间的间隔平方为
[
(X - Y) \cdot (X - Y) = X \cdot X - 2X \cdot Y + Y \cdot Y.
\tag{4.23}
]
对于四维速度 (V)，我们得到
[
V \cdot V = \gamma^2 - \gamma^2 \mathbf{v} \cdot \mathbf{v} = (1 - \mathbf{v} \cdot \mathbf{v})^{-1}(1 - \mathbf{v} \cdot \mathbf{v}) = 1.
\tag{4.24}
]
这正是粒子四维速度所预期的约束条件。将这个约束对 (\tau) 求导，可以推出 (A \cdot V = 0)，这也可以利用 (A) 和 (V) 的显式公式加以验证。

粒子具有一个洛伦兹不变的属性，即其质量 (m)，恒为正值。该质量定义为，由某个粒子在其参考系中静止的观测者，通过常规手段（例如用杠杆天平与标准质量比较）测得的数值。因此，还存在另一个四维矢量 (P = mV)，称为粒子的四维动量，其洛伦兹变换方式与 (V) 相同。它的分量为
[
P = (m\gamma, m\gamma \mathbf{v}).
\tag{4.25}
]
(V) 的约束条件 (4.24) 意味着 (P \cdot P = m^2)。将四维动量的时间分量和空间分量分别记作
[
P = (E, \mathbf{p}) = (m\gamma, m\gamma \mathbf{v}).
\tag{4.26}
]
(E = m\gamma) 称为相对论能量，(\mathbf{p} = m\gamma \mathbf{v}) 称为相对论三维动量。约束 (P \cdot P = m^2) 便成为重要关系式
[
E^2 - \mathbf{p} \cdot \mathbf{p} = m^2.
\tag{4.27}
]
在粒子物理探测器中，(E) 和 (\mathbf{p}) 可以被直接测量，通过上述关系式即可推知粒子的质量。一种变通情况是，当某个粒子（例如希格斯粒子）迅速衰变而不留下自身径迹时，其衰变产物留下的径迹可被用于测量它们的能量和动量。将这些量相加，即可得到原初衰变粒子的能量和动量，进而计算出它的质量。

在非相对论极限下，四维动量 (P) 退化为
[
P = \left( m + \frac{1}{2}m|\mathbf{v}|^2, m\mathbf{v} \right),
\tag{4.28}
]
其空间部分 (\mathbf{p} = m\mathbf{v}) 就是粒子的普通三维动量。时间分量则与通常的能量相关，因为它是粒子质量与通常动能之和。我们稍后将回到这一点。

114
狭义相对论
4-矢量 mA 类似于牛顿第二定律中的左侧项 ma。因此，质量为 m 的粒子的相对论运动方程为
mA = F ,
(4.29)
其中 F 是一个 4-矢量力。要使此方程具有内容，需要了解在感兴趣的物理情境下的 F。由于 A · V = 0 自动成立，任何 4-力必须满足约束条件
F · V = 0。设计合理的 4-力并不容易。我们在第2章中考虑过的引力没有一个简单的 4-矢量等价形式。此外，在空间上分离的粒子之间瞬时作用的力与相对论不相容，因为不同的观察者对空间分离事件的时间没有一致认识，对粒子之间的距离也没有一致认识。更重要的是，在相对论中，信号的最大速度是光速，因此超距的瞬时作用被排除了。
一种可以用 4-力描述的力是电磁场 E 和 B 对带电粒子施加的洛伦兹力 (Lorentz force)。只有粒子瞬时位置处的场强才有贡献。我们将在以 4-矢量形式重新考虑电磁场和麦克斯韦方程组之后，在下文讨论这一点。
另一个我们可以精确建模 4-力的情况是两个物体短暂碰撞然后分离。对于点粒子，碰撞是时空中单一位置的事件，所有观察者都对其位置有一致认识。这些力产生瞬时冲量，突然改变 4-速度。我们不需要知道这些变化的细节，因为它们取决于碰撞的性质，但是第一个粒子对第二个粒子施加的冲量是第二个粒子对第一个粒子施加的冲量的负值。这类似于牛顿第三定律。重要的结果是，在碰撞中总 4-动量守恒。我们通过假设 4-力在相同的（无穷小）间隔内作用，并且方向相反，从而得出相同的结论，因此
m(1)A(1) = F ,
且
m(2)A(2) = −F ,
(4.30)
其中 m(1) 和 A(1) 是第一个粒子的质量和 4-加速度，m(2) 和 A(2) 是第二个粒子的质量和 4-加速度。将这些方程相加得到 m(1)A(1) + m(2)A(2) = 0，因此 m(1)V (1) + m(2)V (2) 对 τ 的导数为零。所以
m(1)V (1) + m(2)V (2) = 常数 ,
(4.31)
确认了总 4-动量守恒。4-动量守恒是相对论动力学的一个基本结果。它将能量守恒和 3-动量守恒结合成一个单一的方程，具有令人惊讶且意义重大的后果，我们将会看到。
4.3.1 牛顿力学与相对论动力学的比较
到目前为止，我们的讨论主要集中在时空及其洛伦兹变换，以及速度、加速度和动量的相对论定义上。这一切都相当形式化，但牛顿力学和相对论动力学的预测确实存在真正的差异。特别是，4-动量守恒意味着根据牛顿力学和相对论动力学，两个粒子碰撞的结果是不同的。为了说明这一点，我们只需要考虑一次沿一条直线的弹性碰撞，例如

相对论动力学
115
x1轴方向。我们假设第一和第二个粒子具有已知的入射速度u(1)和u(2)。碰撞后，粒子质量不变，我们希望求得出射速度v(1)和v(2)。

在牛顿(Newton)动力学中，动量与能量守恒要求
m(1)v(1) + m(2)v(2) = m(1)u(1) + m(2)u(2) (4.32)
以及
1/2 m(1)(v(1))² + 1/2 m(2)(v(2))² = 1/2 m(1)(u(1))² + 1/2 m(2)(u(2))² 。 (4.33)
动能守恒，因为对于点粒子而言，不存在能够吸收内能的内部运动。由这两个方程，可以通过消去其中一个速度并得到关于另一个速度的二次方程来确定未知量v(1)和v(2)。一个有用的技巧是注意到其中一个解为v(1) = u(1)和v(2) = u(2)（此时粒子彼此错过），但我们关心的是另一个解。

在相对论动力学中，4-动量守恒要求
m(1)V(1) + m(2)V(2) = m(1)U(1) + m(2)U(2) ， (4.34)
其中U(1)和U(2)是粒子的入射4-速度，V(1)和V(2)是出射4-速度。U(1)的空间和时间分量分别为γ(u(1))u(1)和γ(u(1))，其他4-速度也类似。因此，相对论性动量和能量守恒要求
m(1)γ(v(1))v(1) + m(2)γ(v(2))v(2) = m(1)γ(u(1))u(1) + m(2)γ(u(2))u(2) (4.35)
以及
m(1)γ(v(1)) + m(2)γ(v(2)) = m(1)γ(u(1)) + m(2)γ(u(2)) 。 (4.36)
典型的特征是，在这类相对论方程中会出现包含平方根的γ因子。这些方程同样可确定未知量v(1)和v(2)，但代数运算现在更为复杂。和之前一样，一个平凡解是v(1) = u(1)和v(2) = u(2)，知道这一点有助于找到另一个解。

对于速度远小于光速的粒子，相对论方程与牛顿方程一致。要看出这一点，只需在方程(4.35)的所有四项中作近似γ ≃ 1，便可恢复动量守恒方程(4.32)。在方程(4.36)中，我们需要在所有四项中作近似γ(w) ≃ 1 + 1/2 w²，得到
m(1) + 1/2 m(1)(v(1))² + m(2) + 1/2 m(2)(v(2))² = m(1) + 1/2 m(1)(u(1))² + m(2) + 1/2 m(2)(u(2))² 。 (4.37)
消去m(1) + m(2)后，这与能量守恒方程(4.33)一致。

对于高速碰撞，牛顿情形和相对论情形中的方程明显不同，对出射速度v(1)和v(2)的预测也不同。无需赘述代数过程，一个例子便足以说明这一点。假设m(1) = 2且m(2) = 1，u(1) = 3/5，u(2) = 0。则在牛顿情形中，出射粒子的速度为v(1) = 1/5和v(2) = 4/5，而在相对论情形中速度不同，为v(1) = 9/41和v(2) = 21/29。（我们选取不等质量，因为若m(1) = m(2)，则两种情形下的出射速度均为v(1) = 0和v(2) = 3/5。）

116
狭义相对论
这里只出现有理数（简单分数）有点令人惊讶。容易证明，如果 (u(1)) 是有理数，(u(2) = 0)，且质量比为有理数，那么在牛顿情形中，(v(1)) 和 (v(2)) 也是有有理数。在相对论情形中，只要 (u(1)) 和 (\gamma(u(1))) 同为有理数，且 (u(2) = 0)，也可以证明 (v(1)) 和 (v(2)) 是有理数。这就是我们选择 (u(1) = \frac{3}{5}) 的原因。因为 ((3,4,5)) 是一组毕达哥拉斯三元组 (Pythagorean triad)，有 (\gamma(u(1)) = \frac{5}{4})。类似地，出射的相对论速度 (v(1) = \frac{9}{41}) 和 (v(2) = \frac{21}{29}) 分别与毕达哥拉斯三元组 ((9,40,41)) 和 ((20,21,29)) 相关联，因此 (\gamma(v(1)) = \frac{41}{40})，(\gamma(v(2)) = \frac{29}{20})。

总之，相对论 4-动量守恒以一种新的方式结合了牛顿关于动量守恒和能量守恒的概念，并且对于高速碰撞，在细节上产生了不同的结果。高能粒子碰撞实验表明，相对论预言是正确的，而牛顿动力学在此领域不再成立。

4.3.2 (E = mc^2)

现在我们来到相对论最著名、最深刻的预言之一。我们已经看到，对于一个粒子，4-动量的时间分量正是能量的相对论版本，即 (m\gamma(v))，其中 (m) 是质量，(v) 是通常的 3-速度。因为 (\gamma(0) = 1)，静止粒子的能量为 (E = m)。这被称为粒子的静止能量或静质量。如果我们没有将光速 (c) 取为 1，就会得到爱因斯坦 (Einstein) 的著名公式 (E = mc^2)。对于运动较慢的粒子，(\gamma(v) \simeq 1 + \frac{1}{2}|\mathbf{v}|^2)，相对论能量为
[
E \simeq m + \frac{1}{2}m|\mathbf{v}|^2 , \tag{4.38}
]
即静止能量与标准牛顿动能之和。

我们看到，在非相对论性速度的碰撞中，粒子的静止能量会相互抵消，因为它们在能量守恒方程 (4.37) 两边同样出现。因此，在牛顿动力学中可以忽略静止能量。爱因斯坦对相对论的信仰及其对物理学的深刻洞见，使他确信粒子的静止能量，即其质量 (m)，仍然具有物理意义，并且必定可以转化为其他形式的能量。这一预言当然是正确的，并已在核物理和粒子物理领域中以无数种方式得到证实。

例如，中子 (n) 的质量比质子 (p) 略大，它通过以下过程衰变，半衰期约为 10 分钟：
[
n \to p + e^- + \bar{\nu}_e , \tag{4.39}
]
其中 (e^-) 是电子，(\bar{\nu}_e) 是反电子中微子，是几种中微子中的一种。电子质量大约是中子与质子质量差的四分之一，而反中微子质量则更小得多。因此，虽然中子的大部分静止能量重新表现为质子的静止能量，少量表现为另外两个粒子的静止能量，但仍然有一些剩余能量。这些能量变成了出射粒子的动能。已经证实，在中子衰变中，总体上相对论 4-动量（即相对论动量和能量）是守恒的。

正如我们将在第 11 章讨论的那样，静止能量对于通过核裂变产生能量具有重要意义。像铀这样的重原子核，其静止能量略大于其裂变碎片的静止能量。多余的能量表现为产物的动能，

更多关于4-矢量
117
图 4.5 大型强子对撞机(Large Hadron Collider)的 ATLAS 探测器内两个质子的碰撞。质子被束流管遮挡，只能看到出射粒子。

图 4.5

这些能量可用于加热水、驱动涡轮机并发电。与中子衰变的情况一样，释放的动能不到原始原子核质量的 1%，但从日常角度看，这仍是非常巨大的能量。举例来说，如果一个出射粒子的相对论能量仅比其静能高出 0.5%，那么它的速度 v 就是光速的十分之一（因为当 v = 0.1 时，$\frac{1}{2}mv^2 = 0.005m$），这对蒸汽驱动涡轮机来说已经大得惊人。与等量原子在化学反应中释放的能量相比，这一能量也是巨大的。因此，运行核电站所需燃料的质量远少于燃煤、燃气或燃油电站。
反过来，也可以将粒子的动能转化为新粒子的静能（即质量）。这在粒子加速器的高能碰撞中经常发生。大型强子对撞机中两个质子的碰撞通常会产成数百个新粒子，如图 4.5 所示。之所以能做到这一点，是因为入射质子的总能量（主要是动能）约为 10 TeV，大约是一个质子静能的 $10^4$ 倍，因此有足够的能量产生数百个新的质子和反质子，每个都带有可观的动能。实际上，大多数新粒子是 π 介子、电子和 μ 子，它们的质量比质子小。

图 4.5

4.4
更多关于4-矢量
由于4-矢量的洛伦兹内积 (4.22) 中出现负号，考虑给每个4-矢量 X 配一个第二4-矢量 X 会很方便。这个 X 的时间分量与 X 相同，但空间分量的符号相反，所以如果 X = (t, x)，那么 X = (t, −x)。⁴ 类似的符号反转适用于所有4-矢量。X = (t, x) 与 Y = (u, y) 的内积可以写作 X·Y 或 X·Y，两者都定义为 $tu - \mathbf{x} \cdot \mathbf{y}$。
⁴ 在许多狭义相对论的表述中，X 的分量带有上标指标，而 X 的分量带有下标指标。我们稍后将使用这种记号。

118
狭义相对论

约定是，如果内积涉及两个都没有下划线的4-矢量，那么在空间点乘部分的前面会明确加上一个负号。如果其中一个4-矢量带有下划线，那么内积中就没有显式的负号，任何负号都来自带下划线4-矢量的空间分量。
存在从X的变换规则推出的X的洛伦兹变换规则。在旋转下，X和X的变换相同，因为对x的旋转也会旋转−x。然而，对于快度为θ的boost，当作用在X的分量上时，需要将boost公式中θ的符号反转。这很容易从方程(4.10)看出，其中交换x1和−x1需要同时交换eθ和e−θ。
在时空中，很自然地将偏导数∂/∂t和∇ = (∂/∂x1, ∂/∂x2, ∂/∂x3)组合成一个4-矢量算符，即∇的洛伦兹对应物。这是一个带下划线的4-矢量
∂ = ( ∂/∂t, ∇ ) . (4.40)
（必须检查洛伦兹变换的效果才能看出∂应该带下划线。大致而言，这是因为坐标出现在偏导数的“分母”中。）还有一个常规的4-矢量算符 ∂ = ( ∂/∂t, −∇ )。标量场ψ的导数组合成4-矢量
∂ψ = ( ∂ψ/∂t, ∇ψ ) 和 ∂ψ = ( ∂ψ/∂t, −∇ψ ) . (4.41)
另一个有用的算符是洛伦兹不变的波动算符 ∂·∂ = ∂²/∂t² − ∇²。这出现在波动方程中
∂²ψ/∂t² − ∇²ψ = 0 . (4.42)
回忆一下，平面波解是
ψ(x, t) = e^(i(k·x − ωt)) , (4.43)
波速为1（光速），因为方程(4.42)要求
ω² − k·k = 0 . (4.44)
ψ指数中的相位是4-矢量 K = (ω, k) 和 X = (t, x) 内积的负值，即 −K·X = k·x − ωt。因为K像4-矢量一样变换，不同观察者会感知到波具有不同的频率ω和空间波矢k。但所有观察者都一致认为速度为1，因为方程(4.44)是洛伦兹不变的条件 K·K = 0。

4.5 麦克斯韦方程组的相对论性特征

电磁学中的某些要素显然是4-矢量。电荷密度ρ和电流密度j组合成一个4-电流密度 J = (ρ, j)。守恒方程 ∂ρ/∂t + ∇·j = 0 可以简单地用4-矢量形式表示为
∂·J = 0 . (4.45)
符号正确是因为 ∂ = ( ∂/∂t, −∇ ) 中显式包含了负号。J是一个场，在整个时空中定义，但对于一个点粒子，电荷密度是奇异的，并且

麦克斯韦方程组的相对论性特征
119
集中在粒子的瞬时位置上。j 等于 ρ 乘以粒子速度 v，因此 J = (ρ, ρv)，这与粒子的 4-速度 V 密切相关。（没有显式伽马因子是因为 ρ 是一个密度。）一个粒子的总电荷 q 与其质量 m 一样，是洛伦兹不变量。
势 Φ 和 A 也组合成一个 4-矢量势 A = (Φ, A)。与 J 一样，这是一个在时空中处处有定义的场。洛伦兹规范条件，虽然不是电磁学最基本的方程，但可以简洁地写作 ∂·A = 0，因此是洛伦兹不变的。
为电场和磁场寻找一个洛伦兹协变的表述则更具挑战性。E 和 B 合起来有六个分量，并且根据公式 (3.57)，每个分量都是作用在势（可能是 Φ 或 A 的一个分量）上的时间或空间导数两项之和。场的 4-矢量版本涉及 ∂A，没有内积。就 ∂A 本身而言，它有十六个分量，但如果我们对其进行反对称化，那么只会剩下六个独立的分量。我们需要一个矩阵阵列来展示这一点。
∂A 是一个矩阵，其中每一项都是一个势的导数：
∂A =




∂Φ/∂t
∂A1/∂t
∂A2/∂t
∂A3/∂t
−∂Φ/∂x1
−∂A1/∂x1
−∂A2/∂x1
−∂A3/∂x1
−∂Φ/∂x2
−∂A1/∂x2
−∂A2/∂x2
−∂A3/∂x2
−∂Φ/∂x3
−∂A1/∂x3
−∂A2/∂x3
−∂A3/∂x3



.
(4.46)
它有一个转置形式 (∂A)ᵀ，行列互换：
(∂A)ᵀ =





∂Φ/∂t
−∂Φ/∂x1
−∂Φ/∂x2
−∂Φ/∂x3
∂A1/∂t
−∂A1/∂x1
−∂A1/∂x2
−∂A1/∂x3
∂A2/∂t
−∂A2/∂x1
−∂A2/∂x2
−∂A2/∂x3
∂A3/∂t
−∂A3/∂x1
−∂A3/∂x2
−∂A3/∂x3




.
(4.47)
反对称化的矩阵 F = ∂A − (∂A)ᵀ 被称为电磁场张量，它是
F =





0
∂A1/∂t + ∂Φ/∂x1
∂A2/∂t + ∂Φ/∂x2
∂A3/∂t + ∂Φ/∂x3
−∂Φ/∂x1 − ∂A1/∂t
0
−∂A2/∂x1 + ∂A1/∂x2
−∂A3/∂x1 + ∂A1/∂x3
−∂Φ/∂x2 − ∂A2/∂t
−∂A1/∂x2 + ∂A2/∂x1
0
−∂A3/∂x2 + ∂A2/∂x3
−∂Φ/∂x3 − ∂A3/∂t
−∂A1/∂x3 + ∂A3/∂x1
−∂A2/∂x3 + ∂A3/∂x2
0




.
(4.48)
F 对角线以下的每个分量都是其以上某个分量的负值。
这里的六个独立分量恰恰是 E 和 B 的六个分量，我们可以通过将 F 与表达式 (3.57) 比较并回顾旋度的定义 (3.22) 来看出这一点。用电场和磁场来表示，场张量是
F =




0
−E1
−E2
−E3
E1
0
−B3
B2
E2
B3
0
−B1
E3
−B2
B1
0



,
(4.49)
并且从时空的观点来看，它扮演着完整电磁场的角色。

120
狭义相对论
在洛伦兹变换下，∂A 作为洛伦兹4-矢量进行双重变换，因为 ∂ 和 A 各自作为4-矢量变换，而 (∂A)T 以类似方式变换。F 被称为4-张量。我们不准备给出 F 的全部洛伦兹变换公式。转动只是将 E 和 B 分别作为3-矢量进行旋转，但快度为 θ 的推促 (4.7) 的效果更为有趣。它产生的新场为
E′
1 = E1 ,
B′
1 = B1
E′
2 = E2 cosh θ −B3 sinh θ ,
B′
2 = B2 cosh θ + E3 sinh θ
E′
3 = E3 cosh θ + B2 sinh θ ,
B′
3 = B3 cosh θ −E2 sinh θ ,
(4.50)
这清楚地混合了电场和磁场的某些分量。这些公式可以用推促的速度 v = tanh θ 表示，只需像之前一样写出 cosh θ = γ(v) 和 sinh θ = γ(v)v 即可。

除 F 外，还存在第二个4-张量 eF，可以通过交换 E 和 B 并改变一个符号来构造。它被称为 F 的电磁对偶。其精确形式为
eF =




0
−B1
−B2
−B3
B1
0
E3
−E2
B2
−E3
0
E1
B3
E2
−E1
0



,
(4.51)
其中 F 中的 (E, B) 被替换为 (B, −E)。在推促下，eF 的洛伦兹变换方式与 F 相同。通过检查方程(4.50)可以看出这一点。同样，在转动下 eF 与 F 的变换方式相同，因为 E 和 B 在转动下的变换方式相同。

变换(4.50)的一个物理上有趣的结果是，对一个静止观察者表现为纯电场的东西，对一个运动观察者则表现为电场和磁场的组合。这并不真正令人惊讶。一个静止的带电粒子只产生电场，但对于一个运动的观察者，该粒子看起来在向相反方向运动，因此既携带电荷也携带电流。这位运动观察者看到的是由该粒子产生的电场和磁场的组合。类似地，一个静止的电流回路产生纯磁场，但对于一个运动的观察者，磁场构型在空间中被拖拽着移动，并且是随时间变化的，因此根据感应定律(3.26)，它会产生一个电场。

电场和磁场的混合影响了对作用在带电粒子上力的解释。例如，一个在纯磁场中运动的带电粒子会受到力并加速。但对于一个以粒子速度瞬时运动的观察者而言，粒子看起来是从静止开始加速，因此该力必定源于电场（因为对于静止粒子，洛伦兹力中磁场的贡献消失）。

这一切的顶峰是，麦克斯韦(Maxwell)方程组具有洛伦兹协变的特性。四个麦克斯韦方程合并成为仅涉及场张量 F 及其对偶 eF 的两个方程。它们是
∂· F

J ,
(4.52)
∂· eF

0 .
(4.53)
这里的内积是行4-矢量算符 ∂ 作用于的每一列……

麦克斯韦方程组的相对论特性
121
4-张量F和eF。结果是一个新的行4-矢量，其在第一个方程中等于J，在第二个方程中等于零。这两个方程具有明显洛伦兹协变的形式。

我们来检验这些方程与之前形式的麦克斯韦方程组的等价性。将方程(4.52)完整写出，得到
[
\left( \frac{\partial}{\partial t}, -\frac{\partial}{\partial x^1}, -\frac{\partial}{\partial x^2}, -\frac{\partial}{\partial x^3} \right)
\cdot
\begin{pmatrix}
0 & -E_1 & -E_2 & -E_3 \
E_1 & 0 & -B_3 & B_2 \
E_2 & B_3 & 0 & -B_1 \
E_3 & -B_2 & B_1 & 0
\end{pmatrix}
= (\rho, j_1, j_2, j_3).
\tag{4.54}
]
我们看到，第一个分量就是麦克斯韦方程 (\nabla \cdot \mathbf{E} = \rho)，而最后一个分量是
[
\frac{\partial}{\partial t}(-E_3) + \frac{\partial}{\partial x^1}(B_2) + \frac{\partial}{\partial x^2}(-B_1) = j_3,
\tag{4.55}
]
这是麦克斯韦方程(3.28)的一个分量。类似地，(4.53)的第一个分量是麦克斯韦方程 (\nabla \cdot \mathbf{B} = 0)，最后一个分量是
[
\frac{\partial}{\partial t}(-B_3) + \frac{\partial}{\partial x^1}(-E_2) + \frac{\partial}{\partial x^2}(E_1) = 0,
\tag{4.56}
]
这是麦克斯韦方程(3.26)的一个分量。每种情况下的中间两个分量则给出其余的方程。

洛伦兹力方程同样可以修改为洛伦兹协变的形式，这正是带电粒子以任意速度（可能接近光速）运动时的正确形式。原始的洛伦兹力涉及场 (\mathbf{E}) 和 (\mathbf{B}) 以及粒子的速度 (\mathbf{v})。相对论版本则涉及场张量 (F) 和4-速度 (V)。我们将 (V) 与 (F) 的每一列作内积（正如 (\partial \cdot F) 那样），再乘以粒子电荷 (q) 的负值，就得到洛伦兹4-力 (F = -q V \cdot F)。因此，质量为 (m)、电荷为 (q) 的粒子的相对论运动方程是
[
m A = -q V \cdot F,
\tag{4.57}
]
其中 (A) 是4-加速度。4-力 (F = -q V \cdot F) 满足约束 (F \cdot V = 0)，这是因为矩阵 (F) 的反对称性使得双重内积 (V \cdot F \cdot V) 为零。

相对论运动方程会给出与牛顿方程不同的预言。例如，在均匀电场中，牛顿带电粒子的速度会无限增加。相对论粒子也会加速，其能量不断增大，但它的速度被限制在光速以下。

我们应当检验，在牛顿极限下，即当 (v) 很小且 (\gamma \simeq 1) 时，原始的洛伦兹力定律(3.82)能否涌现出来。对于方程(4.57)的最后一个分量，左边是 (m a^3)，即 (m \mathbf{a}) 的第三个分量，而当 (V \simeq (1, \mathbf{v})) 时，右边是 (q (E_3 + v_1 B_2 - v_2 B_1))，即 (q (\mathbf{E} + \mathbf{v} \times \mathbf{B})) 的第三个分量。中间的两个分量则构成完整的3-矢量运动方程。方程(4.57)的第一个分量也很重要，但并非真正独立。它表明
[
m \frac{d\gamma}{d\tau} = q \gamma \mathbf{v} \cdot \mathbf{E},
\tag{4.58}
]
并将粒子的相对论能量 (m \gamma) 的变化率与电场 (\mathbf{E}) 对粒子所作的功等同起来。

122
狭义相对论
在牛顿极限下，上式约化为
d
dt
1
2m|v|2

= qv · E ,
(4.59)
这正是与洛伦兹力相关的能量方程 (3.83)。

麦克斯韦方程组和洛伦兹力定律的相对论形式带来了更深层的认识。从场张量及其对偶张量出发，我们可以构造两个独立的洛伦兹不变量（标量），它们刻画了每一时空点处电磁场的类型。这两个不变量是 F · F 和 F · eF，其中的内积同时按行与列进行。在实际操作中，这意味着计算第一个与第二个四维张量在同一矩阵位置上分量的十六个乘积，并将它们求和；若乘积涉及混合类时/类空分量（即顶行或左列的分量），则需加上一个负号。结果为
F · F

−2(E1E1 + E2E2 + E3E3 −B1B1 −B2B2 −B3B3)

−2(E · E −B · B) ,
(4.60)
F · e
F

−4(E1B1 + E2B2 + E3B3)

−4 E · B .
(4.61)

在上一章中我们讨论过一些特殊的电磁场。从这两个洛伦兹不变量的角度看，它们是特例。对于纯静电场，F · F 为负且 F · eF = 0；而对于纯静磁场，F · F 为正且 F · eF = 0。最后，对于电磁波，|E| = |B| 且 E 正交于 B，故有 F · F = F · eF = 0。

我们之前还考虑过带电粒子在恒定均匀场中的运动。由洛伦兹不变性，我们求得粒子在电场中的加速运动可推广到任何满足 F · F 为负且 F · eF = 0 的场，例如一个电场叠加一个较弱的垂直磁场；粒子在磁场中的圆周运动则推广到任何满足 F · F 为正且 F · eF = 0 的场。现在我们看到，另一个特殊情况是带电粒子在平面电磁波背景中的运动，此时 F · F = F · eF = 0。

4.6
相对论性最小作用量原理
在相对论理论中，作用量往往是洛伦兹不变量，因而与观察者无关。这意味着最小作用量原理 (principle of least action) 是表述相对论场与粒子动力学的一种特别优美的方式。我们将对此作简要讨论，但不再重新推导麦克斯韦方程组，也不重新推导带电粒子在电磁场中的相对论运动方程。

电磁场的作用量 (3.80) 是拉格朗日密度
L = 1
2E · E −1
2B · B + A · j −Φρ ,
(4.62)
在四维时空上的积分，积分元为 d⁴X = d³x dt。该积分元是洛伦兹不变量，因为洛伦兹变换矩阵的行列式为 1，这一点通过 2 × 2

相对论性最小作用量原理
123
简单旋转和boost的矩阵，
cos θ
−sin θ
sin θ
cos θ

和

cosh θ
−sinh θ
−sinh θ
cosh θ

.
(4.63)
拉格朗日量密度 L 可以借助4-矢势 A、4-电流 J 和4-张量场 F = ∂A −(∂A)T 紧凑地表示为
L = −1
4F · F −A · J ,
(4.64)
因此作用量为
S =
Z
−1
4F · F −A · J

d4X .
(4.65)
如果我们略去初始和最终时间 t0 与 t1，并在形式上对整个时空积分，该表达式显然是洛伦兹(Lorentz)不变的。
最小作用量原理要求，对于只在时空某个有限区域 Σ 内非零的场 A 的任意光滑变分，S 取稳定值。该原理导出麦克斯韦(Maxwell)场方程。不同的观测者将对作用量取稳定值的含义达成一致，尽管他们会使用不同的坐标来指定 Σ。
相比之下，我们此前使用的带电点粒子作用量（3.94）不是洛伦兹不变的，而且仅在粒子速度非相对论性时才有效。它需要一些修正，以适用于可与光速比拟的粒子速度。对于自由粒子，相对论性作用量定义为
S = −m
Z
1
γ(v) dt ,
(4.66)
积分形式上沿整个粒子世界线进行。在牛顿极限下，γ(v) ≃1 + 1
2|v|2，该式化为
S ≃
Z
−m + 1
2m|v|2

dt .
(4.67)
第一部分仅仅是一个负常数，第二部分是包含牛顿动能的标准作用量。因此，在略去一个常数后，相对论性作用量具有正确的牛顿极限。
于是，方程(4.15)意味着粒子作用量(4.66)可简化为
S = −m
Z
dτ ,
(4.68)
即沿粒子世界线的积分时空间隔的倍数。在这种形式下，它显然是洛伦兹不变的，并涉及最简单的可用量。对于类时世界线——如图4.6所示，其速度处处小于1的世界线——作用量为负，但对于由粒子接近光速运动的线段组成的世界线，它可以任意接近于零。自由粒子作用量在直线世界线上取最小值，此时粒子以恒定速度运动。

124
狭义相对论
类时路径
(允许)
类空路径
(不允许)
图4.6 大质量粒子的类时世界线。该世界线处处在光锥之内。
对于电荷为 q 的粒子与背景电磁场相互作用的情形，相对论性作用量是自由作用量(4.66)与方程(3.94)中出现的相互作用项 qA(x(t))·v −qΦ(x(t)) 对时间积分的组合。相互作用项无需相对论性修正，因为它们可以表示为4-矢量形式 −q
1
γ(v)V · A。这里，4-速度 V = γ(v)(1, v) 和4-矢势 A = (Φ, A) 均在粒子世界线上的时空点 X = (t, x(t)) 处取值。因此，带电粒子的总相对论性作用量为世界线积分
S =
Z
1
γ(v)(−m −qV · A) dt ,
(4.69)
它可以表达为明显洛伦兹不变的形式
S =
Z
(−m −qV · A) dτ .
(4.70)
对于与相对论性带电粒子耦合的动力电磁场，作用量是场作用量(4.65)（取 J=0）与每个粒子的世界线作用量(4.70)之和。最小作用量原理给出场和粒子的形式上正确的相对论性方程，但并未解决与第3章末尾讨论的自力和快速加速点粒子运动相关的困难。
相对论动力学的另一个例子是质量为 m 的点粒子与背景洛伦兹标量场 ψ 耦合的作用量。该作用量为
S = −m
Z
exp
1
mψ

dτ ,
(4.71)

其中积分沿着粒子世界线，ψ在世界线上的点X处取值。通过最小化S得到的运动方程为
mA = ∂ψ −(∂ψ · V )V . (4.72)
正如所要求的，右边的4-力满足与V内积为零的约束，因为V · V = 1。尽管有趣，但这个方程的物理应用不如相对论洛伦兹力定律(4.57)广泛。

4.7 延伸阅读

E. F. Taylor 和 J. A. Wheeler, 《时空物理：狭义相对论导论》(Spacetime Physics: Introduction to Special Relativity)（第2版），纽约: Freeman, 2001.
W. Rindler, 《相对论：狭义、广义与宇宙学》(Relativity: Special, General and Cosmological)（第2版），牛津: OUP, 2006.
关于相对论粒子碰撞和毕达哥拉斯三元数组的讨论，参见
N. S. Manton, 《有理相对论碰撞》(Rational Relativistic Collisions), arXiv:1406.3014 [physics.pop-ph], 2014.

5_Curved_Space

5
弯曲空间
5.1
球面几何
到目前为止，我们只考虑了平直欧几里得空间和狭义相对论中的平直时空（即闵可夫斯基空间）中的物理。在本章中，我们将涉足更一般的弯曲空间几何，并探讨它的一些物理应用。在下一章，我们将使用这里发展的数学工具来描述广义相对论的弯曲时空几何，即爱因斯坦的引力理论。
欧几里得空间是以希腊数学家欧几里得(Euclid)的名字命名的，他在公元前3世纪将古典几何最重要的成果汇编成他的《几何原本》。欧几里得从一小组定义和公理或公设开始。然后，他一步一步地构建出简单的结果，例如证明三角形的内角和等于两个直角——因此它们总和为180°或π弧度——并逐渐建立起关于多边形、圆和正立体结构的更复杂结果。两千年来，几何的概念就意味着欧几里得的几何。人们曾普遍认为欧几里得的结果在任何情况下都必须成立，以至于欧几里得几何与现实世界结构之间的直接对应关系被无条件接受。我们现在知道，这种信念是错误的。
欧几里得的几何甚至在像球面这样熟悉的曲面上也不成立。这是因为欧几里得的一条公理——平行公设——在球面上不成立。表述平行公设的方法有多种。根据其中一种表述，如果我们选择平面内的一条直线L和不在L上的一点P，那么我们总是可以通过P画出一条唯一且不与L相交的直线。这在平坦的平面上是正确的，但在弯曲的曲面上则不成立。在球面上，类似于直线的是大圆；经线就属于大圆。两条经线在赤道处看起来可能是平行的，但它们在北极和南极都会相交。球面上不存在平行线。
欧几里得任何依赖于平行公设的结果，例如三角形内角之和等于π的证明，在球面上都不成立。这如图5.1所示。在球面上，三角形的内角和为Σ∆= π + A/a²，其中A是三角形的面积，a是球面的半径。三角形的面积越大，内角和就越大。例如，图5.1中所示的球面三角形覆盖了球体的一个八分象限，因此其面积为A = (1/2)πa²，从而内角和为Σ∆= (3/2)π。通过观察该图可以确认这一点，图中清楚显示所有三个角都是直角。我们从生活在地球上的经验得知，在相对于整个地球而言很小的区域内，表面看起来近似是平坦的。上述公式与我们
《物理世界》。Nicholas Manton 和 Nicholas Mee，牛津大学出版社（2017年）。
© Nicholas Manton 和 Nicholas Mee。DOI 10.1093/acprof:oso/9780198795933.001.0001

球面几何
127
图5.1 一个画在地球表面上的球面三角形示例。该三角形的三个角都是直角。

直觉上，对于那些面积远小于整个球面面积的球面三角形，欧几里得几何中三角形内角和为π的结果仍是一个很好的近似。

5.1.1 测地线
要理解弯曲曲面的几何，我们需要一个更广义的直线概念。在平直空间中，直线是两点之间最短的路径。自然可将这一性质推广到可能弯曲的曲面上。我们熟悉的墨卡托世界地图扭曲了我们对距离的感知。在这些地图上，经线和纬线看起来都是直线，但经线是连接两点之间的最短路径，而纬线（赤道除外）则肯定不是。正如船舶和飞机导航员所熟知的，连接地球仪上两点的最短路径是大圆的一部分，大圆是像赤道一样与球体本身半径相同的圆。这些最短路径被称为测地线（geodesics），当空间弯曲时，它们就相当于直线。从词源上讲，geodesic一词源自希腊语。Geodesy意为测量，字面意思是划分大地。经线是测地线，因为它们是大学（大圆）的弧段，而纬线则不是。例如，如图5.2所示，从伦敦飞往东京的最短航线是沿一条大圆航线，它会使飞机深入到北极地区，尽管东京比伦敦靠南得多。

图5.2

球面几何的另一个重要特征是它的均匀性。与平面几何一样，球面上所有的点在几何上都是等价的，并且从一点出发的所有方向也是等价的。这种几何被称为均匀且各向同性的。我们可以取一个几何对象，比如一个三角形，移动它、旋转它，它的几何性质不会改变。如果平面上两个不同位置的三角形的边长相等，那么它们全等，因此它们在顶点处的角也相等。球面三角形是以测地线段为边的三角形，它们具有类似的性质——位于不同位置、边长相同的三角形，在边相交处的角也自动相等。

128
弯曲空间
伦敦
东京
伦敦
东京
图5.2 左：墨卡托投影世界地图上伦敦与东京之间看似一条直线的路径。右：两座城市之间的最短路径实际上是一条大圆航线。

图5.2

5.2
非欧几里得双曲几何
几个世纪以来，许多数学家对欧几里得的平行公设感到不安，因为它似乎比其他公设和公理复杂得多，看起来更像是一条定理。人们投入了大量的精力试图从其他更简单的公理中推导出它，但都没有成功。到了19世纪20年代，重新评估这一状况的时机已经成熟。突破几乎同时由三位数学家取得，他们独立地认识到，否定平行公设并不会导致任何矛盾。证明几何定理仍然是可能的，但他们发现的那些奇怪的几何结果并不适用于欧几里得几何；这些定理描述的是一种新的非欧几里得几何。卡尔·弗里德里希·高斯(Carl Friedrich Gauss)是19世纪初世界顶尖的数学家。他是第一个发现非欧几里得几何可能性的人，并私下里研究其性质多年。直到一位名叫亚诺什·鲍耶(János Bolyai)的年轻匈牙利数学家的工作引起他的注意时，他才透露了自己的研究。鲍耶独立地发现了许多与高斯相同的结果。人们很快意识到，第三位数学家尼古拉·罗巴切夫斯基(Nikolai Lobachevsky)也在一家俄罗斯期刊上发表了非常相似的成果。
虽然球面几何易于可视化，但非欧几里得几何并非如此。它是一种完全不同的二维几何，现在被称为双曲平面几何，或简称为双曲几何。与球面类似，双曲平面是一个弯曲的曲面（并非真正的平面），其中所有的点和所有的方向在几何上都是等价的，且它有一个尺度参数a，类似于球面的半径。当我们想到曲线和曲面时，我们通常认为它们是嵌入在平坦的三维空间中的。然而，与球面不同，双曲平面是无限的，无法作为一个整体曲面嵌入在三维空间中，但部分曲面可以嵌入，如图5.3所示。

图5.3

非欧几里得几何的发现引发了数学思想史上最深刻的革命之一。两千年来，数学家和哲学家一直假定欧几里得几何建立在我们所生活的世界不可否认的真理之上。这一点由伊曼努尔·康德(Immanuel Kant)表述得最为清晰，他的哲学建立在这样一种信念之上：欧几里得公理是关于宇宙的直观真理原子。

高斯曲率
129
图5.3 嵌入三维空间中的双曲平面的一部分。与球面不同，在这种嵌入中无法展示双曲平面的对称性和均匀性。

图5.3

康德(Kant)将其称为先天分析真理。康德进而论证，既然这些公理必然为真，那么欧几里得的定理——综合真理——必定自动适用于宇宙的结构。高斯(Gauss)、鲍耶(Bolyai)和罗巴切夫斯基(Lobachevsky)提供的新见解打破了这些观念。显然，几何学的公理，乃至整个数学，并不是一成不变的。数学家可以决定不同的公理集合并研究其推论。从此，数学系统的公理更像是游戏规则，在游戏开始前就已商定。它们必须一致且自足，但不必与现实有任何联系。数学家从此得以自由探索那些完全独立于任何物理基础的抽象领域。数学与物理学的分离也引发了空间实际几何是什么的问题。这将是一个由实验和测量来决定的问题。
高斯是第一个思考我们生活的空间可能不是以往所假设的平坦欧几里得三维空间的人；它可能是某种弯曲的三维空间。为了检验这一点，高斯利用了这样一个定理：在球面几何中，三角形的内角和大于π，而在双曲几何中则小于π，超出或不足的量取决于三角形的大小（见图5.1）。高斯在德国中部的哈尔茨山脉的三座山峰上架设了测量设备，以测量由连接山峰的测地线为边的三角形的性质。由于观测是目视的，这里隐含了一个假设：光线沿测地线传播。高斯测量了每个山峰处三角形两边之间的夹角，以确定角度之和是否为π。他发现确实如此，从而得出结论：空间是欧几里得的。（当然，高斯试图测量的是地球周围空间的曲率，而不是地球表面的曲率。）如果不是近一个世纪后爱因斯坦(Einstein)重新拾起这个问题，高斯的这些研究无疑早就被遗忘了。

5.3
高斯曲率
让我们跟随高斯的脚步，看看数学家是如何分析曲率的。在欧几里得三维空间中的一条曲线上，在任意一点P处，我们都能找到一个与曲线最精确相切的圆。其圆心称为曲率中心。如果P点处仅有微小的曲率，

130
弯曲空间
P
κ2
κ1
图 5.4 在球面上，每一点的两个曲率半径 κ1 和 κ2 指向同一方向，因此曲率为正。

图 5.4

这个圆的半径就大，而如果弯曲程度强，半径就小。因此，很自然地，我们用这个圆半径的倒数 κ 作为曲率的度量。
现在，考虑 3 维空间中一个曲面上的点 P。通过点 P 所有方向都有测地曲线，因此存在一个依赖于方向的单参数圆族，这些圆与这些测地线最精确地相切。这些圆曲率中的最大值和最小值被称为主曲率 (principal curvatures)。我们将其记为 κ1 和 κ2。它们被称为外蕴曲率 (extrinsic curvatures)，因为它们依赖于曲面如何嵌入在 3 维空间中。然而，高斯 (Gauss) 意识到，它们的乘积 K = κ1κ2 是曲面在 P 点邻域的一个内蕴性质。K 被称为曲面在 P 点的高斯曲率 (Gaussian curvature)。

极大曲率与极小曲率曲线正交。在图 5.4 中，通过半径为 a 的球面上一点 P（代表性点），画出了两条正交的曲线。这两条曲线的曲率中心都是球心，因此 κ1 和 κ2 的大小和符号相同。两者都等于 1/a，因此球面的高斯曲率为正常数 K = 1/a²。

图 5.4

嵌入在 3 维空间中的双曲平面区域，形状如同马鞍或弯曲漏斗，如图 5.5 所示。插图显示了一个代表性点以及通过它的两条垂直测地线。曲率中心位于相反的方向，如箭头所示。这种情况下，κ1 和 κ2 被视为符号相反，高斯曲率 K 为负。在双曲平面上，K 是一个负常数 −1/a²，这正是其几何的定义性特征。

图 5.5

图 5.5 双曲平面的一个局部，形状像马鞍。κ1 和 κ2 符号相反。

图 5.5

内蕴地看，双曲平面围绕其任何一点都是圆对称的，就像球面一样。但当双曲平面嵌入 3 维空间时，这种对称性必然丢失。尽管图 5.5 所示的曲面围绕一个垂直轴具有圆对称性，但该轴上的任何点都不属于曲面，而且曲面上任何实际点处都没有圆对称性。如果嵌入的曲面围绕其某点具有圆对称性，那么在该点 κ1 和 κ2 就会相等，从而 K 为正或为零。因此，在嵌入中，双曲平面的完全对称性并不显现。

图 5.5

圆柱面提供了均匀曲面的第三个例子。在这种情况下，到其中一个曲率中心的距离为无穷大。（其中一个曲率圆退化为一条无穷长的直线。）因此，κ1 = 0，而 κ2 = 1/r（r 为圆柱半径），并且圆柱面的高斯曲率处处为零。

高斯曲率
131
P
κ₂
κ₁
图5.5 在双曲平面上，曲率半径κ₁和κ₂方向相反，因此曲率为负。

图5.5

无限长直线。）因此κ₁或κ₂为零，且高斯曲率处处为零。因此，圆柱面上的几何局部地属于欧几里得(Euclid)的平坦平面几何，这一点我们可以通过将一张平坦的纸卷成圆柱来轻易验证。

高斯曲率K是曲面的一个内禀属性，因为它可以仅由测地线的行为以及曲面内的距离来确定。我们可以通过以下方式计算其在点P的值。考虑从P发出的一束测地线。沿着每条测地线标出一小段距离ε。所有距离P为ε的端点构成一条包围P的闭合曲线。如果曲面是平坦的，那么这条曲线是一个周长为C(ε) = 2πε的圆。对于弯曲的曲面，其周长会偏离这个结果。正曲率导致曲线缩短，负曲率导致曲线增长。例如，与欧几里得平面不同，在半径为a的球面上，靠近北极点处，距离极点为ε的纬度圈的周长为
C(ε) = 2πa sin(ε/a) = 2πa (ε/a - 1/6 ε³/a³ + …) = 2π (ε - 1/6 Kε³ + …)， (5.1)
其中高斯曲率K已用1/a²代入。图5.6对此给出了说明。类似地，在双曲平面上，其周长为

图5.6

C(ε) = 2πa sinh(ε/a) = 2πa (ε/a + 1/6 ε³/a³ + …) = 2π (ε - 1/6 Kε³ + …)， (5.2)
此时K = -1/a²。

一般地，高斯曲率由以下内禀表达式给出
K = 3/π lim_{ε→0} (2πε - C(ε)) / ε³, (5.3)
这定义了任意点P的K。对于大多数曲面，其几何并非均匀，曲率逐点变化。例如，考虑一个嵌入在三维空间中的环面。

132
弯曲空间
P
C
a
ρ
ε
图5.6 高斯曲率：从北极点P到圆C的测地线距离为ε。该圆的周长为2πa sin(ε/a)，其中a是球体的半径。

图5.6

P₁
P₂
图5.7 嵌入三维空间中环面的曲率。在P₁点高斯曲率为正，在P₂点为负。

图5.7

在环面上，诸如位于环面外缘的P₁点处，高斯曲率为正；而诸如位于环面内缘的P₂点处，曲率为负。如果对整个曲面积分高斯曲率，其总和为零。这或许看起来令人惊讶，但可以如下理解。一个环面完全可以是平坦的，处处曲率为零。这样的曲面本质上是一个对边认同的矩形，如图5.8所示。平坦环面只有通过扭曲才能嵌入三维空间，而这种扭曲改变了其高斯曲率。然而，这种扭曲并不会改变整个曲面上曲率的积分。¹

图5.8

5.4 黎曼几何

非欧几里得的双曲几何的发现，仅仅是几何学新时代的开端。高斯的学生伯恩哈德·黎曼(Bernhard Riemann)发展了一套普适的内禀形式体系，使他能够分析任意

¹ 这一结果是高斯-博内定理(Gauss–Bonnet theorem)的一个特例。

黎曼几何
133
图 5.8 通过粘合矩形的对边形成环面。将长边粘合产生圆柱管，然后将管的两端弯曲并粘合以形成环面。

图 5.8

维度数目。我们将在此处呈现三维空间情况下黎曼几何的核心内容，并在随后将其推广到闵可夫斯基(Minkowski)和爱因斯坦(Einstein)的四维时空几何。黎曼方法的关键在于以一种推广毕达哥拉斯(Pythagoras)定理的方式捕捉空间的局部距离关系。
回顾在欧几里得几何中，点具有笛卡尔坐标 xi (i = 1, 2, 3)，且点 xi 与 xi + δxi 之间的无穷小距离的平方为
δs2 = δx2
1 + δx2
2 + δx2
3 .
(5.4)
这一表达式被称为欧几里得度规。除非对于所有 i 均有 δxi = 0，否则 δs2 为正。
三维黎曼几何与此类似，但对此进行了推广。它同样假设一个点可以用三个坐标 yi (i = 1, 2, 3) 在局部唯一地标记。此处有一个记号上的变化；从现在起，坐标用上指标表示。当指标为抽象的拉丁或希腊字母而非数字时，这尤其方便。（重要的是，不要将坐标 y2 和 y3 与“y 的平方”和“y 的立方”相混淆。）
在黎曼几何中，假定坐标为 yi 和 yi + δyi 的无穷小分开的两点之间的距离平方具有以下形式
δs2 = gij(y)δyiδyj ,
(5.5)
其中 gij(y) 是一个 3×3 矩阵，它是坐标 y = (y1, y2, y3) 的光滑函数。此处还有另一个记号变化，称为求和约定。在这种紧凑记法中，重复指标表示对其求和，并省略显式的求和符号。gij 被取为对称矩阵，因为任何反对称部分对 δs2 没有贡献，这是由于 δyiδyj 必然是对称的。采用稍微更明显的形式（但省略自变量 y），
δs2 = gij δyiδyj = g11 (δy1)2 + g22 (δy2)2 + g33 (δy3)2
+2g12 δy1δy2 + 2g13 δy1δy3 + 2g23 δy2δy3 .
(5.6)
gij 被称为度规张量，而无穷小距离平方的表达式 (5.5) 被称为（黎曼）度规。假设对于任何 δyi，δs2 均为正。

134
弯曲空间
并非对所有 i 都为零。这就要求矩阵 gij 处处正定。将 δs 取为 δs2 的正平方根，并通过对 δs 积分来得到连接两点的路径长度。

度量张量 gij 的逆，记作 gij，是通常的 3 × 3 矩阵逆。由于 gij 是正定的，gij 处处存在且正定。度量张量与其逆之间的关系可写为
gijgjk = δi
k ,
(5.7)
这里对指标 j 采用求和约定。δi
k 被称为克罗内克(Kronecker) delta 符号。它等于单位矩阵，因此若指标 i 和 k 相同，δi
k = 1；若 i 和 k 不同，δi
k = 0。当指标升或降时，克罗内克 delta 保持不变，所以 δik 和 δik 也都是单位矩阵，所有矩阵元均为 1 或 0。

黎曼(Riemann)的基本洞见之一是，真正的几何量并不依赖于坐标系的选取。距离和度量与坐标无关，因此在坐标变换下，δs2 保持不变，而 yi 以及 gij 会改变。事实上，在一点处求值的 gij 并不携带任何几何信息。通过坐标变换，可以在该点将度量张量化成标准的欧几里得形式。因此，一般的黎曼几何在一点的无穷小邻域内与平坦几何无法区分。为形象地理解这意味着什么，我们可以考虑一个球面三角形，如图 5.1 所示。对于一个无穷小的三角形，其内角之和为 π，因此局部看来球面显得平坦。

5.4.1
一些度量的简单例子
让我们来看看几个熟悉几何中的黎曼度量：采用球极坐标的平坦空间，以及最简单的弯曲表面——二维球面（简称 2-球面）。我们还将看一看双曲几何。

我们从平坦三维空间和笛卡尔坐标 x1, x2, x3 开始。欧几里得度量为
δs2 = (δx1)2 + (δx2)2 + (δx3)2 ,
(5.8)
因此欧几里得度量张量为 gij = δij，或以矩阵形式：
gij =
⎛
⎝
1
0
0
0
1
0
0
0
1
⎞
⎠.
(5.9)
现在将坐标变换为球极坐标，y1 = r, y2 = ϑ, y3 = ϕ。坐标变换公式为
x1 = r sin ϑ cos ϕ,
x2 = r sin ϑ sin ϕ,
x3 = r cos ϑ .
(5.10)
无穷小坐标偏移可通过偏微分求得，给出
δx1

δr sin ϑ cos ϕ + r cos ϑ δϑ cos ϕ −r sin ϑ sin ϕ δϕ ,
δx2

δr sin ϑ sin ϕ + r cos ϑ δϑ sin ϕ + r sin ϑ cos ϕ δϕ ,
δx3

δr cos ϑ −r sin ϑ δϑ ,
(5.11)

黎曼几何
135
将这些表达式代入(5.8)，我们得到相当简单的度规：
δs² = δr² + r²δϑ² + r² sin² ϑ δϕ² 。 (5.12)
球极坐标相当特殊，因为这里没有出现像δrδϑ这样的交叉项。将表达式(5.12)与方程(5.5)中度规的一般定义相匹配，即可得到球极坐标下的度规张量。其分量为：
g_{rr} = 1, g_{ϑϑ} = r², g_{ϕϕ} = r² sin² ϑ, g_{rϑ} = g_{rϕ} = g_{ϑϕ} = 0, (5.13)
它们组合成矩阵：
g_{ij}(r, ϑ, ϕ) =
⎛
⎝
1 0 0
0 r² 0
0 0 r² sin² ϑ
⎞
⎠ 。 (5.14)
该矩阵对坐标有非平凡的依赖关系；然而，几何仍然是平坦的欧几里得三维空间。（注意，方程(5.13)中的重复指标并不表示求和。这些指标只是度规张量分量的标记。）

现在我们可以把注意力限制在曲面 r = a 上，它是一个半径为 a 的二维球面，因此不是平坦的。r 是常数，所以度规中包含 δr 的项可以去掉。剩下的角坐标 ϑ 和 ϕ，使得(5.12)约化为球面度规：
δs² = a²(δϑ² + sin² ϑ δϕ²) 。 (5.15)
这是一个二维黎曼几何，其度规张量分量为：
g_{ϑϑ} = a², g_{ϕϕ} = a² sin² ϑ, g_{ϑϕ} = 0, (5.16)
或写成矩阵形式：
g_{ij} =
⎛
⎝
a² 0
0 a² sin² ϑ
⎞
⎠ 。 (5.17)
逆矩阵的分量为：
g^{ϑϑ} = 1/a², g^{ϕϕ} = 1/(a² sin² ϑ), g^{ϑϕ} = 0 。 (5.18)
如果改变坐标，二维球面度规看起来就不同了。如图 5.6 所示，我们不用角坐标 ϑ，而使用到竖轴的距离 ρ 以及方位角 ϕ。那么

图 5.6

ρ = a sin ϑ, δρ = a cos ϑ δϑ, (5.19)
可重新整理得出：
a² δϑ² = δρ² / (1 - ρ²/a²) = δρ² / (1 - Kρ²), a² sin² ϑ δϕ² = ρ² δϕ², (5.20)
其中 K = 1/a² 是高斯曲率。因此，在这些坐标下，度规(5.15)变为：
δs² = δρ² / (1 - Kρ²) + ρ² δϕ² 。 (5.21)
此公式在 ρ = a 处奇异，所以严格来说它只在北半球有效。

136
弯曲空间
球面上另一个有趣的坐标变换是：
x = 2 tan(ϑ/2) cos ϕ, y = 2 tan(ϑ/2) sin ϕ 。 (5.22)
此变换的逆为：
ϑ = 2 tan⁻¹ [ (x² + y²)^{1/2} / 2 ], ϕ = tan⁻¹(y/x) 。 (5.23)
微分得：
δϑ = (x δx + y δy) / { [1 + (x² + y²)/4] (x² + y²)^{1/2} }, δϕ = (-y δx + x δy) / (x² + y²) 。 (5.24)
我们还需要三角恒等式：
sin ϑ = (2 tan(ϑ/2)) / (1 + tan²(ϑ/2)) = (x² + y²)^{1/2} / [1 + (x² + y²)/4] 。 (5.25)
将这些量代入方程(5.15)，交叉项消去，在新的坐标下球面度规简化为：
δs² = a² (δx² + δy²) / [1 + (x² + y²)/4]² 。 (5.26)
这是平面欧几里得度规 δx² + δy² 乘以一个非常数函数：
Ω(x, y) = a² / [1 + (x² + y²)/4]² 。 (5.27)
与欧几里得度规相差一个非常数的正因子 Ω 的度规，称为共形平坦的。共形因子 Ω 的效果是重新标度距离，但不改变角度。坐标 x, y 遍及整个平面，给出了整个球面（除南极点外）的度规，在南极点 tan(ϑ/2) 为无穷大。

双曲平面的度规是(5.15)的双曲对应：
δs² = a²(δϑ² + sinh² ϑ δϕ²) 。 (5.28)
通过坐标变换可得到(5.21)形式的度规，但这里 K = -1/a²，且 ρ 的范围是 0 ≤ ρ < ∞。类比于(5.22)的坐标变换：
x = 2 tanh(ϑ/2) cos ϕ, y = 2 tanh(ϑ/2) sin ϕ, (5.29)
应用于度规(5.28)，得到结果：
δs² = a² (δx² + δy²) / [1 - (x² + y²)/4]², (5.30)
因此，与球面一样，双曲平面也是共形平坦的。现在坐标 x, y 必须限制在圆盘 x² + y² < 4 的内部。这种对双曲

张量
137
图5.9 用内角为π/4的等边三角形对庞加莱圆盘进行的无限镶嵌。

图5.9

平面是由亨利·庞加莱(Henri Poincaré)发现的，并被称为庞加莱圆盘模型。它使得双曲平面相对容易可视化。可以证明，完整的测地线是与边界正交的圆弧段，并且到边界的真实距离是无限的。图5.9展示了用等边三角形（具有相等的双曲尺寸）对双曲平面进行的镶嵌，其边缘是测地线段。该图并未显示边缘的真实长度，但角度是正确的，因为庞加莱圆盘模型是保角正确的。可以看出，每个等边三角形的内角和小于π，因为在每个顶点处有八个三角形相遇，所以每个角为π/4。我们也很容易看出双曲平面定义性的非欧几里得本质。图5.10显示，存在无限多条通过P点且不与测地线L相交的测地线。换句话说，存在无限多条通过P点且“平行”于L的“直线”。从图中不明显的是，双曲几何是均匀的，没有任何点是特殊的。

图5.10

图5.9

度规(5.30)的一个性质是，在原点附近，它近似于平直度规a²(δx² + δy²)。如果我们使用重新标度的坐标X = ax，Y = ay，那么δs² ≃ δX² + δY²，并且仅有X和Y的二次项修正，因此在原点处度规张量为gij = δij (i, j = 1, 2)，且gij的一阶偏导数在那里也为零。球面的度规(5.26)具有相同的性质。这是黎曼(Riemann)几何的一个普遍特征。在任意点P的邻域内，可以找到一个坐标系，使得度规张量为gij = δij，且仅有二次项修正。换句话说，度规张量的所有一阶导数在P点为零。以这种方式适配于P点的坐标系称为（黎曼）法坐标系。但即使在法坐标系中，度规的二阶偏导数一般并不为零。它们与P点处的空间曲率密切相关，我们将会看到这一点。

5.5 张量
在局域定义于一点P处、具有几何意义对象的自然表示方式是使用向量或更一般的张量。张量具有固有的结构，与坐标系无关。张量的分量在不同的坐标系中可能取不同的值，就像向量的分量在极坐标和笛卡尔坐标中不同一样，但这仅仅是由于从一个坐标系到另一个坐标系的变换所致。推而广之，在局域表达对象之间关系的唯一具有几何意义的方式就是作为张量方程。物理学的方程是张量方程，并且与坐标系无关，所以如果一个张量方程在一个坐标系中成立，那么它在所有其他坐标系中也成立。这在后续内容中将非常方便。

张量的基本例子是向量Vⁱ。我们可以从Vⁱ（在点P处，使用坐标yⁱ）构造的一个几何对象是微分算子
Vⁱ ∂/∂yⁱ，
并且我们认为它是坐标不变的。因此，如果我们改变坐标为zⁱ，那么向量具有新的分量Ṽⁱ，且
Ṽⁱ ∂/∂zⁱ = Vⁱ ∂/∂yⁱ。
现在，坐标zⁱ是坐标yʲ的某些函数，并且这种关系应是可逆的，至少在局域可逆，因此yʲ是坐标zⁱ的函数。我们可以求导并得到3×3的偏导数雅可比(Jacobi)矩阵∂zⁱ/∂yʲ。其元素可以被视为旧坐标或新坐标的函数。然后，无论是形式上还是使用链式法则，我们从方程(5.32)可以看出
Ṽⁱ = Vʲ ∂zⁱ/∂yʲ。

张量
139
这就是矢量分量在坐标变换下的变化规则。另一个有用的矩阵是雅可比矩阵(Jacobian matrix) ∂yj/∂zi 的逆矩阵，它正是原矩阵的逆。
除了矢量 V^i，还存在带下标的余矢量(covector) U_i。根据定义，在坐标变换下，U_i 的变换方式与 V^i 相反，使用的是雅可比矩阵的逆。余矢量的一个例子是标量场的梯度，
U_i = ∂ψ/∂y^i 。 (5.34)
采用坐标 z^i 可得
Ũ_i = ∂ψ/∂z^i = ∂ψ/∂y^j ∂y^j/∂z^i = U_j ∂y^j/∂z^i ， (5.35)
这就证实了相反的变换规则。
一个张量可以有多个指标，既可带上标也可带下标。例如，W^{ij}_k 是一个具有两个上标和一个下标的三指标张量（3阶张量），在三维空间中有27个分量。坐标变换时，每个指标都会引入一个雅可比因子。
张量方程将两个同类型张量等同起来（或者等价地，令某个张量为零）。在坐标变换下，方程两边以完全相同的方式获得这些雅可比因子，因此，如果方程在某一个坐标系中成立，那么它在所有坐标系中都成立。
关于张量，有一些有用的构造方式。一对张量可以逐分量相乘，例如，W^{ij}_k U_l 就是一个四指标张量。另一种操作是指标收缩(contracting indices)，它产生一个指标更少的张量。操作方法是：选取张量的一对指标，一上一下，令它们相等并对各项求和。其结果可以表示为一个收缩指标被移除的张量。例如，将 W^{ij}k 中的指标 k 和 j 收缩，可得到矢量
V^i = ∑{j=1}^3 W^{ij}j 。 (5.36)
（使用求和约定，上式可写为 V^i = W^{ij}j。）在坐标变换下，由于按照这种方式收缩指标时两个雅可比因子相互抵消，V^i 如矢量般变换。指标收缩的另一个例子是余矢量 U_i 与矢量 V^i 的乘积（对 i 求和），得到标量 φ = U_i V^i，该标量在坐标变换下保持不变。这就是两个矢量点积在一般黎曼空间(Riemannian space)中的类比。
利用度规张量(metric tensor)及其逆，再配合指标收缩，还可以对张量进行操作。从一个矢量 V^i 可以构造出一个余矢量
V_i = g{ij} V^j 。 (5.37)
这一操作称为指标下降(index lowering)。类似地，可以将余矢量 U_i 的指标上升，得到矢量 U^i = g^{ij} U_j。指标下降与上升互为逆操作。下列各量完全相同：
φ = U_i V^i = g{ij} U^j V^i = g^{ij} U_i V_j 。 (5.38)
对于一般的张量，可以对其任意指标进行上升或下降操作。指标经过上升或下降的张量，其分量值会有所不同（除非度规是欧几里得的），但所承载的几何信息本质上相同。

140
弯曲空间
图5.11 左：在笛卡尔坐标系中向量的平移不涉及坐标基的改变。右：在极坐标系中向量的平移需要基的改变。

图5.11

5.5.1 协变导数与克里斯托费尔符号
回想一下，黎曼几何的基本特征是局部几何是欧几里得的。在一点附近存在一个法坐标系，使得度量张量为克罗内克δ，并且度量张量的所有一阶导数都为零。后一个性质与前一个同样重要，因为它使得许多公式可以大大简化。如果我们找到一个在法坐标下局部成立的方程，通常可以推导出一个等价的张量方程，然后确保它在任何其他坐标系中也成立。这是寻找张量方程的一种有力方法。
张量表示空间某一点的几何对象，而张量场则表示整个空间中的几何对象。为了理解矢量场和张量场如何逐点变化，我们需要确定在这种场中微分如何在弯曲空间中工作。
考虑平坦欧几里得空间中的标量场。我们可以通过取其梯度来计算它在每个空间方向上的变化，并以此方式生成一个（余）矢量场。使用笛卡尔坐标，我们可以对矢量场或余矢量场执行相同的梯度操作，并生成一个二阶张量场。然而，在弯曲空间中，或者甚至在平坦空间中但使用一般坐标，微分并不是张量性的，因为它涉及取相邻点处张量的差，而第二个点处的坐标基可能与第一个点处的坐标基不同。例如，在极坐标系下的平面中就是这种情况，如图5.11所示。在左侧，图显示了一个矢量在笛卡尔坐标系中两点之间的平移。在两点使用相同的基来分解矢量，我们看到矢量的分量是相同的，因此在无穷小意义上，梯度为零。在右侧，图显示了该矢量在极坐标系中的平移。该矢量在两点分解成径向和角向分量的方式相当不同，因此天真地看它有一个非零梯度，但这种矢量的表观空间变化仅仅是由于坐标系造成的。

图5.11

我们需要找到一个在平坦或弯曲空间中都能协变地工作的导数算子，使得矢量的协变导数在任何坐标系中都是一个二阶张量，并且一般而言，n阶张量的协变导数是一个n+1阶张量。协变意味着以相同的方式变换，因此协变导数的基本性质是

张量
141
秩为n的张量应当像秩为n+1的张量那样在坐标变换下进行变换。
这一要求通过以下方式得以满足。在度规张量的一阶导数为零的点处，协变导数就是通常的梯度，其分量仅为偏导数。如果度规张量的导数不为零，那么协变导数会包含一个修正项，该修正项源于为使度规张量的导数局域为零所需的坐标变换。通过考虑必要的坐标变换可以显式地找到这个修正项；但有一种更好的方法可以避免改变坐标。并不奇怪，正如我们将看到的，这个修正项包含度规张量的导数。
矢量场V i的协变导数
D
Dyj 为
DV i
Dyj = ∂V i
∂yj + Γi
jkV k ,
(5.39)
其中第二项是修正项。引入克里斯托费尔符号(Christoffel symbols)Γi
jk是为了弥补偏导数
∂V i
∂yj 缺乏协变性的缺陷。这里有三个指标，并对k求和，以平衡方程中的指标。我们尚未确定Γi
jk的具体形式，但很快会给出。
标量场的协变导数就是标准的偏导数，并且如果我们要求标量φ = UiV i的协变导数满足莱布尼茨法则，那么余矢量场Ui的协变导数必定为
DUi
Dyj = ∂Ui
∂yj −Γk
jiUk .
(5.40)
当协变导数作用于标量φ = UiV i时，克里斯托费尔符号会相互抵消，如下面的计算所示：
D(UiV i)
Dyj

DUi
Dyj V i + Ui
DV i
Dyj

∂Ui
∂yj V i −Γk
jiUkV i + Ui
∂V i
∂yj + UiΓi
jkV k

∂Ui
∂yj V i + Ui
∂V i
∂yj = ∂(UiV i)
∂yj
.
(5.41)
（重复指标均表示求和。我们可以改变这些指标的标记而不影响表达式，因此在上面第二行的最后一项中，我们交换了指标标记i和k。这样就清楚地看到含Γ的项抵消了。）
类似地，我们可以通过再次要求协变导数遵循莱布尼茨导数规则，将其作用推广到更高秩的张量。例如，张量Wij （它可以是两个余矢量的外积UiVj）的协变导数为
DWij
Dyk = ∂Wij
∂yk −Γl
kiWlj −Γl
kjWil ,
(5.42)
其中每个张量指标对应一个Γ项。特别地，度规张量的协变导数

142
弯曲空间
张量为
Dgij
Dyk = ∂gij
∂yk −Γl
kiglj −Γl
kjgil .
(5.43)
如前所述，在一点附近的法坐标系中，度规张量 gij 等于克罗内克δ符号 δij，同样重要的是，其导数为零，即
∂gij
∂yk = 0 .
(5.44)
这并不是一个张量方程，但协变导数在法坐标系中必须约化为此式，从而我们知道以下是一个等效的张量方程：
Dgij
Dyk = 0 .
(5.45)
这个协变方程在一个坐标系（法坐标系）中成立，因此它必定在所有的坐标系中都成立，而这几乎足以确定 Γi
jk。
为方便起见，我们现在将使用逗号表示偏导数来简化记号，即 ‘,i’ 表示对坐标 yi 求导，而 ‘,ij’ 表示对 yi 和 yj 的双重求导。按照这一新记号，
Dgij
Dyk = gij,k −Γl
kiglj −Γl
kjgil = 0 .
(5.46)
因此
gij,k = Γl
kiglj + Γl
kjgil ,
(5.47)
并置换指标，得
gik,j

Γl
jiglk + Γl
jkgil ,
(5.48)
gjk,i

Γl
ijglk + Γl
ikgjl .
(5.49)
现在，作为最后一个条件，我们要求 Γi
jk 关于其两个下指标对称。然后，将方程 (5.47) 和 (5.48) 相加并减去方程 (5.49)，我们得到
gij,k + gik,j −gjk,i = 2Γl
jkgil ,
(5.50)
其中我们用到了 Γi
jk 关于 jk 的对称性假设。用逆度规张量 gim 乘以两边并对 i 求和，我们得到最终表达式
Γm
jk = 1
2gim(gij,k + gik,j −gjk,i) ,
(5.51)
它用度规张量的导数确定了克里斯托费尔符号(Christoffel symbols)。
克里斯托费尔符号在黎曼几何(Riemannian geometry)中扮演着非常重要的角色，尽管它们并非张量的分量。在 P 点的法坐标系中，度规张量的导数为零，因此克里斯托费尔符号在 P 点也为零。如果它们是张量分量，那么在一个坐标系中为零将会使它们在所有坐标系中都为零。

黎曼曲率张量
143
5.5.2
平面极坐标下的克里斯托费尔符号
为了对克里斯托费尔符号有所熟悉，让我们在平面内用极坐标将它们计算出来。度规为 δs2 = δr2 + r2δϑ2，因此度规张量的分量为
grr = 1 ,
gϑϑ = r2 ,
grϑ = 0 ,
(5.52)
且度规张量唯一的非零导数为 gϑϑ,r = 2r。在二维情形，一般有六个克里斯托费尔符号（考虑到下指标的对称性），但在这里，非零的克里斯托费尔符号只有
Γϑ
rϑ = Γϑ
ϑr = 1
2gϑϑ(gϑr,ϑ + gϑϑ,r −grϑ,ϑ) = 1
2
1
r2

2r = 1
r
(5.53)
和
Γr
ϑϑ = 1
2grr(grϑ,ϑ + grϑ,ϑ −gϑϑ,r) = 1
2(−2r) = −r .
(5.54)
因为平面是平坦的，克里斯托费尔符号在笛卡尔坐标下为零，但在极坐标下不为零。这是必要的，以便补偿一个向量移动时坐标基底的变化，如图 5.11 所示。

图 5.11

5.6
黎曼曲率张量
P
B
B
A
A
图 5.12 弯曲空间中一个向量沿两条不同路径平移的比较。

图 5.12

黎曼(Riemann)发现了一个几何对象，如今被称为黎曼曲率张量(Riemann curvature tensor，简称黎曼张量)，它包含了任意维数下每一点曲率的全部信息。图 5.12 展示了它是如何被确定的。一个切向量从 P 点沿方向 A 平移一小段距离，再沿方向 B 平移一小段距离，然后将它与同一个向量先沿方向 B 平移一小段距离，再沿方向 A 平移一小段距离的结果进行比较。在平坦空间中，不会有任何差别；无论走哪条路径，向量的最终位置和取向都相同。然而，如图 5.12 所示，在弯曲空间中存在差别，且这一差别依赖于曲率。这可以用代数表示为协变导数不

图 5.12

144
弯曲空间

在弯曲空间中不对易——它们的顺序至关重要。黎曼张量 (R^i_{\ jkl}) 定义为作用于任意矢量场 (V^i) 的协变导数的对易子，
[
R^i_{\ jkl}V^j = \left( \frac{D}{Dy^k}\frac{D}{Dy^l} - \frac{D}{Dy^l}\frac{D}{Dy^k} \right) V^i .
\tag{5.55}
]
对易子是先以一种顺序求值、再以另一种顺序求值的双重协变导数之差。（标准偏导数的对易子为零，因为混合偏导数具有对称性。）

现在我们可以推导出 (R^i_{\ jkl}) 的显式公式。矢量场 (V^i) 的双重协变导数是对 (V^i) 的单次协变导数（即方程(5.39)中给出的具有一个上指标和一个下指标的二阶张量）再求协变导数。我们得到（使用偏导数的简记符号）
[
\begin{aligned}
\frac{D}{Dy^k}\frac{D}{Dy^l} V^i
&= \frac{D}{Dy^k}\left( V^i_{,l} + \Gamma^i_{lj}V^j \right) \
&= V^i_{,lk} + \Gamma^i_{lj,k}V^j + \Gamma^i_{lj}V^j_{,k} + \Gamma^i_{kj}V^j_{,l} + \Gamma^i_{km}\Gamma^m_{lj}V^j \
&\quad -\Gamma^m_{kl}V^i_{,m} - \Gamma^m_{kl}\Gamma^i_{mj}V^j .
\end{aligned}
\tag{5.56}
]
此等式右边第一、第六和第七项在交换指标 (k) 和 (l) 时是对称的，第三与第四项之和同样是对称的。（这包括了所有含有 (V^i) 导数的项。）唯一不对称的项是 (\Gamma^i_{lj,k}V^j) 和 (\Gamma^i_{km}\Gamma^m_{lj}V^j)。如果我们现在减去以相反顺序求值得到的双重协变导数的类似表达式，那么所有对称项就会对消，我们便得到了黎曼张量的公式
[
R^i_{\ jkl} = \Gamma^i_{lj,k} - \Gamma^i_{kj,l} + \Gamma^i_{km}\Gamma^m_{lj} - \Gamma^i_{lm}\Gamma^m_{kj} .
\tag{5.57}
]
根据构造，该张量对其指标 (k) 和 (l) 是反对称的。

黎曼曲率张量是高斯曲率的高维推广。它涉及克里斯托费尔(Christoffel)符号的一阶导数，因此依赖于度规张量 (g_{ij}) 的二阶导数。我们可以通过乘以度规张量并收缩指标来下降第一个指标，从而得到更对称的黎曼张量
[
R_{ijkl} = g_{im} R^m_{\ jkl} .
\tag{5.58}
]
虽然并不明显，(R_{ijkl}) 还具有一些进一步的对称性。它在指标 (ij) 上是反对称的，在 (kl) 上也是反对称的，并且在交换指标对 (ij) 与 (kl) 时是对称的。它在其后三个指标上还具有循环对称性
[
R_{ijkl} + R_{iklj} + R_{iljk} = 0 ,
\tag{5.59}
]
这被称为第一比安基恒等式(Bianchi identity)。这些对称性可以通过在法坐标系中，将 (R_{ijkl}) 完全用度规张量及其二阶导数表示而最容易地展示出来。

对于在所有方向上具有恒定（均匀）曲率的空间，黎曼张量在任何坐标系下都简化为
[
R_{ijkl} = C(g_{ik}g_{jl} - g_{il}g_{jk}) ,
\tag{5.60}
]
其中 (C) 为常数。注意这一表达式与指标对称性是一致的。

黎曼曲率张量
145
5.6.1 平面极坐标下的黎曼曲率
我们在第5.5.2节已经看到，即便在欧几里得平面上，某些克里斯托费尔符号在极坐标下也是非零的。现在考察一下极坐标下的黎曼曲率张量是很有启发性的。
克里斯托费尔符号(5.53)和(5.54)仅有的非零导数为
Γϑ
rϑ,r = Γϑ
ϑr,r = −1
r2 ,
Γr
ϑϑ,r = −1 .
(5.61)
黎曼张量由方程(5.57)给出，它的所有分量都恒等于零。例如，
Rr
ϑϑr

Γr
rϑ,ϑ −Γr
ϑϑ,r + Γr
ϑrΓr
rϑ + Γr
ϑϑΓϑ
rϑ −Γr
rrΓr
ϑϑ −Γr
rϑΓϑ
ϑϑ

0 + 1 + 0 −r
1
r

−0 −0 = 0 .
(5.62)
这证实了我们在平直空间中所预期的结果。
5.6.2 球面上的黎曼曲率
二维球面是一个弯曲空间的例子，其上的非零黎曼张量可以很容易地计算出来。在角坐标下，度规张量分量为
gϑϑ = a2 ,
gϕϕ = a2 sin2 ϑ ,
gϑϕ = 0 ,
(5.63)
它们仅有的非零导数为
gϕϕ,ϑ = 2a2 sin ϑ cos ϑ .
(5.64)
因此，仅有的非零克里斯托费尔符号为
Γϕ
ϑϕ = Γϕ
ϕϑ

1
2gϕϕ(gϕϑ,ϕ + gϕϕ,ϑ −gϑϕ,ϕ)

1
2

1
a2 sin2 ϑ

(2a2 sin ϑ cos ϑ)

cos ϑ
sin ϑ
(5.65)
和
Γϑ
ϕϕ = 1
2gϑϑ(gϑϕ,ϕ + gϑϕ,ϕ −gϕϕ,ϑ) = −sin ϑ cos ϑ .
(5.66)
于是，略去为零的项，
Rϑ
ϕϑϕ

Γϑ
ϕϕ,ϑ −Γϑ
ϕϕΓϕ
ϑϕ

−cos2 ϑ + sin2 ϑ + sin ϑ cos ϑ
cos ϑ
sin ϑ

sin2 ϑ
(5.67)
并且，降下第一个指标，
Rϑϕϑϕ = gϑϑRϑ
ϕϑϕ = a2 sin2 ϑ .
(5.68)
这基本上是球面上黎曼张量唯一的分量，因为所有其他非零分量都可以通过指标的对称性与这个分量联系起来。

146
弯曲空间
二维球面具有常曲率，因为我们可以将黎曼张量写成方程(5.60)的形式：
Rϑϕϑϕ = 1
a2 (gϑϑgϕϕ −gϑϕgϕϑ) = a2 sin2 ϑ .
(5.69)
在二维情形下，(5.60)中的常数C可以认定为高斯曲率，
K =
1
a2 .
5.6.3 三维球面
另一个具有常曲率的黎曼空间例子是三维球面，或简称3-球面。它是四维欧几里得空间中半径固定为a的球面。它在广义相对论和宇宙学中有重要的应用。
欧几里得四维空间具有笛卡儿坐标(x1, x2, x3, x4)和度规δs2 = (δx1)2 + (δx2)2 + (δx3)2 + (δx4)2。通过以下公式转换到极坐标：
x1

R sin χ sin ϑ cos ϕ ,
x2 = R sin χ sin ϑ sin ϕ ,
x3

R sin χ cos ϑ ,
x4 = R cos χ .
(5.70)
然后，类似于坐标变换(5.11)的计算可得极坐标下的度规
δs2 = δR2 + R2δχ2 + R2 sin2 χ(δϑ2 + sin2 ϑ δϕ2) .
(5.71)
固定R = a，我们得到3-球面上的度规
δs2 = a2(δχ2 + sin2 χ(δϑ2 + sin2 ϑ δϕ2)) .
(5.72)
通过坐标变换r = a sin χ，可以得到3-球面度规的另一种形式。度规(5.72)变为
δs2 =
δr2
1 −Kr2 + r2(δϑ2 + sin2 ϑ δϕ2) ,
(5.73)
其中K = 1
a2。这与二维球面度规(5.21)相对应。3-球面的任何赤道切片，例如切片ϑ = π
2，都是一个具有高斯曲率K的二维球面。取极限K →0，我们就恢复了欧几里得三维空间度规(5.12)。
3-球面度规的最后一种形式，我们不准备明确推导，但它等价于二维球面度规(5.26)，即
δs2 = a2
δx2 + δy2 + δz2
1 + 1
4(x2 + y2 + z2)
2 = a2
δx · δx
1 + 1
4x · x
2 .
(5.74)
这个公式表明3-球面是一个共形平直空间。当x的取值范围覆盖整个（标准）三维空间时，除了一个点之外，整个球面都被覆盖到了。
5.7 测地线方程
有了黎曼及其后继者建立的一些工具，我们现在来考察粒子如何在弯曲空间中运动。首先，我们需要理解路径

测地线方程
147
在一个具有坐标 (y^i) 和度规张量 (g_{ij}) 的黎曼空间中。连接端点 G 和 H 的路径总长度 (s) 由以下积分给出²：
[
s = \int_{G}^{H} ds = \int_{G}^{H} \sqrt{g_{jk}(y) , dy^j , dy^k}.
\tag{5.75}
]
如果我们沿路径引入一个参数 (\lambda)，那么路径由矢量函数 (y(\lambda) = (y^1(\lambda), y^2(\lambda), y^3(\lambda))) 给出，进而我们可以将路径长度转化为一个常规积分：
[
s = \int_{\lambda(G)}^{\lambda(H)} \sqrt{g_{jk}(y(\lambda)) \frac{dy^j}{d\lambda} \frac{dy^k}{d\lambda}} , d\lambda,
\tag{5.76}
]
实际上，该积分与参数化方式的选择无关。特别重要的是连接 G 到 H 的测地线或最短路径。这通过对 (s) 求极小值得到。

我们可以很自然地预期，正如平坦空间中的自由运动粒子沿直线运动一样，弯曲空间中的自由运动（惯性）粒子遵循测地线运动。因此，我们可以通过对粒子的作用量求极小值，而不是通过对路径长度 (s) 求极小值，来推导测地线方程。

考虑一个质量为 (m) 的粒子沿着路径 (y(t)) 从 G 运动到 H，其中参数 (t) 现在是时间。该粒子的速率为：
[
\frac{ds}{dt} = \sqrt{g_{jk}(y(t)) \frac{dy^j}{dt} \frac{dy^k}{dt}},
\tag{5.77}
]
其动能是质量乘以速率平方的一半：
[
\frac{1}{2}m \left( \frac{ds}{dt} \right)^2 = \frac{1}{2}m , g_{jk}(y(t)) \frac{dy^j}{dt} \frac{dy^k}{dt}.
\tag{5.78}
]
通过与平坦空间中粒子运动的表达式 (2.53) 类比，我们将粒子的作用量定义为：
[
S = \int_{t_0}^{t_1} \frac{1}{2}m , g_{jk}(y(t)) \frac{dy^j}{dt} \frac{dy^k}{dt} , dt,
\tag{5.79}
]
被积函数，即拉格朗日量，正是动能。如果粒子受到势能的影响，那么 (S) 会有进一步的贡献。如常，最小作用量原理要求真实的粒子运动是使 (S) 取极小值的路径 (y(t))。

路径长度和作用量在几何上都是有意义的，因为它们不依赖于所使用的坐标系。这是因为它们都是由一个基本的几何量——无穷小距离 (ds)——构建而成的。作用量 (S) 比路径长度 (s) 更易于使用，因为它不包含平方根，但与路径长度不同，(S) 确实依赖于参数化方式。(t) 不仅仅是沿路径的任意参数，而是物理时间。

² 在积分中，使用 (ds) 而不是 (\delta s) 来表示无穷小长度元更有意义。

148
弯曲空间

粒子的运动方程是由作用量 (S) 导出的欧拉-拉格朗日方程（通过变分法得到），即
[
\frac{d}{dt}\left( m, g_{lj}(y) \frac{dy^{j}}{dt} \right) - \frac{\partial}{\partial y^{l}}\left( \frac{1}{2}m, g_{jk}(y) \frac{dy^{j}}{dt} \frac{dy^{k}}{dt} \right) = 0 .
\tag{5.80}
]
（注意 (m) 消掉了。）将导数展开，运动方程变为
[
g_{lj} \frac{d^{2}y^{j}}{dt^{2}} + \left( g_{lj,k} - \frac{1}{2} g_{jk,l} \right) \frac{dy^{j}}{dt} \frac{dy^{k}}{dt} = 0 .
\tag{5.81}
]
括号中的第一项来源于 (g_{lj}(y)) 通过 (y(t)) 的时间依赖关系，它关于 (j) 和 (k) 并不对称；但由于它乘以对称的 (\frac{dy^{j}}{dt} \frac{dy^{k}}{dt})，我们可以显式地将这一项对称化，得到
[
g_{lj} \frac{d^{2}y^{j}}{dt^{2}} + \frac{1}{2} (g_{lj,k} + g_{lk,j} - g_{jk,l}) \frac{dy^{j}}{dt} \frac{dy^{k}}{dt} = 0 .
\tag{5.82}
]
然后乘以逆度规 (g^{il})，给出
[
\frac{d^{2}y^{i}}{dt^{2}} + \frac{1}{2} g^{il} (g_{lj,k} + g_{lk,j} - g_{jk,l}) \frac{dy^{j}}{dt} \frac{dy^{k}}{dt} = 0 .
\tag{5.83}
]
第二项包含逆度规与度规一阶导数的组合，这应该是我们熟悉的。它是一个克里斯托费尔符号（Christoffel symbol），正如第5.5.1节所导出的那样，因此运动方程的最终形式为
[
\frac{d^{2}y^{i}}{dt^{2}} + \Gamma^{i}_{jk} \frac{dy^{j}}{dt} \frac{dy^{k}}{dt} = 0 .
\tag{5.84}
]
这就是测地线方程。它的解描述粒子沿测地线运动。

方程(5.84)是弯曲空间中运动与平直空间中自由粒子运动方程的类比；后者在笛卡尔坐标下为 (\frac{d^{2}x^{i}}{dt^{2}} = 0)，表明粒子没有加速度，并沿直线运动。如果我们在 (P) 点附近采用法坐标系，则所有克里斯托费尔符号 (\Gamma^{i}_{jk}) 在 (P) 点为零，因此对于任何测地线运动，在 (P) 点的加速度 (\frac{d^{2}y^{i}}{dt^{2}}) 也为零。通过考虑沿粒子轨迹改变到局部法坐标的整个坐标变换族，我们发现在任何地方都没有真正的加速度，因此没有真正的力在作用。这是测地线运动的特征。然而，我们通常希望在围绕粒子轨迹的扩展区域内使用单一坐标系，此时就会出现非零的坐标加速度，它由方程(5.84)的第二项主导。我们说这些加速度是由虚拟力产生的。注意，它们对速度分量 (\frac{dy^{i}}{dt}) 是二次的。

测地线运动以恒定的速率进行，该速率由方程(5.77)给出。这可以从几个方面来理解。可以直接验证
[
\frac{d}{dt}\left( g_{jk}(y(t)) \frac{dy^{j}}{dt} \frac{dy^{k}}{dt} \right) = 0 ,
\tag{5.85}
]
这需要使用测地线方程(5.84)以及用度规表示的 (\Gamma^{i}_{jk}) 公式。更简单地说，正如上一段所论证的，在法坐标系中，速率显然……

测地线方程

由于加速度为零，速度恒定。最后，因为能量纯粹是动能，能量守恒等价于速率守恒。

设$\lambda$是沿测地线的长度参数，而非任意参数。由于测地线运动以恒定速率进行，$\lambda$是$t$的常数倍。因此，测地线方程的几何形式为
[
\frac{d^2 y^i}{d\lambda^2} + \Gamma^i_{jk} \frac{dy^j}{d\lambda} \frac{dy^k}{d\lambda} = 0,
\tag{5.86}
]
再结合长度与度规关系的辅助表达式：
[
g_{jk}(y) \frac{dy^j}{d\lambda} \frac{dy^k}{d\lambda} = 1.
\tag{5.87}
]

\subsection*{5.7.1 平面极坐标中的测地线}

作为例证，我们考虑平面中采用极坐标$r$和$\vartheta$的测地线方程。

常数$r$的圆不是测地线。一个粒子以恒定角速度沿这样的圆运动时，没有坐标加速度，但它受到一个真实的径向向内的力，正如我们在第2.6节讨论圆轨道时所看到的那样。另一方面，测地线运动涉及坐标加速度。在第5.5.2节中，我们发现非零的克里斯托费尔(Christoffel)符号为
[
\Gamma^r_{\vartheta\vartheta} = -r, \quad \Gamma^\vartheta_{r\vartheta} = \frac{1}{r},
\tag{5.88}
]
如果将这些代入方程(5.84)，我们得到测地线方程的两个分量：
[
\frac{d^2 r}{dt^2} - r \left( \frac{d\vartheta}{dt} \right)^2 = 0, \quad \frac{d^2 \vartheta}{dt^2} + \frac{2}{r} \frac{dr}{dt} \frac{d\vartheta}{dt} = 0.
\tag{5.89}
]
这些方程包含了由离心力$mr \left( \frac{d\vartheta}{dt} \right)^2$和科里奥利力$-\frac{2m}{r} \frac{dr}{dt} \frac{d\vartheta}{dt}$引起的坐标加速度。这些都是虚拟力的例子。离心力沿径向向外。虽然不明显，但求解这些方程得到的测地线是平面中的直线。

\subsection*{5.7.2 测地线偏离方程}

如果平面中的两条直线平行，它们之间的距离是固定的。如果它们相交，则它们的间距以恒定速率增加或减小，如图5.13所示。设$\lambda$为沿两直线距离的参数，并设$\eta(\lambda)$为两直线上对应点之间的间距。那么$\frac{d\eta}{d\lambda}$为常数。再次求导得到

图5.13

[
\frac{d^2 \eta}{d\lambda^2} = 0,
\tag{5.90}
]
这是测地线偏离方程的一个相当平凡的例子。

现在我们来确定半径为$a$的球面上的测地线偏离，其中测地线是大圆。考虑两条这样的测地线，它们在北(North)极以角度$\phi$相交，如图5.14所示。它们的间距先增大，直到到达赤道，然后减小，直到在南(South)极再次相遇。计算测地线之间的间距$\eta$是很直接的。如果我们再次用$\lambda$参数化沿测地线的距离，那么

图5.14

[
\eta(\lambda) = \left( a \sin \frac{\lambda}{a} \right) \phi.
\tag{5.91}
]
对$\lambda$求导两次，我们得到
[
\frac{d^2 \eta}{d\lambda^2} + \frac{1}{a^2} \eta = 0,
\tag{5.92}
]
或等价地
[
\frac{d^2 \eta}{d\lambda^2} + K \eta = 0,
\tag{5.93}
]
其中$K = \frac{1}{a^2}$是高斯(Gaussian)曲率。这就是球面上的测地线偏离方程。

为了确定一般黎曼(Riemannian)空间中的测地线偏离方程，我们进行类似的但不那么明确的计算。我们取一条测地线$y(\lambda)$，以及附近的一条测地线$y(\lambda) + \eta(\lambda)$，它们之间相隔一个小向量$\eta$。

测地线方程
151
这些分别满足测地线方程
[
\frac{d^2 y^i}{d\lambda^2} + \Gamma^i_{jk}(y)\frac{dy^j}{d\lambda}\frac{dy^k}{d\lambda} = 0 \tag{5.94}
]
及其邻近变体
[
\frac{d^2 (y+\eta)^i}{d\lambda^2} + \Gamma^i_{jk}(y+\eta)\frac{d(y+\eta)^j}{d\lambda}\frac{d(y+\eta)^k}{d\lambda} = 0 . \tag{5.95}
]
将方程(5.95)展开至 (\eta) 的线性阶，并减去方程(5.94)，我们得到关于 (\eta) 的线性方程：
[
\frac{d^2 \eta^i}{d\lambda^2} + \Gamma^i_{jk,l} \eta^l \frac{dy^j}{d\lambda}\frac{dy^k}{d\lambda} + 2\Gamma^i_{jk}\frac{dy^j}{d\lambda}\frac{d\eta^k}{d\lambda} = 0 . \tag{5.96}
]
这里我们略去了 (\eta) 的二次及更高阶项，并省略了克里斯托费尔符号(Christoffel symbols)对 (y) 的依赖关系。该方程并非明显几何的或协变的，但可以利用黎曼张量(Riemann tensor)将其改写成更为简洁的形式。

为证明这一点，我们需要曲线 (y(\lambda)) 上协变导数(covariant derivative)的概念。对于场 (V^i)，沿曲线的协变导数记作 (\frac{DV^i}{D\lambda})，它是空间中沿曲线方向的协变导数的投影：
[
\frac{DV^i}{D\lambda} = \frac{DV^i}{Dy^j}\frac{dy^j}{d\lambda} = \left(\frac{\partial V^i}{\partial y^j} + \Gamma^i_{jk}V^k\right)\frac{dy^j}{d\lambda} = \frac{dV^i}{d\lambda} + \Gamma^i_{jk}V^k \frac{dy^j}{d\lambda}. \tag{5.97}
]
最后一个表达式包含了沿曲线的 (V^i) 及其导数 (\frac{dV^i}{d\lambda})。因此，它对于仅定义在曲线上而非全空间的矢量量特别有用。这种矢量的一个例子是沿测地线运动的粒子的速度 (\frac{dy^i}{dt})。

测地线运动方程(5.84)可以重新表达为
[
\frac{D}{Dt}\frac{dy^i}{dt} = 0 , \tag{5.98}
]
因此不仅粒子的速率是常数，速度矢量也是协变常矢量。

测地线偏离矢量(geodesic deviation vector) (\eta) 仅定义在测地线上。它沿测地线的协变导数为
[
\frac{D\eta^i}{D\lambda} = \frac{d\eta^i}{d\lambda} + \Gamma^i_{jk}\eta^k \frac{dy^j}{d\lambda}, \tag{5.99}
]

152
弯曲空间
且由于这也是沿测地线的矢量，有进一步的协变导数：
D2ηi
Dλ2

d
dλ
dηi
dλ + Γi
jkηk dyj
dλ

+ Γi
jk
dηk
dλ + Γk
lmηm dyl
dλ
dyj
dλ

d2ηi
dλ2 + Γi
jk,l
dyl
dλ ηk dyj
dλ + 2Γi
jk
dηk
dλ
dyj
dλ + Γi
jkηk d2yj
dλ2
+Γi
jkΓk
lmηm dyl
dλ
dyj
dλ .
(5.100)
现在可以利用方程(5.96)消去项 d2ηi
dλ2 + 2Γi
jk
dηk
dλ
dyj
dλ ，并利用方程(5.94)消去 d2yj
dλ2 。方程(5.100)于是变为
D2ηi
Dλ2 = (Γi
lj,k −Γi
kj,l + Γi
kmΓm
lj −Γi
lmΓm
kj)dyj
dλ
dyk
dλ ηl .
(5.101)
涉及克里斯托费尔符号的项恰好组合成黎曼曲率张量，因此最终有
D2ηi
Dλ2 = Ri
jkl
dyj
dλ
dyk
dλ ηl .
(5.102)
这一张量方程在所有坐标系中都成立，是测地线偏离方程的协变形式。它将球面上涉及高斯曲率的结果(5.93)推广到任意高维弯曲空间。我们稍后会用这个方程来研究广义相对论中的潮汐力。

5.8 应用

构型空间

弯曲黎曼几何有一些有趣的物理应用，与爱因斯坦的弯曲时空和引力理论毫无关系。

至少在极好的近似下，空间是欧几里得的。当我们对欧几里得空间中 N 个粒子的运动进行建模时，这些粒子的 3N 个笛卡尔坐标的几何仍然是欧几里得的。不过，粒子间的相互作用有时强到使得粒子集体表现得像一个单一物体，其构型由少量集体坐标描述。所有构型的集合构成构型空间，而其几何往往是弯曲的。

一个经典例子是有限大小的刚体，它由无数个单独粒子组成。该物体可以有任意固定的形状。它可以自由运动，如同行星穿过空间，也可以受到约束，就像一个只能在给定平面内摆动的摆。将这样的物体视为刚体是一种近似，当其作为刚体运动的频率远小于弹性、形状变化的振动频率时成立。不用说，作用力必须远小于那些会使它振动或破裂的力。

确定刚体构型所需的最大集体坐标数是六——三个用于质心位置，三个用于物体取向。质心的行为就像单个粒子的位置，而

应用
153
其几何结构是三维空间的平直几何，因此我们假设质心固定并忽略它。朝向由三个角度确定。例如，对于地球，需要指定自转轴在天球上指向的点。观测到该点靠近北极星，并由两个角坐标 ϑ, ϕ 参数化。另一个角度 ψ 参数化地球绕其自转轴的朝向；这个角度在持续增加，周期为24小时。角度 ϑ 和 ϕ 几乎恒定，但它们确实在缓慢变化，时间尺度达数千年。
这三个角度 ϑ, ϕ, ψ 被称为欧拉角 (Euler angles)，它们各自具有有限的范围。它们是刚体朝向构形空间上的集体坐标，该空间是一个弯曲的三维黎曼空间，几何上与二维球面相关。
通过仔细选择体轴，我们可以更明确地表示构形空间上的度规。该度规可能相当复杂，但如果物体绕某一轴对称，则会简化。地球，由于其略微扁平的扁球体形状，提供了一个具有启发性的例子。在这种情况下，度规具有如下形式
δs² = I₁(δϑ² + sin² ϑ δϕ²) + I₃(δψ + cos ϑ δϕ)² .
(5.103)
我们是如何得到这个式子的？它通过计算物体的动能推导而来。当物体旋转时，三个角度都是时间的函数。构成物体的所有粒子都在运动，我们可以计算每个粒子的瞬时线速度。然后通过积分，可以求出总动能。结果取决于粒子在物体中的分布方式及其质量，但最终只涉及两个与物质分布相关的常数 I₁ 和 I₃。（如果物体没有旋转对称轴，则还有一个独立的常数 I₂。）这些常数被称为转动惯量 (moments of inertia)。我们发现物体的总动能具有如下形式
K = ½ I₁ [ (dϑ/dt)² + sin² ϑ (dϕ/dt)² ] + ½ I₃ ( dψ/dt + cos ϑ dϕ/dt )² .
(5.104)
去掉 ½ 和时间导数，我们就得到了度规 (5.103)。
对于密度均匀且具有某种对称性的物体，转动惯量的计算并不困难。对于被限制在其自身平面内运动的薄二维物体，情况也会简化，此时只有一个朝向角。在所有情况下，我们都可以从动能中读出一个黎曼度规。
如果物体自由旋转，且没有力作用，那么该物体的运动就是构形空间上以此度规进行的测地运动。这是因为动能 K 就是完整的拉格朗日量 (Lagrangian)。求解这些角度的运动方程是可能的，但有一个更简单的中间步骤，即求解绕每个轴的角速度方程。绕对称轴的运动尤为简单：此时只有一个角度随时间变化，且角速度恒定。一般的运动并非绕对称轴，且轨迹在任何有限时间后都不会闭合。但它仍然是测地运动，因为轨迹的任何一小段始终是该段两端点之间的最短路径。
刚体的拉格朗日量可能除了动能项 K 之外还有一个势能项 V。这会产生一个力，或者更准确地说，一个力矩。标准例子是

154
弯曲空间
下现蜃景
冷空气
光线
来自天空
热空气
虚像
直视
天空
图5.15 蜃景。

图5.15

对于一个支点固定在桌面上的陀螺，它的位形仍然由三个角度确定，但质心的高度可变，因此存在依赖于其中一个角度的引力势能。
这些概念可以推广到刚性稍弱的物体，例如由柔性关节连接的两个刚体。这种复合物体可以用来模拟分子。同样，从动能可以导出一个黎曼几何。如果需要更多的坐标来完全确定系统在任意时刻的位形，位形空间的维数就会增加。这种几何观点的一个优点是，拉格朗日量和由此得到的动力学与坐标的选择无关。

几何光学
测地线和黎曼几何的一个相当不同的应用，是费马(Fermat)的光线最小传播时间原理。之前在1.1.1节中，我们考虑了两种均匀光学介质，它们以不同的光速在一个平面上相遇。当光线从一种介质进入另一种介质时会发生折射。介质的折射率 n = c/v 是真空光速 c 与介质中光速 v 之比。在我们的单位制中 c = 1 且 v ≤ 1，所以 n ≥ 1，且仅在真空中等于1。现在假设介质的折射率 n(x) 在空间中连续变化。局部光速为 1/n(x)，因此光在 x 附近传播无穷小距离 ds 所需的时间为 n(x)ds。
光沿着路径 x(t) 在介质中从 A 传播到 B 所需的总时间为
T =
∫ B
A
n(x(t)) ds =
∫ B
A
n(x(t)) ds
dt dt .
(5.105)
等价地，引入欧几里得度量，它可以写成
T =
∫ B
A
n(x(t))
√
δij
dxi
dt
dxj
dt dt ,
(5.106)
或者改写为
T =
∫ B
A
√
n2(x(t)) δij
dxi
dt
dxj
dt dt .
(5.107)

应用
155
图5.16 双曲3-空间中正二十面体蜂窝 {3,5,3} 的庞加莱(Poincaré)球模型。

图5.16

时间 T 变成了几何修正空间中的距离，该空间的度规张量为 gij(x) = n²(x) δij。费马原理指出，真实的光线就是该度规下的测地线。它们在周围的欧几里得3-空间中通常是弯曲的。
gij(x) 是共形平坦的，因为它只是欧几里得度规张量 δij 乘上了一个共形因子 n²(x)，因此克里斯托费尔(Christoffel)符号相对简单。它们是
Γi
jk = 1
n (n,j δi
k + n,k δi
j − n,m δimδjk) ,
(5.108)
决定光线的测地线方程为
d²xi
dt² + 2
n n,j
dxj
dt
dxi
dt − 1
n n,m δimδjk
dxj
dt
dxk
dt = 0 .
(5.109)
这也可以用矢量符号写为
a + 2
n (∇n · v)v − 1
n (v · v)∇n = 0 ,
(5.110)
其中 v 是光的速度，a 是光的加速度。这里的守恒量是 n² v·v，它等于1。

当 n 是离地高度的函数时，由此得到的测地线可以解释蜃景。靠近炎热地面的空气比高处更稀薄。折射率更低，光速更快。梯度 ∇n 指向上方。因此掠射光会向远离地面的方向弯曲，如图5.15所示。当向远处的地面望去时，看到的是明亮的天空而不是黑暗的地面。这看起来就像是天空在一片水面上的倒影。

图5.15

156
弯曲空间
图 5.17 理想化的鱼眼镜头。

图 5.17

图 5.18 鱼眼镜头拍摄的照片。

图 5.18

我们之前遇到过的共形平坦几何的例子包括 2-球面和 3-球面，以及双曲平面。另一个例子是具有恒定负曲率的双曲 3-空间，其度规是 (5.30) 的简单推广，
δs² = (δx² + δy² + δz²) / (1 − (1/4)(x² + y² + z²))², (5.111)
这里我们已将常数比例因子设为 1。坐标被限制在半径为 2 的球体内部，但真实的几何是无限延伸的。该球体的赤道切片是双曲平面，

延伸阅读
157
并且和之前一样，测地线是与边界球面正交的圆弧段。图 5.16 展示了双曲 3-空间中的一个蜂巢结构，其所有边都是测地线。

图 5.16

这个度规可以解释为描述了一种光学介质，该介质在欧几里得 3-空间中是一个普通的球体，但其折射率为
n(x, y, z) = 1 / (1 − (1/4)(x² + y² + z²)). (5.112)
在球体的正中心，折射率为 1，所以这里的介质接近真空；但在球体边界处，折射率趋于无穷大，因此光在边界处速度降为零。光线遵循双曲 3-空间的圆形测地线，但从一个边界传到另一个边界需要无限长的时间。
对于一个比此稍小的球体，我们在图 5.17 中展示了一组光线，它们全都终止于观察者靠近边界的眼睛。这个球体允许观察所有方向。事实上，它是一个理想化的鱼眼镜头。实际制造的鱼眼镜头由数层圆润的玻璃构成，越往外折射率越高，而光线的路径与图 5.17 所示情况并没有太大区别。图 5.18 展示了一张用鱼眼镜头拍摄的照片。

图 5.18

图 5.17

5.9
延伸阅读
J.M. 李(J.M. Lee)，《黎曼流形：曲率导论》(Riemannian Manifolds: An Introduction to Curvature)，纽约：施普林格出版社(Springer)，1997年。
J. 奥普雷亚(J. Oprea)，《微分几何及其应用》(Differential Geometry and its Applications)（第二版），华盛顿特区：美国数学协会(The Mathematical Association of America)，2007年。

6_General_Relativity

6
广义相对论
6.1
等效原理
在他的狭义相对论发展之后，爱因斯坦(Einstein)清楚地认识到，需要一种新的引力理论来完成他的革命。在牛顿(Newton)的理论中，引力似乎瞬时地超距作用，而狭义相对论的基石是任何相互作用的最大速度都是光速。在狭义相对论发表后的几年里，人们进行了各种尝试，试图将相互作用的有限速度纳入引力理论，但这些早期的想法被证明过于简单化。

引力在各类力中是特殊的，因为它对所有有质量物体的作用方式相同。这一观察可以追溯到伽利略(Galileo)让球滚下斜面的实验。伽利略确凿地证明，如果不受其他力作用，质量不同的球同时释放并在引力作用下下落，会在同一时刻落地。

这一观察在牛顿物理学中通过牛顿第二定律(2.3)和牛顿万有引力定律(2.80)之间质量的抵消来解释。在牛顿第二定律中，加速度等于施加的力除以被加速物体的质量。在这个角色中，质量被称为惯性质量(inertial mass)，因为它的作用是抵抗物体运动的变化。值得注意的是，物体所受的引力也与其质量成正比。在这个角色中，质量被称为引力质量(gravitational mass)。原则上，不同材料构成的不同物体，其惯性质量与引力质量的比值可能不同，但实验上这个比值总是1，因此我们可以认为惯性质量与引力质量相同。

因此，在引力场中的运动与质量无关。例如，在地球表面附近，自由落体的运动方程为
d2z
dt2 = −g ,
(6.1)
与质量无关。质量的抵消是引力独有的特性，因为其他力的强度与它们所作用的物体的质量无关。例如，静电力与物体的电荷成正比，而不是与质量成正比。

在牛顿的理论中，惯性质量与引力质量的相等似乎几乎是偶然的，但在1907年，爱因斯坦意识到引力的这一特性可能是新的相对论理论的完美基础。他将这一见解提升为物理学新原理的地位，并将其命名为等效原理(equivalence principle)——引力质量与惯性质量的等效性。在狭义相对论中，如同在牛顿力学中一样，无法确定一个人的绝对速度。类似地，根据等效原理，在自由下落时，无法确定一个人的绝对加速度，因为所有附近的物体都以相同的加速度下落。爱因斯坦假设，为了与物理学的其余部分保持一致，这一

牛顿引力场与潮汐力
159
该原理必须推广到所有物理定律，而不仅仅是力学。他相信，局部上不可能区分在有引力物体存在的情况下的自由下落，与在没有引力物体存在的情况下的静止状态。

爱因斯坦(Einstein)用一个思想实验对此进行了说明。想象你处在一部电缆断裂的电梯中。随着电梯下落，乘员会感到失重，就像引力不存在一样。原因是电梯以及其中的一切，包括乘员身体的每一部分，都以相同的向下加速度 g 下落。我们总能为一个下落物体找到一个坐标系，使得在该坐标系中不存在瞬时加速度。在均匀引力场中，合适的坐标变换是从 (z, t) 到 (y, t)，其中
y = z + 1
2gt^2 .
(6.2)
于是有 d^2y/dt^2 = d^2z/dt^2 + g，这样方程 (6.1) 就变换成了运动方程
d^2y/dt^2 = 0 .
(6.3)
坐标变换消除了引力的效应。这使得引力让人联想起我们在 5.7 节中考虑过的虚拟力，它们源于坐标系的选择。方程 (6.3) 的解代表了具有任意恒定速度的运动。因此，自由下落物体的相对运动具有恒定速度，这与物体在没有引力的情况下自由运动的情形完全相同。

我们感觉不到引力。只有当其他力作用时我们才能意识到它，比如在地球表面，我们的自由下落被地面的刚性所阻止，而我们自然的参考系是非惯性系。在发展广义相对论的过程中，爱因斯坦将发现一种完全不借助引力来模拟引力的方法。

6.2 牛顿引力场与潮汐力
为了理解广义相对论，首先将牛顿引力重新表述为一种场论是很有帮助的。这对于运动速度远小于光速的大质量物体非常有效，而且许多细节实际上与静电学非常相似。重要的是要认识到，在地球附近，引力是微弱的。例如，一颗自由下落的卫星绕地球运行大约需要 90 分钟，但一束光线传播相同距离只需要大约 0.1 秒，因此卫星的运动相对较慢。

一个物体对另一个物体施加的牛顿引力由一个平方反比力 (2.80) 描述。它与两物体质量的乘积成正比，与它们之间距离的平方成反比。这类似于两个电荷之间的库仑力 (3.86)，它与电荷的乘积成正比，与它们距离的平方成反比。与静电力类似，作用在一个物体上的引力可以解释为由所有其他大质量物体产生的引力场所致。

我们在 3.6 节中看到，任何静态的电荷分布都会产生一个电场，它是势的负梯度，而这个势的最重要性质是，在远离电荷源的地方，它满足拉普拉斯方程。牛顿引力非常类似。引力场是一个势 φ(x) 的负梯度。

160
广义相对论
位于原点处的点质量 ( M ) 所产生的势是
[
\varphi(\mathbf{x}) = -\frac{GM}{r},
\tag{6.4}
]
其中 ( G ) 是牛顿万有引力常数，而 ( r = |\mathbf{x}| ) 是到该质量的距离。¹ 该势的梯度就是作用在单位质量上的平方反比力。此外，除原点外，该势满足拉普拉斯方程 ( \nabla^2 \varphi = 0 )。更一般地，由密度为 ( \rho(\mathbf{x}) ) 的物质分布产生的引力势 ( \varphi(\mathbf{x}) ) 满足泊松方程
[
\nabla^2 \varphi = 4\pi G \rho .
\tag{6.5}
]
对于作为延展物体或点质量集合的源，( \varphi(\mathbf{x}) ) 一般不是球对称的。在点 ( \mathbf{x} ) 处、质量为 ( m ) 的检验物体，因所有其他物体而受到的引力为
[
\mathbf{F} = -m \nabla \varphi ,
\tag{6.6}
]
其中 ( \nabla \varphi ) 取在 ( \mathbf{x} ) 处。因此，该物体的加速度是
[
\mathbf{a} = - \nabla \varphi .
\tag{6.7}
]
如果引力势的源分布在某个有限区域内，那么在远大于这些源之间间隔的距离上，它们所产生的总势会变得均匀。这通常通过施加边界条件 ( \varphi(\mathbf{x}) \to 0 )（当 ( |\mathbf{x}| \to \infty ) 时）来建模。

即使没有检验物体，矢量场 ( -\nabla \varphi ) 也可以被视作一种弥漫于空间的物理引力场。处理势 ( \varphi ) 往往比处理作为其源的物体及其组成部分更容易。例如，要描述地球外部的引力场，我们只需考虑拉普拉斯方程在 ( |\mathbf{x}| \to \infty ) 时趋于零的通解。这个解是无穷多项的和，这些项随着到地球中心距离的逆幂次增加而趋于零。它们的系数可以通过观测沿轨道运行的卫星的运动来确定。由于地球在很好的近似下是球形的，势 ( \varphi ) 主要由球对称项 ( -\frac{GM}{r} ) 决定；修正项取决于地球形状对球形的偏离，以及地球质量的不对称分布。精确了解该势对卫星导航和 GPS 系统至关重要，并能够告知我们一些关于地球内部结构的信息。

在任意点附近，势 ( \varphi(\mathbf{x}) ) 有一个局部展开，它决定了附近的引力场，而展开式中的前两三项就足以描述其主要效应。设 ( P ) 为刚好在地球表面上方的一点，并被选为笛卡尔坐标系 ( (x, y, z) ) 的原点。在 ( P ) 附近，
[
\varphi \simeq \varphi_0 + g z + \frac{1}{2} h (x^2 + y^2 - 2z^2)
\tag{6.8}
]
其中 ( g ) 和 ( h ) 为正常数。（注意，( x^2 + y^2 - 2z^2 ) 满足拉普拉斯方程，但 ( x^2 )、( y^2 ) 和 ( z^2 ) 单独并不满足。）常数 ( \varphi_0 ) 对引力

¹ 按照惯例，这里没有 ( 4\pi ) 因子。

牛顿引力场与潮汐力
161
图6.1 除了两个落向地球的物体所受到的向下加速度之外，还存在一个相对的横向加速度。

图6.1

场。第二项描述的是紧贴地表上方我们熟悉的场，其中势正比于高度 z，其梯度为矢量 (0, 0, g)，产生一个大小为 g 的向下加速度。然而，引力并非完美均匀。空间上分离的物体感受到的力并不相同，它们之间将存在相对加速度。势 (6.8) 中的第三项体现了这一点。它的梯度是 (hx, hy, −2hz)，因此总加速度为 a = (−hx, −hy, −g + 2hz)。向下的引力加速度 g − 2hz 在 P 点上方减小，在 P 点下方增大，并且存在一个大小为 h√(x²+y²) 的指向 z 轴的横向加速度。这正确地描述了两个或多个物体落向地心时的相对运动，如图 6.1 所示。

图 6.1

展开式 (6.8) 中的线性项决定了局域的、近似均匀的引力场，而二次项则决定了其空间变化。尽管线性项的效应总可以通过坐标变换消除，如方程 (6.3) 所示，但一般而言，二次项的效应无法消除。这些二次项导致了潮汐效应。月球在地球附近产生的潮汐是一个典型的例子，如图 6.2 所示。将地球朝向月球一侧（近侧）的物体所受到的额外加速度，与背向月球一侧（远侧）的额外加速度进行比较。这种差异被称为潮汐加速度，最初由牛顿(Newton)用来解释潮汐现象。在近侧，海洋发生流动是因为月球对它们的拉力大于对地球主体的平均拉力；而在远侧，海洋发生流动是因为它们受到的拉力小于地球主体。相对加速度的方向背离地心。除了沿地月轴线的这些效应之外，在垂直于地月轴线的方向上还存在横向的潮汐力，如图 6.2 所示。固态的地球也会因月球的拉力而发生变形，但变形幅度不足以让我们察觉到。

图 6.2

月球产生的引力场正比于 GM/r²，其中 r 是到月球的距离，M 是月球的质量。地球的直径相对于地月距离来说很小，因此地球两侧加速度的差异正比于 GM/r² 的导数。因此，潮汐效应的大小为 GM/R³ 量级，其中 R 是地月距离。

162
广义相对论
图6.2 地球在月球引力场中的潮汐拉伸与挤压（极度夸张）。

图6.2

爱因斯坦(Einstein)意识到，由于潮汐力的作用，两个在引力场中最初沿平行欧几里得直线自由运动的检验粒子的轨迹，通常不会保持平行。这与5.7.2节中描述的、在弯曲空间中粒子轨迹的测地线偏离非常相似。因此，爱因斯坦提出了一个惊人的设想：引力可以用弯曲时空来描述。在这种图景下，大质量自由落体沿着时空中的测地线运动，而潮汐加速度则源于时空曲率。
作为进一步讨论弯曲时空的预备，我们将描述一些平直闵可夫斯基空间的几何。
6.3 闵可夫斯基空间
在第4章讨论狭义相对论时，我们看到了将空间和时间缝合在一起，形成被称为闵可夫斯基空间(Minkowski space)的四维时空的优势。在闵可夫斯基空间中，事件(t, x)和(t + dt, x + dx)之间的无穷小间隔的平方为
dτ² = dt² − dx · dx 。
(6.9)
这类似于欧几里得三维空间中无穷小距离的平方ds² = dx · dx。²
间隔的平方dτ²是洛伦兹不变的，这意味着它对于所有做匀速相对运动的惯性观测者都是相同的，即使他们对各自的时间和空间坐标的理解可能不同。
如果dτ²为正，则其正平方根dτ被称为这两个事件的原时(proper time)间隔。使得dτ²为正的无穷小矢量(dt, dx)称为类时的(time-like)，而使得dτ²为负的则称为类空的(space-like)。使得dτ²为零的矢量是类光的(light-like)，它们位于一个称为光锥(lightcone)的双锥面上，如图6.3所示。

图6.3

² 从这里开始，我们将无穷小间隔表示为dτ，将无穷小距离表示为ds，而不再使用δτ或δs的记号。

闵可夫斯基空间(Minkowski Space)
163
OBSERVER
TIME
SPACE
HYPERSURFACE OF THE PRESENT
SPACE

P
AS
T
LI
G
H
T
C
O
N
E

F
U
T
U
R
E
LI
G
H
T
C
O
N
E
图6.3 光锥(lightcone)。光线沿光锥传播。有质量物体的轨迹在整个时空中必须始终位于局部光锥之内。

图6.3

考虑一条以λ参数化的弯曲世界线 X(λ) = (t(λ), x(λ))，其端点 X(λ₀) 和 X(λ₁) 固定。沿该世界线的固有时(proper time)为
τ = ∫_{λ₀}^{λ₁} √( (dt/dλ)² - (dx/dλ)·(dx/dλ) ) dλ . (6.10)
如果 X(λ) 是有质量粒子的路径，平方根符号下的量必须为正。最大化 τ 的路径是类时测地线(time-like geodesics)，它们在闵可夫斯基空间中为直线，表示粒子以恒定速度运动。还存在被积函数为零的测地线，此时 τ 也为零。这类测地线是类光的(light-like)，对应于光线。另有一些路径使得方程 (6.10) 中的被积函数是对负数取平方根，这种情况下 τ 为虚数。此类路径称为类空的(space-like)，没有任何物理事物能沿其运动。

沿着粒子测地线，τ 被最大化而非最小化的原因很容易理解。在粒子的静止参考系中，世界线是一条平行于时间轴的直线，对于这样的轨迹，无穷小固有时为 dτ = dt。路径的任何偏离都会给 dτ² 引入负的空间贡献，从而减小 τ。由于 τ 在洛伦兹变换(Lorentz transformation)下是不变量，此结果对所有观测者都成立。

我们将采用统一记号 x^μ = (x⁰, x¹, x², x³) 来表示四维闵可夫斯基空间中的坐标，其中 x⁰ = t 为时间坐标，(x¹, x², x³) 为空间坐标。它们通过洛伦兹变换混合。通常，在下文中，希腊指标如 μ 和 ν 将遍历 0 到 3。一个四矢量带有一个希腊指标，而张量带有两个或更多此类指标。闵可夫斯基空间中的平方无穷小间隔 (6.9) 可用度规张量(metric tensor) η_μν 表示为
dτ² = η_μν dx^μ dx^ν = (dx⁰)² - (dx¹)² - (dx²)² - (dx³)² . (6.11)
这就是所谓的闵可夫斯基时空度规(Minkowski spacetime metric)。该度规张量是对角的，其分量为 η₀₀ = 1, η₁₁ = η₂₂ = η₃₃ = -1，而所有非对角分量为零。有时写为 η_μν = diag(1, -1, -1, -1) 更为方便。逆度规张量 η^μν 具有……

164
广义相对论
相同的分量。闵可夫斯基空间(Minkowski space)是适用于狭义相对论物理的几何，和欧几里得空间(Euclidean space)一样，它是平坦的。

6.4 弯曲时空几何
爱因斯坦(Einstein)通过将时空转变为理论的动力学部分，并允许其弯曲，从而纳入了引力。这种更一般的弯曲时空有四个坐标，我们统一地用 yµ 来标记。以 yµ 为坐标的时空点常记作 y。局部地，具有几何意义的量是坐标为 yµ 的点与坐标为 yµ + dyµ 的点之间的无穷小间隔的平方。它具有形式
dτ 2 = gµν(y)dyµdyν , (6.12)
其中 gµν(y) 是一个时空各处变化的对称 4×4 矩阵，称为时空度规张量。在任何坐标变换下，gµν 的分量以使得 dτ 2 保持不变的方式变化。

在三维黎曼几何(Riemannian geometry)中，度规张量 gij 处处正定，这意味着通过适当的坐标选择，它能被局部地化为 𝛿ij 的形式，其三个对角元均为 +1。在时空几何中，我们要求通过一个适当的坐标选择，度规张量 gµν 可以局部地化为闵可夫斯基形式 ηµν = diag(1, −1, −1, −1)。如果这个性质成立，该度规被称为洛伦兹的(Lorentzian)。一个洛伦兹度规张量 gµν 在每一点有逆 gµν。这无非是 gµν 的矩阵逆，因此 gλµgµν = δλ ν，其中克罗内克(Kronecker) delta 符号 δλ ν 如前，当指标相同时值为1，否则为0。在时空的每一点，存在无穷小的类时和类空矢量 dyµ，它们被一个由类光矢量构成的局部光锥分隔开。

在第5章，我们针对正定度规推导了黎曼几何的重要结果，例如克里斯托费尔符号(Christoffel symbols)和黎曼曲率张量(Riemann curvature tensor)的形式。然而，我们没有使用正定性，仅使用了度规的可逆性，因此所有这些结果都适用于广义相对论的洛伦兹度规。我们将假定它们从此有效，不再另作说明。克里斯托费尔符号为
Γβ λδ = 1 2 gαβ(gαλ,δ + gαδ,λ − gλδ,α) , (6.13)
而黎曼曲率张量为
Rα λγδ = Γα δλ,γ − Γα γλ,δ + Γα γβΓβ δλ − Γα δβΓβ γλ , (6.14)
其中指标遍历 0 到 3。在二维空间中，曲率完全由每一点的一个数，即高斯曲率(Gaussian curvature)决定。在四维时空中，每一点有更多的曲率分量。黎曼曲率张量 Rαλγδ 关于其前两个指标和后两个指标均是反对称的。这给出每一对有 4×3 2 = 6 个独立组合。它在交换这两个指标对下还是对称的，这将独立分量的数目减少为 6×7 2 = 21。最后，黎曼张量的分量满足第一比安基恒等式(Bianchi identity) (5.59)，
Rανγλ + Rαλνγ + Rαγλν = 0 , (6.15)
这将独立的曲率分量总数减少至20。

弯曲时空几何
165
总是可以变换到一点周围的局部坐标，使得 (g_{\mu\nu}) 具有标准闵可夫斯基形式 (\eta_{\mu\nu})，并且 (g_{\mu\nu}) 的导数为零。那么在该点克里斯托费尔符号为零。这样的坐标称为惯性系或自由落体系，类似于黎曼几何中的法坐标。惯性系的存在是等效原理的数学对应。物理上，广义相对论的克里斯托费尔符号是牛顿引力场的推广，因此它们在惯性系中为零这一事实与爱因斯坦(Einstein)的观察相符：我们在自由下落时感受不到引力。克里斯托费尔符号的一阶导数涉及度规张量的二阶导数。一般来说，它们不为零。从物理上看，这是预期的，因为正是这些导数决定了广义相对论的时空曲率和牛顿图景中的潮汐加速度。

现在考虑弯曲时空中粒子的世界线，一条参数化的类时路径 (y(\lambda))。固定端点 (y(\lambda_0)) 和 (y(\lambda_1)) 之间的积分间隔为
[
\tau = \int_{\lambda_0}^{\lambda_1} \sqrt{g_{\mu\nu}(y(\lambda)) \frac{dy^\mu}{d\lambda} \frac{dy^\nu}{d\lambda}} , d\lambda .
\tag{6.16}
]
注意，由于平方根的存在，(d\lambda) 形式上抵消，因此如果世界线重新参数化，(\tau) 保持不变。最大化 (\tau) 给出欧拉–拉格朗日方程3
[
\frac{d^2 y^\mu}{d\lambda^2} + \Gamma^\mu_{\nu\sigma} \frac{dy^\nu}{d\lambda} \frac{dy^\sigma}{d\lambda} = 0 .
\tag{6.17}
]
与黎曼几何中一样，这就是测地线方程，类似于 (5.84)，此时 (\lambda) 不再是任意的，而是与世界线上的间隔相关联。

假设一条测地线通过点 (P)。采用惯性坐标，其中 (\Gamma^\mu_{\nu\sigma} = 0)，我们看到在 (P) 点 (d^2 y^\mu/d\lambda^2 = 0)。因此世界线的每个坐标 (y^\mu) 局部上是 (\lambda) 的线性函数，正如闵可夫斯基空间中粒子的自由运动。这是等效原理所要求的运动，意味着自由下落粒子必须沿着时空中的测地线运动。

沿着测地线，量
[
\Xi = g_{\mu\nu}(y(\lambda)) \frac{dy^\mu}{d\lambda} \frac{dy^\nu}{d\lambda}
\tag{6.18}
]
与 (\lambda) 无关；换言之，它是守恒的。这可以通过对 (\lambda) 微分式 (6.18) 并利用测地线方程 (6.17) 以及克里斯托费尔符号的公式来验证。对于类时、类光和类空测地线，(\Xi) 分别为正、零或负。如果测地线是类时的，我们可以重新标度使 (\Xi = 1)，然后参数 (\lambda) 就成为沿测地线的固有时间 (\tau)。只有类时测地线对应于物理粒子的轨迹。

沿着类光测地线，(\tau) 为零，(\lambda) 本身是更合适的参数。类光测地线是弯曲时空中光线的路径。它描述了光在几何光学极限下的物理传播，此时波长远小于与曲率相关的任何长度尺度。

3 如果在被积函数中省略平方根，将得到相同的方程，因为优化一个函数的平方根本质上与优化该函数本身是同一个问题。

166
广义相对论
如果时空的度规具有对称性，例如旋转对称性或时间平移下的对称性，那么测地线运动将具有更多的守恒律。一种连续对称性最简单地实现为，存在一种坐标选择 (y^\mu)，使得度规张量不依赖于其中一个坐标，比方说 (y^\alpha)。在此情况下，我们可以再次利用方程 (6.17) 来证明
[
Q = g_{\alpha\mu}(y(\lambda))\frac{dy^\mu}{d\lambda}
\tag{6.19}
]
沿着任意测地线守恒。(\Xi) 和 (Q) 的守恒将在我们之后考虑恒星或黑洞周围时空中粒子和光的测地线运动时非常有用，那里具有时间平移对称性和某种旋转对称性。

6.4.1
弱引力场
根据等效原理(equivalence principle)，我们应当能够将牛顿引力场中自由落体的运动，建模为具有适当定义度规的弯曲时空中的类时测地线。我们知道，在弱引力场中，牛顿动力学对于运动速度远小于光速的物体极其有效，因此在这种情形下，相应的度规必定接近闵可夫斯基(Minkowski)度规。因此，我们将使用通常的闵可夫斯基空间坐标，(x^0 = t) 以及 (x^1, x^2, x^3)。

如果牛顿引力势为 (\phi(\mathbf{x}))，那么用于模拟牛顿引力的合适度规为
[
d\tau^2 = (1 + 2\phi(\mathbf{x})) dt^2 - d\mathbf{x} \cdot d\mathbf{x}.
\tag{6.20}
]
我们可以忽略 (\phi) 的任何时间依赖性，因为产生该势的物体运动缓慢。度规张量中唯一与闵可夫斯基情况不同的分量是 (g_{tt} = 1 + 2\phi(\mathbf{x}))，且差异很小，因为在我们的单位制下，(|\phi| \ll 1)。为了验证这个度规具有适当的测地线，考虑沿着一条由 (t) 参数化的世界线 (X(t) = (t, \mathbf{x}(t))) 的间隔 (\tau)，其中速度 (\mathbf{v} = \frac{d\mathbf{x}}{dt}) 很小。该间隔为
[
\tau = \int_{t_0}^{t_1} \sqrt{(1 + 2\phi(\mathbf{x}(t))) \left(\frac{dt}{dt}\right)^2 - \frac{d\mathbf{x}}{dt} \cdot \frac{d\mathbf{x}}{dt}} , dt = \int_{t_0}^{t_1} \sqrt{1 + 2\phi(\mathbf{x}(t)) - \mathbf{v} \cdot \mathbf{v}} , dt.
\tag{6.21}
]

由于 (\phi) 和 (\mathbf{v}) 都很小，我们可以对平方根进行近似，得到
[
\tau \simeq \int_{t_0}^{t_1} \left(1 + \phi(\mathbf{x}(t)) - \frac{1}{2}\mathbf{v} \cdot \mathbf{v}\right) dt.
\tag{6.22}
]
常数 (1) 的积分与路径无关，可以略去。
(\tau) 是我们为寻找粒子测地线而应该最大化的量，但如果我们乘以 (-m)，其中 (m) 是粒子质量，那么我们等价地可以最小化
[
S = \int_{t_0}^{t_1} \left(\frac{1}{2}m \mathbf{v} \cdot \mathbf{v} - m\phi(\mathbf{x}(t))\right) dt.
\tag{6.23}
]

引力场方程
167
(S) 是质量为 (m) 的非相对论性粒子的作用量（2.53），其动能为 (\frac{1}{2} mv \cdot v)，势能为 (m\varphi)。正如我们在第 2.3 节所见，通过最小化 (S) 导出的运动方程为
[
\frac{d^2\mathbf{x}}{dt^2} + \nabla\varphi = 0,
\tag{6.24}
]
这正是牛顿引力的定义方程。这表明，在低速极限下，具有度规（6.20）的弯曲时空中的类时测地线重现了牛顿引力预期的运动。

我们可以明确检验测地线方程（6.17）的低速极限。在此极限下，(\tau \simeq t)，因此对 (\tau) 的导数可用对 (t) 的导数代替。主要的克里斯托费尔符号为
[
\Gamma^i_{tt} = \frac{1}{2} g^{\alpha i}(g_{\alpha t,t} + g_{\alpha t,t} - g_{tt,\alpha}) = -\frac{1}{2} g^{\alpha i} g_{tt,\alpha} = -\frac{1}{2} g^{ii} g_{tt,i},
\tag{6.25}
]
其中 (g^{ii} = -1)，(g_{tt} = 1 + 2\varphi)，(g_{tt,i} = 2 \frac{\partial\varphi}{\partial x^i})，所以 (\Gamma^i_{tt} = \frac{\partial\varphi}{\partial x^i})。（在式（6.25）的最后一个表达式中，不对 (i) 求和。）因此，（6.17）的空间分量为
[
\frac{d^2 x^i}{dt^2} + \frac{\partial \varphi}{\partial x^i} = 0,
\tag{6.26}
]
再次与牛顿运动方程一致。

我们稍后将看到，度规（6.20）并不严格满足爱因斯坦场方程，度规张量的空间部分会出现一个包含牛顿势 (\varphi) 的附加项，但这对于缓慢运动的粒子而言，只会对运动方程产生可忽略的修正。或许有点令人惊讶的是，牛顿势最重要的效应是扭曲了时空度规张量中的 (g_{tt}) 项。人们可能曾猜测引力会弯曲空间。然而，时间的扭曲与我们早先的发现相一致：在恒定引力场中，经过涉及时间的坐标变换（6.2）后，自由落体表现为惯性运动。

6.5
引力场方程
如果我们接受时空是弯曲的这一观念，那么，正如我们所见，我们可以预期大质量物体和光沿测地线运动——但时空曲率最初是如何产生的呢？决定物质与时空曲率之间关系的引力场方程是什么？爱因斯坦假定场方程必须满足三条指导原则：

它必须是广义协变的，
它必须与等效原理一致，
对于低密度、低速度的物质，它必须退化为牛顿引力势的方程。

原则 1) 意味着场方程必须是一个张量方程，在任意坐标系中都具有相同的形式。原则 2) 是最初推动整个构想的关键思想。它向爱因斯坦表明，引力可以被视为时空曲率，因为引力以同样的方式影响所有物体。此外，等效原理意味着，即使在引力场中，局部惯性系中的物理学也无法与狭义相对论的物理学区分开来。换句话说，时空在局部是闵可夫斯基的。

168
广义相对论
原理（2）与原理（1）结合意味着，场方程的一侧必须由某种形式的曲率张量构成。原理（3）则给出了联系质量密度与曲率的比例常数，并由此提供了一个关键检验，确保场方程与业已牢固建立的牛顿物理学相一致。

如6.2节所述，在存在质量密度ρ时，牛顿势φ满足泊松方程(Poisson’s equation) ∇²φ = 4πGρ。爱因斯坦面临的任务是找到泊松方程在相对论中的对应物。它应当是一个协变方程，将描述时空曲率的张量与描述物质分布的张量联系起来，并且应在低质量密度和物质速度远小于光速的情形下退化为泊松方程。

6.5.1 能量-动量张量
产生曲率的引力源必须是一种密度，就像出现在泊松方程右侧的质量密度那样——但在相对论理论中，一个参考系中的质量会对另一个参考系中的能量和动量有所贡献，因此能量、质量和动量都必须作为引力曲率的源。

能量是4-矢量的时间分量。在洛伦兹boost下，它要乘以一个伽马因子 γ = (1 − v·v)^(-1/2)。能量密度——单位体积的能量——则要再乘上一个γ因子，因为体积元在boost方向上收缩了γ倍。因此，能量密度按一个二阶张量的00分量进行变换。这个张量被称为能量-动量张量或应力-能量张量，记作 T^μν。尽管这一论证基于闵可夫斯基空间中的物理，它同样适用于弯曲时空，因为等效原理意味着时空总是局部闵可夫斯基的。

对于纯物质，在其静止系中的密度记作ρ，并且（由定义）是洛伦兹不变量。在这个参考系中，T^00 = ρ 是 T^μν 的主要贡献项。如果物质在运动（这仅仅取决于所选用的坐标系），则存在一个依赖于密度ρ和物质局域4-速度 v^μ 的 T^μν 的表达式。分量 T^i0（i = 1, 2, 3）给出第i方向上的动量密度。T^ij 则是第i个动量密度分量在第j方向的流，或通量。它既来源于物质的整体流动，也来源于物质粒子在微观层次上碰撞的随机运动，后者产生压强。

天体物理学家将一种由无相互作用自由粒子组成的理想化流体称为尘埃(dust)，这种流体中粒子间的相对运动可忽略不计，因而压强可忽略不计。尘埃的能量-动量张量取简单的形式
T^μν = ρ v^μ v^ν , (6.27)
其中 v^μ 是尘埃的局域4-速度。对于更一般的理想流体，能量-动量张量包含一个压强项，形式为
T^μν = (ρ + P) v^μ v^ν − P g^μν , (6.28)
这里ρ是密度，P是压强。ρ和P是在流体的局域静止系中定义的洛伦兹不变量，并由一个物态方程相联系。它们在时空中逐点变化，因此是场。更一般地，T^μν 还可以包含描述电磁辐射或其他任何物理现象的项。

引力场方程
169
一般来说，(T^{\mu\nu}) 在两个指标交换下是对称的，因此它在每个点的16个分量中，只有10个是独立的（4个对角元和6个非对角元）。特别地，能量密度的流 (T^{0i}) 等于动量密度 (T^{i0})。然而，(T^{\mu\nu}) 的分量并不是空间和时间的完全任意函数，因为物质和辐射满足它们自身的局域场方程。例如，电磁辐射遵循适应弯曲时空背景的麦克斯韦方程组。对于物质粒子的稀薄气体，有效自由粒子沿着时空中的测地线路径运动。对于更稠密的物质气体，比如恒星内部的情形，我们需要考虑流体运动方程，其中压强扮演着重要角色。这些动力学场方程给 (T^{\mu\nu}) 带来了进一步的约束。

回想一下，由于电荷在闵可夫斯基时空中物理上守恒，存在一个局域的电磁4-流守恒方程 (4.45)，它表明 (J) 的时空散度为零。使用4-矢量记号（以及表示时空偏导数的指标记号 ({,\nu}) ），这变为
[
\partial\cdot J = J^{\nu}{}{,\nu} = 0 .
\tag{6.29}
]
在弯曲时空中，散度推广为带指标缩并的协变导数，因此在坐标 (y^{\mu}) 中，电磁流必须满足协变守恒方程
[
\frac{D}{Dy^{\nu}} J^{\nu} = J^{\nu}{}{,\nu} + \Gamma^{\nu}{}{\nu\alpha} J^{\alpha} = 0 .
\tag{6.30}
]
由于等效原理，我们知道，即使在弯曲时空中，局域的能量和动量的三个分量也是守恒的。存在相应的流守恒定律——能量–动量张量的协变时空散度为零。在惯性坐标中
[
T^{\mu\nu}{}{,\nu} = 0 ,
\tag{6.31}
]
而在一般坐标系中，此式变为
[
\frac{D}{Dy^{\nu}} T^{\mu\nu} = T^{\mu\nu}{}{,\nu} + \Gamma^{\mu}{}{\nu\alpha} T^{\alpha\nu} + \Gamma^{\nu}{}{\nu\alpha} T^{\mu\alpha} = 0 .
\tag{6.32}
]
这就是对 (T^{\mu\nu}) 的进一步约束。事实上，由于 (\mu) 是一个从 0 到 3 的自由指标，对应着能量和动量守恒，一共有四个局域约束。

我们现在将引入一种新的简写记号。之前我们用逗号记号 ({,\nu}) 代替了偏导数 (\frac{\partial}{\partial y^{\nu}})，并将继续这么做。从现在开始，我们也用分号记号 ({;\nu}) 代替协变导数 (\frac{D}{Dy^{\nu}})，后者在弯曲时空中包含含克里斯托费尔符号的项。例如，
[
\frac{D}{Dy^{\nu}} V^{\mu} = V^{\mu}{}{;\nu} = V^{\mu}{}{,\nu} + \Gamma^{\mu}{}{\nu\alpha} V^{\alpha} .
\tag{6.33}
]
在这一记号下，能量–动量张量的协变散度为零被重写为
[
T^{\mu\nu}{}{;\nu} = 0 .
\tag{6.34}
]

170
广义相对论
6.5.2
爱因斯坦张量与爱因斯坦方程
爱因斯坦意识到，能量-动量张量具备引力场方程一侧所需的全部性质。他需要的是一个合适的张量——现在称为爱因斯坦张量——它将位于方程的另一侧。这个张量应当描述时空曲率，因此必定与黎曼张量(Riemann tensor)相关。在真空中，能量-动量张量为零。这意味着方程另一侧的爱因斯坦张量不能仅仅是黎曼张量的某个倍数，否则真空将是平坦的，那么大质量天体之间的真空中就不会有引力效应，这显然是错误的。
能量-动量张量是一个二阶对称张量，因此爱因斯坦张量也必须具备这些性质。使用经度规张量降低指标后的Tμν进行计算较为便利。在爱因斯坦的笔记中，他最初将方程写为
?μν = κTμν , (6.35)
其中κ是比例常数，?μν是爱因斯坦张量，其形式正是他着手要发现的。能量-动量张量的散度为零，因此为保持一致性，爱因斯坦张量的散度也必须为零。如此一来，该理论便自动纳入了能量与动量守恒。
正如我们所见，黎曼曲率张量有四个指标——它是四阶张量——但存在一个与之密切相关的二阶张量由它导出。这就是里奇张量(Ricci tensor) Rμν。它通过缩并指标得到，即对黎曼张量的特定分量求和，如下所示：
Rμν = Rαμαν = R0μ0ν + R1μ1ν + R2μ2ν + R3μ3ν. (6.36)
由于黎曼张量在第一对和第二对指标交换下具有对称性，里奇张量在其两个指标上是对称的，因此有十个独立分量。进一步缩并指标是可能的，这将产生里奇标量(Ricci scalar)
R = gμνRμν = Rμμ. (6.37)
里奇张量、度规张量和里奇标量可以组合成一系列对称的二阶曲率张量
Rμν − ξgμνR, (6.38)
其中ξ是一个任意常数。我们现在将证明，仅存在一个特定的ξ值，能使得张量在任何时空中的散度恒为零。这一散度可以借助一个涉及黎曼张量导数的恒等式来计算。与许多张量方程一样，该恒等式最容易通过使用局域惯性坐标来证明。黎曼张量在方程(6.14)中用克里斯托费尔符号(Christoffel symbols)表示。在惯性坐标下，克里斯托费尔符号为零，因此根据莱布尼茨法则，黎曼张量中作为克里斯托费尔符号乘积的最后两项，在求一次导数后的贡献仍为零。故在惯性坐标下，
Rανγλ,μ = Γαλν,γμ − Γαγν,λμ. (6.39)

引力场方程
171
类似地，通过指标轮换可得
Rα
νµγ,λ = Γα
γν,µλ −Γα
µν,γλ ,
Rα
νλµ,γ = Γα
µν,λγ −Γα
λν,µγ .
(6.40)
将这三个表达式相加，并利用混合偏导数的对称性，给出
Rα
νγλ,µ + Rα
νµγ,λ + Rα
νλµ,γ = 0 .
(6.41)
这一表达式在惯性坐标中成立。将偏导数替换为协变导数，便得到张量恒等式
Rα
νγλ;µ + Rα
νµγ;λ + Rα
νλµ;γ = 0 ,
(6.42)
该式在任意坐标系中均有效。这就是第二比安基恒等式(second Bianchi identity)。
这个恒等式让我们向找到爱因斯坦张量迈进了一大步。如前所述，里奇张量(Ricci tensor) ( R_{\mu\nu} ) 是通过对黎曼张量的第一和第三个指标求迹得到的。若将式(6.42)中的各项对 ( \alpha ) 和 ( \gamma ) 进行缩并，我们得到
Rνλ;µ −Rνµ;λ + Rα
νλµ;α = 0 ,
(6.43)
其中我们利用了黎曼张量在后两个指标上的反对称性来得到中间项。将上式乘以 ( g^{\nu\lambda} ) 并再次缩并，可得
Rλ
λ;µ −Rλ
µ;λ + Rαλ
λµ;α = 0，进而利用 ( R^{\alpha\lambda}{\ \ \lambda\mu} ) 在前两个指标上的反对称性，有 ( R^\lambda{\ \lambda;\mu} - 2R^\lambda_{\ \mu;\lambda} = 0 )。由于 ( R = R^\lambda_{\ \lambda} ) 是里奇标量，上式变为
R;µ −2Rλ
µ;λ = 0 .
(6.44)
度规是协变常的，如方程(5.45)所示，因此我们可以乘以逆度规 ( g^{\mu\nu} ) 并将其移入协变导数内。在交换两项次序并对重复指标使用同一符号后，得到
[
\left( R^{\mu\nu} - \frac{1}{2} g^{\mu\nu} R \right){;\mu} = 0 .
]
(6.45)
我们找到了一个散度为零的二阶对称张量。
因此，我们将方程(6.38)中的常数 ( \xi ) 确定为 ( \frac{1}{2} )，并定义爱因斯坦张量(爱因斯坦张量)（采用降指标形式）为
[
G{\mu\nu} = R_{\mu\nu} - \frac{1}{2} g_{\mu\nu} R .
]
(6.46)
广义相对论的场方程可立即写出。将 ( G_{\mu\nu} ) 代入方程(6.35)，我们得到
[
G_{\mu\nu} = \kappa T_{\mu\nu} .
]
(6.47)
这就是爱因斯坦方程。它有十个分量，令两个对称且无散的二阶张量相等。给定特定的物质、能量和动量分布，该方程决定了度规 ( g_{\mu\nu} )，从而决定了时空如何弯曲。即使在物质、能量和动量为零（即 ( T_{\mu\nu} = 0 )）的空虚区域，时空一般也是弯曲的，因为黎曼张量的某些分量可能仍然非零。

172
广义相对论
我们可以如下找到爱因斯坦方程的另一种形式。将方程(6.46)乘以gλµ并对指标λ和ν进行缩并，得到
Gν
ν = R −2R = κT ν
ν ,
(6.48)
因为gµνgµν = δν
ν = 4。如果将缩并后的能量–动量张量记为T = T ν
ν，那么
−R = κT ,
(6.49)
代回爱因斯坦方程(6.47)给出
Rµν = κ

Tµν −1
2gµνT

.
(6.50)
这就是爱因斯坦最初提出场方程时所采用的形式。
6.5.3
确定比例常数
在弱场、低速极限下，我们应当恢复牛顿引力理论——泊松方程的形式，而我们可以利用此极限下场方程的00分量来确定κ。
在惯性坐标系中，克里斯托费尔符号为零，但它们的导数可能不为零。将方程(6.14)中黎曼张量的第一个和第三个指标缩并，就得到惯性坐标系中的里奇张量：Rµν = Γα
νµ,α −Γα
αµ,ν。利用克里斯托费尔符号的公式(6.13)，上式化为
Rµν

1
2gβα(gβν,µα + gβµ,να −gνµ,βα) −1
2gβα(gβα,µν + gβµ,αν −gαµ,βν)

1
2gβα(gβν,µα −gνµ,βα −gβα,µν + gαµ,βν) ,
(6.51)
因为两个括号中的中间项相互抵消。对于弱场，偏离平直的程度很小，所以我们可以写
gµν = ηµν + hµν ,
(6.52)
其中ηµν是作为背景的闵可夫斯基空间度规张量，hµν ≪1，并且我们可以选取坐标yµ为普通的时间与空间坐标(x0 = t, x1, x2, x3)。
丢弃hµν的二次项后，里奇张量的00分量即为
R00 = 1
2ηβα(hβ0,0α −h00,βα −hβα,00 + hα0,β0) .
(6.53)
缓慢运动的物质产生缓慢变化的度规，因此我们可以忽略时间导数。在R00的表达式中，除第二项外，每一项都至少包含一个显式的时间导数，所以
R00 = −1
2ηβαh00,βα .
(6.54)
忽略其中剩余的时间导数，给出
R00 = −1
2ηjih00,ji = 1
2h00,ii = 1
2∇2h00 .
(6.55)
对于缓慢运动的物质，其静止质量远大于动能，因此能量–动量张量中的主导项为T00 = ρ，而对于近似平坦的度规，T µ
µ = T = ρ，所以方程(6.50)右边的00分量为1
2κρ。将此结果与方程(6.55)结合，得到
∇2h00 = κρ .
(6.56)
在牛顿极限下，由方程(6.20)知h00 = 2φ，因此
∇2φ = 1
2κρ ,
(6.57)
若κ = 8πG，上式便与泊松方程(6.5)一致。这确定了κ，并给出爱因斯坦方程的最终形式：
Gµν = 8πG Tµν .
(6.58)
6.6
广义相对论的经典检验
这里我们描述广义相对论的三个经典检验，以及证实了该理论的历史观测。前两个效应大小的详细计算留待后续各节。
6.6.1
水星近日点进动
牛顿引力由一个平方反比力描述。这导致椭圆轨道，从而解释了我们在第2.7节看到的开普勒行星运动第一定律。平方反比力具有更强的对称性，因而存在守恒的龙格–楞兹矢量(Runge–Lenz vector)，它沿行星轨道的长轴方向，并在空间中保持固定。任何作用在行星上的微小附加力都会打破这一对称性，结果就是椭圆轴线的逐渐进动，如图6.4所示。

图6.4

图6.4 水星轨道的进动。

图6.4

19世纪的观测显示，水星绕太阳的轨道每世纪进动574角秒。（1角秒为1
60角分，又为1
3600度）

174
广义相对论
（……度。）大约22.5万年后，水星轨道的轴线将绕太阳旋转完整一周。这其中的大部分可以由其他行星的引力摄动来解释。金星的引力每世纪引起277角秒的偏移，木星又贡献了153角秒，地球贡献了90角秒，其余行星合起来大约还有11角秒。这些贡献总计531角秒，剩下每世纪43角秒无法解释。

1915年11月，爱因斯坦(Albert Einstein)着手解决这一问题。他对测地线运动进行了超越牛顿近似一步的计算——这种近似完全足以分析太阳系中的微小效应——并发现广义相对论引入了一项随距离的负四次方衰减的附加力。在太阳系中，这个额外项在水星的情况中最大，因为水星离太阳最近。广义相对论带来的附加力使水星轨道每世纪进动43角秒，恰好解释了观测到的总进动量。这是爱因斯坦确信自己理论取得成功的时刻。他欣喜若狂，写道：“我最疯狂的梦想已经实现。广义协变性。水星近日点运动精确得令人惊叹。”

6.6.2 星光的偏折
广义相对论预言，光在经过大质量天体周围的弯曲时空时会发生偏折。在太阳系内，时空曲率非常小。即使在太阳附近，引力也是一种弱力。一束刚好掠过太阳边缘、沿类光测地线传播的星光，偏折角仅为1.75角秒。

1919年，由阿瑟·爱丁顿(Arthur Eddington)和安德鲁·克罗姆林(Andrew Crommelin)率领的一支英国考察队出发，通过在一次日全食期间拍摄紧靠太阳边缘的星星的位置偏移，来检验这一预言。这次日食于1919年5月29日穿过巴西北部、大西洋和非洲，对这次任务非常有利，因为全食持续时间达六分钟，接近可能的最大值。它在天空中的位置也十分理想，位于名为毕星团(Hyades)的疏散星团中，那里有大量亮度适中、可以测量位置的恒星。克罗姆林的考察队在巴西索布拉尔(Sobral)拍摄了这次日食，爱丁顿的考察队在非洲海岸外的普林西比岛(Príncipe)拍摄了这次日食。索布拉尔的测量给出了1.98 ± 0.16角秒的偏移，普林西比的结果给出了1.61 ± 0.4角秒的偏移，证实了广义相对论的预言。

这次日食考察的结果被赞颂为广义相对论的巨大胜利。爱因斯坦被推到媒体的聚光灯下，并在余生中被尊为知识界的巨人。图6.5展示了当年晚些时候对这次考察的一些新闻报道。

图6.5

6.6.3 时钟与引力红移
广义相对论的另一个预言是引力影响时间的流逝。利用时空度规的牛顿近似（6.20）dτ² = (1 + 2φ(x)) dt² − dx · dx，可以最轻松地理解这一效应，该近似在势φ很小且在空间无穷远处为零时成立。

时钟测量的时间是它当地的固有时 τ。时钟滴答之间的固有时间隔是一个常数 Δτ，与时钟的位置或运动无关。由于度规在无穷远处是闵可夫斯基的，静止在那里的时钟作惯性运动，并测量……

经典广义相对论的检验
175
图6.5 《伦敦新闻画报》1919年11月22日的一页。

图6.5

坐标时间。其滴答的间隔为∆t = ∆τ。一个静止在位置x、位于更深引力势中的类似时钟，将不会做惯性运动；为了保持静止，它必须加速，但我们假设这一加速对其计时没有影响。⁴ 由于位于x的时钟滴答间隔为∆τ，利用度规以及近似(1 + 2φ(x))^{1/2} ≃ 1 + φ(x)，我们推导出相应的坐标时间间隔为∆t = ∆τ/(1 + φ(x))。

假设来自x处时钟的滴答信号被传向无穷远。信号存在时间延迟，但在时钟所在位置与在无穷远处，滴答之间的坐标时间间隔∆t是相同的。这是因为度规在任何时间平移下具有对称性，因而一个物理过程可以在整个时空中提前∆t而依然保持物理合理性。因此，到达无穷远处的滴答具有间隔∆τ/(1+φ(x))，由于φ(x)为负，该间隔大于∆τ。无穷远处的时钟滴答间隔为∆τ，因此，对于无穷远处的观察者而言，位于更深引力势中的时钟变慢了。反之，位于x处的观察者接收到来自无穷远处的时钟信号时，会观察到这些信号相对于当地时钟而言加速了。总而言之，引力影响时钟——并非在局域上，而是在人们比较不同地点的计时时表现出来。

一个质量为m的检验物体在点x具有（负的）势能mφ(x)，在无穷远处势能为零。包含物体静止能量在内的总能量，在x处为m(1+φ(x))，在无穷远处为m。要通过自由运动接近空间无穷远，该物体将
⁴ 这一结论已在承受中等加速度的原子钟上得到验证，但对于那些依赖重力的时钟（例如摆钟）当然不成立。

176
广义相对论
需要以额外的动能开始，并且随着物体接近无穷远，这个动能会减少。
类似地，光子接近无穷远时会损失能量。假设一个光子从一个大质量物体（如恒星或行星）的表面发出，那里的牛顿势为φ，并被远处的观察者探测到，那里的势有效为零。假设发出的光子具有（角）频率ω，观察到的频率为ω∞。光子的能量最初为E = ¯hω，其中¯h是普朗克常数，我们将在第7章讨论。光子的能量与大质量物体的能量以相同方式减少，因此
¯hω∞= ¯hω(1 + φ) 。
(6.59)
由于φ为负，ω∞小于ω，我们说光子在爬出引力势阱时经历了红移。5 电磁波的脉冲是时间流逝的理想度量。光子能量在发射和探测之间的减少可以解释为由于这两点时间流逝速率的不同。由上述计算，我们再次推断，无穷远处的原时间隔比从势为φ处信号传递到无穷远的等效原时间隔短，因子为1+ φ。
1914年，沃尔特·亚当斯(Walter Adams)描述了后来被命名为白矮星的一类新恒星中的第一个成员。次年，天狼星的暗弱伴星被确认为第二颗这样的恒星。这些恒星引人注目，因为它们与其他显示类似光谱的恒星相比极其暗弱。由于它们处于双星系统中，其质量可以被估算，结果与太阳质量M⊙相当。（天狼星B的最佳现代质量估计为0.98M⊙。）爱丁顿(Eddington)在1924年提出，这些恒星之所以如此暗弱，仅仅是因为它们比正常恒星小得多。他估计它们的大小与地球相似，因此必然是密度极高的极其致密的天体。他计算出天狼星B发出的光的引力红移相当于20 km s−1的多普勒频移。次年，亚当斯对天狼星B进行了光谱观测，测量了其光谱谱线的移动。在考虑了白矮星轨道运动导致的频移后，仍剩余一个相当于19 km s−1多普勒频移的红移，正如爱丁顿所预测的。
这被爱丁顿誉为广义相对论的又一伟大胜利。然而实际上，测量和爱丁顿的计算都存在很大的不确定性，因此精确的一致相当巧合。天狼星B引力红移的多普勒等效现代数值为80.42 ± 4.83 km s−1。
1959年，罗伯特·庞德(Robert Pound)和格伦·雷布卡(Glen Rebka)在哈佛大学进行了一项经典实验，对引力频移进行了更精确的测量。庞德和雷布卡朝大学22.5米高的杰弗逊塔下发射伽马射线光子，测量了塔底光子在坠落于地球引力场中时频率的蓝移。初步结果与广义相对论的预测一致，精度在10%以内。庞德和约瑟夫·斯奈德(Joseph Snider)随后对实验的改进将该一致性精度提升至1%以内。
引力时间畸变效应现在被GPS（全球定位系统）网络常规性地考虑在内，该系统每天被全世界数百万人使用。

5 红光形成可见光谱的低频端。红移是用于描述电磁辐射频率降低的术语，无论该辐射是否在可见光谱内。

爱因斯坦方程的史瓦西解

177
世界。如果不将广义相对论的预测整合进全球定位系统，它将无法运行超过几分钟。

6.7 爱因斯坦方程的史瓦西解

卡尔·史瓦西(Karl Schwarzschild)是一位德国数学家和天体物理学家，1915年时他驻扎在东线。战争期间，他开始患上一种罕见且极其痛苦的皮肤自身免疫性疾病，称为天疱疮(pemphigus)。不知何故，在这种异常艰难的环境下，史瓦西找到了爱因斯坦方程最重要的解，而该方程仅仅在一个月前才发表。他的解描述了完美球对称天体（如恒星或行星）内部和外部的时空。史瓦西的皮肤病很快恶化，他于1916年3月从前线撤离。两个月后，他去世了。

爱因斯坦方程是一个张量方程，它将度规张量的二阶偏导数与物质和能量密度联系起来。在真空中，能量-动量张量 (T_{\mu\nu}) 为零，因此，由方程(6.50)的形式清楚可见，爱因斯坦方程简化为
[
R_{\mu\nu} = 0 .
\tag{6.60}
]
这被称为真空爱因斯坦方程。最简单的真空解是闵可夫斯基空间，即狭义相对论的平直时空，那里整个黎曼张量为零。不那么平庸的是，外部史瓦西解不是平直的，它描述了球对称体周围的真空时空。最简单的方式是用极坐标 ((t, r, \vartheta, \phi)) 来描述。对于质量为中心位于 (r = 0) 处的质量为 (M) 的物体，外部史瓦西度规为
[
d\tau^2 =
\left(1 - \frac{2GM}{r}\right)
dt^2 -
\left(1 - \frac{2GM}{r}\right)^{-1}
dr^2 - r^2(d\vartheta^2 + \sin^2 \vartheta , d\phi^2) .
\tag{6.61}
]
非零的度规张量分量为
[
g_{tt} = 1 - \frac{2GM}{r},
\quad
g_{rr} = -
\left(1 - \frac{2GM}{r}\right)^{-1},
\quad
g_{\vartheta\vartheta} = -r^2,
\quad
g_{\phi\phi} = -r^2 \sin^2 \vartheta .
\tag{6.62}
]
该度规张量是对角的，将每个分量的符号与闵可夫斯基度规对比，我们可知，在 (r > 2GM) 的整个区域，(t) 应被视为时间坐标，而 (r, \vartheta, \phi) 应被视为空间极坐标。

史瓦西度规是球对称质量外部牛顿引力场的相对论对应物，正如牛顿引力势 (\phi(r) = -\frac{GM}{r}) 所描述的那样。牛顿场和史瓦西度规都包含一个单一参数 (M)。我们可以立即看出 (g_{tt} = 1 + 2\phi)，但爱因斯坦方程要求度规的空间部分也依赖于 (\phi)。然而，在半径 (r \gg GM) 处，几何完全等价于牛顿引力场。

史瓦西度规张量有两个明显的对称性，因为其分量与 (\phi) 和 (t) 无关。存在一个与 (\phi) 平移相关的旋转对称性，并且由于度规的最后几项与2维球面度规成正比，这是完整球对称性的一部分。该度规在时间平移下也是对称的，因而被称为静态的。事实上，它是真空爱因斯坦方程的最一般的球对称解。

178
广义相对论

这一结果被称为 Birkhoff 定理 (Birkhoff’s theorem)，它意味着 Schwarzschild 外部度规甚至适用于经历球对称坍缩或膨胀的物质周围。它还意味着，球对称时空中一个空的球腔可用 (M = 0) 的 Schwarzschild 度规描述，而这正是平直的 Minkowski 空间。等价的牛顿力学结果是，物质球壳内的引力场为零，因为满足 Laplace 方程的唯一球对称势具有 (\varphi = \frac{C}{r} + D) 的形式，但如果原点处无奇点，则 (C) 必须为零，从而 (\varphi) 的梯度为零。

图 6.6 外部 Schwarzschild 空间的二维 ((r, \phi)) 切片。

图 6.6

图 6.6 展示了在固定 (t) 和 (\vartheta) 时，外部 Schwarzschild 度规空间的二维切片。切片终止于物体表面，因为外部度规在内部不再适用。

图 6.6

证明外部 Schwarzschild 度规满足真空 Einstein 方程 (6.60) 并不困难。代数推导相当繁复，但作为一个有用的练习，我们将概述其步骤。Christoffel 符号可通过将度规分量代入定义公式 (6.13) 求得。大多数项为零，因此可以很快计算出 Christoffel 符号。例如，
[
\Gamma^t_{tr} = \frac{1}{2} g^{\alpha t} (g_{\alpha t, r} + g_{\alpha r, t} - g_{tr, \alpha}) = \frac{1}{2} g^{\alpha t} g_{\alpha t, r} = \frac{1}{2} g^{tt} g_{tt, r},
\tag{6.63}
]
因为所有度规分量均与时间无关，且包括 (g_{tr}) 在内的所有非对角分量均为零。因此
[
\Gamma^t_{tr} = \frac{1}{2} \left( 1 - \frac{2GM}{r} \right)^{-1} \left( \frac{2GM}{r^2} \right) = \frac{GM}{r^2 Z},
\tag{6.64}
]
其中 (Z = 1 - \frac{2GM}{r})。仅有的非零 Christoffel 符号为
[
\begin{aligned}
\Gamma^t_{tr} &= \Gamma^t_{rt} = \frac{GM}{r^2 Z}, \
\Gamma^r_{tt} &= \frac{GMZ}{r^2}, \
\Gamma^r_{rr} &= -\frac{GM}{r^2 Z}, \
\Gamma^r_{\vartheta\vartheta} &= -rZ, \
\Gamma^r_{\phi\phi} &= -rZ \sin^2 \vartheta, \
\Gamma^\vartheta_{r\vartheta} &= \Gamma^\vartheta_{\vartheta r} = \Gamma^\phi_{r\phi} = \Gamma^\phi_{\phi r} = \frac{1}{r}, \
\Gamma^\vartheta_{\phi\phi} &= -\sin \vartheta \cos \vartheta, \
\Gamma^\phi_{\phi\vartheta} &= \Gamma^\phi_{\vartheta\phi} = \cot \vartheta,
\end{aligned}
\tag{6.65}
]
它们可用于计算 Riemann 张量的各分量。例如，

爱因斯坦方程的史瓦西解
179
由方程(6.14)，
Rr
trt = Γr
tt,r −Γr
rt,t + Γr
rβΓβ
tt −Γr
tβΓβ
rt .
(6.66)
大多数项，如Γr
tr,t和Γr
rϑΓϑ
tt，都为零，剩下
Rr
trt

Γr
tt,r + Γr
rrΓr
tt −Γr
ttΓt
rt

−2GMZ
r3
+ 2G2M2
r4
−
GM
r2Z
GMZ
r2

−
GMZ
r2
GM
r2Z

−2GMZ
r3
,
(6.67)
其中第二行前两项来自Γr
tt的径向导数。类似的计算给出黎曼张量的其他分量，例如，
Rt
ttt = 0 ,
Rϑ
tϑt = GMZ
r3
,
Rϕ
tϕt = GMZ
r3
.
(6.68)
这些结果组合起来给出里奇张量的tt分量
Rtt = Rα
tαt = −2GMZ
r3

GMZ
r3
GMZ
r3
= 0 .
(6.69)
可以类似验证，里奇张量的所有其他分量均为零，因此史瓦西度规满足真空爱因斯坦方程。
真空爱因斯坦方程本身不包含任何质量参数，因此上述计算无法确定出现在史瓦西度规中的参数M。要证明M是引力体的质量，最简单的方法是考虑大r处的牛顿极限。或者，可以通过在物体表面将外部史瓦西度规与内部史瓦西度规相匹配来确定。我们将在6.10节讨论内部度规。
6.7.1
牛顿极限
进一步审视外部史瓦西度规在牛顿近似下的行为是很有启发的。我们已经注意到，在大r处，该度规对应于牛顿势φ(r) = −GM
r
，其梯度大小为
GM
r2 。这一点相当重要。牛顿理论是为匹配观测到的行星运动而建立在平方反比定律力之上的。力为何必须以此方式衰减并无内在理由；这一选择是为了拟合观测。在爱因斯坦理论中，没有这样的选择余地。场方程的形式由非常普遍的原理决定，并意味着在真空中里奇张量为零。广义相对论的一个真正预言是，在牛顿极限下，球对称体周围的引力势随距离成反比下降，而力随距离的平方反比减小。宇宙最重要的特征之一已由几何原理推导出来。
考察

180
广义相对论
测地线偏离方程(geodesic deviation equation)(5.102)为：
[
\frac{D^2 \eta^\mu}{D \tau^2} = R^\mu_{; \nu \rho \lambda} \frac{dy^\nu}{d\tau} \frac{dy^\rho}{d\tau} \eta^\lambda, \tag{6.70}
]
其中 (\eta^\mu) 是连接两条邻近类时测地线上点的矢量。在闵可夫斯基空间(Minkowski space)中，黎曼张量(Riemann tensor)为零，因此
[
\frac{d^2 \eta^\mu}{d\tau^2} = 0. \tag{6.71}
]
这相当于牛顿第一运动定律应用于两个物体的非相对论性相对运动。

对于施瓦西时空(Schwarzschild spacetime)中沿径向的运动，方程(6.70)的 (r) 分量为
[
\frac{D^2 \eta^r}{D \tau^2} = R^r_{; ttr} \frac{dt}{d\tau} \frac{dt}{d\tau} \eta^r. \tag{6.72}
]
由方程(6.67)及黎曼张量的反对称性，我们得到 (R^r_{; ttr} = \frac{2GMZ}{r^3})；而对于施瓦西度规，(\left( \frac{dt}{d\tau} \right)^2 = \frac{1}{Z})，于是
[
\frac{D^2 \eta^r}{D \tau^2} = \frac{2GM}{r^3} \eta^r. \tag{6.73}
]
在牛顿极限下，因子 (\frac{2GM}{r^3}) 被解释为沿着从质量 (M) 径向向外的方向上的潮汐拉伸。横向 (\vartheta) 和 (\phi) 方向的测地线偏离可类似确定。由于 (R^\vartheta_{; tt\vartheta} = R^\phi_{; tt\phi} = -\frac{GMZ}{r^3})，
[
\frac{D^2 \eta^\vartheta}{D \tau^2} = -\frac{GM}{r^3} \eta^\vartheta, \quad \frac{D^2 \eta^\phi}{D \tau^2} = -\frac{GM}{r^3} \eta^\phi. \tag{6.74}
]
因子 (-\frac{GM}{r^3}) 被解释为潮汐挤压。图6.2显示了月球引力场施加在地球上的这些潮汐力。

图6.2

6.8 施瓦西时空中的粒子运动

像太阳这样的大质量物体周围的时空，可以由外部施瓦西度规极其精确地近似描述。在此时空中自由下落的粒子将遵循方程(6.17)所描述的类时测地线。为简单起见，我们假设该粒子具有单位质量。如前所述，此类测地线上的参数 (\lambda) 可以取为原时 (\tau)，且方程(6.18)中的常数 (\Xi) 此时为 1。

由于度规是球对称的，我们可以不失一般性地假设粒子的世界线位于赤道面 (\vartheta = \frac{\pi}{2}) 内。度规在反射变换 (\vartheta \to \pi - \vartheta) 下的对称性意味着，任何起始时与此平面相切的世界线都将保持在其中。于是 (\sin \vartheta = 1) 且 (d\vartheta = 0)，施瓦西度规简化为
[
d\tau^2 = \left( 1 - \frac{2GM}{r} \right) dt^2 - \left( 1 - \frac{2GM}{r} \right)^{-1} dr^2 - r^2 d\phi^2. \tag{6.75}
]

施瓦西时空中的粒子运动 181
测地线是满足下式的世界线 ((t(\tau), r(\tau), \phi(\tau)))：
[
\left( 1 - \frac{2GM}{r} \right) \left( \frac{dt}{d\tau} \right)^2 - \left( 1 - \frac{2GM}{r} \right)^{-1} \left( \frac{dr}{d\tau} \right)^2 - r^2 \left( \frac{d\phi}{d\tau} \right)^2 = 1, \tag{6.76}
]
这是方程(6.18)的相应形式。

施瓦西度规是静态的，因此粒子具有守恒能量
[
E = \left( 1 - \frac{2GM}{r} \right) \frac{dt}{d\tau}, \tag{6.77}
]
如方程(6.19)所示。同样，由于度规在 (\phi)-转动下对称，粒子具有守恒角动量
[
l = r^2 \frac{d\phi}{d\tau}. \tag{6.78}
]
由于这些守恒量，方程(6.76)简化为
[
\left( 1 - \frac{2GM}{r} \right)^{-1} \left( E^2 - \left( \frac{dr}{d\tau} \right)^2 \right) - \frac{l^2}{r^2} = 1, \tag{6.79}
]
整理后得到
[
\frac{1}{2} \left( \frac{dr}{d\tau} \right)^2 + V(r) = \frac{1}{2} E^2, \tag{6.80}
]
其中
[
V(r) = \frac{1}{2} \left( 1 - \frac{2GM}{r} \right) \left( 1 + \frac{l^2}{r^2} \right) = \frac{1}{2} - \frac{GM}{r} + \frac{1}{2} \frac{l^2}{r^2} - \frac{GM l^2}{r^3}. \tag{6.81}
]
因此，测地线方程约化为了一个一维问题：一个单位质量的粒子，具有动能 (\frac{1}{2} \left( \frac{dr}{d\tau} \right)^2)，在势 (V(r)) 中运动，总“能量”为 (\frac{1}{2} E^2)。(V) 中的第二和第三项是标准的牛顿引力势和离心势，它们是牛顿轨道分析中出现的项，但最后一项反立方势给出了一项新的相对论项，该项产生了一个导致轨道进动的反四次方力。

我们做代换 (u = \frac{1}{r})。则
[
\frac{dr}{d\tau} = \frac{dr}{du} \frac{du}{d\tau} = -r^2 \frac{du}{d\tau} = -r^2 \frac{d\phi}{d\tau} \frac{du}{d\phi} = -l \frac{du}{d\phi}. \tag{6.82}
]
采用此变量代换，由方程(6.80)和(6.81)我们得到
[
\frac{1}{2} l^2 \left( \frac{du}{d\phi} \right)^2 + \frac{1}{2} - GMu + \frac{1}{2} l^2 u^2 - GM l^2 u^3 = \frac{1}{2} E^2. \tag{6.83}
]
对 (\phi) 求导并除以 (l^2 \frac{du}{d\phi})，给出
[
\frac{d^2 u}{d\phi^2} + u - \frac{GM}{l^2} = 3GMu^2. \tag{6.84}
]

182
广义相对论
如果忽略方程右边的项，解为
u = GM
l² (1 + e cos ϕ) ,
(6.85)
或者等价地 r(1+e cos ϕ) =
l²
GM ，这和我们为牛顿轨道求得的解 (2.95) 相符。⁶ e 和 l 是由初始条件决定的常数。

额外的项 3GMu² 产生了对牛顿轨道的相对论修正。在太阳系中，这一项非常小，可以通过代入牛顿解来近似 u，得到
d²u
dϕ² + u −GM
l²
= 3(GM)³
l⁴
(1 + e cos ϕ)² .
(6.86)
于是改进的解为
u = GM
l² (1 + e cos ϕ) + 3(GM)³
l⁴

1 + e²
2

−e²
6 cos 2ϕ + e ϕ sin ϕ

.
(6.87)
大括号中的第一项是一个小常数，第二项是周期性的，产生一个每圈重复且不随时间增大的小修正。只保留最后那个不断增大的项，我们得到
u = GM
l²
+ GMe
l²

cos ϕ + 3(GM)²
l²
ϕ sin ϕ

.
(6.88)
对小的 α，利用三角展开
cos{(1 −α)ϕ} = cos ϕ cos αϕ + sin ϕ sin αϕ ≃cos ϕ + αϕ sin ϕ
(6.89)
可以将右边的 ϕ 函数合并，从而导出
u = GM
l²
+ GMe
l²
cos{(1 −α)ϕ} ,
(6.90)
其中
α = 3(GM)²
l²
.
(6.91)
在近日点（最接近太阳的点），r 达到极小、u 达到极大，因此 cos{(1 −α)ϕ} = 1，于是在 N 圈之后有
(1 −α)ϕ = 2πN .
(6.92)
所以近日点处的角度 ϕ 为
ϕ ≃2πN + 2πNα ,
(6.93)
这意味着每转一圈，近日点就前进
∆ϕ = 2πα = 6π(GM)²
l²

6πGM
a(1 −e²) ,
(6.94)
这里我们回想到，对于单位质量粒子的牛顿轨道，角动量与半长轴之间的关系为
l²
GM = a(1 −e²)。

⁶ 如果我们选择 ϕ 在 u 的极大处为零，就不需要 sin ϕ 解。

施瓦西时空中的光线偏折

施瓦西时空中的光线偏折

在太阳系中，水星离太阳最近，因此该效应最为显著。水星完成轨道运行的时间也比其他行星短，所以偏离牛顿力学行为的偏差积累得更快。

牛顿引力常数 (G = 6.67 \times 10^{-11} , \text{m}^3 , \text{kg}^{-1} , \text{s}^{-2})，光速 (c = 3.00 \times 10^8 , \text{m} , \text{s}^{-1})。因此，在光速取为1的单位制中，牛顿常数为 (G = 7.42 \times 10^{-28} , \text{m} , \text{kg}^{-1})。太阳质量 (M_\odot = 1.99 \times 10^{30} , \text{kg})，故 (GM_\odot = 1.48 \times 10^3 , \text{m})。水星轨道的半长轴 (a = 5.79 \times 10^{10} , \text{m})，偏心率 (e = 0.206)。代入这些数值，我们求得近日点进动速率为每轨道 (5.04 \times 10^{-7}) 弧度。水星的轨道周期为88.0天，因此每世纪有415个轨道周期。由此，每世纪的近日点进动为 (2.09 \times 10^{-4}) 弧度，即43.1角秒。

1974年，罗素·赫尔斯(Russell Hulse)和约瑟夫·泰勒(Joseph Taylor)利用波多黎各阿雷西博的巨型射电望远镜发现了第一个双中子星系统 PSR B1913+16。中子星是坍缩的恒星遗迹，被压缩至核密度。该双星系统中的一颗中子星产生了脉冲星，即在中子星每自转一周时指向我们方向的一束电磁辐射。（我们将在第13.8.1节讨论脉冲星。）这颗中子星每秒旋转17次，因此我们每59毫秒接收到一个射电脉冲。这些射电脉冲以难以置信的规律性被接收，但由于中子星绕其伴星轨道运动时的多普勒效应，脉冲会以7.75小时的周期缓慢变化。这些多普勒频移使天文学家能够以极高的精度确定该脉冲星系统的轨道特征。已知许多脉冲星位于双星系统中，但在大多数这类系统中，伴星是一颗普通恒星，物质向中子星的转移会使动力学变得复杂。相比之下，PSR B1913+16是一个非常“干净”的环境来研究轨道力学。该系统中强大的引力场，以及计算中子星位置所能达到的精度，使其成为检验广义相对论的理想场所。天文学家已测定两颗中子星的质量分别为：脉冲星 (1.4411 \pm 0.0007 M_\odot)，伴星 (1.3873 \pm 0.0007 M_\odot)。它们的轨道偏心率很高，(e = 0.617)，半长轴长度为 (9.75 \times 10^8 , \text{m})。在最接近点，两颗中子星的间距仅为1.1倍太阳半径；在它们相距最远时，间距为4.8倍太阳半径。

轨道轴的进动比水星快得多。将上一段中的数字代入公式(6.94)，得出每年4.2度的进动。观测到的进动与广义相对论的这一预测完全吻合。每天轨道偏移41.4角秒，几乎与水星一整个世纪的轨道偏移量相当。

2003年，在澳大利亚帕克斯天文台发现了一个由中子星构成的双脉冲星系统，即 PSR J0737-3039A 和 PSR J0737-3039B。这仍是目前已知唯一的两个子星均为可见脉冲星的双星系统，这使得系统可以被精确监测。其轨道周期仅为2.4小时，轨道轴每年进动16.90度，再次证实了广义相对论的预测。

6.9 施瓦西时空中的光线偏折

为了计算光线经过球型质量附近弯曲时空时产生的偏折，如图6.7所示，我们需要找出施瓦西时空中的光线。光线遵循类光测地线，我们可以再次假设它位于赤道

图6.7

184
广义相对论
b
太阳
∆
∆
地球
图6.7 大质量天体周围光线的偏折。

图6.7

平面 ϑ = π/2。在方程(6.18)中设 Ξ = 0，此时参数 λ 不再是 τ。利用能量和角动量守恒定律，并像之前那样令 u = 1/r，我们得到光线方程
d²u
dϕ² + u = 3GMu² .
(6.95)
在太阳系中，等式右边的项同样非常小。若忽略这一项，则解为直线
u = 1/b cos ϕ ,
(6.96)
其中 b 是瞄准参数，即光线到中心天体的最近距离。为了方便，我们选择在最近距离处 ϕ 为零，这样沿着光线 ϕ 从 −π/2 增加到 π/2。为求得修正解，我们将直线解代入(6.95)式右边的小量中，得到
d²u
dϕ² + u = 3GM/b² cos² ϕ ,
(6.97)
易见其解为
u = 1/b cos ϕ + GM/b² (2 − cos² ϕ) .
(6.98)
在光线端点处，u = 0，有
1/b cos ϕ + GM/b² (2 − cos² ϕ) = 0 .
(6.99)
由于 ϕ 接近于 ±π/2，我们略去 cos² ϕ 项，得到
cos ϕ = −2GM/b .
(6.100)

内部史瓦西解
185
这个解在一个方向为 ϕ = −π/2 − Δ，另一个方向为 ϕ = π/2 + Δ，其中 Δ 很小。利用熟悉的三角公式 cos(−π/2 − Δ) = cos(π/2 + Δ) = −sin Δ ≃ −Δ，我们得到
Δ ≃ 2GM/b ,
(6.101)
因此总偏转角为
2Δ ≃ 4GM/b .
(6.102)
对太阳而言，GM⊙ = 1.48 × 10³ m，若取 b 为太阳半径 6.96 × 10⁸ m，则刚好擦过太阳边缘的星光偏转角为 8.48 × 10⁻⁶ 弧度，即 1.75 角秒，这正是爱因斯坦(Einstein)著名的预言，并于1919年的日食远征观测中得到确认。
引力导致的光线弯曲可以在引力透镜中观察到。来自宇宙学距离的星系的光，经过中间星系团的偏折，可以产生更遥远星系的多个像。现已发现大量此类引力透镜系统。在理想情况下，若对准精确且透镜质量球对称，像会扭曲成一个圆环，称为爱因斯坦环。图6.8展示了一个近乎完美的爱因斯坦环实例。

图6.8

引力透镜为确定星系团质量提供了明确的方法。透镜星系团和被观测到扭曲像的更遥远星系的距离，均可通过它们的红移确定（我们将在第14章探讨宇宙学红移）。引力透镜产生的环的角大小可以测量。结合距离和角大小可得瞄准参数 b 和总偏转角 2Δ。然后可用公式(6.102)确定引力透镜的质量。这类计算给出的星系团中物质的估计值，远超从其发光量推断的量。这表明星系团伴随有大量不发光物质，因而被称为暗物质。暗物质的身份至今未知，最有可能的候选者是某种未知的稳定粒子，在极早期宇宙中大量产生。我们将在第12章回到这个问题。

6.10 内部史瓦西解
内部史瓦西度规描述球对称天体内部的时空，该天体中心位于 r = 0，具有密度 ρ(r) 和压强 P(r)。度规形式为
dτ² = e²ψ(r) dt² − (1 − 2GM(r)/r)⁻¹ dr² − r² (dϑ² + sin² ϑ dϕ²) ,
(6.103)
其中
M(r) = 4π ∫₀ʳ ρ(r′) r′² dr′
(6.104)
是从中心算起的积分质量，而 ψ(r) 满足
dψ/dr = G(M(r) + 4π r³ P(r)) / (r(r − 2GM(r))) ,
(6.105)
且满足 ψ(∞) = 0。

186
广义相对论
图6.8 哈勃空间望远镜(Hubble Space Telescope)上的宽视场相机3拍摄到的近乎完美的爱因斯坦环(Einstein ring) LRG 3-757。该环在天球上的直径为11角秒(图片来源：ESA-Hubble and NASA)。

图6.8

在密度ρ在整个天体内部恒定的理想化情况下，有 M(r) = 4/3πρr³。此时，度规(6.103)的空间部分为
ds² = dr²/(1 − Kr²) + r²(dϑ² + sin²ϑ dϕ²) (6.106)
其中 K = 8/3πGρ。这正是常曲率 8/3πGρ 的3维球面度规(5.73)，因此其半径为(3/(8πGρ))^{1/2}。内部度规只覆盖了3维球面的一部分，对于像地球这样的天体，只覆盖了极小的一部分，因为处处有 GM(r) 远小于 r，所以 Kr² 远小于1。

在球对称质量的外部，空间由外部史瓦西(Schwarzschild)解描述，且同时具有正负曲率分量。这与图1.3所示的 hyperbolic soap film (双曲肥皂膜) 类似，膜上每一点的曲率分量大小相等、符号相反，从而产生平衡的表面张力。在外部史瓦西几何中，有三个空间维度，为了满足爱因斯坦方程，两个角向的内向曲率与径向的外向曲率相互平衡，如方程(6.69)所示。在牛顿(Newton)图像中，潮汐力沿径向拉伸物体，并在正交方向上挤压物体。

图1.3

在质量内部，所有三个空间曲率都是内向的，因此空间是 positively curved (正弯曲的)，物体在三个方向上均被挤压。此时，爱因斯坦方程中的三个曲率分量由物质施加的非引力外向应力所平衡。正的空间曲率压缩构成天体的物质，而这受到天体内部结构力的抵抗。如果没有这些力（可能是电磁力或核力），天体必将坍缩。

图6.9展示了一个横穿外部和内部空间度规的二维切片，该切片对应于一个均匀密度球体内部及其周围的空间。内部史瓦西度规在表面处与外部史瓦西度规连续地衔接，该表面上 M(r) 等于总质量 M。这证实了外部度规中的参数 M 就是内部的总质量。

黑洞
187
图6.9 史瓦西外部和内部几何的二维切片。（注意，球体内部的三维球面部分在切片中已变为二维球面的一部分。）
6.11
黑洞
在半径 rS = 2GM 处，外部史瓦西度规（6.61）似乎会出现奇异现象。该半径被称为史瓦西半径。此处，gtt 为零，grr 为无穷大。物体的史瓦西半径通常无关紧要，因为物体的物理尺寸远大于此半径，并且外部史瓦西几何在物体表面过渡为内部史瓦西几何。例如，太阳的史瓦西半径约为3公里，但外部解只适用于大于太阳半径（约700,000公里）的距离。在太阳内部，几何可以用内部史瓦西解很好地近似描述。

太阳由其组成粒子的热运动产生的压强支撑，这依赖于通过核聚变持续释放的能量，我们将在第13章讨论。当恒星耗尽核燃料后，它必然会在自身引力作用下坍缩。最终结果取决于恒星的质量。质量不超过1.44M⊙时，可以通过电子简并压支撑，形成白矮星。质量更大的恒星坍缩形成中子星，由核力和中子简并压支撑。它们的半径约为10–15公里，极其接近其史瓦西半径。中子星能够支撑的最大质量被认为在2–3 M⊙范围内。一旦核燃料耗尽，目前尚无已知机制能够支撑质量更大的恒星。

若大质量物体在自身引力作用下被挤压到其半径缩至史瓦西半径以内，则没有任何力量能够阻止其无情的坍缩。这种坍缩天体被称为黑洞，因为即使光也无法从史瓦西半径内部逃逸。质量 M 的黑洞周围的真空时空由史瓦西度规描述，从半径 r = 0 向外。

关于黑洞存在的观测证据现已极具说服力。已知存在许多质量约为十个太阳质量的黑洞，且已知在大多数（若非全部）星系的中心区域存在质量达数百万甚至数十亿太阳质量的超大质量黑洞。近期，对显然产生于黑洞合并的引力波的探测，为黑洞的存在提供了直接且有力的证据。

按宇宙尺度标准，黑洞非常之小。因此，大量物质直接落入黑洞的可能性极低。相反，预期会在黑洞周围形成一个旋转的吸积盘。摩擦导致吸积盘中的物质逐渐损失能量并向内螺旋运动，最终坠入深渊。大量

188
广义相对论

引力能在这个过程中被释放。这会将吸积盘加热到极高温度，导致X射线的发射。

我们现在将研究史瓦西(Schwarzschild)时空中圆形轨道的性质，以阐明黑洞吸积盘中的能量释放。单位质量粒子在外部史瓦西度规描述的时空中可用的轨道由方程(6.80)的解给出。无径向运动的稳定圆形轨道位于势(6.81)的极小值处。方便起见再次使用变量 $u = 1/r$，因此势为
$$V(u) = \frac{1}{2} - GMu + \frac{1}{2}l^2u^2 - GMl^2u^3 . \tag{6.107}$$
其驻点满足 $dV/du = 0$，即
$$-GM + l^2u - 3GMl^2u^2 = 0 , \tag{6.108}$$
可重写为
$$\frac{GM}{l^2} = u - 3GMu^2 . \tag{6.109}$$
右侧在 $u=0$ 时从0增加到 $u = \frac{1}{6GM}$ 处的最大值 $\frac{1}{12GM}$，然后减小到 $u = \frac{1}{3GM}$ 处的0。因此对于所有 $l^2 > 12(GM)^2$，$u$ 有两个解，一个小于 $\frac{1}{6GM}$，一个大于 $\frac{1}{6GM}$。势 $V(u)$ 的二阶导数为 $l^2(1-6GMu)$，所以 $u < \frac{1}{6GM}$ 的解是 $V$ 的极小值且稳定，另一个解不稳定。以半径表示，$r > 6GM$（史瓦西半径的三倍）的轨道是稳定的，而 $6GM \ge r > 3GM$ 的轨道是不稳定的。

这意味着围绕质量为 $M$ 的黑洞的吸积盘的内半径位于 $r = 6GM$ 处，那里的粒子具有临界角动量值 $l = \sqrt{12},GM$。我们可以很容易地计算到达此内边缘的任何物质所释放的能量。回到方程(6.80)，我们看到围绕黑洞圆形轨道的单位质量粒子的能量由下式给出
$$E^2 = (1 - 2GMu)(1 + l^2u^2) . \tag{6.110}$$
在吸积盘内边缘，$u = \frac{1}{6GM}$，所以 $2GMu = \frac{1}{3}$，$l^2u^2 = \frac{1}{3}$，粒子的能量为
$$E = \sqrt{\frac{8}{9}} . \tag{6.111}$$
因此，粒子在到达此点的过程中已释放的质量比例为
$$1 - E = 1 - \sqrt{\frac{8}{9}} \approx 0.057 . \tag{6.112}$$
从此处开始，预计粒子将迅速落入黑洞，并带走最终坠落过程中产生的任何动能。因此，我们可以预期黑洞吸积的质量中约有5.7%会在质量消失于黑洞之前以能量形式释放。这可以与氢聚变为氦的核聚变相比较，后者将氢质量的约0.7%释放为能量。我们很快将看到，旋转的黑洞有潜力向环境释放更多能量。

黑洞
189
6.11.1 爱丁顿–芬克斯坦坐标
外部的史瓦西度规 (6.61) 是渐近闵可夫斯基的。我们用来描述它的坐标 ((t, r, \vartheta, \phi)) 对远离中心的观测者来说是方便的，但从度规张量的时间分量可以看出，在史瓦西半径 (r_S = 2GM) 处，时钟似乎变慢并停止。这意味着，远处观测者接收到的、来自史瓦西半径附近物体的任何信号都会发生巨大的红移。红移既影响所发出辐射的频率，也影响辐射脉冲之间的时间间隔。对一个远处的观测者来说，落入黑洞的物体会在刚好到达史瓦西半径之前消失。

在史瓦西半径处，度规张量的径向分量似乎发生了更令人担忧的事情：它在那里发散，暗示几何是奇异的。然而，这只是坐标选择造成的人为假象，实际上整个度规在 (r = r_S) 处仍然是光滑且洛伦兹的。为了理解这一点，我们需要更好的坐标。有用的坐标在 1924 年由爱丁顿 (Eddington) 发现，并在 1958 年由大卫·芬克斯坦 (David Finkelstein) 独立重新发现。爱丁顿–芬克斯坦坐标保留了 (r, \vartheta, \phi)，并用一个新坐标 (v) 来代替时间 (t)，其定义为
[
t = v - r - 2GM \log \left| \frac{r}{2GM} - 1 \right| .
\tag{6.113}
]
对这个表达式微分可得
[
dt = dv - dr + \frac{dr}{1 - \frac{r}{2GM}} = dv - \frac{dr}{1 - \frac{2GM}{r}} ,
\tag{6.114}
]
将 (dt) 代入后，史瓦西度规 (6.61) 变为
[
d\tau^2 = \left( 1 - \frac{2GM}{r} \right) dv^2 - 2 dv dr - r^2 \left( d\vartheta^2 + \sin^2 \vartheta , d\phi^2 \right)
\tag{6.115}
]
在区域 (r < 2GM) 和 (r > 2GM) 都成立。现在度规在 (r = r_S = 2GM) 处也有良好行为。该半径处的表面是一个球面，其度规为
[
(2GM)^2 \left( d\vartheta^2 + \sin^2 \vartheta , d\phi^2 \right) .
\tag{6.116}
]
这个表面是落向黑洞中心的光线与逃逸到无穷远处的光线之间的分界面，被称为黑洞的事件视界 (event horizon)。事件视界的面积为 (4\pi (2GM)^2)。

对于大的 (r)，方程 (6.113) 中的对数项与 (r) 相比可以忽略，因此 (t \simeq v - r)，度规近似为
[
d\tau^2 \simeq dv^2 - 2 dv dr - r^2 \left( d\vartheta^2 + \sin^2 \vartheta , d\phi^2 \right) ,
\tag{6.117}
]
这可以通过变换到坐标 ((v - r, r, \vartheta, \phi)) 看出正是平坦的闵可夫斯基度规。

光沿着类光测地线传播，其上 (d\tau^2 = 0)。我们这里关心的是径向光线，可以利用球对称性设 (d\vartheta = d\phi = 0)。经过每一点有两条径向光线。在远离黑洞的平坦空间中，它们会向相反方向传播，一条径向向内，一条径向向外，并在时间–半径图上表示为与竖直线成 (45^\circ) 的直线。

190
广义相对论
在爱丁顿-芬克尔斯坦(Eddington–Finkelstein)坐标下，径向光线由下式给出：
[
\left(1 - \frac{2GM}{r}\right) dv^2 - 2,dv,dr = 0 .
\tag{6.118}
]
一个解是 (dv = 0)，这意味着 (v) 是常数，它代表一条朝向黑洞中心向内行进的光线。从方程(6.113)可以看出，当 (t) 增加时，要保持 (v) 不变则 (r) 必须减小。这个解的表现符合我们的预期，但(6.118)的第二个解，即满足
[
\frac{dr}{dv} = \frac{1}{2}\left(1 - \frac{2GM}{r}\right) ,
\tag{6.119}
]
更为引人注目。当 (r > 2GM) 时，(\frac{dr}{dv}) 为正，因此该光线是向外行进的。然而，当 (r < 2GM) 时，(\frac{dr}{dv}) 为负，因此该光线是向内行进的。这意味着，一旦进入黑洞的视界内部，所有由辐射体发出的光最终都将向内落向黑洞的中心。对方程(6.119)积分给出
[
v - 2r - 4GM \log\left| \frac{r}{2GM} - 1 \right| = \text{常数} .
\tag{6.120}
]
在图6.10中，绘出了 (\tilde{t} \equiv v - r) 随 (r) 变化的关系。该图展示了爱丁顿-芬克尔斯坦坐标下黑洞周围径向类光测地线。随着视界的接近，光锥似乎会发生倾倒。我们的第一个解 (v = \text{常数}) 给出的向内光线路径显示为相对于坐标轴倾斜 (-45^\circ) 的直线。曲线代表我们的第二个解，在视界之外，它们是向外光线的路径，但在视界之内，它们是落向黑洞中心的向内光线的路径。
[
\text{图 6.10 超前爱丁顿-芬克尔斯坦坐标下的时空图。}
]
任何物质粒子的轨迹始终位于光锥内部，其中 (d\tau^2 > 0)。利用光锥图，我们可以直观理解大质量粒子可能的径向轨迹。

黑洞
191
正如我们所见，在 ( r = r_S ) 处的度规奇异性是虚假的，但施瓦西（Schwarzschild）度规在 ( r = 0 ) 处有一个性质完全不同的奇点。这个奇点无法通过坐标变换消除。它是一个密度无穷大、时空曲率无穷大的点。由于这样的客体在物理上不可能存在，人们相信这一奇点的出现表明广义相对论已被推广到了一个它不再能准确描述物理世界的领域。在黑洞内部引力坍缩的某个阶段，密度会达到如此惊人的程度，以至于只能用量子引力理论来描述相关物理。然而，我们至今没有一套可行的量子引力理论，因此黑洞的中心依然是一个谜。

6.11.2 克尔度规（Kerr metric）
虽然外部的施瓦西度规是黑洞周围时空的一种可能几何，但从某种意义上说，它在物理上并不现实。黑洞是旋转天体引力坍缩的产物，预期会快速自转。这一点已被天文观测所证实。施瓦西度规是球对称的，描述的是无自转的球形质量或黑洞周围的时空。1963 年，罗伊·克尔（Roy Kerr）发现了真空爱因斯坦方程的一个更一般的解。在一个质量为 ( M )、角动量为 ( J ) 的自转天体或黑洞外部，时空由轴对称的克尔度规描述：
[
d\tau^2 = \left( 1 - \frac{2GMr}{\rho^2} \right) dt^2 + \frac{4GMar \sin^2 \vartheta}{\rho^2} dt d\phi - \frac{\rho^2}{r^2 - 2GMr + a^2} dr^2 - \rho^2 d\vartheta^2 - \left( r^2 + a^2 + \frac{2GMa^2 r \sin^2 \vartheta}{\rho^2} \right) \sin^2 \vartheta d\phi^2 , \tag{6.121}
]
其中 ( a = \frac{J}{M} ) 被称为角动量参数，且 ( \rho^2 = r^2 + a^2 \cos^2 \vartheta )。产生该度规的天体在稳定地转动，因此克尔度规的所有分量均不含时间。然而，与施瓦西度规不同，克尔度规包含一个时间-空间交叉项 ( g_{t\phi} dt d\phi )，其系数正比于 ( J )。时间反演 ( t \to -t ) 仅会改变此项的符号，其余项不变。这一变化可通过变换 ( \phi \to -\phi ) 抵消，因此时间反演等效于反转天体的旋转方向，也就是反转 ( J ) 的符号。克尔度规被称为稳态（stationary）度规，但不是静态（static）的。当 ( J = 0 ) 时，它退化为外部的施瓦西度规。

克尔度规几乎（但还不是）代表了黑洞的最普遍度规。它有一个推广形式，称为克尔–纽曼（Kerr–Newman）度规，该度规包含电磁场，描述的是带电旋转黑洞。1972 年，斯蒂芬·霍金（Stephen Hawking）证明，这正是孤立黑洞的最普遍度规。因此，根据广义相对论，所有黑洞都可以只用三个参数来描述：( M )、( J ) 和 ( Q )，其中 ( M ) 为质量，( J ) 为角动量，( Q ) 为电荷。这就是所谓的黑洞无毛定理（no-hair theorem）。目前没有任何已知的机制能给黑洞带上显著电荷，所以几乎可以肯定，真实黑洞可以简单地用 ( M ) 和 ( J ) 来描述。

旋转黑洞的事件视界半径 ( r_+ ) 比不旋转的施瓦西情况下的要小，由下式给出

192
广义相对论
非自旋情况下的视界半径由下式给出
r+ = 1
2rS +
r
1
4r2
S −a2 ,
(6.122)
其中rS = 2GM是施瓦西半径(Schwarzschild radius)。黑洞的最大可能角动量参数为a = 1
2rS = GM，此时角动量为J = GM 2。在此极限下，事件视界半径为r+ = GM，即施瓦西半径的一半。事件视界的角速度为Ω =
a
2Mr+ 。这是事件视界处光线绕黑洞旋转的速率。

能层
事件
视界
图6.11 旋转黑洞的能层。

图6.11

在黑洞附近自由下落的物体，如果本身没有角动量，会沿着一条类时测地线穿过事件视界，落向黑洞中心。若要使该物体相对于远处的观测者保持静止，悬停在事件视界上方某一固定的径向坐标r处，则该物体必须受到一个加速度（可能由火箭发动机提供）。对于这样一个物体，dr = dϑ = dϕ = 0。如果先考虑施瓦西时空，则在这样的轨迹上，度规(6.61)的所有分量除gtt dt^2外均为零。大质量粒子的世界线必须是类时的，所以dτ^2 > 0，这意味着gtt > 0，因此2GM/r < 1。这在事件视界之外总是成立的，所以只要加速度足够大，物体总有可能保持静止。

但在旋转黑洞周围的克尔时空(Kerr spacetime)中，情况并非如此。在克尔时空中，事件视界之外存在一个被称为能层(ergosphere)的区域，在此区域内仍有可能逃离黑洞，但不可能相对于远处的观测者保持静止。类时的静态世界线同样只有在gtt为正时才可能存在，因此需满足
1 −
2GMr
r2 + a2 cos2 ϑ > 0 。
(6.123)
此条件仅在能层之外成立。能层的边界由以下二次方程确定
r2
ergo + a2 cos2 ϑ = 2GMrergo = rSrergo ，
(6.124)

黑洞
193
所以它是一个扁球体
[
r_{\text{ergo}}(\vartheta) = \frac{1}{2} r_S + \sqrt{\frac{1}{4} r_S^2 - a^2 \cos^2 \vartheta}.
\tag{6.125}
]
在能层内的任何物体都必然会被黑洞的旋转拖曳着转动。

能层的边界在极点 (\vartheta = 0) 和 (\vartheta = \pi) 处与事件视界相切，在那里黑洞自旋的影响消失。能层(ergosphere)由罗杰·彭罗斯(Roger Penrose)命名，他于1969年证明可以从黑洞中提取旋转能量。根据他的设想，可以将物质送入能层，使其在那里分裂为两部分：一部分带着负能量落入黑洞，另一部分则带着比原来进入能层的物质更大的总能量逃逸到无穷远。彭罗斯过程(Penrose process)如图6.11所示。

图6.11

根据克尔度规，即使像地球这样大质量的自转物体，也会拖曳着周围的时空。这一效应被称为参考系拖拽(frame-dragging)，已于2004年被进入地球轨道的引力探测器B(Gravity Probe B)所证实。探测器上的一组陀螺仪以约15%的精度测量了地球自转引起的参考系拖拽。测量到的效应仅为每年40毫角秒，与广义相对论的预言相符。在黑洞附近，这一效应要强得多；它意味着旋转黑洞的吸积盘必定位于黑洞的赤道面内，并且与黑洞同向旋转。与黑洞自旋方向相同的轨道称为共转(co-rotating)轨道，方向相反的称为逆共转(counter-rotating)轨道。在克尔度规中，存在比史瓦西情形更靠近中心的稳定共转粒子轨道，因此快速旋转黑洞周围吸积盘的内边缘位于其引力势阱中更深处。这大大增加了最内稳定圆轨道的结合能。克尔度规赤道面 ((\vartheta = \frac{\pi}{2})) 内单位质量粒子的轨道满足
[
\frac{1}{2} \left( \frac{dr}{d\tau} \right)^2 + V(r) = \frac{1}{2} E^2.
\tag{6.126}
]
用 (u = \frac{1}{r}) 表示，这里的有效势为
[
V(u) = \frac{1}{2} - GMu + \frac{1}{2} (l^2 + a^2(1 - E^2))u^2 - GM(l - aE)^2 u^3,
\tag{6.127}
]
其中 (l > 0) 对应于共转轨道，(l < 0) 对应于逆共转轨道。当 (a = 0) 时，(V) 退化为史瓦西势 (6.107)。对于圆轨道，(r) 进而 (u) 为常数，故 (V(u) = \frac{1}{2}E^2)。这些轨道如果在 (V(u)) 处为极小值，则是稳定的，这就要求
[
\frac{dV}{du} = 0, \quad \frac{d^2 V}{du^2} > 0.
]
吸积盘的内边缘位于半径 (r_{\text{min}}) 处，该处 (\frac{d^2 V}{du^2} = 0)，越过此半径后不存在稳定圆轨道。由条件 (\frac{dV}{du} = \frac{d^2 V}{du^2} = 0) 所导出的联立方程，我们得到
[
\frac{1}{2} (l^2 + a^2(1 - E^2))u = GM,
\quad 3GM (l - aE)^2 u^2 = GM.
\tag{6.128}
]

194
广义相对论
将这些表达式代入方程 V(u) = 1/(2E²)，我们得到
1/E² = 2/(3GMu) = 2GM/(3r)。
(6.129)
吸积盘的内缘比史瓦西黑洞的情况更接近视界。在最大旋转黑洞的极限情况下，即 a = GM 时，内缘与视界⁷重合于 r_min = r_+ = GM。此时，方程 (6.129) 意味着 E = 1/√3。为了达到这个半径，粒子必须将其静止质量的很大一部分以能量形式释放；由于 1 - E = 1 - 1/√3 ≃ 0.42，吸积盘中物质的静止质量有惊人的 42% 在进入黑洞之前转化为其他形式的能量。
这具有重要的天体物理学意义。落入接近最大可能转速黑洞的物质所释放的引力能量将接近 30–40%。因此，快速旋转的超大质量黑洞现在被普遍认为是宇宙中最剧烈现象（如类星体和活动星系核）的起源。

图 6.12: 被引力透镜作用的类星体 RX J1131-1231 在这里呈现为四个像——环左侧的三个亮斑和右侧的一个。环的直径约为 3 角秒。（结合了 NASA 钱德拉 X 射线天文台和哈勃太空望远镜的图像。）

图 6.12

一个于 2008 年发现、距离地球六十亿光年的类星体，由于一个居间星系的引力透镜效应而呈现为四个像，如图 6.12 所示。这个编号为 RX J1131-1231 的类星体，其能量来源被认为是一个质量约为 10⁸M⊙ 的超大质量黑洞。引力透镜将类星体图像放大了 50 倍。这使得天体物理学家能够通过测量吸积盘中铁原子光谱里一条发射线因其引力红移而发生的展宽来确定黑洞吸积盘的内半径。⁸

图 6.12

⁷ 对于最大旋转黑洞，反向旋转圆轨道的最小半径是 r = 9GM。
⁸ 这条谱线对应 6.4 keV X 射线光子的发射。

引力波
195
据估计，吸积盘的内缘半径小于3GM，是静态史瓦西(Schwarzschild)黑洞半径的一半，因此该黑洞必定在极快地旋转。角动量参数的最可能取值为a ≃ 0.87 GM。

6.12 引力波
当一个带电物体（例如电子）被摇动时，它会发出电磁波。这正是无线电发射器中的情形。电磁场的脉冲按照麦克斯韦(Maxwell)方程组在时空中传播，当它们撞击试探电荷时会产生振荡力。类似地，根据广义相对论，大质量物体的晃动或碰撞会产生引力波。这些引力场中的涟漪是时空度规的传播性畸变；它们不仅仅是坐标的振荡，因为曲率也在振荡。引力波的探测要求至少监测两个试探粒子的位置。图6.13展示了一列引力波经过时对一圈试探粒子产生的效应。

图6.13

y
x
图6.13 一种极化的引力波对一圈试探粒子的效应。展示了一个波周期内的五帧图像。

图6.13

y
x
图6.14 另一种极化的引力波的效应。

图6.14

引力波在牛顿(Newton)引力中没有对应物，因为牛顿势φ由瞬时的物质密度决定，不遵循波动方程，因此引力波的存在本身便是对广义相对论的关键检验。由于引力本质上是如此之弱，引力波的振幅小得令人难以置信。只有宇宙中最剧烈的能量事件才会产生可能在地球上探测到的波。据信，入射到地球上的最大引力波所产生的距离相对变化量级为10⁻²¹。尽管如此，它们携带着巨大的能量，分布在极为广袤的区域中。

由于引力波的振幅如此之小，我们可以放心地使用度规张量的线性近似，
gµν = ηµν + hµν . (6.130)
ηµν是平坦闵可夫斯基(Minkowski)空间的度规张量，hµν是对应于引力波的小微扰。gµν的真空爱因斯坦(Einstein)方程约化为hµν的线性波动方程。在笛卡尔坐标(t, x, y, z)中，对于沿z方向传播的波，存在两个独立的引力波解。它们都在z方向的横向上极化，并以光速传播。

196
广义相对论
图6.13所示的偏振对应的度规是

图6.13

dτ² = dt² −(1 + f(t −z)) dx² −(1 −f(t −z)) dy² −dz² , (6.131)
而图6.14所示的、旋转了45°的偏振对应的度规是

图6.14

dτ² = dt² −dx² −2g(t −z)dxdy −dy² −dz² . (6.132)
f(t −z)和g(t −z)是小振幅的任意函数。
6.12.1 引力波的探测
0
1975
–5
–10
–15
–20
广义相对论预测
–25
–30
–35
–40
1980 1985 1990 1995
年份
2000 2005
累积周期变化(秒)
图6.15 双中子星与引力波发射。

图6.15

引力波的存在已经通过对赫尔斯–泰勒(Hulse–Taylor)双中子星系统PSR B1913+16（见6.8节介绍）的监测得到了间接证实。这个脉冲星信号已经被观测了几十年，其轨道周期正在逐渐缩短；每年减少76微秒。这可以与因引力辐射发射而损失能量所预期的轨道周期减少量进行比较，如图6.15所示。这种一致性是对广义相对论的一次极好的证实。

图6.15

引力辐射的发射现已在其他双脉冲星系统中得到确认，其中包括PSR J0348+0432，这是2007年在西弗吉尼亚州绿岸天文台(Green Bank observatory)发现的一个系统。这个非凡的系统由一颗质量为2M⊙的中子星和一颗质量为0.17M⊙的白矮星组成，它们在一个紧致轨道上运行。它们的轨道周期仅为2小时27分钟，并以每年8微秒的预期速率衰减。
在地球上探测引力波是物理学家几十年来一直追求的重要目标。世界各地的不同位置已经建造了探测器。其中包括LIGO（激光干涉引力波天文台，Laser Interferometer Gravitational-Wave Observatory），它拥有两个相距3000公里的设施，分别位于华盛顿州汉福德(Hanford)和路易斯安那州利文斯顿(Livingston)。

引力波
197
测试质量
4 km 臂
4 km 臂
测试质量
输入测试
质量
分束器
探测器
激光器
功率回收
镜
图 6.16 LIGO。

图 6.16

美国路易斯安那州。图 6.16 展示了其中一台设施的示意图。这些干涉仪呈 L 形，有两条相互垂直的 4 km 长臂。整个装置放置在超高真空内。一束激光照射到一个分束器上，分束器将一半光束导向干涉仪的每条臂。随后光在每条臂中充当测试质量的两面镜子之间来回反射 400 次，然后再次通过分束器，两半光束在这里重新合并并被送到光电探测器。这使得臂的有效长度达到 1600 km。如果光沿两条臂传播的距离完全相同，波就会相消，一束光的波峰遇到另一束光的波谷，因此探测器检测不到信号。然而，经过的引力波会极其轻微地改变臂的相对长度，此时光波不再完全相消，便会检测到信号。该装置的灵敏度非常惊人，要探测到引力波，就必须有这样的灵敏度。最新的运行阶段被称为先进 LIGO (Advanced LIGO)。升级后的探测器现在能够检测振幅小至 5×10^{-22} 的引力波。需要两个相距很远的设施来区分真正的引力波事件和来自本地背景扰动的不可避免的噪声。

图 6.16

在先进 LIGO 计划于 2015 年 9 月 14 日正式启动的四天前，两台探测器在几毫秒内分别测量到了一个明确无误且几乎相同的、持续 0.2 秒的信号，如图 6.17 所示。这个信号被解释为两个黑洞在约 13 亿光年外合并所产生的一列引力波。这是人类首次探测到双黑洞系统，也是有史以来对黑洞的最直接观测。该事件产生的信号也证实了引力波以光速传播。

图 6.17

双黑洞应该以它们轨道频率的两倍发出连续的引力波流。通过辐射引力波，双星系统损失能量，黑洞

198
广义相对论
LIGO Livingston 数据
LIGO Livingston 数据
预测
LIGO Hanford 数据（平移后）
LIGO Hanford 数据
1.0
0.5
0.0
–0.5
–1.0
1.0
0.5
0.0
–0.5
–1.0
1.0
0.5
0.0
–0.5
–1.0
0.30
0.35
时间 (秒)
0.40
0.45
应变 (10–21)
应变 (10–21)
应变 (10–21)
预测
图 6.17 先进 LIGO 探测到的首个引力波信号。

图 6.17

逐渐呈螺旋式相互靠近。在旋近的最后时刻，波的振幅急剧增大。起初，刚合并的黑洞相当不对称，但它迅速稳定下来，并发出最后的引力波爆发，这被称为振铃衰减 (ring-down)。先进 LIGO 探测到的信号就是在最后旋近和振铃衰减阶段产生的。

与黑洞合并过程的计算机模型进行比对，使研究人员能够提取出有关所观测事件的大量信息。引力波的频率可以用来推测黑洞的质量，而波的振幅则可以用于估算它们的距离。此外，引力波到达两个 LIGO 设施的时间差可以确定事件发生的方向，至少是粗略确定。综合所有这些信息，我们知道在这第一个事件中，信号是由两个质量分别约为 29M⊙ 和 36M⊙ 的黑洞合并所产生，合并形成了一个质量为 62M⊙ 的快速旋转的黑洞。在这个过程中，难以置信的

爱因斯坦-希尔伯特作用量

199

3M⊙以引力波的形式转化为能量。最终形成的黑洞具有角动量参数a≃0.67GM。

恒星发出的电磁辐射的球面波前在膨胀时，其能量密度随着与恒星距离的平方反比而减小。这源于能量守恒。类似地，引力波的能量密度也随着与源的距离的平方反比而减小。但我们在探测这两类波时有一个重要的区别。对于电磁波，我们总是测量其能量密度或强度，无论探测器是我们的眼睛、CCD相机还是照相底片。而另一方面，引力波探测器则直接测量引力波的振幅。这相当有优势。波的能量密度与其振幅的平方成正比，所以波振幅仅随与源的距离成反比减小。这意味着，如果Advanced LIGO的灵敏度能再提高一个数量级（10倍），所探测的空间体积将增大1000倍。这可能会使观测到黑洞并合及其他极端事件的速率提高1000倍以上，因为这类事件在遥远的过去可能更为常见。我们甚至有可能一直追溯到宇宙大爆炸，看到像这里描述的黑洞并合事件。

已有计划在下一轮升级中将Advanced LIGO的灵敏度提高三倍，而且其他地方的引力波探测器也正在投入运行。引力波天文学的时代才刚刚开始。

6.13 爱因斯坦-希尔伯特作用量

在3.2节中，我们考虑了一个经典场论的作用量S。它具有如下形式

S = ∫ L(x, t) d³x dt , (6.133)

其中拉格朗日密度L(x, t)在平直的四维闵可夫斯基空间上积分。对于相对论性标量场ψ，拉格朗日密度为

L(x, t) = ½ (∂ψ/∂t)² − ½ ∇ψ · ∇ψ − U(ψ) . (6.134)

最小作用量原理指出，对于物理的场演化ψ(x, t)，作用量S在场量的任何变分下都取驻值。我们已看到，场方程可以通过对ψ变分并令δS等于零来导出。

我们可以在广义相对论中使用相同的方法，但现在动力学场是时空度规本身，因此必须对它进行变分，而且我们不能简单地假定一个固定的平直背景时空。1915年11月，就在爱因斯坦宣布广义相对论场方程后的几天内，希尔伯特(Hilbert)就为这个理论找到了一个合适的作用量，现在被称为爱因斯坦-希尔伯特作用量(Einstein–Hilbert action)。拉格朗日密度必须是一个标量，而可用的最简单的标量是里奇标量R。这确实就是拉格朗日密度，爱因斯坦-希尔伯特作用量为

S = ∫ L(x, t) √−g d⁴y = ∫ R √−g d⁴y . (6.135)

这里，√−g d⁴y是坐标积分元d⁴y的时空体积，被称为积分的测度。g是度规gμν的行列式，其中的负号

200
广义相对论
要求洛伦兹度规的−g为正。在积分中，当从局部法坐标变换到一般坐标系时，√−g也是雅可比因子的行列式。
让我们看几个说明性的例子。在5.4.1节我们考虑了半径为a的2-球面上的度规张量
gij =
a2
0
0
a2 sin2 ϑ

(6.136)
由于没有非对角项，无穷小平方距离为
ds2 = a2dϑ2 + a2 sin2 ϑ dϕ2 ,
(6.137)
无穷小面积元为a dϑ × a sin ϑ dϕ = a2 sin ϑ dϑ dϕ = √g dϑ dϕ。这是在对2-球面积分时必须使用的测度。球面的总面积为
Z 2π
0
Z π
0
a2 sin ϑ dϑ dϕ = 4πa2 .
(6.138)
对于对角的4维洛伦兹度规，测度为
√g00 dy0 × √−g11 dy1 × √−g22 dy2 × √−g33 dy3 = √−g dy0 dy1 dy2 dy3 .
(6.139)
例如，外部施瓦西度规(6.61)的测度为
p
−gtt grr gϑϑ gϕϕ dt dr dϑ dϕ = √−g dt dr dϑ dϕ = r2 sin ϑ dt dr dϑ dϕ .
(6.140)
在这些坐标中度规是对角的，因此g是度规张量的四个对角元的乘积。（施瓦西度规前两项中的因子Z和Z−1相互抵消。）我们可以改变坐标系，一般来说这会产生非对角项。然而，适当的测度仍是√−g d4y。
我们不完全推导广义相对论场方程从爱因斯坦-希尔伯特作用量出发，因为这相当技术性和复杂，而是部分地勾勒其推导。场方程是作用量S在一阶小变动δgµν作用下保持不变的条件，该变动施加在（逆）度规张量上。里奇标量和测度都随着度规变化而变化。要看清这意味着什么，我们需要以下结果，这里直接引用：
δR
δgµν = Rµν ,
δ√−g
δgµν
= −1
2
√−g gµν .
(6.141)
从这些表达式可得
δS

Z δ(R√−g)
δgµν

δgµν d4y

Z √−g δR
δgµν + Rδ√−g
δgµν

δgµν d4y

Z
Rµν −1
2gµνR

δgµν √−g d4y .
(6.142)
括号中的张量就是爱因斯坦张量Gµν。根据最小作用量原理，对于任意无穷小变分δgµν，δS = 0。只有当括号中的张量为零时这才成立，它告诉我们真空爱因斯坦方程是Gµν = 0。

爱因斯坦-希尔伯特作用量
201
我们也可以在理论中包含物质场，此时作用量变为
S = SG + SM =
Z
(R + αLM) √−g d4y ,
(6.143)
其中α是比例常数，LM是物质场的拉格朗日密度。一般来说物质拉格朗日量将依赖于各种场，例如标量场或麦克斯韦场。如果我们变分SM，得到
δSM

α
Z √−g δLM
δgµν + LM
δ√−g
δgµν

δgµν d4y

α
Z δLM
δgµν −1
2gµνLM

δgµν √−g d4y .
(6.144)
能量-动量张量定义为9
Tµν = −2δLM
δgµν + gµνLM ,
(6.145)
因此如果我们对整个作用量SG + SM 关于度规和物质场都进行变分，可得
Gµν = α
2 Tµν ,
(6.146)
连同弯曲时空背景中物质场的场方程。将常数定为α = 16πG，我们就得到了存在物质时的爱因斯坦方程。
唯一能加到拉格朗日密度中的另一项是一个常数项LΛ = 2Λ，称为宇宙学常数项。（因子2是约定俗成。）附加作用量SΛ的变分为
δSΛ

Z
2Λδ√−g
δgµν

δgµν d4y

Z
(−Λ gµν) δgµν √−g d4y .
(6.147)
如果包含这一项，那么完整的爱因斯坦方程为
Gµν −Λgµν = 8πG Tµν .
(6.148)
我们将在第14章讨论宇宙学常数的重要性。
9 这种在弯曲时空中确定物质场能量-动量张量的方法非常方便，并且与在闵可夫斯基时空中考虑能量和动量守恒所得结果一致。

202
广义相对论
6.14
进一步阅读
关于引力的概述和广义相对论的入门，参阅
M. Begelman 和 M. Rees，《引力的致命吸引：宇宙中的黑洞》（Gravity’s Fatal Attraction: Black Holes in the Universe）（第2版），剑桥：剑桥大学出版社（CUP），2010年。
N.J. Mee，《引力：破解宇宙密码》（Gravity: Cracking the Cosmic Code），伦敦：Virtual Image，2014年。
关于广义相对论的全面论述，参阅
I.R. Kenyon，《广义相对论》（General Relativity），牛津：牛津大学出版社（OUP），1990年。
S. Carroll，《时空与几何：广义相对论入门》（Spacetime and Geometry: An Introduction to General Relativity），旧金山：Addison Wesley，2004年。
J.B. Hartle，《引力：爱因斯坦广义相对论入门》（Gravity: An Introduction to Einstein’s General Relativity），旧金山：Addison Wesley，2003年。
关于基于粒子动力学的广义相对论方法，参阅
J. Franklin，《高级力学与广义相对论》（Advanced Mechanics and General Relativity），剑桥：剑桥大学出版社（CUP），2010年。
关于黑洞的全面专著，参阅
V.P. Frolov 和 I.D. Novikov，《黑洞物理学：基本概念与新进展》（Black Hole Physics: Basic Concepts and New Developments），多德雷赫特：Kluwer，1998年。

7_Quantum_Mechanics

7
量子力学
7.1
引言
19世纪末，有些物理学家认为他们的学科已基本完备，进一步的进展只不过是对已知内容的精炼罢了。实际上，一场即将撼动物理学根基的危机正在迫近，其影响至今仍能感受到。正如我们所见，要理解最大尺度上的空间和时间，需要革命性的思想；但要理解极小的原子和亚原子尺度上的能量与物质，则需要一场更为重大的革命。
一个新的时代始于1900年。马克斯·普朗克(Max Planck)当时已为解释观测到的黑体辐射波长与强度之间的关系苦苦思索了一段时间。1900年，他发表了一个精确描述该辐射的公式。（我们将在第10章推导此公式。）在此过程中，他将一个新的基本常数引入物理学。这个常数ħ，即普朗克常量(Planck’s constant)，是迈向量子力学的第一步。它出现在所有用到量子力学思想的地方，并统一了这一学科。普朗克最初引入的常数是h = 2πħ，但使用ħ几乎总是更方便。ħ的数值约为1.055 × 10⁻³⁴ J s。
当光照射到许多金属上时，金属会发射出电子。这被称为光电效应(photoelectric effect)。根据实验，每个出射电子的能量取决于光的频率而非其强度，这一观察结果很难用经典物理学解释。1905年，爱因斯坦(Einstein)发表了一篇论文，他意识到这篇论文比同年发表的关于狭义相对论的论文更具革命性。在这篇论文中，爱因斯坦提出，电磁辐射并非连续的波，而是由我们现在所知的称为光子(photons)的粒子组成，并且这些光子的能量由一个包含普朗克常量的简单公式给出：E = ħω，其中ω是光的（角）频率。凭借这个影响深远的思想，爱因斯坦解释了光电效应。从金属中发射出的每个光电子，都源于与一个光子的单次碰撞，该光子的能量由爱因斯坦公式给出。
几年后，爱因斯坦将类似的思想应用于固体中的热振动。基于这些振动是量子化的并且同样遵循方程E = ħω的假设，爱因斯坦推导出了一个固体热容量的公式。
量子理论发展的下一步，是在欧内斯特·卢瑟福(Ernest Rutherford)发现原子核之后，尼尔斯·玻尔(Niels Bohr)试图解释原子结构时迈出的。玻尔假设电子绕原子核运行，但仅当每个电子的角动量被量子化为普朗克常量的整数倍时，这些轨道才是可能存在的。这一假设意味着电子的能级是分立的，并且被有限的能隙隔开。许多材料当其原子被置于
物理世界. 尼古拉斯·曼顿(Nicholas Manton) 和尼古拉斯·米(Nicholas Mee), 牛津大学出版社 (2017).
©尼古拉斯·曼顿和尼古拉斯·米. DOI 10.1093/acprof:oso/9780198795933.001.0001

204
量子力学
火焰的光谱颜色非常纯正，对应着精确的波长。玻尔(Bohr)意识到，这些锐利的线光谱是原子电子从一个分立能级跃迁到另一个较低能级时发射单个光子(photon)所致，他用他的模型极其精确地解释了这些光谱。我们将在本章不再进一步讨论光子，因为要理解它们的行为需要结合量子力学思想和相对论。本章将重点讨论非相对论性粒子的量子理论，这也是适用于原子和分子物理学的理论。

图7.1 沿十重对称轴拍摄的Al72Ni20Co8十重准晶体的电子衍射图样。

图7.1

在二十年间，量子理论被应用于一系列物理问题，但其发展是拼凑式的。这种方法现在被称为旧量子理论。一切都随着1924年路易·德布罗意(Louis de Broglie)思想的发表而改变。他有一个非凡的洞察：如果一个波可以具有类似粒子的特性，那么或许一个粒子也可以具有类似波的特性。他提出，动量为p的粒子应该具有波长
2π¯h
|p| 。三年后，当电子束穿过金属薄膜中的晶体原子网格观察到电子干涉图样时，这一预言得到了实验证实。一幅电子衍射图样如图7.1所示。

图7.1

从1925年起，旧量子理论被一个全新的理论——量子力学——所取代，它融合了许多旧思想，但更加一致和完整。它对原子结构和动力学性质（包括原子光谱）给出了极其精确的预言。这个新理论的应用比最初预期的还要广泛。1929年，保罗·狄拉克(Paul Dirac)说它是“物理学一大部分和整个化学的数学理论”。量子力学迅速应用于物理学的众多分支，其中许多我们将在后面章节中讨论。它被用来解释原子的性质、物质的结构……

量子力学中的位置和动量
205
周期表并理解化学键，这是整个化学学科的关键。它被应用于原子核物理学，从而理解了核能和恒星的动力来源。量子理论也被应用于基本粒子及其之间的力，以及寻找物质的基本组成成分。在更大的尺度上，它被用来解释固体的结构和性质。量子力学还促进了许多具有广泛应用的现象的发现，其中包括世界各地使用的常见设备中的组件。这些包括激光器、晶体管、发光二极管(LED)、超导性、超流性和超强磁体。

毫无疑问，量子力学比经典动力学更为基本，但经典物理学当然并未被完全抛弃。在¯h可以忽略的情况下，它仍然有许多应用。经典力学仍然是理解从台球到汽车、行星和恒星等宏观物体运动的最佳方法。大多数流体也可以由经典物理学很好地描述。即使在电力和通信工程中如此重要的电磁场，也可以由麦克斯韦方程组很好地描述，人们无需调用单个光子来模拟它们的行为。大致说来，量子力学提供最有用的物理学描述的领域与经典力学领域之间的边界，是原子长度尺度与更长长度尺度之间的边界，但这个边界并非截然分明。事实上，由于¯h不是长度单位，有一些较大尺度的现象，其解释需要考虑量子效应。

7.2 量子力学中的位置和动量

在经典牛顿动力学中，一个点粒子具有随时间变化的位置x(t)，通过对其求时间导数，我们得到速度v = dx/dt和加速度a = d²x/dt²。我们可以在任何瞬间自由指定x和v，但a由作用的力决定。实际上，有许多理由倾向于将x和p作为动力学变量，其中p = mv是粒子的动量：(i) 牛顿第二定律将力等同于p的变化率；(ii) 当两个物体相互作用时，总和p₁ + p₂是守恒的；(iii) 角动量有一个简单的表达式，l = x × p。量子力学是用位置x和动量p来表述的，速度不那么重要——但x和p的特性在量子力学中与经典动力学中有着根本的不同。

在本章中，我们仅限于一维粒子运动，因此动力学变量是x和p。在经典动力学中，x和p是普通的实数，可取−∞到∞之间的任何值。在量子力学中，沃纳·海森堡(Werner Heisenberg)提出，x和p不仅仅是数，而是作用于表征粒子物理状态的算符。这些算符的代数关系被假定为

xp − px = i¯h 1 . (7.1)

在右边，i是√−1，¯h是普朗克常数，而1是单位算符，当它作用时，状态保持不变。xp − px被称为x和p的对易子，并用记号[x, p]表示。方程(7.1)是一维量子力学中基本的位置-动量对易关系。

我们还没有说明算符x和p是什么，或者它们取什么值，但我们将坚持它们遵守对易关系(7.1)。经典极限对应于¯h = 0，这意味着xp = px，如果x和p是普通的数，这就得到满足。

206
量子力学
海森堡(Heisenberg)通过给出算符x和p如何随时间演化的规则，构建了一个动力学理论，同时它们在每一时刻仍满足方程(7.1)。他还设法从x和p以及能量等导出量中提取物理意义。然而，这种量子力学方法相当抽象和严苛。
矩阵相乘时一般不对易。例如，
[
\begin{pmatrix}
0 & a \
0 & 0
\end{pmatrix}
\begin{pmatrix}
0 & 0 \
b & 0
\end{pmatrix}

\begin{pmatrix}
0 & 0 \
b & 0
\end{pmatrix}
\begin{pmatrix}
0 & a \
0 & 0
\end{pmatrix}

\begin{pmatrix}
ab & 0 \
0 & -ab
\end{pmatrix},
]
而这正是矩阵有时成为量子力学中表示算符的合适工具的原因。如果方程(7.1)存在由实数或复数的n×n方阵构成的解，海森堡的量子力学将会更简单。然而，对于任何有限的n，都不存在矩阵解x=X和p=P。我们可以通过取迹来说明这一点。（矩阵M的迹，记作Tr M，是主对角线元素之和。）假设
[
XP - PX = i\hbar \mathbf{1}_n ,
]
其中(\mathbf{1}_n)是n×n单位矩阵。那么
[
\operatorname{Tr}(XP) - \operatorname{Tr}(PX) = i\hbar \operatorname{Tr} \mathbf{1}_n = i\hbar n ,
]
但是矩阵乘积的迹不依赖于它们相乘的顺序¹，因此方程(7.4)的左边为零，导致矛盾。所以方程(7.3)的原始前提必定错误。

存在由无限矩阵构成的方程(7.1)的解，这是海森堡发现的。在这种情况下，之前的论证不适用，因为无限矩阵的迹一般不能定义。这样的无限矩阵写起来很繁琐，因此这种方法很复杂。取而代之，我们给出薛定谔的观点。埃尔温·薛定谔(Erwin Schrödinger)独立地发展了一种量子力学方法，最初看起来与海森堡的方法截然不同，但很快人们意识到它们是等价的，因此我们现在谈论薛定谔绘景(Schrödinger picture)和海森堡绘景(Heisenberg picture)中的量子力学，它们具有相同的物理内容。薛定谔的量子力学更关注算符x和p所作用的状态。
在薛定谔绘景中，人们通过将x和p表示为作用在状态ψ上的微分算符而非矩阵，来求解方程(7.1)。ψ不是被有限矩阵作用的数列向量，而是x（通常也是时间t）的函数。关于导数(\frac{d}{dx})的一阶微分算符具有形式
[
D = a(x) + b(x) \frac{d}{dx},
]
其中a(x)和b(x)是普通函数，它们二者之一可以为零。作用在ψ上，
[
D\psi = a(x)\psi + b(x) \frac{d\psi}{dx},
]

¹ XP的矩阵元为((XP){ab} = \sum_c X{ac} P_{cb})，因此对角元为((XP){aa} = \sum_c X{ac} P_{ca})，于是(\operatorname{Tr}(XP) = \sum_a \sum_c X_{ac} P_{ca})。类似地，(\operatorname{Tr}(PX) = \sum_a \sum_c P_{ac} X_{ca})，如果交换指标a, c的标记和求和顺序，它就等于(\operatorname{Tr}(XP))。

薛定谔方程
207
所以 (D\psi) 是 (x) 的一个新函数²。还存在含有高阶导数的微分算符，我们稍后就会看到。表示 (x) 和 (p) 的算符都是一阶形式 (7.5)。算符 (x) 由 (x) 表示，即取 (a(x)=x)、(b(x)=0) 的 (D)。这里有一个必须容忍的记号混淆：(x) 可以表示一个算符、一个函数，或者一个特定的实数值，但根据上下文含义应该清楚。位置算符 (x) 作用在函数 (\psi(x)) 上产生新函数 (x\psi(x))。动量算符表示为
[
p = -i\hbar \frac{d}{dx},
\tag{7.7}
]
即取 (a(x)=0)、(b(x)=-i\hbar) 的 (D)。最后，单位算符 (\mathbf{1}) 由 (1) 表示，即取 (a(x)=1)、(b(x)=0) 的 (D)。

重要的是检验在薛定谔绘景下 (\psi) 满足方程 (7.1)。验证过程如下：
[
\begin{aligned}
(xp - px)\psi
&= x\left(-i\hbar \frac{d}{dx}\right)\psi - \left(-i\hbar \frac{d}{dx}\right)(x\psi) \
&= -i\hbar x \frac{d\psi}{dx} + i\hbar \left(\psi + x \frac{d\psi}{dx}\right) \
&= i\hbar \psi \
&= (i\hbar \mathbf{1})\psi,
\end{aligned}
\tag{7.8}
]
由于这一结果对任意函数 (\psi) 都成立，对易关系 (7.1) 得以确证。注意关键一步是对 (x\psi) 求导时用到的莱布尼茨法则，这在矩阵背景下并没有显然的类比。

在薛定谔绘景中，(x) 和 (p) 由微分算符表示，而在海森堡绘景中它们由无穷维矩阵表示，但这其实只是一种形式上的差别。一个更显著的差别是，在海森堡绘景中算符随时间变化，而态 (\psi) 保持不变。在薛定谔绘景中，(x) 和 (p) 不随时间变化，而 (\psi) 随时间改变。只要从形式理论中提取物理结果时足够谨慎，这两种绘景是等价的。在薛定谔绘景中，算符 (x) 和 (p) 是普遍的对象，无论粒子的动力学如何，它们都一样；态 (\psi) 的动力学则因不同粒子、不同情况而异。

7.3 薛定谔方程

一维粒子的牛顿动力学由粒子运动的势 (V(x)) 控制。势决定了作用在粒子上的力。在量子力学中，粒子的动力学同样由势 (V(x)) 控制。在薛定谔绘景中，粒子的物理信息由态 (\psi(x,t)) 承载，它也被称为粒子在时刻 (t) 的波函数。我们很快将讨论从 (\psi) 对 (x) 的依赖关系中可以导出什么，但首先讨论 (\psi) 的动力学——它如何随时间演化。这取决于势。

² 这里记号省略了 (\psi) 和 (D\psi) 的宗量 (x)，因为对导数来说写出它会显得累赘。

208
量子力学
一个新的算符 H，称为哈密顿量(Hamiltonian)，控制着 ψ 的动力学演化。它以质点的经典总能量为模型，是 x 和 p 的函数。对于在势 V(x) 中运动的粒子，哈密顿量是算符
H =
1
2mp2 + V (x) ,
(7.9)
即动能与势能之和（这些术语在量子力学中仍然适用）。m 是粒子的经典质量，是一个正的常数。我们稍后将讨论为什么时间演化由这个特定的算符决定。
由于 p 由 −i¯h d
dx 表示，p2 就是这个算符作用两次。这给出二阶微分算符
p2 =

−i¯h d
dx

−i¯h d
dx

= −¯h2 d2
dx2 .
(7.10)
另一方面，V(x) 仅仅是 x 的函数，其作用就是相乘。作用于态 ψ(x, t) 时，对 x 的导数变为偏导数，于是
Hψ = −¯h2
2m
∂2ψ
∂x2 + V (x)ψ ,
(7.11)
这是一个关于 x 和 t 的新函数。幸运的是，p2 作为算符没有歧义。某些经典量，比如 xp，会存在次序歧义，因为经典上 xp 和 px 相同，但作为算符，由于方程(7.1)，它们相差一个常数。
薛定谔绘景（Schrödinger picture）中量子力学的动力学原理是：态 ψ(x, t) 按照如下方程随时间演化：
i¯h∂ψ
∂t = Hψ ,
(7.12)
或者完整写出来，
i¯h∂ψ
∂t = −¯h2
2m
∂2ψ
∂x2 + V (x)ψ .
(7.13)
这就是薛定谔方程。作为初始数据，必须对所有 x 给定 ψ，而由于方程(7.13)是对时间的一阶微分方程，这就足够了。ψ = 0 总是薛定谔方程的一个解，但并不描述物理态，因此从现在起，我们所说的解总是指非零解。
方程(7.13)是一个线性偏微分方程，所以构造解的一种方法是找到一组特解，然后将一般解构造为特解的线性叠加。更明确地说，如果 ψ0(x, t), ψ1(x, t), ψ2(x, t), . . . 是(7.13)的独立解，那么
ψ(x, t) = a0ψ0(x, t) + a1ψ1(x, t) + a2ψ2(x, t) + · · ·
(7.14)
也是解，其中 a0, a1, a2, . . . 是不全为零且使得求和收敛的任意常数。
这里需要说明两点。第一，薛定谔方程显含 i，因此解 ψ 通常是复的。所以常数 a0, a1, a2, . . . 是复数。它们被称为振幅。第二，所有

薛定谔方程
209
通过线性叠加得到的解在物理上都是有效的，没有一个被排除。这就是量子力学的叠加原理(superposition principle)，它本质上只是方程具有线性性质的结果。这使得薛定谔方程与无源麦克斯韦方程这类线性波动方程形成了类比：后者的波解可以叠加，且任何解都是物理的。在经典粒子动力学中找不到类似的情况。波的叠加会产生干涉图样，这种行为虽然令人惊讶，但已得到实验证实。从前，量子力学曾被称为波动力学。然而，尽管粒子态具有波的性质，粒子本身仍然是局域的、点状的物体。

接下来的一个技术问题是找出一组特别方便的独立态ψ₀, ψ₁, ψ₂, …，并确定有多少个这样的态。实际上，有无穷多个。在某一给定时刻，函数ψ构成的空间是一个无穷维矢量空间，薛定谔方程给出ψ在这个空间中的演化。其中仍存在一组特别重要的态，称为定态(stationary states)。这些定态并非与时间无关，但它们对时间的依赖关系特别简单，而且它们的大部分物理性质都是与时间无关的。

为寻找定态，我们需要分离变量。假设ψ是一个只依赖于x的函数与一个只依赖于t的函数的乘积。这意味着对时间的依赖通过一个简单的指数因子e⁻ⁱᴱᵗ/̄ʰ体现，其中E是一个起初未知的实常数。于是完整的波函数为

ψ(x, t) = χ(x) e⁻ⁱᴱᵗ/̄ʰ ， (7.15)

其中χ(x)和E是待求的。将波函数(7.15)代入薛定谔方程(7.13)，算符īʰ ∂/∂t只对含时相因子求导，结果降下因子E。而包含空间导数的算符H只作用在χ上，于是得到

Eχ e⁻ⁱᴱᵗ/̄ʰ = Hχ e⁻ⁱᴱᵗ/̄ʰ 。 (7.16)

时间依赖因子消去，留下

Hχ = Eχ 。 (7.17)

更明确地写出来，

–̄ʰ²/(2m) d²χ/dx² + V(x)χ = Eχ 。 (7.18)

这就是定态薛定谔方程。解χ(x)称为定态波函数，E则是它的能量。注意，由于不再有时间依赖关系，偏导数∂/∂x又变成了寻常导数d/dx。

现在我们可以解释为什么基于粒子经典能量来构造算符H并把它用作量子力学演化算符是合理的。根据德布罗意(de Broglie)的思想，动量为正p的粒子由波长为2π̄ʰ/p的波来描述。波eⁱᵏˣ的波长为2π/k，因此这个波（波数为k）描述的是动量为p = ̄ʰk的粒子。对于这个波，定态薛定谔方程(7.18)的第一项为

–̄ʰ²/(2m) d²/dx² eⁱᵏˣ = ̄ʰ²k²/(2m) eⁱᵏˣ = p²/(2m) eⁱᵏˣ ， (7.19)

右边出现的系数p²/(2m)正是动能（这里p是经典动量，不是算符）。现在假设V(x)是一个缓慢变化的光滑函数……

210
量子力学
其中 x 所在的尺度远大于 2π/k。那么，在局部，e^{ikx} 近似满足定态薛定谔方程 (7.18)，只要
p^2/(2m) e^{ikx} + V(x)e^{ikx} = E e^{ikx} ,
(7.20)
其中 p = ¯hk，且 k 随 x 缓慢变化。如果 p^2/(2m) + V(x) = E，则方程两边系数匹配。这样，薛定谔方程就与经典能量方程联系了起来。因为 E 是常数，即使 p 和 V 各自变化，能量依然是守恒的。这个论证虽然粗糙，但它表明，当量子粒子的波长远小于外部给定势能 V 的特征长度尺度时，经典粒子运动可以转化为定态薛定谔方程的解，同时也表明将首次出现于方程 (7.15) 中的常数 E 解释为能量是正确的。方程 (7.18) 解的更好近似形式为
χ(x) = A(x) e^{ik(x)x}
(7.21)
其中 ¯h^2 k^2(x) / (2m) = E − V(x)，且 A(x) 的幅度和相位都缓慢变化，这个形式加强了上述论证。

现在让我们回到方程 (7.17) 及其精确解。方程 (7.17) 及其显式形式 (7.18) 是算符理论中被大量研究的对象。H 作用在函数 χ 上，但并未产生一个完全独立的函数；它只产生 χ 的常数倍。这样的函数 χ 是特殊的，E 也是特殊的。E 被称为 H 的本征值，或能量本征值，而 χ(x) 则是 H 的属于本征值 E 的本征函数或本征态。对于物理上合理的势 V(x)，H 有无穷多个本征值 E。它们可以是离散的（像整数），也可以是连续的（像所有实数），或者是两者的组合（一些离散值以及填满一个或多个区间的连续谱），如图 7.2 所示。在物理学中，能量本征值常被称为能级。它们是粒子能够具有的唯一精确能量。与最低能级相联系的本征函数称为基态，与较高能级相联系的则称为激发态。两个或多个具有相同能量的态称为简并态。

只有对某些势能才能显式求解一维薛定谔方程 (7.18) 并找出能量本征值。我们将考察几个重要的例子。更一般地研究本征值谱是薛定谔算符理论的一部分，这是一个深奥而复杂的课题。

7.3.1
自由粒子
让我们从自由粒子的例子开始，此时 V 处处为零。自由粒子的薛定谔方程为
i¯h ∂ψ/∂t = −(¯h^2/(2m)) ∂^2 ψ/∂x^2 .
(7.22)
通过分离变量，它化为定态薛定谔方程
−(¯h^2/(2m)) d^2 χ/dx^2 = Eχ .
(7.23)

薛定谔方程
211
第一激发态
基态
第二激发态
连续谱
图7.2 一个典型的势可以包含一组离散的能级以及一个连续的能级谱。
方程(7.23)是一个二阶常微分方程，对于任何正的能量E，有两个独立的实数解。它们是
χ1(x) = cos
1
¯h
√
2mE x

,
χ2(x) = sin
1
¯h
√
2mE x

.
(7.24)
通解是线性叠加
χ(x) = A cos
1
¯h
√
2mE x

B sin
1
¯h
√
2mE x

,
(7.25)
其中A和B是实数或复常数。
我们现在必须考虑χ(x)在x →±∞时的行为。物理上可接受的χ必须在x →±∞时保持有界（即χ的模不能无限增大）。我们称这样的解为可接受的。不可接受的解是指χ在一个方向或两个方向上无限增长的解。因此，对于任何A和B，解(7.25)都是可接受的，但如果E是负的，那么独立的解将是χ1(x) = e
1
¯h
√
2m|E| x
和χ2(x) = e−1
¯h
√
2m|E| x，它们在x →∞或x →−∞时指数增长，都是不可接受的。如果E = 0，只有一个可接受的解，χ(x) = 常数。结论是对于自由粒子，允许的能量本征值包含所有实数E ≥0，构成一个连续的本征值谱。没有负能级。
通常，使用特定的复指数形式的解更为方便。在方程(7.25)中取A = 1和B = ±i，我们得到独立解
χ+(x) = e
i
¯h
√
2mE x ,
χ−(x) = e−i
¯h
√
2mE x ,
(7.26)
通解是这些解的叠加。包含时间依赖关系的完整波函数为

212
量子力学
ψ+(x, t) = e
i
¯h(
√
2mE x−Et) ,
ψ−(x, t) = e
i
¯h(−
√
2mE x−Et) .
(7.27)
如果我们使用德布罗意(de Broglie)波数k = ± 1
¯h
√
2mE，那么E = ¯h2k2
2m ，自由粒子的薛定谔方程的一组完备独立定态解可以用k更简单地写为
ψ(x, t) = eikx−¯hk2
2m t
,
(7.28)
其中k取任何实数值，包括负值。这些是简单的波形式解，空间波长为2π
|k|，表示一个动量为¯hk、能量为¯h2k2
2m 的粒子。
我们不能忘记，薛定谔方程的通解是包含时间依赖因子的定态叠加。对于自由粒子，通解为
ψ(x, t) =
Z ∞
−∞
F(k)eikx−¯hk2
2m t
dk ,
(7.29)
其中F(k)是任意复函数，当|k| →∞时衰减得足够快以保证积分收敛。k是一个连续参数，这就是为什么叠加是k的积分而不是求和。
7.3.2
谐振子
现在让我们研究第二个重要例子，量子谐振子，其薛定谔方程为
i¯h∂ψ
∂t = −¯h2
2m
∂2ψ
∂x2 + 1
2mω2x2ψ .
(7.30)
势为V (x) =
1
2mω2x2，一个质量为m的经典粒子在此势中以频率ω振荡。定态薛定谔方程现在取形式
−¯h2
2m
d2χ
dx2 + 1
2mω2x2χ = Eχ .
(7.31)
经典情况下，有限能量的粒子在此势中在有限区间内振荡。在量子力学中，我们施加边界条件：χ在x →±∞时必须趋近于零。
为了分析方程(7.31)，通过使用标度化的长度和能量变量来简化记号是有帮助的。我们选择y = p mω
¯h x和ε =
2
¯hωE。那么χ(y)满足
−d2χ
dy2 + y2χ = εχ .
(7.32)
回想一下，对于自由粒子，能量可以取任何正值或零。而这里，本征值ε只能取某些离散值。原因如下。对于大的|y|，对于任何ε，方程(7.32)的两个独立解大致为e−1
2 y2和e
1
2 y2。只有在大正y处行为像e−1
2 y2的解才可能是可接受的，因为

薛定谔方程
213
–2
2
4
–4
4
2
6
8
10
ε
χ₁
χ₀
χ₂
χ₃
χ₄
y
图7.3 谐振子的五个最低能量解 χn(y)。

另一个解则会增长。如果我们取这个解并将其延拓到很大的负 y 处，那么它通常会是该处 e^{-1/2 y^2} 和 e^{1/2 y^2} 解的某种组合，而其中 e^{1/2 y^2} 的部分将完全占主导。它的增长行为使得这个解终究不可接受。因此，对于一般的 ε 值，不存在同时满足两个边界条件的可接受解。只有当 ε 取某些离散值时，才存在一个在 y 很大正和很大负处都按 e^{-1/2 y^2} 衰减的解，这些特殊值就是本征值。

本征值是哪些呢？最低的是 ε = 1，解正好是 χ(y) = e^{-1/2 y^2}，因为（求两次导数）
$$
\left( -\frac{d^2}{dy^2} + y^2 \right) e^{-\frac{1}{2} y^2} = \frac{d}{dy} \left( y e^{-\frac{1}{2} y^2} \right) + y^2 e^{-\frac{1}{2} y^2} = e^{-\frac{1}{2} y^2}.
\tag{7.33}
$$
这就是基态解。完整的本征值序列构成一个离散序列：ε = 1, 3, 5, 7, …。将这个序列记为 ε_n = 2n+1，从 n=0 开始。相应的定态波函数为 χ_n(y)，它们的形式为
$$
\chi_n(y) = H_n(y) e^{-\frac{1}{2} y^2}
\tag{7.34}
$$
其中 H_n(y) 是 y 的 n 次多项式。前五个解如图7.3所示。尽管有多项式前置因子，χ_n(y) 在大的 |y| 处几乎像 e^{-1/2 y^2} 一样快地衰减。用原始变量表示，第 n 个解为
$$
\chi_n(x) = H_n \left( \sqrt{\frac{m\omega}{\hbar}} x \right) e^{-\frac{m\omega}{2\hbar} x^2}, \quad \text{其中} \quad E_n = \left( n + \frac{1}{2} \right) \hbar \omega .
\tag{7.35}
$$
这个序列中的多项式被称为厄米多项式(Hermite polynomials)。前几个例子是
$$
\begin{aligned}
H_0(y) &= 1, \
H_1(y) &= y, \
H_2(y) &= y^2 - \frac{1}{2}, \
H_3(y) &= y^3 - \frac{3}{2} y,
\end{aligned}
\tag{7.36}
$$
其中，按照惯例，首项的系数已设为1。一个一般公式

214
量子力学
对于所有这些多项式，有
Hn(y) =

−1
2
n
ey2 dn
dyn e−y2 .
(7.37)
能量本征值 En (n = 0, 1, 2, . . .) 就是谐振子的能级。基态能量为 E0 = 1
2¯hω，所有能量高于 E0 的态都是激发态。值得注意的是，基态能量为正，且相邻能级之间的间隔均相等。1
2¯hω 被称为零点能，是量子谐振子所能具有的最低能量。相比之下，经典谐振子的最小能量为零，此时粒子静止在势阱底部 x = 0 处。

对于谐振子，通解为
ψ(x, t) =
∞
X
n=0
anHn
rmω
¯h x

e−mω
2¯h x2e−i(n+ 1
2)ωt .
(7.38)
振幅 an 必须在 n →∞ 时足够快地趋于零，以保证求和收敛，除此之外它们是任意的。

那么更一般的势呢？例如，可以考虑含有 V (x) =
1
2mω2x2 + x4 或 V (x) = |x| 的薛定谔方程。这些势的最小值为零，并且在 x →±∞ 时趋于无穷大。确定它们的能量本征值并不容易，但对于这类势，能量是势最小值以上的一组无穷多个离散正数。像 V (x) = 1
2mω2x2 + x3 这样的势，当 x →−∞ 时 V 趋于 −∞，在量子力学中并不导致物理上合理的模型。它们根本没有能量本征值，粒子动力学是不稳定的。

7.4
波函数的诠释——可观测量

应该如何诠释薛定谔方程的解？它们的物理意义是什么？我们知道，定态
ψ(x, t) = χ(x)e−i
¯h Et ,
(7.39)
其中 Hχ = Eχ，是一个具有能量 E 的态，但也存在这些态的叠加态，具有不同的 E 值。如何理解它们？粒子在哪里，它的动量是多少？粒子是否具有确定的能量？

这些问题由马克斯·玻恩(Max Born)解决，他提出了量子理论的标准统计观点。根据玻恩的观点，薛定谔波函数提供了关于粒子及其动力学的概率性信息。这与薛定谔最初的直觉——波函数是一个可测量的对象，就像电磁波或海浪一样——相悖，但它迅速成为量子力学标准诠释的关键组成部分。尽管量子力学的诠释至今仍未令所有人满意，但量子力学提供了一个预言实验概率性结果的规则，且已被证明极其成功。没有任何实验或观测曾经质疑过量子力学运作极佳这一事实。

波函数的诠释——可观测量
215
7.4.1 位置概率
我们首先需要讨论粒子在何处。基本思想是，在时间t，
∫_{x0}^{x1} |ψ(x, t)|^2 dx (7.40)
表示粒子位于x0和x1之间的概率。被积函数是波函数的模平方，|ψ(x, t)|^2 = ψ*(x, t) ψ(x, t)，其中ψ*是ψ的复共轭。|ψ(x, t)|^2是实数且非负，代表在x处找到粒子的概率密度。
总概率必须为1，因此为了使(7.40)式有意义，波函数必须归一化，即满足
∫_{-∞}^{∞} |ψ(x, t)|^2 dx = 1 . (7.41)
对于遵守薛定谔方程(7.12)的ψ，只要在某一初始时刻满足归一化条件，该条件在所有时刻均成立。如果一个波函数未归一化，那么要么需要乘以一个常数使其归一化，要么等价地，将(7.40)式替换为
(∫_{x0}^{x1} |ψ(x, t)|^2 dx) / (∫_{-∞}^{∞} |ψ(x, t)|^2 dx) . (7.42)
如果ψ已归一化，那么e^{iα}ψ（其中α为实常数）仍是归一化的且满足薛定谔方程。概率密度不受相位因子e^{iα}影响，粒子的其他任何物理性质也是如此。因此，人们将ψ和e^{iα}ψ视为物理上等价的波函数。
在定态中，ψ(x, t) = χ(x) e^{-iE t/ħ}，所以|ψ(x, t)|^2 = |χ(x)|^2，对χ的归一化条件为
∫_{-∞}^{∞} |χ(x)|^2 dx = 1 . (7.43)
概率密度|χ(x)|^2不随时间变化，这就是这类态被称为定态的原因。对于更一般的波函数，在x0和x1之间找到粒子的概率随时间改变，因此在这个意义上，粒子在运动。
作为一个例子，让我们考虑谐振子的基态和第一激发态，采用标度坐标y。归一化的定态为
χ_0(y) = (1/π)^{1/4} e^{-y^2/2} 和 χ_1(y) = (4/π)^{1/4} y e^{-y^2/2} , (7.44)
这可以利用高斯积分(1.45)和(1.65)来验证。单独地，这些态具有确定的能量，在这些态中，粒子位于y = 0

216
量子力学
和 y = 1 的概率分别是
$$\frac{1}{\sqrt{\pi}} \int_{0}^{1} e^{-y^{2}} , dy \simeq 0.421$$
以及
$$\frac{4}{\sqrt{\pi}} \int_{0}^{1} y^{2} e^{-y^{2}} , dy \simeq 0.214 ,.$$
(7.45)
后者更小，因为粒子在激发态比在基态更加弥散。这类似于经典振动的振幅随着能量增加而增大。在这些状态的叠加中，含时相位因子具有不同的频率，粒子出现在 y = 0 和 y = 1 之间的概率以谐振子频率 ω 振荡。

概率诠释可以通过测量粒子是否位于 x₀ 和 x₁ 之间来实验检验。单次测量的答案将是“是”或“否”，但如果实验被重复多次，每次都以相同方式制备该状态，那么给出“是”的测量结果所占的比例应当趋近于预言的概率。有些物理学家认为，依赖重复测量的诠释不能令人满意，并提出了不同的诠释。然而，似乎确定无疑的是，没有任何版本的量子力学能携带更多信息，使得位置测量的结果完全确定。概率是量子力学不可避免的特征。

7.4.2 其他物理量——厄米算符

我们已经引入了如下观念：基本的动力学变量——位置 x 和动量 p——在量子力学中成为算符。我们也已经看到，哈密顿量 H = \frac{1}{2m} p^{2} + V(x) 是一个关键的算符；它出现在薛定谔方程中，并与粒子的能量相关。另一个算符是单独的动能，\frac{1}{2m} p^{2}。量子力学的一个基本假设是：每个可观测量——每一个可以测量的物理量——都由一个算符表示。算符通常与经典的动力学变量（一般是 x 和 p 的函数）相关联，但我们稍后会遇到的旋量算符则没有相近的经典对应物。在量子力学中，可观测量总是由厄米算符(Hermitian operator)来表示，它们与厄米多项式一样，是以数学家夏尔·埃尔米特(Charles Hermite)的名字命名的。我们将证明，厄米算符最重要的性质是它们具有实的本征值，因此它们类似于实的动力学变量。

数学上，如果算符 O 具有如下对称性质（称为厄米性），则它是厄米的：若对于任何在 x → ±∞ 时足够快地趋于零的复函数 φ(x) 和 η(x)，都有
$$\int_{-\infty}^{\infty} \overline{O \eta} , \varphi , dx = \int_{-\infty}^{\infty} \overline{\eta} , O\varphi , dx ,,$$
则称 O 是厄米的。
(7.46)
（记住 φ, η, Oφ 和 Oη 都是 x 的函数。）另一种等价的表述是，\int_{-\infty}^{\infty} \overline{\varphi} , O\eta , dx 是 \int_{-\infty}^{\infty} \overline{\eta} , O\varphi , dx 的复共轭。

检验特定算符的厄米性并不困难。通常需要进行一次分部积分。例如，\frac{d^{2}}{dx^{2}} 是厄米的，因为
$$\int_{-\infty}^{\infty} \overline{\frac{d^{2}\eta}{dx^{2}}} , \varphi , dx = \int_{-\infty}^{\infty} \overline{\eta} , \frac{d^{2}\varphi}{dx^{2}} , dx ,,$$
(7.47)

波函数的诠释——可观测量
217
这可以通过两次分部积分来验证。同样地，i d/dx 是厄米的——因子 i 至关重要——因为
∫_−∞^∞ (i dη/dx) φ dx = ∫_−∞^∞ η (i dφ/dx) dx 。 (7.48)
分部积分会给出一个负号，但 i = −i*。显然，哈密顿量 H = −ħ²/(2m) d²/dx² + V(x) 和动量算符 p = −iħ d/dx 都是厄米的。

一个厄米算符 O 通常有无穷多个独立的本征函数，我们假定它们可以用 k = 0, 1, 2, … 来标记。（这是方便的，并且对一整类算符都成立，但对其他一些算符则需要使用连续标记而非离散标记。）因此 O 具有本征函数和本征值的离散谱
Oφ_k = λ_k φ_k , k = 0, 1, 2, … 。 (7.49)
由 O 的厄米性可得两个关键结果：(i) 每个本征值 λ_k 都是实数；(ii) 对应于不同本征值 λ_k 和 λ_l 的本征函数 φ_k(x) 和 φ_l(x) 是正交的，其意义为
∫_−∞^∞ φ_l^* φ_k dx = 0 。 (7.50)
（这是针对复函数而言的，类似于两个正交向量的点积为零。）

结果 (i) 和 (ii) 的证明颇为相似。我们从 O 的一对本征函数出发，它们满足方程
Oφ_k = λ_k φ_k , (7.51)
Oφ_l = λ_l φ_l , (7.52)
并假设 λ_l ≠ λ_k。然后，利用方程 (7.51) 的复共轭、O 的厄米性以及再次使用方程 (7.51)，我们得到
λ_k ∫_−∞^∞ φ_k^* φ_k dx = ∫_−∞^∞ (Oφ_k)^* φ_k dx = ∫_−∞^∞ φ_k^* Oφ_k dx = λ_k ∫_−∞^∞ φ_k^* φ_k dx , (7.53)
因此 λ_k* = λ_k，从而 λ_k 是实数。

类似地，
λ_l ∫_−∞^∞ φ_l^* φ_k dx = ∫_−∞^∞ (Oφ_l)^* φ_k dx = ∫_−∞^∞ φ_l^* Oφ_k dx = λ_k ∫_−∞^∞ φ_l^* φ_k dx , (7.54)
这里我们用到了方程 (7.52) 的复共轭、O 的本征值为实数（我们刚刚证明的）、O 的厄米性以及方程 (7.51)。由于 λ_l ≠ λ_k，这串等式意味着 ∫_−∞^∞ φ_l^* φ_k dx = 0，这正是我们要证明的正交性条件 (7.50)。

我们可以通过使用满足
∫_−∞^∞ φ_k^* φ_k dx = 1 (7.55)
的归一化本征函数 φ_k，将这个正交性结果略微加强为正交归一性。

218
量子力学
于是，正交归一性条件即为
∫−∞^∞ φ_l^* φ_k dx = δ{lk} , (7.56)
其中 δ_{lk} 是克罗内克δ符号(Kronecker delta symbol)，当 l = k 时取值为 1，当 l ≠ k 时取值为 0。方程 (7.56) 将正交性条件 (7.50) 与归一化条件 (7.55) 结合了起来。在某些本征值有多个本征函数的情况下（即本征值简并的情况），也可以实现正交归一性。

在厄米算符分析中有一个深刻的定理：本征函数 φ_k 构成一个完备集，意味着任何波函数 ψ 都可以表示成它们的线性组合。（这可能是量子力学所需的最重要的数学定理，在原子物理、凝聚态物理以及理论化学的应用中都会被例行地用及。）它是傅里叶级数(Fourier series)思想的推广——任何周期函数都可以表示为具有相同周期的正弦和余弦函数的线性组合。利用完备性，我们可以写出
ψ(x, t) = Σ_{k=0}^∞ c_k(t) φ_k(x) , (7.57)
其中振幅 c_k(t) 依赖于时间 t，因为 ψ 是 t 的函数。

如果 ψ 是归一化的，那么这组振幅在以下意义下也是归一化的：
Σ_{k=0}^∞ |c_k(t)|² = 1 。 (7.58)
这是因为，对于归一化的 ψ，
1 = ∫−∞^∞ |ψ(x, t)|² dx
= Σ{l=0}^∞ Σ_{k=0}^∞ c_l(t)^* c_k(t) ∫−∞^∞ φ_l^* φ_k dx
= Σ{l=0}^∞ Σ_{k=0}^∞ c_l(t)^* c_k(t) δ_{lk}
= Σ_{k=0}^∞ c_k(t)^* c_k(t)
= Σ_{k=0}^∞ |c_k(t)|² 。 (7.59)
这里我们用到了本征函数的正交归一性，以及克罗内克δ的基本性质 Σ_l α_l δ_{lk} = α_k，该性质成立是因为只有 l = k 的项对求和有贡献。

7.4.3 可观测量的测量
由厄米算符 O 表示的物理量称为可观测量。现在我们来考虑可观测量的测量。我们需要用到 O 的……

波函数的诠释——可观测量
219
具有实数本征值λk，并且我们刚刚讨论过，O的归一化本征函数φk(x)构成一个完备、正交归一的函数集。令代表粒子状态的波函数具有展开式(7.57)，ψ(x, t) = P∞
k=0 ck(t)φk(x)。

量子力学的一个基本假设是：对算符O所表示的物理量进行测量，其可能的结果就是O的本征值λk，并且只能是这些值。如果本征值构成离散集合，那么它们之间必然存在间隔。本征值的集合当然只依赖于O，而不依赖于波函数。波函数只是决定了各种结果出现的概率。如果在时刻t进行测量，那么得到结果λk的概率为|ck(t)|2。归一化条件(7.58)的含义是：所有可能结果的概率之和为1，这是必须满足的。

知道一个测量所有可能的结果及其概率，就是我们在量子力学中能够期望的最大信息量。不存在隐藏变量能够给出比波函数更多的粒子信息。有时信息还会更少。一般情形下存在不确定性，因为各种结果都以一定的概率可能出现。例外的情况是：如果波函数（在时刻t）恰好是O的一个本征函数，例如本征函数φK，对应的本征值为λK。此时我们说，粒子对于O所代表的可观测量具有确定值λK。那么测量得到λK的概率就是1。

能量又如何处理？设哈密顿量H的本征值为En (n = 0, 1, 2, . . .)，与En对应的归一化本征函数为χn(x)。回想一下，χn(x)是定态波函数。薛定谔方程的一般非定态解可以用它们表示为

ψ(x, t) = ∞∑ n=0 anχn(x)e−i ¯h Ent , (7.60)

并且如果ψ(x, t)是归一化的，则有

∞∑ n=0 |an|2 = 1 . (7.61)

如果我们测量能量，结果将是其中一个En值，测量得到En的概率为|an|2。这是我们关于一般算符O所述内容的一个特例，因为方程(7.60)就是将ψ按H的本征函数展开。这时振幅cn(t)为ane−i ¯h Ent, 且|cn(t)|2 = |an|2。能量的特殊之处在于，这些概率不随时间改变，即使对非定态波函数也是如此。这是量子力学中能量守恒的一个体现。然而，在非定态中能量仍然是不确定的——只有在定态中能量才具有确定值。

我们也可以考虑动量的测量。我们知道，动量算符 p = −i¯h d/dx 是厄米的(hermitian)。它的本征值方程为

−i¯h d/dx φ = λφ , (7.62)

边界条件是φ在x →±∞时不应指数增长。方程的解为φk(x) = e^{ikx}，本征值λ = ¯hk，k为任意实常数。函数e^{ikx}既不增长也不衰减，且满足边界条件，故所有实数k都允许。因此动量本征值构成连续谱，这不同于我们在方势阱中遇到的能量本征值离散情形。k为负值对应负动量。这里我们再次看到，动量可能取的结果就是算符p的本征值，即所有实数¯hk。注意，这些本征函数e^{ikx}不能在通常意义上归一化，因为|φk|2 = 1，使得积分∫∞−∞ |φk|2 dx发散。这是连续谱本征函数的一般特性，需要单独处理，我们将在下一节讨论。

220
量子力学
其幅度当 x →±∞ 时衰减，而这是可接受的。因此 eikx（自由粒子的定态）是动量算符 p 的本征函数，本征值为 ¯hk。由于 k 可取任意实数值，动量的测量可以有任何实数值的结果。一般波函数 ψ(x, t) 可以用这些本征函数展开，形式为
ψ(x, t) = 1
2π
Z ∞
−∞
eψ(k, t)eikxdk ,
(7.63)
而测得动量值 ¯hk 的概率密度为
1
2π| eψ(k, t)|2。方程
(7.63) 是傅里叶逆变换的公式，因此 eψ(k, t) 是 ψ(x, t) 的傅里叶变换。如果波函数 ψ 是归一化的，则
1 =
Z ∞
−∞
|ψ(x, t)|2dx = 1
2π
Z ∞
−∞
| eψ(k, t)|2dk ,
(7.64)
这表明动量概率密度是正确归一化的。（在傅里叶变换理论中，这个结果被称为帕塞瓦尔定理(Parseval’s theorem)。）

动量只有对动量算符的本征函数才有确定值。如果波函数在某一时刻为 eikx，动量就是 ¯hk。这就将德布罗意(de Broglie)关于动量的洞见纳入到了关于可观测量、厄米算符和概率的普遍量子力学框架中。然而，这种具有确定动量的波函数实际上是不可归一化的。对于具有连续本征值集合的算符，其本征函数通常就是这种情况。为了使分析具有物理意义，必须将波函数限制在一个大的、有限的空间区域内，使其可归一化，此时动量就不是完全确定的。正如我们将看到的，这可以解释为不确定性原理的一种表现。

7.5
期望值
这里我们讨论量子测量结果的平均值。根据定义，平均值是按概率加权的测量结果的平均。例如，如果抛掷一个各面为1到6点的公平骰子，测量结果的平均值是 3 1
2。在量子力学中，平均值被称为期望值。

回顾归一化波函数 ψ 用 O 的本征函数展开的表达式 (7.57)，系数为 ck(t)。在时刻 t 测量由 O 表示的可观测量的期望值为
⟨O⟩=
X
k
|ck(t)|2λk ,
(7.65)
因为结果 λk 的概率为 |ck(t)|2。由于 ck(t) 与波函数相关，有一个更优美的计算 ⟨O⟩ 的替代公式，
⟨O⟩=
Z ∞
−∞
ψ(x, t) O ψ(x, t) dx ,
(7.66)
我们马上会证明它。请注意，这个公式直接依赖于算符 O 如何作用于波函数，而不需要明确知道各个

期望值
221
概率来确定⟨O⟩。人们可能会预期，动力学变量的物理值与表示该变量的算符如何作用于波函数有关，而方程(7.66)证实了这一点。

如果波函数ψ是O的本征值为λ的本征函数，那么该态对于算符O具有确定的值，即λ。公式(7.66)与此一致，因为此时Oψ = λψ，所以
⟨O⟩= λ
∫ ∞
−∞
ψ(x, t)ψ(x, t) dx = λ .
(7.67)
方程(7.65)和(7.66)的等价性证明如下。从方程(7.66)出发，我们将波函数用O的本征函数展开，依次得到
⟨O⟩

∑
k
∑
l
ck(t)cl(t)
∫ ∞
−∞
φk(x) O φl(x) dx

∑
k
∑
l
ck(t)cl(t)λl
∫ ∞
−∞
φk(x)φl(x) dx

∑
k
∑
l
ck(t)cl(t)λlδkl

∑
k
ck(t)ck(t)λk

∑
k
|ck(t)|²λk ,
(7.68)
其中关键步骤（从第二行到第三行）利用了O的本征函数的正交归一化条件(7.56)。

以下是方程(7.66)的一些例子。能量的期望值为
⟨H⟩=
∫ ∞
−∞
ψ(x, t) H ψ(x, t) dx ,
(7.69)
它等于∑∞ n=0 |an|²En，并且不随时间改变。位置x的期望值可以简化，因为算符x的作用就是简单地给波函数乘以x，所以
⟨x⟩

∫ ∞
−∞
ψ(x, t) x ψ(x, t) dx

∫ ∞
−∞
|ψ(x, t)|²x dx .
(7.70)
这与|ψ(x, t)|²作为位置概率密度是一致的。也许最有用的例子是动量的期望值。这就是
⟨p⟩= −iℏ
∫ ∞
−∞
ψ(x, t) ∂
∂xψ(x, t) dx .
(7.71)
即使动量概率密度涉及ψ的傅里叶变换，期望值的公式(7.71)却并不涉及。

222
量子力学
7.6
测量之后
量子力学还有一条进一步的公设，涉及进行一次测量后波函数会发生什么。假设测量由 O 表示的动力学变量。回想一下，波函数有如下展开
ψ(x, t) =
X
k
ck(t)φk(x) ,
(7.72)
其中 φk(x) 是 O 的归一化本征函数，本征值为 λk。在时刻 t 的测量结果以概率 |ck(t)|2 为 λk。假设测量结果是这些可能值之一 λK。该公设说，测量后瞬间波函数不再是 ψ；它是与本征值 λK 相联系的本征函数 φK(x)。测量盖过了薛定谔方程，波函数发生了跳跃。这种跳跃称为波函数坍缩。如果紧接着重复测量，结果将再次是 λK，概率为 1。如果不做进一步测量，波函数将从 φK 出发按照薛定谔方程演化。

波函数坍缩相当神秘，特别是它不由任何动力学方程描述。由玻尔 (Bohr) 开创的被确立的哥本哈根诠释 (Copenhagen interpretation) 认为，测量是由服从经典物理学的仪器进行的，而这些仪器必须具有确定的值。如果测量给出值 λK，那么可观测量 O 有确定值 λK，此时状态必须是 φK。但之前并非如此。哥本哈根诠释要求一个经典世界与原子的量子世界共存，所以量子力学本身，如果没有经典测量仪器，便没有意义。

当人们认识到测量仪器及其产生的记录是物理的，并且与被测对象并无根本性的不同时，这确实不能令人满意。随着量子现象在越来越大的系统中被观测到，而测量仪器和记录测量结果的系统变得越来越小，宏观实验室设备与量子系统之间的尺度区别逐渐消失，这一点越来越成为现实。例如，在粒子物理实验中，对电子位置的记录现在牵涉的不是指针或照片，而是硅芯片及类似半导体器件中的其他电子。

没有人真正理解这些所谓的波函数跳跃。有一种观点是，测量并不使波函数坍缩，而是在对象与测量仪器之间建立起关联。这依赖于测量仪器可以处于状态的叠加的可能性。正如这些说明所表明的，量子力学的诠释仍在被物理学家们争论，关于量子系统的状态究竟意味着什么，或者如何理解波函数坍缩，尚未达成共识。我们将在最后一章回到这些未解决的问题上来。

7.7
不确定性关系
如果一个粒子的波函数是某个厄米算符 O 的本征函数，本征值为 λ，那么对 O 的测量将以概率 1 给出结果 λ。该粒子有 O 的确定值，不存在不确定性。例如，在一个定态——哈密顿量的本征函数——中，粒子有确定的能量。对于更一般的波函数，有一系列可能的结果和各种概率，因此存在不确定性。

不确定性关系

现在考虑两个可观测量的情况，它们分别用算符 O1 和 O2 表示。这两个量能否在没有不确定性的情况下同时具有确定值？与之密切相关的问题是，它们能否被同时测量。答案取决于这两个算符是否对易。假设 O1 和 O2 不对易，这意味着它们的对易子是一个不恒等于零的算符 O3：
[O1, O2] = O1O2 − O2O1 = O3 . (7.73)
经典的不对易算符是 x 和 p，它们满足正则对易关系 [x, p] = i¯h1，但还有许多其他例子，包括我们将在第 8.5 节讨论的自旋算符对。

O1 和 O2 不对易的一个后果是，它们的本征函数并非完全相同。假设它们有一个共同的本征函数 φ，那么
O1φ = λ1φ , O2φ = λ2φ , (7.74)
其中本征值可以不同。现在，用 O1 作用于第二个方程，用 O2 作用于第一个方程，得到
O1O2φ = λ2O1φ = λ2λ1φ , O2O1φ = λ1O2φ = λ1λ2φ . (7.75)
将这两个方程相减，我们得到
[O1, O2]φ = 0 , (7.76)
因此 O3φ = 0。一般来说，O3 的本征值不会为零，所以这最后一个方程无解，从而得出结论：O1 和 O2 没有共同的本征函数。

在特殊情况下，O3 可能有一个或多个本征值为零的本征函数，这类函数可以同时是 O1 和 O2 的本征函数。但 O3 的本征值为零的本征函数子空间肯定不是一个完备的函数集合；如果它是完备的，O3 就会恒等于零。因此，O1 的某些本征函数位于此子空间之外，而这些函数不可能同时是 O2 的本征函数。其结果就是，O1 和 O2 同时具有确定值的态是受限的，因为这样的态是 O1 和 O2 的共同本征函数。可能根本没有这样的态，或者至多有少数几个。

排除这少数几个态，可以说 O1 和 O2 的组合取值总是存在不确定性。一个一般的态对这两个可观测量都存在不确定性，因为它不会是其中任何一个的本征函数；但即使 O1 有一个确定值，O2 也没有，反之，如果 O2 有一个确定值，O1 也没有。这个结论涉及的是，在可以选择测量 O1 或 O2 的情况下，测量结果的不确定性。

一个更物理的推论是，如果 O1 和 O2 不对易，实际上就不可能同时测量它们。根据量子力学的测量公设，一次同时测量会产生两个可观测量的确定结果，波函数会坍缩到这两个算符的一个共同本征函数上。然而，我们刚刚看到，共同本征函数的存在与算符的不对易性是不相容的（因为没有理由假设被测量的态是 O3 的本征值为零的本征函数）。

224
量子力学
事实上，我们可以从物理上更直观地理解这一点。测量可观测量 (O_1) 的仪器会在物理上妨碍测量可观测量 (O_2) 的仪器。例如，精确的位置测量需要一台能够截获粒子的局域化装置。另一方面，精确的动量测量则需要粒子能够在一个大区域内自由运动。一种测量动量的方法是，当粒子穿过一个存在均匀磁场的区域时，测量其散射角，但在该区域内部不能同时存在一个精确的位置探测器。
另一个例子是粒子处于非平庸势 (V(x)) 中的情况。算符 (p) 和 (H) 不对易，因此动量和总能量不能同时被测量。从物理上看，这是因为一个能量确定的粒子，其位置受势 (V) 的约束，它不可能同时在一个足够大的区域内自由运动以便确定其动量。
位置和动量测量之间存在着定量的不确定性关系。对于给定的态，无论是位置测量还是动量测量，其测量结果相对于平均值都有某种概率分布。参数化这些分布的最简单量是标准差 (\Delta x) 和 (\Delta p)。它们满足海森伯不确定性关系
[
\Delta x \Delta p \ge \frac{1}{2} \bar{h},
\tag{7.77}
]
该关系可利用对易关系 (7.1) 推导出来。一个态可以有较小的 (\Delta x)，但此时 (\Delta p) 会较大，反之亦然。如果动量完全确定，则位置完全未知。类似的结果也适用于其他不对易的算符。
这一不确定性关系使我们能够理解粒子在探测器中留下的径迹的不精确性。这类径迹确实测量了位置，但并非十分精确。径迹的曲率测量了粒子的动量，同样也不是绝对精确的。位置和动量的综合不确定度与不确定性关系是相容的。
现在我们转向 (O_1) 和 (O_2) 对易的情况，即 ([O_1, O_2] = 0)。假设 (\lambda_1) 是 (O_1) 的一个非简并本征值。这意味着存在一个本征函数 (\phi) 使得
[
O_1 \phi = \lambda_1 \phi,
\tag{7.78}
]
并且该方程的解仅为 (\phi) 的常数倍。现在用 (O_2) 作用得到 (O_2 O_1 \phi = \lambda_1 O_2 \phi)，因此，由于 (O_1) 和 (O_2) 对易，
[
O_1 O_2 \phi = \lambda_1 O_2 \phi.
\tag{7.79}
]
这表明 (O_2 \phi) 是 (O_1) 的、本征值为 (\lambda_1) 的一个本征函数，并且根据非简并假设，它必定是 (\phi) 的倍数。因此对于某个 (\lambda_2) 有 (O_2 \phi = \lambda_2 \phi)，所以 (\phi) 是 (O_1) 和 (O_2) 的共同本征函数。如果 (O_1) 的所有本征值都是非简并的，那么当 (O_1) 和 (O_2) 对易时，(O_1) 的每个本征函数都同时是 (O_2) 的本征函数。
(O_1) 的本征值可能是简并的，此时存在两个或更多个具有该本征值的独立本征函数，那么 (O_1) 的每个本征函数都自动成为 (O_2) 的本征函数这一结论就不再成立。不过，如果仔细地（从对应于每个简并本征值的子空间内部）选择 (O_1) 的本征函数，那么它们可以被安排为同时是 (O_1) 和 (O_2) 的本征函数。而且，这些共同本征函数构成一组完备的函数系。因此波函数有一个展开式。

散射和隧穿
225

就这些同时本征函数而言。物理上，这意味着 O1 和 O2 可以被同时测量，测量结果是 O1 和 O2 对于其中一个同时本征函数的本征值对。

有些对易算符的例子颇为平凡。例如，p 的任意次幂与 p 的其他任意次幂对易。特别地，p 与动能 1/2m p^2 对易，因此动量的本征函数自动成为动能的本征函数。我们将在第 8 章讨论三维量子力学时，找到更有趣的对易算符的例子。

7.8 散射和隧穿

让我们暂时放下测量和诠释的问题，回到量子力学的实质——求解薛定谔方程。假设 V(x) 是一个有限力程的势，当 x → ±∞ 时趋于零。处于这一势中的粒子的定态薛定谔方程为
-¯h2
2m
d2χ
dx2 + V (x)χ = Eχ 。
(7.80)
在 |x| 很大时，粒子几乎感受不到势，因此近乎自由。对于具有给定正能量的自由粒子，定态薛定谔方程有两个独立解。它们是
χ+(x) = e^{ikx} , χ−(x) = e^{−ikx} ,
(7.81)
其中 k 为正。第一个解代表一个向右运动的粒子，动量为 ¯hk，能量为 ¯h^2k^2/2m；第二个解代表一个向左运动的粒子，动量为 −¯hk，能量为 ¯h^2k^2/2m。

势 V 的作用是以确定的方式将这些左边 (x ≪ 0) 和右边 (x ≫ 0) 的自由粒子解连接起来。方程 (7.80) 的一个解具有如下形式
χ(x) = e^{ikx} + R e^{−ikx} (x ≪ 0) ,
χ(x) = T e^{ikx} (x ≫ 0) 。
(7.82)
在左边，这是来自左边的（单位振幅的）入射波与振幅为 R 的反射波的叠加；在右边，它纯粹是一个出射波，振幅为 T。这一解在量子力学中被解释为描述了一个动量为 ¯hk 的入射粒子被势散射。R 是反射振幅，T 是透射振幅。二者都是 k 的函数。粒子被反射的概率为 |R|^2，透射的概率为 |T|^2。可以证明，对于任何实势，|R|^2 + |T|^2 = 1，这与量子力学的概率诠释相一致。在 V 有显著影响的中心区域，完整的解并没有简单的公式，但正是这个完整解（通常需要数值求解）决定了 R 和 T。第二个独立解代表一个从右边入射的粒子，它具有不同的、但并非完全独立的反射和透射振幅。

正势，即所谓的势垒，造成的量子散射与相应的经典情况很不相同。在一维空间中，经典粒子将

226
量子力学
能量
+Be–kx
Aekx
V(x)
V0
Teikx
eikx + Re–ikx
透射
E
x
反射
入射波
图7.4 势垒。

如果粒子的初始动能超过势垒高度——势的最大值，就不会被反射。粒子在穿越势垒时会减速，但总是会透射过去。反之，如果粒子的动能小于势垒高度，则它无法越过势垒，总是会被反射。量子力学的结果在极限情况下与这些经典预期一致。对于能量远大于势垒高度的粒子，反射概率非常小；对于能量远小于势垒高度的粒子，透射概率非常小。然而，在中间能量下，经典行为和量子行为是不同的。总能量略小于势垒高度的粒子的透射被称为隧穿（tunnelling）。隧穿概率既取决于势垒高度超过粒子能量的量，也取决于势垒的宽度。对于给定的粒子能量和势垒高度，势垒越窄，隧穿越容易发生。隧穿在核物理中有着特别重要的应用，我们将在第11章中讨论。

对于一些简单的势，R 和 T 可以相当容易地计算出来，例如阶跃势（step potential），它在某个区间内为非零常数，其他地方为零。阶跃势垒和阶跃势阱如图7.4和7.5所示。

一个具有精确粒子散射解的奇特特例是光滑势阱
V (y) = −
2
cosh2 y .
(7.83)
标度化的定态薛定谔方程
−d2χ
dy2 −
2
cosh2 y χ = k2χ ,
(7.84)
其中标度能量 ε = k2，其散射解为3
χ(y) = k + i tanh y
k −i
eiky .
(7.85)

3 要证明这一点，需要用到
d
dy cosh y = sinh y,
d
dy sinh y = cosh y 以及
d
dy tanh y =
1
cosh2 y .

量子力学中的变分原理
227
Aeik’x+Be–ik’x
V(x)
–V0
Teikx
eikx + Re–ikx
透射
能量
E
x
反射
入射波
图7.5 势阱。

其渐近形式与方程(7.82)匹配，其中 R = 0，T = k+i
k−i，因为当 y →±∞ 时 tanh y →±1。没有反射，且对于所有能量，透射概率 |T|2 为1。这很不寻常，V (y) 被称为无反射势（reﬂectionless potential）。

势(7.83)也有一个离散的束缚态。其能量为 ε = −1，本征函数为 χ(y) =
1
cosh y，因为

−d2
dy2 −
2
cosh2 y

1
cosh y = −
1
cosh y .
(7.86)
束缚态能量 ε = −1 对应于散射问题中的一个非物理虚数值 k = i，而散射解(7.85)和透射振幅 T 都在这个 k 值处有奇点，这并非巧合。

更一般地，V (y) = −n(n+1)
cosh2 y 对于任何正整数 n 都是无反射的，并且它也有离散能量本征值为 −1, −4, . . . , −n2 的束缚态。

7.9
量子力学中的变分原理

可以通过变分原理将薛定谔方程推导为欧拉–拉格朗日（Euler–Lagrange）方程。这是因为它是一种波动方程。这里需要考虑的量不像经典粒子或波场中那样是作用量（action），并且它不是洛伦兹不变的，因此我们用 I 表示它而不是 S。I 包含波函数 ψ(x, t) 及其复共轭 ψ(x, t)，以及它们的一阶偏导数，其表达式为
I =
Z 1
2i¯hψ ∂ψ
∂t −1
2i¯h∂ψ
∂t ψ −¯h2
2m
∂ψ
∂x
∂ψ
∂x −V (x)ψψ

dxdt .
(7.87)
这是在2.3.5节所讨论意义下的形式表达式，积分遍及全空间和时间。I 是实的，这里的独立函数实际上是 ψ 的实部和虚部，但在这种情况和类似情况下，可以将 ψ 和 ψ 视为独立的。

228
量子力学
要求 (I) 在 (\psi) 的局域变分下取稳定值，会给出如下一般形式的欧拉–拉格朗日方程 (Euler–Lagrange equation)
[
\frac{\partial}{\partial t} \left( \frac{\partial I}{\partial (\partial \psi / \partial t)} \right) + \frac{\partial}{\partial x} \left( \frac{\partial I}{\partial (\partial \psi / \partial x)} \right) - \frac{\partial I}{\partial \psi} = 0 .
\tag{7.88}
]
对于 (7.87) 式所定义的 (I)，该方程为
[
-i \hbar \frac{\partial \psi}{\partial t} - \frac{\hbar^2}{2m} \frac{\partial^2 \psi}{\partial x^2} + V(x) \psi = 0 ,
\tag{7.89}
]
它是薛定谔方程 (7.13) 的重新排列。

还应当考虑 (\psi) 的变分，但这只会给出薛定谔方程的复共轭，当薛定谔方程成立时，该共轭方程自动满足。

看到薛定谔方程能够这样推导出来是很有意思的，但这种方法应用并不多。我们无法轻易地把它变成寻找解的一个实用工具。由于薛定谔方程对时间导数是一阶的，我们不可能同时在初始时刻 (t_0) 和末时刻 (t_1) 完全指定波函数。相反，在数学上自洽的做法是，在 (t_0) 和 (t_1) 时刻对所有 (x) 固定波函数的相位（但不固定模），但通常具有物理意义的实际问题并非如此，它涉及的波函数仅在初始时刻 (t_0) 就同时固定了相位和模。

有一个变分原理要有用得多，它适用于定态波函数，尤其是基态，即能量最低的态。这就是瑞利–里兹原理 (Rayleigh–Ritz principle)，它允许我们在难以精确计算基态能量的情况下对其进行估算。我们将在第9章中利用这一原理来研究化学键。

假设一个量子力学粒子的哈密顿量 (Hamiltonian) 为 (H)，具有离散的能级集合
[
E_0 < E_1 \le E_2 \le \dots
\tag{7.90}
]
以及对应的正交归一定态
[
\chi_0(x), \chi_1(x), \chi_2(x), \dots ,
\tag{7.91}
]
但 (E_0) 和 (\chi_0(x)) 都不为精确已知。我们将假设基态是非简并的——事实上，对于任何合理的哈密顿量，都存在一个支持这一结论的定理。回想一下，一个固定时刻的一般归一化波函数可以用定态展开为
[
\psi(x) = \sum_{n=0}^{\infty} c_n \chi_n(x) , \quad \sum_{n=0}^{\infty} |c_n|^2 = 1 ,
\tag{7.92}
]
并且该波函数的能量期望值有两个等价的表达式
[
E = \langle H \rangle = \int_{-\infty}^{\infty} \psi(x) H \psi(x) , dx
\tag{7.93}
]

量子力学中的变分原理 229
以及
[
E = \sum_{n=0}^{\infty} |c_n|^2 E_n .
\tag{7.94}
]
第二个表达式是对能量 (E_n) 的加权平均，因此其值不低于 (E_0)。(E) 的最小值是 (E_0)，且仅当 (|c_0| = 1) 而 (c_1 = c_2 = \cdots = 0) 时才能取到。因此，基态能量 (E_0) 也是下列第一表达式的最小值：
[
E = \int_{-\infty}^{\infty} \psi(x) H \psi(x) , dx
\tag{7.95}
]
其中 (\psi) 取遍所有归一化的函数。若不对 (\psi) 施加归一化约束，则 (E_0) 是
[
E = \frac{\int_{-\infty}^{\infty} \psi(x) H \psi(x) , dx}{\int_{-\infty}^{\infty} \psi(x) \psi(x) , dx}
\tag{7.96}
]
的最小取值。这一 (E) 的最小值给出了粒子基态能量的实用定义，从而避免了求解定态薛定谔方程。此方法很容易推广到更复杂的系统的哈密顿量，包括三维空间中的粒子和多粒子系统。

我们可以利用公式 (7.95) 和 (7.96) 来估算基态能量 (E_0)。只需寻找一个不需要归一的试探函数 (\psi(x))，它应当合理地接近真正的基态波函数 (\chi_0(x))。比值 (7.96) 称为瑞利商(Rayleigh quotient)，即为基态能量的估值。一种有效的手段是找到一族依赖于一个或多个参数 (\alpha) 的函数 (\psi(x; \alpha))，将瑞利商计算为 (\alpha) 的函数，然后对 (\alpha) 求其最小值。最后一步往往直接明了，使用普通的微积分运算或简单的数值方法即可。

这样得到的 (E_0) 估值通常异常精确，其理由如下。假设 (\psi) 是归一化的，以便使用公式 (7.95)。任何一个接近真实的归一化基态 (\chi_0) 的试探函数 (\psi) 都可以表示为
[
\psi = \frac{1}{\sqrt{1 + \varepsilon^2}} (\chi_0 + \varepsilon \chi_\perp)
\tag{7.97}
]
其中 (\varepsilon) 很小。这里的 (\chi_\perp) 是激发态 (\chi_1, \chi_2, \ldots) 的某个归一化线性组合。前面的因子使 (\psi) 归一化。用此 (\psi) 估算的基态能量为
[
\begin{aligned}
E &= \frac{1}{1 + \varepsilon^2} \int_{-\infty}^{\infty} (\chi_0 + \varepsilon \chi_\perp) H (\chi_0 + \varepsilon \chi_\perp) , dx \
&= \frac{1}{1 + \varepsilon^2} \int_{-\infty}^{\infty} (\chi_0 + \varepsilon \chi_\perp) (E_0 \chi_0 + \varepsilon H \chi_\perp) , dx .
\end{aligned}
\tag{7.98}
]
现在，(\chi_\perp) 和 (H \chi_\perp) 都是 (\chi_1, \chi_2, \ldots) 的线性组合，因此自动与 (\chi_0) 正交。所以表达式 (7.98) 中正比于 (\varepsilon) 的两个交叉项均为零。于是该表达式等于 (E_0) 加上 (\varepsilon^2) 量级的修正，这些修正部分来自前面的因子 (\frac{1}{1+\varepsilon^2})，部分来自 (\chi_\perp H \chi_\perp) 的贡献。这意味着能量估值的误差是 (\varepsilon^2) 量级，通常远比试探波函数中 (\varepsilon) 量级的误差小得多。

230
量子力学
让我们将此方法应用于一个基态波函数及其能量无法以封闭形式获知的例子，即纯四次振子，其哈密顿量(采用简化单位)为
H = −d2
dy2 + y4 .
(7.99)
与谐振子类似，它具有一组无限、离散的能级。我们使用归一化的谐振子基态作为试探函数，
ψ(y; α) =
α
π
1
4 e−1
2 αy2 .
(7.100)
α 是一个易于调节的宽度参数，与谐振子的频率相关。公式 (7.95) 估算基态能量 E0 为
E =
Z ∞
−∞

−ψ d2
dy2 ψ + y4ψ2

dy =
Z ∞
−∞
dψ
dy
2

y4ψ2
!
dy ,
(7.101)
其中我们利用了 ψ 的实性，并通过分部积分得到第二个表达式。
对于我们的试探函数，dψ
dy = −
α
π
1
4 αy e−1
2 αy2，并且利用高斯积分(Gaussian integrals) (1.65)和(1.66)，我们发现
E = α
2 +
3
4α2 .
(7.102)
现在我们通过改变 α 来优化它。E 的最小值在 ∂E
∂α = 1
2 −
3
2α3 = 0，因此 α = 3
1
3 。
使用这一族试探函数的最佳能量估计值为
E0 ≃3
4 3
1
3 ≃1.08 .
(7.103)
这比纯四次振子的真实基态能量 E0 ≃ 1.06 高出约 2%，该真实值可通过数值方法或使用更精细的试探函数族求得。
变分方法对于较高能级也有所阐述。瑞利商(Rayleigh quotient)在哈密顿量 H 的每个本征函数处有一个鞍点。若试探波函数与 χn 相差一个量级为 ε 的误差，则瑞利商与 En 的误差为 ε^2 阶。然而，该误差可正可负，因此难以找到像 α 这样可以系统变化的参数。所以，即使使用试探函数族，也不容易找到鞍点和较高能级。
7.10
进一步阅读
B.H. 布兰斯登(B.H. Bransden) 和 C.J. 乔凯恩(C.J. Joachain), 《量子力学》(Quantum Mechanics) (第二版), 哈洛: 培生出版社, 2000.
A.I.M. 雷(A.I.M. Rae), 《量子力学》(Quantum Mechanics) (第五版), 博卡拉顿佛罗里达: 泰勒与弗朗西斯出版社, 2008.
L.D. 朗道(L.D. Landau) 和 E.M. 栗弗席兹(E.M. Lifschitz), 《量子力学(非相对论理论)》(Quantum Mechanics (Non-Relativistic Theory)): 《理论物理学教程》(Course of Theoretical Physics), 第3卷 (第三版), 牛津: 巴特沃斯-海涅曼出版社, 1977.

8_Quantum_Mechanics_in_Three_Dimensions

8
三维量子力学

8.1 引言

就算符与测量而言，量子力学的基本原理在三维空间中与一维时本质上相同。薛定谔方程包含拉普拉斯算子(Laplacian) ∇² 而非 d²/dx²，并含有一势能 V(x)，通常比一维情况下更难求解。然而，当势能具有球对称性时，这些困难会大大降低，寻找粒子态及其能量变得容易得多。一个物理上重要的例子是由原子中带正电的原子核产生的库仑势(Coulomb potential)。原子中的电子在这种吸引势中遵循薛定谔方程，其解出现在一组离散、无限的负能级上，这为原子结构提供了良好的解释。对于这些电子束缚态，位置概率密度集中在原子核周围，并随着远离中心而迅速衰减。在库仑势中，也存在正能量的电子散射态。三维空间中的散射是一个比一维更复杂的话题，因为散射粒子可以向各个方向出射；它们并非仅仅向前透射或向后反射。量子力学散射理论对于理解多种涉及粒子束的实验很重要，但我们不会详细讨论它。

在三维量子力学中，存在表征角动量的算符，这些算符在一维中没有对应物。当势能具有球对称性时，角动量与哈密顿量对易，稳态可根据角动量算符的本征值及其能量进行分类。其细节相当微妙，因为表示角动量三个分量的算符彼此之间并不对易。

20世纪20年代，人们发现粒子除了在绕其他粒子运动时所携带的角动量外，还具有内禀的量子自旋(spin)。自旋必须包含在总角动量中，因此即便是自由运动的粒子，例如不受势能束缚的电子，也携带着一定的角动量。这是基本粒子一个典型的量子力学特征。大多数粒子，包括电子、质子、中子和光子，都具有非零自旋，尽管少数粒子，包括π介子和希格斯粒子(Higgs particle)，自旋为零。自旋可以是普朗克常数 ħ 的整数倍或半整数倍。

一个没有经典对应物的现象是全同粒子系统非凡的量子行为。例如，比氢更复杂的原子中的电子遵循一条量子力学规则，该规则以沃尔夫冈·泡利(Wolfgang Pauli)的名字命名为泡利不相容原理(Pauli exclusion principle)。

《物理世界》。尼古拉斯·曼顿(Nicholas Manton)与尼古拉斯·米(Nicholas Mee)，牛津大学出版社(2017)。
©尼古拉斯·曼顿与尼古拉斯·米。DOI 10.1093/acprof:oso/9780198795933.001.0001

232
三维量子力学
泡利(Pauli)。相当令人惊讶的是，这直接源于它们的半整数自旋，因此尽管电子遵循泡利原理，π介子和光子却不遵循。
在本章末尾，我们讨论了经典作用量在量子理论中所扮演的角色。它出现在量子力学的一种重新表述——路径积分表述中。路径积分方法不仅揭示了量子力学经典极限的某些性质，也揭示了诸如粒子的德布罗意(de Broglie)波长等量子力学基本特征。

8.2 位置与动量算符
一维量子力学的一个关键思想是，经典动力学变量被替换为并非总是对易的算符。在三维空间中，我们需要三个独立的算符来表示粒子的笛卡尔位置坐标，以及三个算符来表示粒子的动量分量。这些算符记为 xi 和 pi (i = 1, 2, 3)，它们都是厄米的，因此每一个都代表一个可测量的可观测量。这些算符整体上用矢量 x 和 p 表示。位置算符相互对易，这意味着它们是可以同时测量的。因此，一次测量可以确定粒子在三维空间中的位置。类似地，动量算符也相互对易，所以动量作为一个矢量也是可测量的。然而，与一维情况相同，位置算符并不都与动量算符对易。精确的对易关系为（其中 i, j = 1, 2, 3）

[xi, xj] = 0 ,
[pi, pj] = 0 ,
[xi, pj] = i¯hδij1 .
(8.1)

回想一下，当 i = j 时 δij 为 1，否则为零，而 1 是单位算符。位置–动量对易关系表明，例如 [x1, p1] = i¯h1，这类似于一维关系 (7.1)，但 [x1, p2] = 0。因此，同时测量粒子在 1-方向的位置（通过某种扩展的平面装置）和 2-方向的动量是可能的。这些对易关系在原点平移或笛卡尔坐标轴旋转下保持不变，但如果我们使用非笛卡尔坐标，它们看起来会不同。因为位置算符相互对易，所以由它们构造多项式没有问题。其中最重要的是半径平方，r2 = x2
1 + x2
2 + x2
3。同样有用的是半径本身 r，尽管它是 r2 的平方根，但定义明确。两者都是旋转不变的标量算符。

与一维情况一样，我们需要位置和动量算符的一个方便的表示，以便作用于波函数。粒子的波函数 ψ(x, t) 是其位置和时间函数。位置算符通过乘法作用，xi 作用于 ψ(x, t) 得到新函数 xiψ(x, t)。由于函数 xixjψ(x, t) 和 xjxiψ(x, t) 相同，因此满足对易关系 [xi, xj] = 0。动量算符是偏导数的倍数，

pi = −i¯h ∂
∂xi
,
(8.2)

这是一维动量算符 (7.7) 的推广。用矢量形式表示即为 p = −i¯h∇。偏导数相互对易，这个结果我们之前已经用过多次，因此 [pi, pj] = 0。

位置和动量算符

233

位置-动量对易关系可以通过作用在一个一般的波函数上来验证：
[
[x_i, p_j]\psi =
x_i
\left(
-i\bar{h} \frac{\partial}{\partial x_j}
\right)
\psi -
\left(
-i\bar{h} \frac{\partial}{\partial x_j}
\right)
(x_i\psi)

-i\bar{h}x_i \frac{\partial\psi}{\partial x_j}
+ i\bar{h}
\left(
\delta_{ij}\psi + x_i \frac{\partial\psi}{\partial x_j}
\right)

i\bar{h}\delta_{ij}\psi ,
\tag{8.3}
]
这里我们像之前一样使用了莱布尼茨(Leibniz)法则，并利用了 (x_i) 对 (x_j) 的偏导数等于 (\delta_{ij}) 的结果。

我们可以从动量算符构造出其他算符。类似于半径平方，也存在动量平方¹，即标量算符
[
p^2 = p_1^2 + p_2^2 + p_3^2 .
\tag{8.4}
]
将动量算符用偏导数表示，我们得到
[
p^2 = -\bar{h}^2
\left(
\frac{\partial^2}{\partial x_1^2}

\frac{\partial^2}{\partial x_2^2}
\frac{\partial^2}{\partial x_3^2}
\right)
= -\bar{h}^2 \nabla^2 ,
\tag{8.5}
]
它是拉普拉斯(Laplacian)算符的倍数。

在经典动力学中，质量为 (m) 的粒子的动能为 (\frac{1}{2m}p^2)，因此在量子力学中，动能表示为 (-\frac{\bar{h}^2}{2m}\nabla^2)。一个粒子的总哈密顿量 (H) 是动能与势能之和，而势能 (V(x)) 只是空间位置的函数。因此，三维空间中粒子的薛定谔(Schrödinger)方程为
[
i\bar{h}\frac{\partial\psi}{\partial t} = H\psi = -\frac{\bar{h}^2}{2m}\nabla^2\psi + V(x)\psi .
\tag{8.6}
]
与一维情况一样，我们假设势能不显含时间。

薛定谔方程最有用的解是定态，它们具有简单的指数时间依赖关系，
[
\psi(x, t) = \chi(x)e^{-\frac{i}{\bar{h}} Et} .
\tag{8.7}
]
对于这些态，薛定谔方程简化为
[
H\chi = E\chi ,
\tag{8.8}
]
或明确写为
[
-\frac{\bar{h}^2}{2m}\nabla^2\chi + V(x)\chi = E\chi .
\tag{8.9}
]
与之前一样，挑战在于找到哈密顿量 (H) 的能量本征值 (E)，以及相应的定态波函数 (\chi(x))，它们同时也是 (H) 的本征函数。对于物理解，当 (|x| \to \infty) 时 (\chi(x)) 不应增长。最简单的情况是______

¹ 从现在开始，对于任何矢量 (v)，我们将方便地使用记号 (v^2) 表示 (v \cdot v)。

234
三维量子力学
当势函数 V(x) 为零时，我们得到的是自由粒子。方程(8.9)的解是位置变量的纯指数函数，
χ(x) = e^{ik·x} = e^{ik_1x_1}e^{ik_2x_2}e^{ik_3x_3} 。 (8.10)
这是所有三个动量算符 p_i 的本征函数，其本征值为 ¯hk_i。等价地，它是 p 的本征函数，本征值为 ¯hk，且矢量 k 不受约束。χ(x) 也是哈密顿量 H = (1/2m)p^2 = −(¯h^2/2m)∇^2 的本征函数，能量本征值为 E = (¯h^2k^2)/(2m)，其中 k^2 = k_1^2 + k_2^2 + k_3^2。这个定态波函数适用于粒子束中的粒子，具有确定的动量和正能量。

8.2.1 箱中粒子

对粒子施加最小约束，将其运动限制在一个有限体积的箱内。这种约束对于描述金属样品中的电子以及许多其他凝聚态物理情境非常有用。它也有助于描述容器中的气体分子。
数学上，最便捷的箱体是边长分别为 L_1、L_2、L_3 的长方体。
我们对粒子的波函数施加周期性边界条件；这使得箱体的相对面等同起来，这在物理上并不现实，但其他边界条件会导致类似的结果。自由粒子的波函数仍然具有 χ(x) = e^{ik_1x_1}e^{ik_2x_2}e^{ik_3x_3} 的形式，其能量仍为 E = (¯h^2k^2)/(2m)，但现在周期性条件要求 e^{ik_1x_1} = e^{ik_1(x_1+L_1)}，因此 e^{ik_1L_1} = 1，对 L_2 和 L_3 同理。因此，k 被限制满足
k = (k_1, k_2, k_3) = (2πn_1/L_1, 2πn_2/L_2, 2πn_3/L_3) (8.11)
其中 (n_1, n_2, n_3) 为整数。在 k 空间中，每个边长为 (2π/L_1, 2π/L_2, 2π/L_3) 的元胞内只允许有一个态。元胞的体积为 (2π)^3/(L_1L_2L_3) = (2π)^3/V，其中 V = L_1L_2L_3 是箱子的体积。由于这个结果仅依赖于 V，从现在起我们将忽略能量对箱子形状的详细依赖关系。

因为每个大小为 (2π)^3/V 的元胞有一个态，k 空间中的态密度为 V/(2π)^3。这适用于箱内一系列物理波动系统。在量子力学中，将此结果转换到动量空间更为方便。由于粒子动量为 p = ¯hk，对 p 的约束涉及 2π¯h，因此 p 空间中的态密度为 V/(2π¯h)^3。
对于宏观尺寸箱中的粒子，这是一个非常高的密度，并且这些态在 p 空间中呈准连续分布。在经典极限下，粒子同时由其位置和动量来表征，我们可以说，粒子态的密度在位置和动量空间（即相空间）中同时具有意义。相空间中的密度为 1/(2π¯h)^3。将其对空间箱体以测度 d^3x 积分，我们得到因子 V，从而恢复动量空间中的密度。虽然这个论证并不严格，但它为量子力学与其经典极限之间的关系提供了一个重要的指示。

角动量算符
235
动量空间中的密度可以转换为能量E的密度。动量大小在p和p+dp之间的状态数为4πp² dp乘以p空间中的密度V/(2π¯h)³，因此p的态密度为
[
\tilde{g}(p) = \frac{V p^2}{2\pi^2 \bar{h}^3}. \tag{8.12}
]
通过进一步作变量代换E = 1 2mp2，我们得到E的态密度为²
[
g(E) = \frac{V}{4\pi^2} \frac{2m}{\bar{h}^2}^{\frac{3}{2}} E^{\frac{1}{2}}. \tag{8.13}
]
能量在E和E+dE之间的状态数为g(E) dE。当提及盒中量子粒子的态密度时，通常指的就是这个函数g(E)。
由于盒中粒子态构成一个准连续谱，我们可以用态密度将任何对状态的求和替换为积分。若离散状态用n标记，且具有能量E_n，则
[
\sum_{\text{states}} f(E_n) \simeq \int_{E_{\text{min}}}^\infty g(E) f(E) , dE. \tag{8.14}
]
这对于粒子能量的大多数函数f都成立。

8.3 角动量算符

粒子的经典（轨道）角动量为l = x × p，是一个具有三个分量的矢量。例如，沿1方向的分量为l₁ = x₂p₃ - x₃p₂。要得到量子的轨道角动量算符，我们只需代入动量算符p_i的偏导数表达式。这里通常略去¯h因子，定义
[
\begin{aligned}
l_1 &= -i \left( x_2 \frac{\partial}{\partial x_3} - x_3 \frac{\partial}{\partial x_2} \right), \
l_2 &= -i \left( x_3 \frac{\partial}{\partial x_1} - x_1 \frac{\partial}{\partial x_3} \right), \
l_3 &= -i \left( x_1 \frac{\partial}{\partial x_2} - x_2 \frac{\partial}{\partial x_1} \right).
\end{aligned} \tag{8.15}
]
写成矢量形式，角动量算符为l = -i x × ∇。物理的角动量算符是此算符乘以¯h。这种约定的优点在于l₁、l₂、l₃是无量纲的，而且我们将会看到，它们的本征值是整数。普朗克(Planck)常数¯h是作用量的一个单位，具有能量乘以时间的量纲，因此，例如波函数(8.7)中的指数-i Et/¯h就是无量纲的。颇为巧合的是，¯h也具有角动量的量纲，因此在量子力学中，角动量自然是一个纯数乘以¯h。我们可以预期角动量是¯h的整数倍。它常常是这样，但电子的自旋是½¯h，我们说电子具有自旋½。

² 态密度之间的关系为\tilde{g}(p) dp = g(E) dE，其中dE = 1 mp dp。

236
三维量子力学
与动量算符不同，轨道角动量算符并不互相对易。它们的对易子为
[
[l_1, l_2] = i l_3, \quad
[l_2, l_3] = i l_1, \quad
[l_3, l_1] = i l_2.
\tag{8.16}
]
其中第一个可通过计算来验证：
[
\begin{aligned}
[l_1, l_2]\psi &= - \left( x_2 \frac{\partial}{\partial x_3} - x_3 \frac{\partial}{\partial x_2} \right) \left( x_3 \frac{\partial}{\partial x_1} - x_1 \frac{\partial}{\partial x_3} \right) \psi \
&\quad + \left( x_3 \frac{\partial}{\partial x_1} - x_1 \frac{\partial}{\partial x_3} \right) \left( x_2 \frac{\partial}{\partial x_3} - x_3 \frac{\partial}{\partial x_2} \right) \psi \
&= \left( x_1 \frac{\partial}{\partial x_2} - x_2 \frac{\partial}{\partial x_1} \right) \psi = i l_3 \psi ,
\end{aligned}
\tag{8.17}
]
其中除了由算符 (\frac{\partial}{\partial x_3}) 作用于 (x_3) 所产生的项之外，所有项都相消了。另外两个对易子可通过循环置换指标得到。

另一个有用的算符是标量平方角动量
[
l^2 = l_1^2 + l_2^2 + l_3^2 .
\tag{8.18}
]
可以检验 (l^2) 与每个单独的算符 (l_1)、(l_2)、(l_3) 都对易。算符 (r^2) 和 (\nabla^2) 也与每个角动量算符对易。其根本原因在于 (l^2)、(r^2) 和 (\nabla^2) 都是标量、旋转不变的算符，而所有这类算符都必须与角动量对易。

我们所需要的最后一个算符是
[
\mathbf{x} \cdot \nabla = x_1 \frac{\partial}{\partial x_1} + x_2 \frac{\partial}{\partial x_2} + x_3 \frac{\partial}{\partial x_3} .
\tag{8.19}
]
这是去掉因子 (-i\hbar) 的 (\mathbf{x}\cdot\mathbf{p}) 算符，因此同样是无量纲的。回想一下，如果 (\mathbf{n}) 是任意单位矢量，那么 (\mathbf{n}\cdot\nabla) 是沿方向 (\mathbf{n}) 的方向导数。矢量 (\mathbf{x}) 的大小为 (r) 并沿径向向外，所以算符 (8.19) 就是 (r) 乘以沿径向向外的导数，可以记为 (r \frac{\partial}{\partial r})。这个算符最早由欧拉(Euler)考虑，是径向缩放算符。

关于经典粒子的位置和动量，有一个有用的关系式，它可以通过将 (\mathbf{p}) 分解为平行和垂直于 (\mathbf{x}) 的分量而得到。(\mathbf{x}) 方向的单位矢量是 (\frac{1}{r}\mathbf{x})。因此 (\mathbf{p}) 在这个方向的分量为 (\frac{1}{r}\mathbf{x}\cdot\mathbf{p})，而垂直分量的量值为 (\frac{1}{r}|\mathbf{x}\times\mathbf{p}|)。根据勾股定理，这两个分量长度平方之和为 (p^2)，所以在经典力学中有
[
p^2 = \frac{1}{r^2} (\mathbf{x}\cdot\mathbf{p})^2 + \frac{1}{r^2} (\mathbf{x}\times\mathbf{p})\cdot(\mathbf{x}\times\mathbf{p}) ,
\tag{8.20}
]
因而
[
r^2 p^2 = (\mathbf{x}\cdot\mathbf{p})^2 + (\mathbf{x}\times\mathbf{p})\cdot(\mathbf{x}\times\mathbf{p}) .
\tag{8.21}
]
这个关系有一个量子类比。(p^2) 正比于动能算符，从而正比于拉普拉斯算符 (\nabla^2)，而 (\mathbf{x}\cdot\mathbf{p}) 正比于径向缩放算符 (r \frac{\partial}{\partial r})。

角动量算符
237
而 x×p 正比于角动量 l。方程 (8.21) 的量子算符形式为
r²∇² = (r ∂/∂r)² + r ∂/∂r − l² .
(8.22)
这与经典关系并不完全相同，因为算符 x 和 p 的各分量并不都对易，由此多出了 r ∂/∂r 的一次幂项。要验证方程 (8.22)，必须用定义 (8.15) 和 r ∂/∂r = x·∇ 的平方 (利用方程 (8.19)) 仔细计算算符 l² = l₁² + l₂² + l₃²。关系式 (8.22) 将很有用，因为它把角动量的平方与拉普拉斯算符联系起来，进而与粒子的哈密顿量联系起来。

8.3.1
用笛卡尔坐标求 l² 的本征函数
现在我们将利用关系式 (8.22) 来寻找角动量平方算符 l² 的一组完备的本征函数和本征值。这是求解球对称势中粒子薛定谔方程的关键一步。标准方法是采用球极坐标 r, ϑ, ϕ。然后会发现角动量的每个分量都是只含对角坐标 ϑ 和 ϕ 的导数、而不含对 r 的导数的算符。l² 也是如此。因此 l² 的本征函数只是 ϑ 和 ϕ 的函数，被称为球谐函数。
这里我们采用另一种方法，主要在笛卡尔坐标下处理。考虑关于 x₁, x₂ 和 x₃ 的所有单项式。它们是 x₁, x₂, x₃ 的幂次之积，
p_{abc} = x₁^a x₂^b x₃^c ,
(8.23)
其中 a, b, c 是非负整数，用作标记。（在第 1.3 节中，曾用单项式的例子来说明偏微分以及拉普拉斯算符的作用。此处的讨论与之类似，但更系统。）记各幂次之和为 l，即 l = a + b + c。l 称为该单项式的次数，我们不应忘记零次单项式 p_{000} = 1。一个多项式是若干个单项式的有限和，并带有任意数值系数，若所有涉及的单项式都是 l 次的，则称该多项式为 l 次多项式。
对于给定的 l，有多少个不同的单项式？换句话说，a, b, c 有多少种选择？答案可通过考虑一行中的 l+2 个物体并从中选出两根作为分隔棍来得到：
• • … • ⏐ • … • ⏐ • • … • • .
(8.24)
这显示出左边有 a 个物体，中间有 b 个，右边有 c 个。两根子可以位于 l+2 个位置中的任意两处：例如，若它们相邻则 b=0，若一根在最左端则 a=0，等等。从 l+2 个位置中选出两个位置的方法数为 ½(l+2)(l+1)，这就是 l 次单项式的个数。l 次多项式空间就是这些单项式的线性组合所构成的空间，因此其维数为 ½(l+2)(l+1)。
径向伸缩算符为
x₁ ∂/∂x₁ + x₂ ∂/∂x₂ + x₃ ∂/∂x₃ .
(8.25)

238
三维量子力学
作用在 p{abc} 上时，第一项会分离出因子 a，但除此之外 p{abc} 保持不变。类似地，第二项和第三项分别分离出 b 和 c。因此
(x1 ∂/∂x1 + x2 ∂/∂x2 + x3 ∂/∂x3) p{abc} = (a + b + c)p{abc} = l p{abc} . (8.26)
使用球坐标时，这一结果同样显而易见，因为该算子可表示为 r ∂/∂r。在球坐标中，单项式 p{abc} 是 r^l 乘以某个角度函数，因为
(x1, x2, x3) = (r sin ϑ cos ϕ, r sin ϑ sin ϕ, r cos ϑ) (8.27)
而这些表达式中的每一项都含有一个 r 因子。因此
r ∂/∂r p{abc} = l p{abc} , (8.28)
且该算子对所有 l 次多项式都以此简单方式作用。

接下来，我们考虑拉普拉斯算子 ∇^2 = ∂^2/∂x1^2 + ∂^2/∂x2^2 + ∂^2/∂x3^2 如何作用于一个 l 次单项式。一般作用结果为
∇^2(x1^a x2^b x3^c) = a(a-1)x1^{a-2} x2^b x3^c + b(b-1)x1^a x2^{b-2} x3^c + c(c-1)x1^a x2^b x3^{c-2} . (8.29)
无论细节如何，结果总是一个 l-2 次多项式。因此，拉普拉斯算子 ∇^2 作用在 l 次多项式空间（维度为 1/2 (l+2)(l+1)）上，并将其映射到 l-2 次多项式空间（维度为 1/2 l(l-1)）。由于后一空间的维度小于前一空间，必然存在某些 l 次多项式，使得拉普拉斯算子在其上的作用结果为零。我们说这些多项式被拉普拉斯算子零化。（不那么戏剧性的说法是，它们满足拉普拉斯方程。）事实上，被拉普拉斯算子零化的 l 次多项式空间的维度，恰好是维度 1/2 (l+2)(l+1) 与 1/2 l(l-1) 之差，即 2l+1。它不会更大，因为每一个 l-2 次多项式都可以通过拉普拉斯算子作用于某个 l 次多项式得到。

例如，有 6 个二次单项式，x1^2, x2^2, x3^2, x1 x2, x2 x3, x1 x3，以及一个零次单项式，即数字 1。因此，有五个独立的二次多项式被拉普拉斯算子零化。它们可以选为
x1^2 - x2^2, x1^2 + x2^2 - 2x3^2, x1 x2, x2 x3, x1 x3 . (8.30)

我们现在达到了这种方法的关键之处。所有被拉普拉斯算子零化的 l 次多项式，都是角动量平方算子 l^2 的本征函数，且具有相同的、容易求得的本征值。为了看清这一点，设 P 为一个这样的多项式。径向缩放算子 r ∂/∂r 作用于 P 给出 l P，因此
( (r ∂/∂r)^2 + r ∂/∂r ) P = l(l+1) P . (8.31)
拉普拉斯算子作用于 P 结果为零，因此由方程 (8.22) 我们得到
l^2 P = l(l+1) P . (8.32)
结论是：一个被 ∇^2 零化的 l 次多项式，是 l^2 的本征函数，本征值为 l(l+1)。天真地看，人们可能会预期本征值是 l^2，但

角动量算符
239
该公式中出现 +1 是因为相关算符并非全部对易，这是量子力学的一个关键特征。

举例来说，所有(8.30)式中的函数都是2次的，因此都是 l² 的本征函数，本征值为6。这可以直接验证，但认识到这些函数被拉普拉斯算符湮灭，能更深入地理解为何如此。

之前我们说过，l² 的本征函数通常是纯角度函数，称为球谐函数。我们在这里得到的多项式等于这些球谐函数乘以 rˡ 的幂次。因子 rˡ 不影响 l² 的本征值。我们称这些多项式为谐函数，该术语常用于满足拉普拉斯方程的函数。我们将一个 l² 本征值为 l(l+1) 的谐函数 P 记作 P = rˡPₗ(ϑ, ϕ)，其中 Pₗ(ϑ, ϕ) 是球谐函数。与球谐函数不同，谐函数在原点处是光滑函数，这从其笛卡尔坐标形式即可看出。

总而言之，通过考虑所有 l 次的、被拉普拉斯算符湮灭的 x₁, x₂, x₃ 多项式，我们得到了一组完备的 l² 本征函数。或者，从球极坐标的角度看，我们得到了一组完备的球谐函数，再乘以 r 的幂次。不被拉普拉斯算符湮灭的多项式可以通过再乘以 r 的幂次与球谐函数关联起来。

在专注于算符 l² 及其本征值和本征函数时，我们多少忽略了原始的角动量算符 l₁, l₂, l₃。它们每一个都与 l² 对易，但彼此之间并不对易。因此我们选取其中一个，l₃，并重新排列我们已找到的谐函数，使它们同时成为 l² 和 l₃ 的本征函数。为此，我们需要知道算符 l₃ = −i ( x₁ ∂/∂x₂ − x₂ ∂/∂x₁ ) 如何作用于笛卡尔坐标。这可以最简洁地表示为

l₃(x₁ + ix₂) = x₁ + ix₂ ,
l₃x₃ = 0 ,
l₃(x₁ − ix₂) = −(x₁ − ix₂) . (8.33)

作用于这些笛卡尔坐标的组合上，我们看到 l₃ 具有本征值 m = 1, 0, −1。因为 l₃ 是一个线性微分算符，它遵循莱布尼茨法则，这意味着 l₃ 本征函数的乘积，其 l₃ 本征值等于各因子本征值之和。如果一个多项式包含 m₁ 个 (x₁ + ix₂) 因子，m₂ 个 (x₁ − ix₂) 因子，以及任意数量的 x₃ 因子，那么它就是一个 l₃ 本征函数，本征值为 m = m₁ − m₂。

l 次谐函数有一组具有确定 l₃ 本征值 m 的基。例如，对于 l = 2，我们可以选择基

(x₁ + ix₂)² , (x₁ + ix₂)x₃ , (x₁ + ix₂)(x₁ − ix₂) − 2x₃² , (x₁ − ix₂)x₃ , (x₁ − ix₂)² . (8.34)

我们很容易看出这些谐函数分别是 l₃ 的本征函数，本征值依次为 m = 2, 1, 0, −1, −2。每一个都是(8.30)式中多项式的线性组合，所以这些谐函数同时也是 l² 的本征函数，本征值为6。一般而言，l² 的本征值为 l(l+1) 的 2l+1 个本征函数，有一组由 l₃ 的本征值 m 标记的基。m 在范围 l, l−1, …, −(l−1), −l 内的 2l+1 个值各出现一次。该范围的上限是本征函数 (x₁ + ix₂)ˡ，下限是 (x₁ − ix₂)ˡ。具有确定 l 和 m 标记的球谐函数记为 Pₗᵐ(ϑ, ϕ)，相应的谐函数为 rˡPₗᵐ(ϑ, ϕ)。

240
三维空间中的量子力学
8.4
具有球对称势的薛定谔方程
具有球对称势 V(r) 的定态薛定谔方程为
[
-\frac{\bar{h}^2}{2m}\nabla^2\chi + V(r)\chi = E\chi .
\tag{8.35}
]
可以通过取球谐函数 (P = r^l P_m^l(\vartheta, \phi)) 并乘以一个额外的径向函数 (f(r)) 来求解，
[
\chi(r, \vartheta, \phi) = f(r) r^l P_m^l(\vartheta, \phi) .
\tag{8.36}
]
展开方程 (8.22) 中的径向导数项，我们可以将拉普拉斯算符表示为
[
\nabla^2 = \frac{\partial^2}{\partial r^2} + \frac{2}{r}\frac{\partial}{\partial r} - \frac{1}{r^2} l^2 .
\tag{8.37}
]
径向导数仅作用于 (f(r) r^l)，而 (l^2) 作用于 (P_m^l) 产生 (l(l+1)P_m^l)。因此，方程 (8.35) 中的所有项都与 (P_m^l) 成正比，经过一些简化后，它变为纯粹的径向方程
[
\left[ -\frac{\bar{h}^2}{2m} \left( \frac{d^2}{dr^2} + \frac{2}{r}\frac{d}{dr} - \frac{l(l+1)}{r^2} \right) + V(r) - E \right] f(r) r^l = 0 .
\tag{8.38}
]
该方程显式地依赖于整数角动量量子数 (l) 的值，并且对于每个 (l) 都有一组能量本征值 (E)。注意，量子数 (m) 没有出现在方程 (8.38) 中，因此对于给定的 (l) 和给定的能量，总是存在 ((2l+1)) 重简并态。这些态具有相同的能量和角动量平方，但角动量在 3 轴上的投影不同。更通俗地说，这些态的区别在于角动量指向的方向。通过旋转对称性，能量不可能依赖于这个方向。

如果 (l \neq 0)，项 (\frac{\bar{h}^2}{2m} \frac{l(l+1)}{r^2}) 在原点处有一个强烈的正奇点，主导了那里任何物理势 (V(r))。通常的效应是，随着 (l) 的增大，能级 (E) 会升高。对于一般势，不同 (l) 值的能级之间没有简单的关系。取决于 (V) 的形状和 (l) 的值，一些态可能是束缚态，而另一些则可能是散射态。有时根本没有束缚态，有时则没有散射态。³ 以球谐振子为例，其势为 (V(r) = Ar^2)，其中 (A) 为正。在这里，对于每个整数 (l)，都存在一个无限、离散的、具有正能量的束缚态集合。粒子无法逃逸到无穷远，因此没有散射态。

另一类势是有限深势阱。这里 (V(r)) 为负，当 (r \to R)（势阱的径向宽度）时迅速趋于零。势阱中的束缚态具有负能量，这些态可能存在也可能不存在，但对于所有正能量，总是存在散射态。如果 (V) 足够深（实际上重要的是深度和宽度的组合），那么对于小的 (l) 值将会存在束缚态。然而，对于大的 (l) 值则不会，因为项 (\frac{\bar{h}^2}{2m} \frac{l(l+1)}{r^2}) 具有排斥效应，克服了势阱的吸引力。如果 (V) 很浅，即使对于 (l=0)，也根本不会有束缚态。

³ 势的强度与束缚态数量之间的关系由 Levinson 定理描述，该定理可追溯至 1949 年。

具有球对称势的薛定谔方程
241
8.4.1 库仑(Coulomb)势
我们现在更详细地研究吸引的库仑势。这个势很重要，因为它描述了一个电子与一个质子的相互作用。其束缚态就是最简单的原子——氢原子的状态。由于质子的质量几乎是电子的2000倍，我们可以认为质子静止于原点，然后求解电子的定态波函数 χ(r, ϑ, ϕ) = f(r)rl P^m_l(ϑ, ϕ)。质子带正电荷 e，电子带相反的负电荷 −e。势是静电库仑势 V (r) = −e^2/(4πr)，其（负）梯度给出吸引的平方反比律力。由于 V 为负且不浅，我们可以预期存在束缚态。事实上，对于所有非负整数 l 都存在束缚态，因为势在 r → ∞ 时趋近于零相当缓慢，而且在大的 r 处，1/r 的吸引力压倒 1/r^2 的排斥力。此外还有正能量状态，代表电子被质子散射，但我们将集中于束缚态。势中的 1/r 奇点相当温和，波函数在原点保持有限，无论束缚态还是散射态都是如此。对于 l ≠ 0，波函数在原点为零。

代入库仑势后，方程(8.38)变为
[
\left[ -\frac{\bar{h}^2}{2m_e} \left( \frac{d^2}{dr^2} + \frac{2}{r} \frac{d}{dr} - \frac{l(l+1)}{r^2} \right) - \frac{e^2}{4\pi r} - E \right] f(r) r^l = 0,
\tag{8.39}
]
其中 m_e 是电子质量。通过乘以 2m_e/\bar{h}^2 并定义 α = m_e e^2/(2π\bar{h}^2) 和 ν^2 = −2m_e E/\bar{h}^2 可以简化该方程。对于束缚态 E 为负，故 ν^2 为正。利用莱布尼茨(Leibniz)法则显式算出 f(r) r^l 的径向导数后，方程(8.39)变为
[
\left( -\frac{d^2}{dr^2} - \frac{2(l+1)}{r} \frac{d}{dr} - \frac{\alpha}{r} + \nu^2 \right) f(r) = 0.
\tag{8.40}
]
方程中最奇异的 l(l+1)/r^2 项消失了。它由于波函数中的 r^l 因子而抵消。

让我们考虑 f 在大 r 处的行为。常数 ν^2 主导了含 1/r 因子的两项，合适的渐近解是 f(r) ∼ e^{−νr}，它在大的 r 处迅速衰减。完整解可以写为
[
f(r) = g(r) e^{-νr}.
\tag{8.41}
]
要求 g(r) 在原点有限，并且在大的 r 处比指数函数增长得慢。这最后一个条件决定了 ν 的可能取值，对于这些值，g(r) 是一个多项式。

最简单的解是 g(r) = 1，这样 f(r) 严格等于 e^{−νr}。将此代入方程(8.40)，可得 ν = α/[2(l+1)]。因此
[
f(r) = e^{-\frac{\alpha}{2(l+1)} r},
\tag{8.42}
]
并且
[
E = -\frac{\bar{h}^2 \nu^2}{2m_e} = -\frac{\bar{h}^2 \alpha^2}{8m_e} \frac{1}{(l+1)^2} = -\frac{m_e e^4}{32\pi^2 \bar{h}^2} \frac{1}{(l+1)^2}.
\tag{8.43}
]
因为 f(r) 不穿过零点，这实际上是对于每个 l 值的最低能量解。通常，接下来会寻求相同 l 的更高能量解（即具有

242
三维量子力学
（较小的 ν，因为这对应于负得较少的 E），并且确实有无穷多个这样的解，其中 g(r) 是次数越来越高的多项式。然而，库仑势非常特殊，并且如果在能量固定的情况下改变 l，描述起来会更容易。
让我们改变记号，设 ν =
α
2N ，这样当 g(r)=1 时有 N = l+1，且
E = −¯h2α2
8me
1
N 2 = −mee4
32π2¯h2
1
N 2 ,
(8.44)
其中 N ≥1 为正整数。N 称为主量子数，因为它决定了能量。到目前为止我们一直考虑的解是
f(r) = e−α
2N r ,
(8.45)
其角动量标记为 l = N −1。现在，在固定 N 和能量的情况下，可以证明，对于有限范围 l = 0, 1, 2, . . . , N −1 内的任何整数 l，方程 (8.40) 都有一个解。解的形式为
f(r) = g(r)e−α
2N r ,
(8.46)
其中 g 是一个次数为 N −l −1 的多项式，称为广义拉盖尔多项式。例如，对于 l = N −2，g(r) = 1 −
α
2N(N−1)r。
8.4.2
光谱学
图8.1展示了氢原子的束缚态能量。能量仅取决于主量子数 N 和固定的物理常数。最低能态，即 N = 1，是唯一的且角动量为零。它是氢原子的基态。更高的 N 的态还有两个进一步的标记，即角动量标记 l 和 m，并且回想起给定 l，允许的 m 值有 2l + 1 个。与一般的势 V (r) 相比，这里有更多的简并。对于每个 N，有一个 l = 0 的态，三个 l = 1 的态，依此类推，最后有 2N −1 个 l = N −1 的态。总共有 N 2 = PN−1
l=0 (2l + 1) 个态，其能量为 −mee4
32π2¯h2
1
N 2 。这种额外的简并是量子化粒子在吸引势 1
r 中运动所特有的，可以利用我们在第 2 章中用来研究经典开普勒轨道的龙格–楞次矢量（Runge–Lenz vector）的量子类比来理解。

其中一些态对应于玻尔（Bohr）早期研究氢原子时所发现的态。在这个原始的原子量子力学模型中，电子绕质子做经典的圆周轨道运动，角动量为 N¯h，即 ¯h 的整数倍。在吸引库仑力作用下的经典运动方程意味着电子能量为 E = −mee4
32π2¯h2
1
N2 。玻尔模型预言了正确的能级，但没有解释角动量与能量之间的关系。玻尔模型所忽略的是，对于给定的 N，存在角动量投影为 m¯h 且 |m| 取从 0 到 N −1 的任意整数值的量子态。后来，阿诺德·索末菲（Arnold Sommerfeld）通过考虑椭圆轨道并量子化角动量的 l3 分量，对玻尔模型做出了重要补充。完整的玻尔–索末菲氢原子模型尽管基于相当特别的原理，但与本文基于薛定谔方程的分析一致。

球对称势下的薛定谔方程
243
紫外线
N = ∞
N = 4
N = 3
N = 2
N = 1
可见光
红外线
帕邢(Paschen)系
巴尔末(Balmer)系
基态
发射
莱曼(Lyman)系
电离
吸收
13.6 eV
12.8 eV
12.1 eV
10.2 eV
0 eV
图8.1 氢原子的束缚态能量。电子跃迁产生氢光谱中的明线。从N > 1跃迁到N = 1形成莱曼系。从N > 2跃迁到N = 2形成巴尔末系。从N > 3跃迁到N = 3形成帕邢系。

在氢原子的基态，电子具有其可能的最低能量。电子可以通过多种方式被激发到更高的能态，包括电激发、与其他原子碰撞的热激发，以及与可能入射到原子上的粒子的相互作用。在我们的讨论中，基态和激发态都是定态，它们之间没有跃迁，但这只是一种近似。因为电子是带电的，它还会与电磁场发生相互作用。这种相互作用并不容易分析，因为需要考虑电磁场的量子方面，而我们的薛定谔方程并未包含这些。最重要的效应是，处于激发态的电子具有有限的寿命，会跃迁到较低能态，并最终回到基态。释放的能量以一个或多个光子（电磁场的量子化状态）的形式发射出去。

单个发射光子的能量等于电子初态和末态（几乎）定态之间的能量差。在主量子数分别为 (N’) 和 (N)（且 (N’ > N)）的态之间发生跃迁时，光子能量为
[
\frac{m_ee^4}{32\pi^2\bar{h}^2} \left( \frac{1}{N^2} - \frac{1}{N’^2} \right).
\tag{8.47}
]
如果原子氢样品发射大量光子，这会被探测为普通的电磁辐射。光子能量与辐射频率成正比，因而与波长成反比。在速度

244
三维量子力学
光的速度为 1，这些跃迁会产生波长为 λ 的辐射，其中
1
λ =
mee4
64π3¯h3
1
N 2 −
1
N ′2

.
(8.48)
允许的波长及其颜色范围如图 8.1 所示。跃迁到 N = 1 能级的谱线全部位于紫外区，而跃迁到 N = 2 能级的谱线则位于可见光谱区。谱线非常锐利。
8.5
自旋
量子力学中角动量的关键特征是 (8.16) 式中的那组对易关系。我们是从表示轨道角动量 l = x × p 的微分算子出发推导出这些关系的。自然要问，对易关系是否能被其他类型的表示所满足，比如矩阵。答案是肯定的，而且不同于位置和动量算子，这些矩阵的大小是有限的。起作用的最小非平凡矩阵是 2 × 2 矩阵。这些矩阵被称为自旋算子，并有其专用记号 s = (s1, s2, s3)。自旋算子为
s1 = 1
2

0
1
1
0

,
s2 = 1
2

0
−i
i
0

,
s3 = 1
2

1
0
0
−1

,
(8.49)
它们满足对易关系 [s1, s2] = is3 等等，正如方程 (8.16) 中那样。如果没有因子 1
2 ，这些矩阵就称为泡利矩阵 (Pauli matrices)，并记作 σ = (σ1, σ2, σ3)，因此 s = 1
2 σ。物理上的自旋算子为 ¯hs = ¯h
2 σ。
自旋算子提供了角动量的另一种量子力学实现。由于矩阵是 2 × 2 的，具有自旋的最简单量子态只有两个复分量。这样的态被称为二分量旋量，写作
φ =

φ1
φ2

.
(8.50)
为了看出自旋算子并不等价于先前用微分算子表示的角动量，考虑自旋的平方
s2 = s2
1 + s2
2 + s2
3 .
(8.51)
每个泡利矩阵 σi 的平方都是 2 × 2 单位矩阵 1，因此 s2 = 3
41。所以任何二分量旋量都是 s2 的本征态，本征值为 3
4。这正是 s = 1
2 时 s(s + 1) 的值，因此自旋是标记为 1
2 的角动量的一种表现，而非我们早前找到的整数标记 l。我们说这些态具有自旋 1
2。
自旋算子 s3 =

1
2
0
0
−1
2

有两个不同的本征值，恰好就是对角元 1
2 和 −1
2。并且由于
s3

1
0

= 1
2

1
0

和
s3

0
1

= −1
2

0
1

,
(8.52)
相应的本征态就是这里所示的两个旋量，
1
0

和
0
1

。它们分别被称为（相对于 x3 轴的）自旋向上态和自旋向下态，s = 1
2。本征值

自旋
245
s₃的本征值从s到−s以整步长变化，正如l₃的本征值m从l到−l以整步长变化一样。

有趣的是，每个二分量旋量在某个方向上都是自旋向上的。一个在方向n = (sin ϑ cos ϕ, sin ϑ sin ϕ, cos ϑ)上自旋向上的旋量φ必须满足(n · s)φ = ½φ，或显式地
(sin ϑ cos ϕ s₁ + sin ϑ sin ϕ s₂ + cos ϑ s₃)φ = ½

cos ϑ
sin ϑ e⁻ⁱᵠ
sin ϑ eⁱᵠ
−cos ϑ

φ = ½φ .
(8.53)
一个解是φ =

cos ½ϑ
sin ½ϑ eⁱᵠ

。反之，φ =

φ₁
φ₂

在由tan ½ϑ eⁱᵠ = φ₂/φ₁定义的方向上是自旋向上的。

8.5.1 施特恩–格拉赫实验
银原子束
狭缝
炉
特殊形状的磁铁
照相底片
S₃ = ½
S₃ = −½
N
S
图8.2 施特恩–格拉赫装置。

物理粒子可以具有自旋½，这是一个非凡的事实。这一发现是在1922年，当时奥托·施特恩(Otto Stern)和瓦尔特·格拉赫(Walther Gerlach)让一束（中性）银原子通过一个设计用于产生沿x₃方向对齐的非均匀磁场的磁铁。当原子通过施特恩–格拉赫装置时，束中原子的磁矩与磁场相互作用，原子从原始轨迹偏转，如图8.2所示。施特恩和格拉赫发现的结果是，银原子束分裂成两束。每个原子具有与其自旋成正比的磁矩，在自旋向上态中磁矩向上对齐，或在自旋向下态中向下对齐。通过磁场时，原子向上或向下偏转，取决于其磁矩是向上还是向下，如图8.3右图所示。经典上，我们预期原子自旋可以指向任意方向，偏转将取决于取向角度。偏转将是连续的，在对应与磁场完全对齐和完全反平行对齐的两种极端值之间变化。施特恩–格拉赫实验表明，我们的经典预期是错误的，自旋只能理解为一种量子现象。结果可以解释为对s₃的测量，并表明唯一可能的结果是本征值½和−½。不仅仅银原子具有自旋½；电子、质子和中子也具有自旋½。电子自旋影响氢原子中电子可用的状态。

图8.3

图8.3 银原子通过斯特恩-盖拉赫装置(Stern–Gerlach apparatus)后在照相底片上留下的痕迹。左图：磁场关闭时，没有偏转。右图：磁场开启时，银原子通过两个离散的角度发生偏转。

图8.3

定态波函数是一个依赖位置的旋量，
φ(x) =
φ1(x)
φ2(x)

.
(8.54)
在非常好的近似下，φ 的薛定谔方程约化为我们之前讨论过的薛定谔方程(8.35)的两个副本，一个关于 φ1，一个关于 φ2。因此，态与之前相同，具有相同的能量，但多了一个额外的标记，用以标明电子是自旋向上还是自旋向下。具有能量(8.44)的独立状态数目现在是 2N 2，是先前考虑的无自旋情形的两倍。

8.5.2
塞曼效应(Zeeman effect)
将原子置于强磁场中会破坏哈密顿量的球对称性，并解除电子态的简并。当通过衍射光栅观察光谱时，谱线的分裂是可见的。当一块强磁体靠近装有激发原子气体的管子时，可以观察到一条单一的谱线发生分裂。这就是塞曼效应。磁场的第一个效应是，将原本简并的、给定 l 的电子态能量分裂成对应不同 m 值的 2l+1 个能级。这种正常塞曼分裂如图8.4所示。l = 1 的态分裂成三个，l = 2 的态分裂成五个。由这些能级间跃迁产生的光子发射和吸收所导致的谱线也相应分裂。磁场的第二个效应是，由于电子自旋与磁场的相互作用，自旋向上的电子态能量相对于自旋向下的态发生偏移。自旋向上和向下相差一个单位的角动量，因此我们可能会预期自旋分裂的大小与连续 m 值之间的分裂相同。然而，不同自旋值导致的能量分裂几乎是单位轨道角动量所致分裂的两倍。这可以通过使用…来理解。

自旋

狄拉克方程——我们将在第12章介绍的相对论性量子力学方程。

无磁场
有磁场
m = 2
m = 1
m = 1
m = 0
m = 0
m = –1
m = –1
∆m = –1
∆m = +1
∆m = 0
无磁场时的光谱
有磁场时的光谱
l = 2
l = 1
m = –2
ħω
图8.4 原子置于磁场中时，电子态的能量发生分裂。这就是基本的（正常）塞曼效应。

我们在图8.5中对此加以说明。对于一个处于l = 1态的电子，存在三个m值，而每个m值又有两个自旋值（向上和向下），总计六个态。这六个态的能量在磁场中分裂，如右图所示。有四个等间距的态，统称为P₃/₂组，另外两个态标记为P₁/₂。这反映了角动量相加的方式，这种分裂被称为反常塞曼效应，尽管它的出现并不罕见。轨道角动量为1，自旋为1/2。如果这两个角动量矢量指向同一方向，总角动量为3/2；如果它们指向相反方向，总角动量为1/2。总角动量为3/2时有四个不同的投影，而总角动量为1/2时有两个。

塞曼效应是天文学家的重要工具，因为它使他们能够研究恒星的磁场。例如，通过塞曼效应，我们知道太阳黑子周期是由太阳磁场的周期性变化引起的。它也使得天文学家能够证实中子星的典型磁场强度约为10⁶ T（T表示特斯拉）。相比之下，地球磁场为10⁻⁵ T。

8.5.3 其他自旋表示

存在角动量对易关系的更大矩阵表示，类似于自旋算符s。例如，存在一个由3×3矩阵构成的表示，作用于三分量旋量。角动量平方s²的本征值为s(s+1) = 2，

248
三维空间中的量子力学
P 3
2
P1
2
S 1
2
1
2
1
2
3
2
–
1
2
–
1
2
–
1
2
–
1
2
3
2
图 8.5 当与两个电子自旋态结合时，l = 0 的角动量态（s 态）分裂为两个，三个 l = 1 的态（p 态）分裂为总共六个态。这就是反常塞曼效应(anomalous Zeeman effect)。
因此自旋标记为 s = 1。这些矩阵等价于将通常的角动量算符(8.15)的作用限制在一阶多项式 a1x1 + a2x2 + a3x3 上所得到的结果。这里 l = 1。尽管有这样的等价性，矩阵表示对于描述自旋为1的粒子依然有用。与二分量的旋量不同，并非每一个三分量旋量都代表一个在某个方向上自旋向上的自旋1粒子。
Z 玻色子(Z boson)是一个有质量的自旋1粒子，它的三个极化态是三分量旋量的独立状态。可以设想，它是两个自旋为 1
2 的粒子的束缚态，其自旋来源于轨道角动量和其组分的自旋，但这种解释很难与大量的实验观测相协调。Z 玻色子似乎像电子一样，是一种没有子结构的基本粒子，并且有坚实的理论理由说明它为何仍可以具有自旋1，我们将在第12章中看到这一点。
还有一组 4 × 4 矩阵表示自旋。这个表示描述了自旋为 3
2 的粒子。同样，这样的粒子也是存在的。德尔塔共振态(Delta resonances)是质子和中子的激发态，其自旋为 3
2。然而，自旋 3
2 不如自旋 1
2 基本，德尔塔共振态可以用三个组分夸克来模拟，每个夸克携带自旋 1
2。
总之，存在对应于自旋 0, 1
2, 1, 3
2, 2, 5
2, … 的自旋表示。数值 0, 1, 2, … 称为整数自旋，而 1
2, 3
2, 5
2, … 称为半整数自旋。在这些自旋中，自旋 0, 1
2, 1 似乎是最基本的。
8.6
自旋
1
2 作为量子范式
自旋
1
2 粒子提供了一个量子力学反直觉本质的简单例子，并为其公理提供了一个极好的检验。让我们暂且忽略空间波函数，将自旋 1
2 粒子仅当作一个两态系统来处理。将粒子视为一个束流的分量是方便的，该束流的自旋态可以通过一个或多个施特恩–格拉赫(Stern–Gerlach)

几个全同粒子的量子力学
249
放置在束流方向上的磁铁。方程(8.49)中的自旋算符s₁, s₂, s₃是厄米的(hermitian)⁴，因此它们代表可观测量。如果束流沿x₁方向，那么沿任何正交方向的自旋都可以通过适当摆放施特恩-格拉赫(Stern–Gerlach)磁铁来测量。

假设粒子遇到的第一个磁铁，其磁场沿x₃方向排列。对s₃的测量有两个可能结果½和-½，并假设某次测量的结果是½。紧接着，态是(1 0)，即s₃的本征值为½的归一化本征态。如果用另一个同样排列的磁铁重复测量，结果确定是½。

现在假设第二个磁铁的磁场沿x₂方向排列，从而测量s₂。人们可能会预期，一个沿x₃方向自旋向上的态在x₂方向的自旋分量为零。但量子力学并非如此运作。
s₂ = ½ (0 -i; i 0) (8.55)
的本征值同样是½和-½，其归一化本征态分别是
1/√2 (1 i) 和 1/√2 (1 -i) . (8.56)
入射的自旋向上态(1 0)可以表示为s₂本征态的线性叠加：
(1 0) = 1/√2 [1/√2 (1 i)] + 1/√2 [1/√2 (1 -i)] . (8.57)
测量结果的概率就是该表达式中系数的平方。因此，s₂的测量结果有½的概率为½，有½的概率为-½。入射态是纯态，但s₂的测量结果却是概率性的、不确定的。这已在实验室中得到证实。不确定性的根本原因是s₃和s₂不对易。

类似的也可以在第二个磁铁磁场位于(x₂, x₃)平面内任意角度的情况下来分析。自旋的测量结果总是½或-½，但预言的概率依赖于角度，一般并不相等。这些概率同样已为实验所证实。

这些想法尽管奇特，如今已有了技术应用，并被开发成能够以完美安全性交换信息的系统，即量子密码术(quantum cryptography)。

8.7 几个全同粒子的量子力学

在经典力学中，如果有两个或更多粒子，它们有位置x⁽¹⁾, x⁽²⁾, …和动量p⁽¹⁾, p⁽²⁾, …。在量子力学中，多粒子系统的态由一个只依赖于粒子位置的波函数Ψ(x⁽¹⁾, x⁽²⁾, …)来描述。

⁴ 一个方阵Mₐₔ是厄米的，如果它的转置（行列交换后的矩阵）等于它的复共轭，即如果M₆ₐ = \overline{Mₐₔ}。厄米矩阵的本征值为实数。

250
三维空间中的量子力学
波函数也依赖于时间，但我们在这里略去这种依赖关系。波函数的模平方，
|Ψ(x(1), x(2), . . .)|^2 , (8.58)
是同时发现第一个粒子位于 x(1)、第二个粒子位于 x(2) 等等的概率密度。为使这有意义，波函数必须满足归一化条件：
∫ |Ψ(x(1), x(2), . . .)|^2 d^3x(1) d^3x(2) . . . = 1 , (8.59)
其中积分遍及整个空间。

每个粒子的位置算符和动量算符都作用在波函数上，与单粒子情况相同，位置算符通过乘法起作用，动量算符则通过偏微分起作用。例如，总动量算符的三个分量是如下求和：
P1 = −i¯h ∂/∂x(1)_1 − i¯h ∂/∂x(2)_1 − · · · ,
P2 = −i¯h ∂/∂x(1)_2 − i¯h ∂/∂x(2)_2 − · · · ,
P3 = −i¯h ∂/∂x(1)_3 − i¯h ∂/∂x(2)3 − · · · , (8.60)
或写成矢量形式：
P = −i¯h∇(1) − i¯h∇(2) − · · · . (8.61)
总哈密顿量 H 是动能之和加上一个依赖于所有粒子位置的势能。若有 N 个粒子，质量分别为 m(1), m(2), . . . , m(N)，则
H = − Σ{k=1}^N (¯h^2/(2m(k))) (∇(k))^2 + V (x(1), x(2), . . . , x(N)) , (8.62)
其中 (∇(k))^2 是关于变量 x(k) 的拉普拉斯算符。N 粒子定态是 H 的本征函数，本征值 E 就是这些粒子的总能量。

回忆一下，如果势能只依赖于粒子的相对位置，则系统具有平移不变性，且在经典力学中总动量守恒。类似地，在量子力学中，平移不变性意味着总动量算符 P 与哈密顿量 H 对易。这意味着存在一组完备的定态，它们同时是 H 和 P 的本征态。这些态具有确定的能量和确定的总动量（也记为 P）。对于两个粒子组成的系统，这种态的波函数具有如下形式：
Ψ(x(1), x(2)) = e^{i/¯h P·X_CM} ψ(x(2) − x(1)) , (8.63)
其中 X_CM 是通常的两粒子质心，x(2) − x(1) 是粒子间的分离矢量。

现在假设这 N 个粒子是全同的。（所谓全同，是指这些粒子即使在原则上也无法区分。）这些粒子可以是，例如，原子中彼此相互作用并与固定原子核相互作用的电子，或者是全同原子构成的气体，其中原子被当作点粒子，其内部结构被忽略。

几个全同粒子的量子力学
251
全同粒子都具有相同的质量 m，因此哈密顿量（8.62）具有略微简洁的形式：
H = −
N
X
k=1
¯h2
2m(∇(k))2 + V (x(1), x(2), . . . , x(N)) 。
(8.64)
V 在点 x(1), x(2), . . . , x(N) 的置换下保持不变，因为置换不会改变粒子的组态，只会改变粒子的标记。哈密顿量中的动能部分具有相同的置换对称性。这对波函数有什么影响呢？

交换波函数中的标记并不会改变全同粒子的组态。由此可知，概率密度 |Ψ(x(1), x(2), . . . , x(N))|2 必定等于在交换了前两个标记之后的概率密度 |Ψ(x(2), x(1), . . . , x(N))|2。然而，波函数本身在这种标记交换下可能会获得一个相位因子：
Ψ(x(2), x(1), . . . , x(N)) = eiα Ψ(x(1), x(2), . . . , x(N)) 。
(8.65)
如果我们再次交换前两个标记，就会回到原始函数，因此 e2iα = 1。所以只有两种可能：要么 eiα = 1，要么 eiα = −1。在第一种情况下，我们称波函数是玻色型的（bosonic）；在第二种情况下，称波函数是费米型的（fermionic）。如果波函数是玻色型的，那么这些粒子被称为玻色子（bosons）；如果波函数是费米型的，那么这些粒子被称为费米子（fermions）。

一旦对交换第一对标记的效果做出选择，那么对于任何一对标记也都必须做出相同的选择。这是因为，由于粒子是全同的，它们必须被完全相同地处理。此外，混合选择会与哈密顿量的对称性不相容。因此，玻色型波函数在交换任意一对标记时都保持不变，从而在所有可能的标记置换下都保持不变，这被称为完全对称。费米型波函数在交换任意单独一对标记时会改变符号，因此是完全反对称的。它在任何奇置换下改变符号，而在偶置换下保持不变。所谓奇置换，我们指的是奇数个成对交换的组合结果。它可以以多种方式表达为这样的组合，但其奇偶性始终不变。利用方阵行列式的性质很容易证明这一点。行的奇置换会改变行列式的符号，因此它必定总是奇数个行交换的结果，而每次行交换都会改变符号。类似地，偶置换是偶数个成对交换的组合，而行列式行的偶置换不会改变符号。

这些不同类型的波函数不仅仅在代数上不同，它们在物理上也有所不同，因此可能具有不同的能量，我们可以通过一个简单的例子来说明。考虑两个在一维空间中通过谐振子势相互作用的粒子。设 ξ = x(2) − x(1) 为间距，因此势为 V (ξ) = 1/2 mω^2 ξ^2。注意 V 在交换粒子标记时保持不变。质心是 XCM = 1/2 (x(1) + x(2))，定态波函数的形式为
χ(x(1), x(2)) = e^{i/¯h P XCM} g(ξ) ,
(8.66)
其中 P 是总动量。在标记交换下，ξ 改变符号，但 XCM 不受影响，并且涉及 XCM 的相位因子不会改变。因此，对于两个费米子，

252
三维空间中的量子力学
g 必须是 ξ 的奇函数，即当 ξ 变号时函数值变号，而对于两个玻色子，g 必须是偶函数。我们之前研究过谐振子的定态。第 n 个态的能量为 E_n = (n + 1/2)¯hω，它由一个厄米多项式 H_n 乘以一个关于 ξ 为偶函数的指数因子构成。厄米多项式在 n 为偶数时是偶函数，在 n 为奇数时是奇函数。因此，对于玻色子，n 必须为偶数；而对于费米子，n 必须为奇数。两个玻色子的基态是 n=0 的态，但两个费米子的基态是 n=1 的态，具有更高的能量。

费米子态是在 ξ=0 处为零的函数。换句话说，两个费米子不能处于同一位置，并且它们非常接近的概率也很小。这一结果可推广到 N 个费米子的波函数。费米子波函数 Ψ(x(1), x(2), . . . , x(N)) 在任意一对标签交换时变号。因此，当任意两个自变量 x(k) 和 x(l) 相同，即两个粒子处于同一位置时，Ψ 必须为零。由于波函数的导数通常是有限的，当任意一对粒子间的距离很小时，Ψ 也很小。这一结果称为泡利(Pauli)不相容原理。

由于泡利原理，费米子粒子之间表现出物理上的排斥，但这并非排斥势的结果。如果将 N 个费米子限制在一个大小固定的有限盒子里，由于这种排斥，能量随 N 增加的速度远大于 N 本身。对于玻色子，不存在这样的效应。

一个关于 N 个全同粒子的简单模型是：它们与一个背景势 U 相互作用，但彼此之间没有直接相互作用。这种情况下的势能是单体项之和：
V (x(1), x(2), . . . , x(N)) = U(x(1)) + U(x(2)) + · · · + U(x(N)) , (8.67)
这是一个置换对称函数。此时定态薛定谔方程的解为乘积波函数：
χ(x(1), x(2), . . . , x(N)) = χ(1)(x(1))χ(2)(x(2)) · · · χ(N)(x(N)) , (8.68)
其中 χ(1), χ(2), . . . , χ(N) 是单体问题的解。从现在起，我们用记号 ε 表示单体能量，用 E 表示 N 粒子体系的总能量。波函数 (8.68) 的单体能量为 ε(1), ε(2), . . . , ε(N)，在没有粒子间相互作用的情况下，总能量为 E = ε(1)+ε(2)+· · ·+ε(N)。
然而，为了使这个波函数满足玻色子或费米子所要求的置换对称性质，还需要进一步处理。我们必须将其对称化或反对称化。
玻色子的基态特别简单。我们取 χ(1), χ(2), . . . , χ(N) 全都等于单体基态 χ_0，其能量为 ε_0，于是：
χ(x(1), x(2), . . . , x(N)) = χ_0(x(1))χ_0(x(2)) · · · χ_0(x(N)) . (8.69)
这个波函数是全对称的，能量为 Nε_0。

多个全同粒子的量子力学
253
将其展开后，会得到 N! 个形如方程（8.68）右端那样的乘积之和（包含一些负号）。χ 是完全反对称的，因为行列式在交换任意两行时会变号。每个单粒子波函数必须是互不相同的，否则行列式中的两列就会相同，整个波函数将变为零。总能量依旧是单粒子能量之和，基态由选取 N 个能量最低且互不相同的单粒子态组合进行列式中而得到。基态能量大于 Nε0。

这一模型——多个粒子与背景势发生相互作用，但彼此之间没有直接相互作用——通常是一个有用的近似。它在整个化学领域都被采用，在固体物理中则被称为独立电子模型（independent electron model）。利用这个近似，可以按下述简单方法来构造 N 个粒子的玻色子型和费米子型定态。

首先要解出势场中的单粒子问题，并对各状态加以标记。它们可以按照能量递增的顺序标记为 0, 1, 2, …，或者直接用实际能量 ε0, ε1, … 来标记。（如果某个能级是简并的，就需要添加额外的标记，例如角动量标记。）然后，一个玻色子态通过给出各个单粒子态的占据数 n0, n1, … 来指定。由这些占据数，可以将整个波函数重新构造为单粒子波函数乘积的求和形式。总粒子数必须满足 n0 + n1 + … = N，因此只有有限个占据数可以不为零。对占据数没有其他约束。总能量是各被占据态的能量之和，其中已计及占据数。基态为 n0 = N，而所有其他占据数均为零，如图 8.6 左图所示。

图 8.6

一个费米子态同样由占据数来指定，但这些数只能是 0 或 1。任何一个单粒子态都不能被多重占据。这是泡利不相容原理（Pauli exclusion principle）的另一种表述方式。对于 N 个费米子，有 N 个单粒子态被单重占据，其余的态为空。波函数是由被占据态构造而成的行列式，总能量是被占据态的能量之和。

我们先前关于泡利原理的讨论需要稍加修正，以便将自旋考虑在内。对于 N 个自旋为 1/2 的费米子，必须将自旋态包含在波函数中。当粒子之间没有直接相互作用，且每个粒子可以处于自旋向上或自旋向下的态时，情况最为简单。单粒子波函数记为 χ(x)↑ 和 χ(x)↓。当一对粒子的位置和自旋标记同时交换时，总波函数必须变号。能量是否依赖自旋态并无影响。泡利原理的那种表述——任何态的占据数要么为 0 要么为 1——仍然有效。

泡利原理允许两个全同的自旋 1/2 粒子（但不能更多）具有相同的空间波函数 χ，如图 8.6 右图所示，前提是一个粒子自旋向上，另一个粒子自旋向下，并且自旋态被反对称化。这样的波函数写作

图 8.6

χ(x(1))χ(x(2)) 1/√2 (↑↓ − ↓↑) 。
(8.71)
它在空间部分是对称的，在自旋部分是反对称的。另一种可能则是自旋态对称，而空间波函数反对称，例如，
(χ(1)(x(1))χ(2)(x(2)) − χ(2)(x(1))χ(1)(x(2))) ↑↑ 。
(8.72)

量子力学中的三维问题
图8.6 左：玻色子基态。右：费米子基态。其中χ(1)和χ(2)是不同的。

图8.6

对于两个粒子，反对称的自旋态 1/√2 (↑↓-↓↑) 是唯一的，且总自旋为零。然而，存在三个对称自旋态：↑↑，1/√2 (↑↓+↓↑) 和 ↓↓，它们是总自旋为1的态的三个投影。
当粒子之间存在真实的相互作用时，这些波函数并不是定态薛定谔方程的精确解。不过，它们作为近似解是很有用的，并且它们具有正确的置换对称性。更好的近似，特别是对于基态，可以通过调整背景势和单粒子波函数以某种方式考虑作用在粒子之间的力来获得。这被称为哈特里方法（用于玻色子）或哈特里–福克方法（用于费米子）。
8.7.1 费米球
假设在一个盒子中有N个自旋为1/2的费米子，其中N非常大，并且这些粒子之间没有相互作用。金属样品中的电子就是一个相当好的例子，因为尽管电子-电子之间的库仑力相当大，但它们被金属中带正电的背景离子大致中和了。在基态，费米子占据能量最低的可用态。单粒子态在某个能量ε_F以下的占有数为1，在高于此能量的所有态占有数为0。ε_F 被称为费米能。
我们可以利用态密度计算出费米能ε_F和基态的总能量。对于体积为V的盒子中质量为m、自旋1/2的粒子，单粒子态密度为 g(ε) = V/(2π^2) * (2m/ħ^2)^(3/2) * ε^(1/2)。这是用能量ε表示的，与公式(8.13)相比多了一个因子二，这是因为有两个独立的自旋态。对于被占据的态，ε从零（单粒子基态能量）向上延伸至费米能ε_F。因此，粒子的总数N为
N = ∫_0^εF g(ε) dε = V/(2π^2) * (2m/ħ^2)^(3/2) * (2/3) * ε_F^(3/2)。 (8.73)

玻色子、费米子与自旋
255
将其反转，我们得到
εF = ¯h2
2m
3π2N
V
2
3
,
(8.74)
这表明费米能量仅取决于粒子的空间数密度 N
V 。总能量 E 是类似 N 的积分，但被 ε 加权，
E =
Z εF
0
g(ε)ε dε = V
2π2
2m
¯h2
3
2 2
5 ε
5
2
F .
(8.75)
这可以用公式 (8.74) 以 N 和 V 表达，给出
E = 3(3π2)
2
3
5
¯h2
2m
N
V
2
3
N .
(8.76)
在 k 空间或 p 空间中，被占据的态填满了一个称为费米球 (Fermi sphere) 的球体内部。费米球的半径 kF 通过 1
2m(¯hkF)2 = εF 与费米能量 εF 相关联，并且就是 kF =

3π2N
V
1
3 。

8.8
玻色子、费米子与自旋
每一个粒子，无论是像电子这样的基本粒子，还是像原子这样的复合粒子，要么是玻色子，要么是费米子。但它究竟是哪一种？引人注目的是，这仅取决于粒子的自旋。实验表明，具有整数自旋 0, 1, . . . 的粒子总是玻色子，而具有半整数自旋 1
2, 3
2, . . . 的粒子总是费米子。在量子力学内部，确实无法理解为什么会这样，并且在考虑诸如原子结构等物理问题时，多电子波函数必须是反对称的这一要求必须人为加入。然而，在粒子的相对论性理论中，有一个定理可以解释这种关系，尽管它并非基础性的。

如我们所见，电子具有自旋 1
2，因此是费米子。这一事实的重要性怎么强调都不为过。它对于原子和分子中电子的行为，以及对于像金属和半导体这类材料中无数电子的行为，都有着至关重要的影响。我们将在第9章中，基于我们对费米球的讨论来探讨这些影响。

一个原子由电子、质子和中子组成，所有这些都是费米子性粒子。那么，如果它包含的费米子数量是偶数，整个原子就是玻色子性的，因为交换两个这样的原子的标签，需要对偶数个费米子对进行标签交换。这与原子的自旋是整数是一致的。（原子的总自旋是偶数个相互作用的半整数自旋费米子的自旋，与一些轨道角动量——它总是整数——的组合。）相比之下，交换两个各自由奇数个费米子组成的原子的组分标签表明，这样的原子必定是费米子性的。这同样与原子的自旋是一致的，该自旋是奇数个半整数自旋的组合，因此也是半整数的。

中性原子根据其组成，可以是费米子或玻色子。这在低温下会导致一些非常令人惊讶的行为。例如，氦-4 原子包含两个电子、两个质子和两个中子，因此是玻色子。在…

256
三维空间中的量子力学
当温度低于4.2 K时，氦-4呈现为液态。进一步冷却至2.17 K时，它会转变为超流体——一种无粘性、对流动无阻力的液体。一个原本能完好盛装普通液态氦的容器，一旦被冷却到此温度以下，就会突然出现许多泄漏，因为超流氦会通过容器上的超微孔隙渗出。超流氦-4具有许多奇异而绝妙的性质。相比之下，氦-3在这些温度下仍为普通液体。这是因为氦-3原子由两个电子、两个质子和一个中子组成，因此它们是费米子。当氦-3被进一步大幅冷却时，会发生一件非凡的事情：在仅2.49×10⁻³ K的温度下，氦-3原子会配对。每个氦-3原子自旋为1/2，但一对原子的自旋沿相同方向排列，使得总自旋为1。氦-3对是一种玻色子，结果是氦-3变成了超流体。将氦-3对结合在一起的键极其微弱，微小的温度升高就会将它们拆散。这就是为什么氦-3必须被冷却到如此超低的温度才能变为超流体。

光子自旋为1，因此是另一种重要的玻色子类型。它们以光速传播，必须用量子理论的相对论版本来描述。光子的玻色子特性使激光成为可能，也奠定了将光视为满足麦克斯韦(Maxwell)方程组的经典电磁波来处理的基础。正如我们将在第12章中看到的，电磁力源于带电粒子之间交换光子。一般而言，在量子理论中，自然界的各种力都是通过其他粒子之间交换玻色子而产生的。

8.9 重返作用量
在日常生活中，我们熟悉粒子遵循明确轨迹的概念。粒子运动的量子描述则截然不同。早在1800年，托马斯·杨(Thomas Young)就描述了光产生的干涉图样，并将其结果与水波的干涉相比较。我们现在知道光由光子组成，而这些单个的玻色子粒子具有类似波的性质。在20世纪20年代，克林顿·戴维孙(Clinton Davisson)和莱斯特·革末(Lester Germer)证实了电子的行为方式非常相似。这一点通过图8.7所示的双缝实验得到了最好的说明。电子从源A发射，穿过两条邻近的狭缝B和C，然后到达探测屏。在屏上某点D探测到电子的概率在屏上呈周期性变化。我们得出结论：正如德布罗意(de Broglie)所提出的，电子与波相关联，并且这些波根据其相对相位而相互叠加或抵消。既然电子从A运动到D有两条不同的路径可用，它到达D的振幅Ψ = μ(e^iφB + e^iφC) 就是它经过B或C这两条路径的振幅之和。在D点发现它的概率是

图8.7

|Ψ|² = μ²(e^iφB + e^iφC)(e^−iφB + e^−iφC) = 2μ²(1 + cos(φC − φB)) , (8.77)
其中μ是归一化常数。

在实验上，可以将电子源调得非常弱，以至于在任何特定时刻只有一个电子穿过仪器。干涉图样仍然会出现，这确立了量子力学中单个电子的类波本性。量子力学的另一个特征是，该图样是概率性地建立起来的，只有探测到大量单个电子后才会变得清晰。

回到作用量

257
A
B
C
D
O
y
x
图8.7 从源A发出、穿过屏障上两条狭缝的电子束，在远端的屏幕上产生了干涉图样。电子到达D点的振幅Ψ，等于它沿两条可能路径传播的振幅之和。

图8.7

到目前为止，我们还没有解释如何计算相位差φ_C - φ_B。我们可以尝试对这个装置中的单个电子求解薛定谔(Schrödinger)方程。不过，还有一种替代方法，即使用经典粒子的作用量。在第1章中，我们展示了光的一些熟知性质，如反射和折射，是如何遵循费马原理(Fermat’s principle)的；在第2章中，我们又展示了如何从最小作用量原理(principle of least action)推导出牛顿运动定律。事实上，有了正确形式的作用量，这个原理就能解释整个经典物理学。显然，最小作用量原理具有深远的影响，但到目前为止，我们还没有解释它为何有效。答案相当出人意料，它为经典力学与量子力学之间的关系提供了最清晰的洞察。

狄拉克(Dirac)在1933年首次讨论了作用量在量子力学中的角色，他的论述后来被费曼(Feynman)继承发扬，费曼利用它们发展出了一种替代的量子力学途径。这种方法与此前的表述完全等价，但对量子世界的奇异性及其意义提供了额外的洞见。费曼的分析受到了双缝实验的启发。他决定认真对待一个看似荒谬的观念：穿过双缝装置的电子沿两条可用路径同时传播，或者至少以某种方式“知道”这两条路径。遵循狄拉克的思路，他提出：要确定电子到达屏幕上D点的振幅Ψ，就必须计算穿过该装置的两条路径的作用量，并将两者的贡献作为相位因子都包括进来，于是
Ψ = μ(e^{iφ_B} + e^{iφ_C}) = μ ( exp( i/ħ S_B ) + exp( i/ħ S_C ) )。
(8.78)
这里，S_B是电子沿路径x(t)从A经由B到达D的作用量，S_C则是经由C的路径的作用量。该作用量即第2章中所定义的作用量。

258
三维空间中的量子力学
S[x(t)] =
∫
L dt =
∫
(K − V ) dt ,
(8.79)
其中K为动能，V为势能。
重要的是相对相位。若两条狭缝B与C与源A等距，则从源到狭缝的路径相位相同，在|Ψ|²中互相抵消。我们只需考虑从狭缝到探测屏的路径。如图8.7所示建立坐标系：以屏上与两狭缝等距的点O为原点，x轴垂直于屏面，y轴沿屏面方向。设两狭缝间距为2f，狭缝到屏面的垂直距离为l。假设电子在时间0经过狭缝，在时间T到达屏面。（我们求和的是时间T时对振幅的贡献，因此对于每条路径该时间都是相同的。）

图8.7

对于自由非相对论电子，V = 0，拉格朗日量L即为动能K = ½m(v²ₓ + v²ᵧ)。抵达屏上坐标为y的点D的作用量为S = ½m(v²ₓ + v²ᵧ)T。沿x和y方向的速度分别为
vₓ = l/T ,
vᵧ = (y ∓ f)/T ,
(8.80)
其中经狭缝B的路径取上号，经狭缝C的路径取下号。因此
ϕ_B = (1/ħ)S_B = (m/2ħ)[ (l/T)² + ((y − f)/T)² ]T = (m/2ħ)(l² + (y − f)²) vₓ/l ,
(8.81)
同理
ϕ_C = (m/2ħ)(l² + (y + f)²) vₓ/l .
(8.82)
故
ϕ_C − ϕ_B = (m/2ħ)(4yf)vₓ/l = (2fmvₓ)/(ħl) y ,
(8.83)
利用方程(8.77)，我们得出电子抵达探测屏上D点的概率为
|Ψ|² = 2μ² [ 1 + cos( (2fmvₓ)/(ħl) y ) ] .
(8.84)
该结果在4μ²与零之间振荡，当y = 0（即两条路径长度相等）时取最大值。屏上干涉图样的波长为
λ = 2π ħl/(2fmvₓ) .
(8.85)
vₓ由l和T决定，但更符合实际的做法不是固定T，而是固定电子的能量E，并利用关系式E = ½mv²ₓ来确定vₓ。
费曼(Feynman)设想通过增加屏障上狭缝的数量来增加可用路径。每条这样的路径都会对电子抵达屏上某特定点的振幅作出贡献，而这总振幅决定了干涉图样的形式。最终，为模拟自由空间中的电子，费曼设想不断增加狭缝数量直至屏障完全消失。随后他论证道，

回到作用量

为了一致性，电子仍然必须遵循那些穿过现已不可见的屏障上所有点的路径。此外，屏障的位置是完全任意的；它本可以放在源和探测器之间的任何地方。因此，我们得到了一个惊人但不可避免的结果：真空中一个自由电子实际上必须遵循A和D之间所有可想象的路径，而电子到达D的振幅包含了这浩繁无穷路径集合的贡献。费曼(Feynman)由此得出结论，一个电子（或其他粒子）从A发射并在D被探测到的振幅为

[
\Psi = \mu \sum_{\text{paths}} \exp\left( \frac{i}{\hbar} S[x(t)] \right),
\tag{8.86}
]

其中求和遍布所有可能的、从A到D在固定时间间隔0到T之间的光滑路径，而粒子沿每条路径的瞬时速度并不固定。

这个公式被称为费曼路径积分(Feynman path integral)。它累加来自不可数无穷多条路径的贡献，其中大多数路径包含说不尽的扭动，但它非常民主，因为所有路径都被平等对待；不同路径之间振幅的唯一区别是它们的相位。费曼证明了（允许D的位置可变）振幅(\Psi)满足薛定谔方程，并完全等价于通常的波函数。在非相对论量子力学中，求解薛定谔方程通常比进行等效的路径积分计算要简单得多，但在考虑量子场论时这种技术的优势便显现出来，而在处理规范理论时它更变得不可或缺。

费曼的路径积分方法为经典力学和量子力学之间的关系提供了一个非常有趣的视角。经典力学适用于我们可以将(\hbar)视为非常小的情形。此时表达式(\exp( \frac{i}{\hbar}S[x(t)]))中的相位变化迅速，一条路径导致的相位可能与其邻近路径的相位显著不同。令(S_i[x(t)])表示沿路径i求值的作用量。那么如果(S_2[x(t)] = S_1[x(t)] + \pi \hbar)，路径2的贡献刚好抵消路径1的贡献，因为(\exp( \frac{i}{\hbar}S_2[x(t)]) = -\exp( \frac{i}{\hbar}S_1[x(t)]))。一般而言，当沿着与某条特定路径差异极微的路径求值时，相位会取遍0到(2\pi)的每一个值。把这些邻近路径的贡献加在一起时，它们会相消干涉，并不对粒子到达D的总振幅产生贡献。那些真正做出贡献的主要路径，是当我们偏离该路径时作用量在一阶近似下不发生改变的那些。这些路径正是使(S[x(t)]))取极小值或驻值的路径，被称为稳相路径(paths of stationary phase)。路径积分中的稳相条件恰好对应于经典的最小作用量原理(principle of least action)——当作用量取驻值时，相位即为稳恒。我们得出结论：在量子力学中，所有可能的路径都必须被考虑；但当经典近似有效时，路径积分由那些作用量取驻值的经典路径所主导。

我们可以问，一条路径需要变化多大，才能使其作用量改变(\pi \hbar)，并在路径积分中使原路径和变化后路径的贡献相互抵消。对于一个自由非相对论粒子，质量为(m)，动量为(p)，在短时间(\Delta t)内运动，其作用量为(\Delta S = \frac{p^2}{2m}\Delta t)。若运动的距离为(\Delta x)，则动量(p = m \frac{\Delta x}{\Delta t})，于是

[
\Delta S = \frac{p^2}{2m}\Delta t = \frac{1}{2} p \Delta x .
\tag{8.87}
]

260
三维空间中的量子力学
因此，若∆x = 2π¯h/p（这正是德布罗意(de Broglie)波长），则有∆S = π¯h。这样一来，量子力学的路径积分图像就解释了为什么动量为p的粒子会表现得像波，其波长由德布罗意关系式给出。

这也揭示了经典力学何时适用。只要我们不考虑比粒子德布罗意波长更小的长度尺度，粒子的经典轨迹就是一个有用的概念。对于以10 m s⁻¹运动的台球，其波长极其微小，仅为10⁻³⁴ m，因此用经典力学描述其运动总是安全的。然而，原子中电子的德布罗意波长约为一个纳米，比原子本身还要大，所以当考虑电子与原子之间的相互作用时，我们不能使用经典力学近似。这一点在下一章中将会很重要。不过，在我们讨论电子穿过宏观双缝装置时，我们使用经典轨迹来确定每条路径的作用量，并将路径积分视为仅有的两项贡献之和，这是合理的。

8.10
扩展阅读
除了第7章末尾推荐的扩展阅读资料外，另请参阅：
E. 梅茨巴赫(Merzbacher)，《量子力学》（第三版），纽约：Wiley出版社，1998年。

关于费曼(Feynman)量子力学路径积分方法的原著修订校正版，请参阅：
R.P. 费曼(Feynman)和A.R. 希布斯(Hibbs)，《量子力学与路径积分：D.F. 斯泰尔(Styer)修订版》，纽约州米尼奥拉：Dover出版社，2010年。

9_Atoms,_Molecules_and_Solids

9
原子、分子和固体
9.1
原子
地球上的大多数物质由原子组成。每个原子包含一个微小的原子核，几乎承载了其全部质量，原子核被绕行的电子所包围。原子核由质子和中子构成，它们的质量非常相近；质子带有正电荷 e，而中子不带净电荷。原子核中的质子数称为原子序数（Z），由于电子的电荷为 −e，一个中性原子必定恰好拥有 Z 个电子。在大多数原子核中，中子数等于或大于质子数，但也有例外。例如，氢原子的原子核就只有一个质子。量子力学对于理解原子核和电子轨道的结构及稳定性至关重要。

电子可以从中性原子中被剥离；此时原子被电离，称为离子。这需要很高的能量或高温。当原子通过化学作用形成分子时，常常会有一个或两个电子从一个原子转移到另一个原子。这一过程涉及的能量要小得多，因为分子整体仍保持电中性。完全电离的原子只出现在约 10^4 K 或更高的温度下，例如在恒星中，或者在像粒子加速器和聚变装置这样的人工环境中。由自由原子核和电子组成的完全电离原子气体称为等离子体。

具有不同 Z 值的原子被赋予不同的名称；例如，Z = 6 的原子就是碳原子。仅由一种 Z 值的原子组成的纯净物质称为元素。同一元素的原子核中的中子数可以不同。例如，天然存在的碳主要由碳-12 原子组成，其原子核各含 6 个质子和 6 个中子，但也有少量的碳-13 原子，其原子核含有 7 个中子，这些原子核也是稳定的。原子核内质子数相同而中子数不同的原子，称为该元素的不同同位素。

原子中质子和中子的总数称为原子质量数，记为 A。在指明某一特定同位素时，可将 A 写在元素名称之后。作为一级近似，测量得到的原子质量等于质子质量乘以 A，但这并不精确，因为中子比质子略重，而且核结合能会使质量略微减小；电子的质量也有微小贡献。

Z 值最大到 92 的大多数元素都有天然存在的原子。在大多数情况下，这些原子核是稳定的，但有些元素的原子核不稳定，其半衰期可长达数十亿年。几乎所有 Z 到 83 号元素铋（bismuth）都有稳定同位素。例外之一是 Z = 43 的元素锝（technetium），其名称意为“人工制造”。不稳定的……

《物理世界》（The Physical World）。Nicholas Manton 和 Nicholas Mee 著，牛津大学出版社（2017）。
© Nicholas Manton 和 Nicholas Mee。DOI 10.1093/acprof:oso/9780198795933.001.0001

262
原子、分子与固体
有些原子核被描述为具有放射性(radioactive)，尽管这有点误导性。这个名字的由来，是因为衰变的原子核会发射粒子，这些粒子在最初被探测到时，似乎与强烈的电磁辐射（如X射线）相似。

原子核是通过宇宙中的各种过程产生的，我们将在后续章节中讨论这些过程。那些同位素半衰期与地球年龄相当的放射性元素，如Z=92的铀(uranium)，在地球上可能相对丰富。它们的衰变产物也可能是不稳定的，如果它们的半衰期短，那么它们就会相对稀少。正如所料，铀的衰变产物，如Z=88的镭(radium)，是在铀矿床中发现的。镭比铀稀有得多，因为它的半衰期大约为一千年。这个相对较短的半衰期使其具有强放射性，这一点最初由玛丽·居里和皮埃尔·居里(Marie and Pierre Curie)观察到，他们从一种称为沥青铀矿(pitchblende)的铀矿石中分离出了少量的镭。

Z>92的原子核可以在核反应堆中或通过核碰撞人工制造，其中一些的半衰期为数十年或数百年。在衰变之前很久，这些原子核就会获得电子并形成中性原子。已知最重的原子核Z值接近120，但它们既难以产生又高度不稳定。

原子的化学性质几乎完全由其电子的轨道结构决定，这也是我们将在本章讨论的内容。第11章专门讨论原子核的结构和性质。一种元素的不同同位素具有非常相似的化学性质，尽管不同的原子质量确实对化学反应速率有微小的影响。然而，用化学方法分离一种元素的同位素是非常困难的。元素被组织在周期表(Periodic Table)中，该表最初由德米特里·门捷列夫(Dmitri Mendeleev)建立。该表的结构主要反映了化学性质的变化：在表的每一行中从左到右变化，但在每一列中却相当相似。原子的质量在表中从左到右、从上到下递增。元素严格按照Z递增的顺序排列，从Z=1一直到Z=118。理解周期表的精确结构需要理解多电子原子的量子力学。

在粒子加速器时代，习惯上用电子伏特(eV)来标度粒子的质量和能量。在考虑加速器中粒子的产生时，这很方便。一个电子伏特是指一个电子，或任何其他携带一个单位电荷±e的粒子，在一个1伏特的电路中被加速所获得的能量。（1 eV 相当于 1.6×10⁻¹⁹ 焦耳(J) 或 1.8×10⁻³⁶ 千克。）化学反应通常涉及几个电子伏特的能量，这就是电池具有在这个范围内电压的原因。在数千电子伏特(keV)下运行的高压设备可以剥离原子中的电子并用于产生电子束，如老式电视机和X射线机中使用的那样。

核过程中释放的能量通常用MeV来标度，其中1 MeV是一百万（兆）电子伏特。一个电子的质量约为半个MeV，这就是为什么在β衰变(beta decay)的核过程中可能产生电子。一个铀-238核经历α衰变(alpha decay)；释放出的α粒子总是以同样清晰确定的动能发射出来：4.2 MeV。十亿（吉）电子伏特写作1 GeV，略大于一个质子的质量。一万亿（太）电子伏特，即1000 GeV，写作1 TeV。大型强子对撞机(Large Hadron Collider)是一个质子对撞机，每个质子都被加速到6.5 TeV的能量。我们将在本章及后续章节中使用这些单位。

原子
263
9.1.1 原子轨道
1s
2px
3dxy
3dyz
3dxz
3dx2–y2
3dz2
2py
2pz
图9.1 原子轨道。

图9.1

原子中的每个电子都在一个吸引的、类氢的库仑势 −Ze²/(4πr) 中运动，其中带电荷 −e 的电子与带电荷 Ze 的原子核发生相互作用。电子还受到原子中其他电子所产生的附加势的作用。计算能级的第一步，是在吸引的库仑势中求解单电子束缚态的薛定谔(Schrödinger)方程，并忽略电子-电子相互作用。¹这将产生一系列能级，简并度为：1, 4, 9, 16, …, N²，正如第8.4.2节所讨论的。这些能级比氢原子中的能级负得多，差一个因子 Z，波函数在空间上也更加紧致，同样差一个因子 Z。考虑两个电子自旋态后，在相继能级上给出的态的数目为：2, 8, 18, 32, …, 2N²。由于电子是费米子(Fermion)，它们必须各自占据不同的单电子态。对于处于基态的中性原子，有 Z 个电子，按能量升序填充这些单电子态。
定态波函数，也称为轨道，由主量子数 N 和角动量 l 标记，其中 l ≤ N − 1。按照惯例，对应于角动量 0, 1, 2 和 3 的轨道分别命名为 s, p, d 和 f，这些态（不包括自旋）的简并度分别为 1, 3, 5 和 7。例如，当 N = 2 时，存在 2s 和 2p 态，总简并度为 8。角动量对应于波函数中角向节面的数目，也就是当绕通过原子核的轴转动时，波函数改变符号的次数。例如，s 轨道是球对称的，而 p 轨道具有两个符号相反的瓣，如图9.1所示。

图9.1

¹ 正如我们在第8章中所展示的，库仑势具有增强的对称性，能级具有更高的简并度。

264
原子、分子与固体
0
0.1
2
3s
2s
1s
2p
3p
3d
4 6 8 10 12 14
0
0.2
2 4 6 8 10 12 14
0
0.2
0.2
0.1
0
0
2 4 6 8 10 12 14
2 4 6 8 10 12 14
2 4 6 8 10 12 14
0
1
2 4 6 8 10
r /10–10 m
12 14
图9.2 原子轨道的径向平方函数。
不同l的轨道相互正交，因为它们具有不同数目的角向节点；相同l但不同N的轨道也正交，因为它们具有不同数目的径向节点。随着N增大，径向节点数目增加，且轨道半径显著增大，如图9.2所示。

9.1.2 原子壳层模型
对于氢以外的原子，还必须考虑原子中电子之间的相互排斥作用。这破坏了库仑势的部分对称性，并降低了解的简并度，这一点很容易从定性的角度理解。填充内壳层的电子会屏蔽原子核的电荷，因此外层电子感受到的有效核势随r增大趋于零的速度比 −Ze²/(4πr) 更快。电子离核的平均距离随角动量的增大而增加；因此，电子感受到的平均有效核电荷随角动量的增大而减少。例如，s轨道中的电子有相当大的概率非常靠近原子核，在那里它们感受到完全的核电荷。相反，p、d和f轨道在原子核处有一个节点，因此这些轨道中的电子不会如此靠近原子核。对于具有相同主量子数N的态，那些轨道角动量l较大的态束缚得更松，因而能量更高。

这种效应可以在哈密顿量中用一个额外的球对称项来表示。它是一个正比于l²的平均场微扰。举例来说，平均电子场将类氢原子中N=4能级的32重简并度分裂为两个4s态、六个4p态、十个4d态和十四个4f态，且能量依次升高。能级分裂的方式如图9.3所示。尽管丢失了部分简并度，这些态仍然归入角动量多重态，而原子壳层则由能量相近的这些多重态群组构成。

图9.3

在较高的能级，分裂程度足够大，以至于某些能级会发生交叉。屏蔽效应使得3d态的能量升高到4s态之上。3d态的能量可能更高，但其轨道的峰值位置明显比4s态更靠近原子核，这可以从图9.2推断出来。我们将会看到，这对具有3d轨道外层电子的元素的化学性质有着深远的影响，对更高的d轨道亦是如此。

当一个壳层到下一个可用的多重态能级之间存在一个很大的能隙时，该壳层便是完备的或满的。具有满壳层组态的原子是稳定的，因为激发一个电子到下一个空能级需要很多能量。中性原子含有相等数目的电子和质子。因此，含有Z个质子（其中Z等于一个满壳层数）的原子核所形成的原子是化学惰性的。相继壳层中的状态数目为2, 8, 8, 18, 18, 32, 32……，如图9.3所示。这给出了原子幻数：² 2, 10, 18, 36, 54和86，对应于惰性气体：He, Ne, Ar, Kr, Xe和Rn，如表9.1所列。例如，惰性气体氪(Krypton)的原子序数Z=36。其电子填充了前四个原子壳层。

图9.3

原子
265
主量子数
N = 7
7p
6
(118)
[118]
[86]
[54]
[36]
[18]
[10]
[2]
(88)
(80)
(70)
(56)
(54)
(48)
(38)
(36)
(30)
(20)
(18)
(12)
(10)
(4)
(2)
(86)
(112)
(102)
2
6
2
7s
6d
10
14
10
14
6
2
10
6
2
10
2
6
2
2
6
6p
6s
5d
5p
5s
3d
4s
4p
3p
2p
3s
2s
1s
4d
4f
5f
N = 6
N = 5
N = 4
N = 3
N = 2
N = 1
角动量
多重态
简并度
累计
总数
幻数
图9.3 原子能级分裂。

图9.3

² “幻数”这一术语借自核物理学。

266
原子、分子与固体
壳层
态
简并度（含自旋）
幻数
1
1s
2
2
2
2s, 2p
2 + 6 = 8
10
3
3s, 3p
2 + 6 = 8
18
4
4s, 3d, 4p
2 + 10 + 6 = 18
36
5
5s, 4d, 5p
2 + 10 + 6 = 18
54
6
6s, 4f, 5d, 6p
2 + 14 + 10 + 6 = 32
86
7
7s, 5f, 6d, 7p
2 + 14 + 10 + 6 = 32
118
表9.1 原子中电子态表格。
能级之间的关系决定了它们填充的顺序，而最高未满壳层中的电子决定了元素的化学性质。原子中的电子包括满壳层中的内层电子核以及占据未满壳层态的价电子。在9.2节，我们将讨论化学键。在相邻原子中，价电子占据的外层轨道可能发生交叠，形成共价键或极性键。内层电子则深居原子半径之内，如图9.2所示，因此不能参与成键。此外，内层电子的能量过低，无法参与离子键的形成，因此化学成键只涉及价电子。

H
Li
1
1
IA
11A
2
IIA
2A
3
IIIB
3B
4
IVB
4B
5
VB
5B
6
VIB
6B
7
VIIB
7B
11
IB
1B
12
IIB
2B
13
IIIA
3A
14
IVA
4A
15
VA
5A
16
VIA
6A
17
VIIA
7A
18
VIIIA
8A
9
VIII
8
氢
1.008
3
锂
6.941
Be
4
铍
9.012
Mg
12
镁
24.305
Ca
Sr
20
钙
40.078
38
锶
87.62
Ba
56
钡
137.327
Y
39
钇
88.906
Sc
21
钪
44.956
Ti
22
钛
47.88
V
Nb
Ta
Db
23
41
73
105
钒
50.942
Cr
24
铬
51.996
Mn
Fe
Ru
Os
Hs
Co
Rh
Ir
Mt
Ni
元素周期表
Pd
Pt
Ds
Rg
Au
Ag
Cu
Zn
Al
Ga
In
Tl
Uut
Uus Uuo
Rn
Xe
Kr
Ar
Ne
He
Uup
Fl
Pb
Sn
Ge
Si
C
N
P
As
Sb
Bi
Lv
Po
Te
Se
S
O
F
Cl
Br
I
At
B
Cd
Hg
Cn
Tc
Re
Bh
25
26
44
76
77
45
27
8
10
28
46
78
110
111
112
113
114
115
116
117
118
86
85
84
83
82
81
79
47
48
49
50
51
52
53
54
36
35
34
33
32
31
30
13
14
15
16
17
18
10
9
8
7
6
5
2
29
80
109
43
75
107
108
锰
54.938
锝
98.907
铼
168.207
Mo
42
钼
95.94
W
74
钨
183.85
Sg
106
铌
92.906
钽
180.948
𬭊
[262]
镧
138.906
锕
227.028
钍
232.038
镤
231.036
铀
238.029
镎
237.048
钚
244.064
镅
243.061
锔
247.070
锫
247.070
锎
251.080
锿
[254]
镄
257.095
钔
258.1
铹
[262]
镥
174.967
镱
173.04
铥
168.934
铒
167.26
钬
164.930
镝
162.50
铽
158.925
钆
157.25
铕
151.966
钐
150.36
钷
144.913
钕
144.24
铈
140.115
镨
140.908
锘
259.101
𬭳
[266]
𬭛
[264]
𬭶
[269]
鿏
[268]
𫟼
[269]
𬬭
[272]
鎶
[277]
𫓧
未知
𫓧
[289]
𫟵
未知
𫟷
[298]
𬭳
未知
𬭶
未知
氡
222.018
砹
209.987
钋
[208.982]
铋
208.980
铅
207.2
铊
204.383
铟
114.818
锡
118.71
锑
121.760
砷
74.922
锗
72.61
镓
69.732
铁
55.933
钴
58.933
铑
102.906
铱
192.22
镍
58.693
钯
106.42
铂
195.08
铜
63.546
银
107.868
金
196.967
锌
65.39
镉
112.411
汞
200.59
钌
101.07
锇
190.23
铝
26.982
硅
28.086
碳
12.011
硼
10.811
氮
14.007
磷
30.974
氧
15.999
硫
32.066
硒
78.09
碲
127.6
碘
126.904
溴
79.904
氯
35.453
氟
18.998
氦
4.003
氖
20.180
氩
39.948
氪
84.80
氙
131.29
Zr
40
锆
91.224
Hf
72
铪
178.49
Rf
La
Ce
Pr
Nd
Pm
Sm
Eu
Pu
Ac
Th
Pa
U
Np
Gd
Tb
Dy
Ho
Er
Tm
Yb
Lu
Lr
No
Md
Fm
Es
Cf
Bk
Cm
Am
104
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
103
102
101
100
99
98
97
96
95
94
93
92
91
碱金属
碱土金属
半金属
非金属
基础金属
卤素
稀有气体
镧系
© 2013 Todd Helmenstine
chemistry.about.com
sciencenote.org
锕系
过渡金属
90
89
𬬻
[261]
Ra
88
89-103
57-71
镭
226.025
镧系
锕系

Na
11
钠
22.990
K
19
钾
39.098
Rb
37
铷
84.468
Cs
55
铯
132.905
Fr
87
钫
223.020
图9.4 元素周期表 (The Periodic Table)。

图9.4

元素按原子序数Z的顺序排列在元素周期表中。其通常的排列方式有十八列，如图9.4所示。原子的化学性质由其价电子占据的轨道决定，以及

图9.4

分子
267
这反映在周期表的布局上。在第四和第五原子壳层中，有两个s态、十个d态和六个p态，这解释了列的数量。（第一壳层对应第一行或周期，没有p态；前三壳层没有d态。这解释了周期表上部的空缺。）每一列构成一组具有相似化学性质的元素。最右侧的第18族元素没有价电子。它们是惰性(或稀有)气体。左侧，第1族和第2族元素分别在s轨道中有一个或两个价电子。这些是碱金属和碱土金属。右侧，第13至17族的价电子位于p轨道中。（在固体物理学中，这些族常被称为III至VII族。）从第四壳层开始，第3至12族中有一系列元素，其价电子位于d轨道中。这些是过渡金属。值得注意的是，4s轨道的能量低于3d轨道（在后续的过渡金属周期中，5s和4d、6s和5d轨道的情况类似）。虽然3d轨道在4s轨道之后填充，但它们的轨道半径比外层电子占据的轨道半径小得多。这大大减少了相邻原子d轨道之间的重叠，相对于外层s和p轨道的重叠而言。

在元素周期表主体下方单独列出的是由十五种元素组成的镧系元素。镧(La)的外层电子结构为6s²5d¹。在接下来的十四种元素中，从铈(Ce, 6s²5d¹4f¹)到镥(Lu, 6s²5d¹4f¹⁴)，4f轨道逐渐被填满。f轨道的半径远小于原子半径，因此这些轨道中的电子不参与化学键合。因此，这十四种元素都具有与镧相似的化学性质，并且它们通常在矿石中被发现共生在一起。镧系元素下方是以锕(Ac)开始的锕系元素序列。这些元素的模式重复了镧系元素的模式。在这些元素中，5f轨道逐渐被填满。所有锕系元素都具有放射性。

9.2
分子
自然界中大约有90种不同类型的原子。正是通过将这有限数量的原子组合成无数化合物，我们世界的多样性才得以产生。化学家已知的化合物有数百万种，而且原则上可以形成的化合物数量没有限制。将原子结合在一起的化学键是这种多样性的关键。化学键的稳定性无法用经典动力学来解释。直到1926年薛定谔(Schrödinger)方程的发现，化学家才开始理解他们学科中这一最基本的特征。

9.2.1
共价键
如果两个原子足够接近，它们外层电子所占据的轨道将会重叠。这些电子随后在两个原子的势场中运动。这种轨道重叠可能会降低两个原子的总能量，在这种情况下，它们会在对应于能量最小值的核间距离处达到稳定构型，从而形成化学键。如果对成键有贡献的电子被两个原子平均或近乎平均地共享，则两个原子之间的键称为共价键。原子保持电中性，或近乎电中性。由化学键结合在一起的两个或更多原子的集合称为分子。

268
原子、分子和固体
除了最简单的氢分子离子 H₂⁺（由两个氢原子核和一个绕行电子组成）之外，对于其他分子，薛定谔方程（Schrödinger equation）都没有精确解。为了研究化学键及其所形成分子的普遍性质，我们必须做出一系列近似。原子核的质量远大于电子（mₚ ≃ 1836 mₑ），因此我们可以假设分子中的原子核是固定的，并考虑电子可占据的能级。（这就是玻恩-奥本海默近似（Born-Oppenheimer approximation）。原子核的运动可以单独处理，以确定分子的转动和振动光谱。）方便的做法是，为单个电子在由分子中所有原子核和其他电子的平均势场中建立薛定谔方程。这就是所谓的独立电子模型（independent electron model）。通过假设分子轨道可以构造为原子轨道的线性组合，单电子问题也得到了极大的简化。这就是所谓的原子轨道线性组合（LCAO）近似。这种方法最终的正确性，取决于其与实验结果相符的成功程度。
我们首先选择一组合适的、实的、归一化的原子定态波函数 χᵢ，并将它们组合成分子轨道 Ψ = c₁χ₁ + c₂χ₂ + …，其中实系数 cᵢ 待定。以氢分子 H₂ 为例，这里两个原子的 1s 轨道相互重叠。如果单电子哈密顿量为 H，那么波函数为 Ψ = c₁χ₁ + c₂χ₂ 的电子的能量为
E =
∫ ΨHΨ d³x
∫ Ψ² d³x

∫ (c₁χ₁ + c₂χ₂)H(c₁χ₁ + c₂χ₂) d³x
∫ (c₁χ₁ + c₂χ₂)² d³x . (9.1)
分子可以简化为
∫ ΨHΨ d³x
= c₁² ∫ χ₁Hχ₁ d³x + c₁c₂ ∫ (χ₁Hχ₂ + χ₂Hχ₁) d³x

c₂² ∫ χ₂Hχ₂ d³x
= c₁²α₁ + 2c₁c₂β + c₂²α₂ , (9.2)
其中 αᵢ = ∫ χᵢHχᵢ d³x 是电子在原子轨道 i 中的能量，为负值；矩阵元 β = ½ ∫ (χ₁Hχ₂ + χ₂Hχ₁) d³x 也是负值，它衡量了轨道 1 和轨道 2 之间成键相互作用的强度。分母是
∫ Ψ² d³x
= c₁² ∫ χ₁χ₁ d³x + c₁c₂ ∫ (χ₁χ₂ + χ₂χ₁) d³x + c₂² ∫ χ₂χ₂ d³x
= c₁² + 2c₁c₂S + c₂² , (9.3)
其中 S = ∫ χ₁χ₂ d³x 衡量了相邻原子上轨道的重叠程度。S 通常很小，为简化计算常被忽略。
现在我们可以使用瑞利-里兹变分原理（Rayleigh–Ritz variational principle）。为了找到使能量最小化的最优原子轨道组合，我们对下式进行微分
E = (c₁²α₁ + 2c₁c₂β + c₂²α₂) / (c₁² + 2c₁c₂S + c₂²) (9.4)

分子
269
对各系数求导并置结果为零，可生成一组这些系数必须同时满足的方程。重新整理方程(9.4)，我们得到
E(c²₁ + 2c₁c₂S + c²₂) = c²₁α₁ + 2c₁c₂β + c²₂α₂ .
(9.5)
对c₁求导给出
∂E
∂c₁
(c²₁ + 2c₁c₂S + c²₂) + E(2c₁ + 2c₂S) = 2c₁α₁ + 2c₂β ,
(9.6)
并令∂E
∂c₁ = 0可产生E(2c₁ + 2c₂S) = 2c₁α₁ + 2c₂β，或等价地
c₁(α₁ −E) + c₂(β −ES) = 0 .
(9.7)
类似地，对方程(9.5)关于c₂求导可得到
c₁(β −ES) + c₂(α₂ −E) = 0 .
(9.8)
这些联立方程被称为久期方程(secular equations)。若系数行列式为零，它们就有非平凡解，
| α₁ −E β −ES |
| β −ES α₂ −E | = 0 .
(9.9)
在氢分子中，两个原子核是相同的，所以α₁ = α₂ = α。展开行列式给出(α −E)² −(β −ES)² = 0，两个解为E −α = ±(β −ES)，可重排得到
E(1 ± S) = α ± β .
(9.10)
其中一个解的能量为
Eb = α −|β|
1 + S ,
(9.11)
它比原来的原子能量α低。（能量用|β|表示是为了提醒β是负的。）它对应于原子轨道Ψb = χ₁ + χ₂的对称组合，称为成键轨道(bonding orbital)。第二个解具有更高的能量，
Ea = α + |β|
1 − S ,
(9.12)
并对应于反对称组合Ψa = χ₁ − χ₂，称为反键轨道(antibonding orbital)。反键轨道和成键轨道之间的能量差为
Ea −Eb ≃2|β|。
两个氢原子的1s轨道组合，产生一个能量较低的成键轨道σ和一个能量较高的反键轨道σ，如图9.5所示。电子有两种自旋状态，这意味着每个轨道可以容纳两个电子。在基态中，成键轨道将被来自每个氢原子的一个电子占据。如图9.6（左）所示。因此，氢分子的总电子能量比两个相距很远的氢原子的总电子能量更低。成键轨道中电子能量的降低很容易解释。该轨道关于两个原子核是对称的，因此电子的波长比它们在原子1s轨道或反键轨道中更长。这意味着，根据德布罗意关系(de Broglie relationship)，电子的动量和动能更小。
到目前为止，原子核的间距尚未固定。随着原子核靠近，由于电子处于成键轨道而导致的能量降低趋于增加，但带正电的原子核之间的排斥作用也会增加，并且在间距较小时增加得更快。总能量在原子核的一个确定间距处有最小值，即平衡键长。氢分子是稳定的，必须输入能量才能使两个氢原子解离。解离能为4.5 eV。
能量
H
H
He
He
H₂
1s
1s
1s
1s
σ
σ
σ
σ
图9.6 两个相邻原子上的1s轨道重叠形成成键轨道σ和反键轨道σ。左：两个氢原子的电子，一个自旋向上，一个自旋向下，都进入σ轨道形成H₂分子。右：对于氦的情况，两个电子还必须进入σ*轨道，因此不会形成键。

分子
271
我们可以对两个氦原子进行类似的分析。在这种情况下，共有四个电子，因此必须有两个电子占据成键轨道，两个电子占据反键轨道，如图9.6所示。结合方程(9.11)和(9.12)可知，当S为正时，$E_a + E_b = \frac{2\alpha+2|\beta|S}{1-S^2} > 2\alpha$；因此，将一个电子放入反键轨道所付出的能量代价大于将一个电子放入成键轨道所获得的能量增益。当两个氦原子的轨道重叠时，总能量升高，所以氦原子相互排斥，不会形成化学键。

在元素周期表中前四个原子的基态中，电子占据s轨道。在Z=4的铍(beryllium)之后，p轨道开始被占据，这在考虑轨道重叠时带来了新的问题。成键轨道由重叠波函数之间的相长干涉产生；反键轨道由相消干涉产生。轨道之间存在非零重叠可以从轨道的对称性推断出来。单电子哈密顿量在绕键轴旋转下是对称的，因此相对于键轴具有不同对称性的轨道之间的矩阵元必定为零。例如，如果键轴是z轴，那么原子1上的s轨道与原子2上的p_x轨道之间的重叠必定为零，因为在+x方向上的任何正重叠都会被-x方向上的等量负重叠抵消。同样地，s轨道与p_y轨道之间也没有重叠，但s轨道与p_z轨道之间会有非零重叠，其值可为正或负，如图9.7所示。

图9.7

成键轨道根据其相对于键轴的对称性进行分类，并仿照原子轨道按其绕该轴的角动量m来命名。当m=0时，该轨道被称为σ轨道。两个s轨道的重叠产生σ轨道，如图9.7上部所示。两个p_z轨道的重叠也产生σ轨道。当m=1（或m=-1）时，分子轨道被称为π轨道。两个p_x或两个p_y轨道的重叠产生π轨道，如图9.7下部所示。如果m=2，分子轨道被称为δ轨道。当元素周期表第二和第三周期的原子成键时，每个原子上有四个轨道需要考虑：一个s轨道和三个p轨道。这里只涉及m=0和m=±1的情况。

图9.7

两个p_z轨道的重叠大于两个p_x或两个p_y轨道的重叠，因此p_z轨道的σ成键组合在能量上低于另外两个p轨道的π成键组合，而p_z轨道的σ反键组合在能量上则高于另外两个p轨道的π反键组合。结合原子p态的能量高于原子s态的能量这一事实，结果就得到了图9.8所示的分子能级顺序。

一个氮原子有两个1s芯电子，以及位于其未填满的第二壳层中的五个2s和2p价电子。当两个氮原子成键时，共有十个价电子占据分子轨道。在基态下，这些电子占据最低的五个轨道，如图9.8（左）所示。四个2s电子填满了成键和反键轨道，但六个2p电子只占据成键轨道，因此氮-氮键是一个三重键。这赋予了氮分子(N₂)相对于孤立氮原子极大的稳定性。其解离能为9.79 eV，这使得它成为自然界中仅次于一氧化碳分子(CO)键（同样涉及十个价电子）的第二强键。与一氧化碳不同的是，氮分子

272
原子、分子与固体
σ 成键
σ* 反键
σ 成键
π 成键
σ 成键
σ* 反键
非键
σ* 反键
π* 反键
图9.7 分子轨道。成键会使原子轨道如图所示发生变形。

图9.7

氮分子是非极性的（它没有电偶极矩），因此构成我们大气大部分的N₂是化学惰性的。

氧原子有六个价电子，如图9.8（右）所示。在氧分子的基态，十二个电子占据最低的六个分子轨道。这意味着有两个电子必须占据π* 反键轨道，从而抵消了两个电子在成键轨道中的能量增益。因此，总体上氧-氧键是一个双键。反键轨道中的两个电子相对于氧原子具有更高的能量，因此它们很容易与其他原子形成化学键。这使得氧分子O₂具有高度反应活性。

πₓ 和 π_y 轨道是简并的，这引出了一个问题：在O₂分子中占据这两个轨道的两个电子是否处于同一轨道。要找到氧分子的最低能量态，我们必须超越单电子近似，考虑双电子波函数。电子是费米子，因此

分子
273
2s
2p
能量
N
N
N₂
O
O
O₂
2s
2p
能量
σ
σ
σ
π
π
π
σ
σ
π
σ
σ
σ
图9.8 左：氮分子中的成键与反键轨道。右：氧分子中的成键与反键轨道。图中仅显示了价电子轨道，未显示已填满的1s内层轨道。
波函数在任意两个电子交换下是反对称的，如第8.7节所述。这意味着如果双电子空间波函数是对称的，那么自旋态就是反对称的；反之，如果空间波函数是反对称的，那么自旋态就是对称的。对于处于同一轨道的两个电子，空间波函数必然是对称的，因此自旋态必须是反对称的，两个电子自旋相反。这样，每个内层电子都与另一个自旋相反的电子配对。如果两个价电子处于不同的轨道，那么空间双电子波函数既可以是对称的，也可以是反对称的，这两种可能性一般来说不会简并。两个电子之间的静电排斥效应可以估算为
∆E± = 1/2(J ± K) , (9.13)
其中J是库仑排斥项，K称为交换能。加号和减号分别对应对称和反对称波函数的能量。对于排斥势，K为正，因此反对称空间波函数给出较低的能量态。这在直观上是合理的，因为如果组合波函数是反对称的，两个电子的间距达到最大。在O₂基态中，双电子π* 波函数因此是反对称的，一个电子在πₓ 轨道，另一个在π_y 轨道。此时电子自旋态是对称的，因此这两个电子的自旋平行排列，这就赋予了氧分子O₂一个磁矩。这是洪德第一定则的一个例子，该定则指出，当电子可以占据多个简并态时，它们会优先占据自旋平行排列的态。

第二周期中的下一个元素是氟，它也能形成双原子分子F₂。氟分子共有十四个价电子，其中有四个处于反键π* 轨道，这使得它极具反应活性。所有电子自旋均配对，因此与氮相似而与氧不同，氟分子没有磁矩。氟-氟键是一个单键，因为只有一对处于成键轨道的电子在反键轨道中没有对应的配对电子。一般来说，键越强，其长度越短。氟-氟单键键长为0.142 nm，而

274
原子、分子与固体
0.121 nm 是氧-氧双键的键长，0.110 nm 是氮-氮三键的键长。

氖原子有八个外层电子。两个氖原子根本不形成键，因为十六个价电子将填满所有成键和反键轨道，使这种键在能量上不利。

9.2.2 极性键
不同原子之间的键可以用同样的方式分析。考虑由氢原子和氯原子形成的 HCl 分子。该键通过氢原子的 1s 轨道 χ₁ 与氯原子的 3p_z 轨道 χ₂ 的交叠形成。矩阵元 α₁ = ∫ χ₁Hχ₁ d³x 和 α₂ = ∫ χ₂Hχ₂ d³x 现在不相等，如图 9.9 所示，α₂ < α₁。

H
1s
3p_z
HCl
能量
Cl

图 9.9 极性键中的成键和反键能级。

回到久期行列式 (9.9)，当 α₁ ≠ α₂ 时，两个分子轨道的能量为
E_{a,b} = {(α₁ + α₂) − 2Sβ} ± √{[(α₁ + α₂) − 2Sβ]² + 4(1 − S²)(β² − α₁α₂)} / [2(1 − S²)]。 (9.14)
如果忽略重叠积分 S，则简化为
E_{a,b} = ½(α₁ + α₂) ± ½ √[(α₁ − α₂)² + 4β²]， (9.15)
反键轨道与成键轨道之间的能量差为
Δ = E_a − E_b = √[(α₁ − α₂)² + 4β²]， (9.16)
其中 α₁ − α₂ 是对能隙的离子性贡献，等于孤立原子能级之差，而 2|β| 是共价性贡献，等于两个原子相同时的分裂。我们可以将分子轨道参数化为
Ψ_b = χ₁ sin θ + χ₂ cos θ，
Ψ_a = χ₁ cos θ − χ₂ sin θ， (9.17)
其中
tan 2θ = 2|β| / (α₁ − α₂)。 (9.18)
若 α₂ < α₁，则 tan 2θ 为正，故 0 < θ < π/4 且 cos θ > sin θ。这意味着成键轨道 Ψ_b 集中在原子 2 上，而反键轨道 Ψ_a 集中在

分子
275
原子 1 上。在成键态，原子 2 上将带有部分负电荷，原子 1 上将带有部分正电荷，因此该键具有电偶极矩。这被称为极性键。

周期
2
10
18
36
54
原子序数
86
周期
3
He
Ne
F
N
C
O
Be
Li
Na
Mg
Al
S
Zn
K
As
Br
Rb
Cd
Xe
Cs
Rn
Ti
Kr
P
Cl
Ar
B
H
2500
2000
1500
电离能 (kJ/mol)
1000
500
0
周期 4
周期 5
周期 6

图 9.10 原子的第一电离能。

图 9.10

在 |β| ≪ ½|α₁ − α₂| 的极限下，Δ → α₁ − α₂，且
E_b = ½(α₁ + α₂ − Δ) → α₂，
E_a = ½(α₁ + α₂ + Δ) → α₁。 (9.19)
此外，tan 2θ → 0，故 cos θ → 1，sin θ → 0。因此 Ψ_b → χ₂ 能量为 α₂，Ψ_a → χ₁ 能量为 α₁。³ 在分子基态，成键轨道上有两个电子，给予原子 2 电荷 −e，反键轨道上没有电子，使原子 1 带有电荷 +e。一个电子完全从一个原子转移到另一个原子，产生阴离子 X⁻ 和阳离子 Y⁺。我们在负离子和正离子之间得到了一个高度极性的即离子键。将氢原子和氯原子结合在分子 HCl 中的键便是离子键的一个例子，其中 Cl⁻ 为阴离子，H⁺ 为阳离子。

元素周期表左边的元素容易失去电子形成正离子，而右边元素的外层电子被束缚得很紧，它们倾向于获得额外的电子形成负离子。原子失去电子的难易程度如图 9.10 所示。随着原子序数 Z 变化，从原子中移走一个电子所需的能量在每种惰性气体处达到峰值，这解释了为什么它们不容易形成离子化合物，并且以单原子气体形式自然存在。

图 9.10

³ 这说明了重要的一点：轨道之间要发生显著重叠，不仅需要有空间交叠，它们的能量还必须相对接近，在考虑固体时我们会再回到这一点。

276
原子、分子与固体
9.2.3
简单分子
人们熟悉的一个观点认为，原子成键的数目源于原子希望达到惰性气体构型，这对于低质量原子形成的许多分子来说是一条方便的经验法则，但它并非真正的化学基本定律。分子形成的关键在于不同分子构型总能量的比较。
尽管如此，赋予较小原子一个化合价仍是有用的。碳原子拥有两个1s芯电子和四个位于第二未满壳层的价电子，这些价电子可用于形成共价键。因此，碳的化合价为四，能够形成四个共价键，产生如甲烷 CH₄ 这样的分子。甲烷中所有的四个碳–氢键都是等同的，赋予分子四面体对称性（见图9.11）。这使得四个键之间的距离最大化，从而减小了成键电子之间的排斥，使分子能量达到最低。键角为 2 cos⁻¹(1/√3) ≃ 109.5°。

图9.11

碳的2s轨道以及三个2p轨道中的每一个都等权重地参与成键。化学家将这些混合了s和p轨道的键称为sp³杂化轨道。尽管这些键并非真正的共价键，而是略带极性，但由于其四面体对称性，甲烷分子没有净电偶极矩。
图9.11 左：甲烷 CH₄。中：氨 NH₃。右：水 H₂O。

图9.11

氮原子在其第二未满壳层中有五个价电子。一个氮原子会与三个氢原子结合形成氨分子 NH₃。与甲烷中一样，在四个sp³杂化轨道中共有八个电子。其中三个杂化轨道中的电子形成氮与氢原子之间的键。另一个杂化轨道中的电子被描述为孤对电子。成键电子与孤对电子之间的区别对杂化轨道的四面体排布有轻微影响。键角减小至约 107.8°。氮–氢键具有极性，使得氮原子带少量负电荷，氢原子带少量正电荷。氢原子并非呈四面体排布，因此与甲烷不同，氨是极性分子。
氧原子有六个价电子，会与两个氢原子结合形成水 H₂O。同样，在四个sp³杂化轨道中共有八个电子，但此时氧原子上有两对孤对电子。轨道仍然近似呈四面体排布，但键角减小至 104.5°。氧–氢键的极性比氮–氢键更大，这对水的物理性质产生了显著影响。极性水分子之间的相互作用使水的熔点和沸点急剧升高。在标准大气压下，沸点

有机化学
277
甲烷的沸点为−161℃，氨的沸点为−33℃，而水的沸点为100℃。我们星球表面覆盖着液态水，这要归功于氧-氢键的极性。

9.3 有机化学

9.3.1 休克尔(Hückel)理论——苯
碳原子具有一个显著特性，即它们很容易形成分子链和分子环。这些结构对于生命的存在至关重要。1865年，化学键的概念尚处于萌芽阶段。化学家们已经开始使用棍棒模型来表示分子，但奥古斯特·凯库勒(August Kekulé)无法理解苯分子的结构，苯分子含有六个碳原子和六个氢原子。凯库勒后来回忆道，当他全神贯注于工作时，在炉火前打了个盹，梦见蛇扭曲着咬住自己的尾巴。他醒来后意识到，苯中的碳原子必定闭合形成一个环。他提出了一种结构，其中碳-碳原子交替形成单键和双键，如图9.12所示。这是阐明有机化学的巨大飞跃，但今天的化学家知道这并不完全正确，因为苯环中所有六个碳-碳键都是等同的。碳-碳单键的长度为0.154 nm，而更强的碳-碳双键长度为0.134 nm。然而，在苯中，碳-碳键的长度都相同，为0.139 nm。因此，这些键似乎既不是单键也不是双键。

H
C
C
C
C
C
C
H
或
H
H
H
H
图9.12 苯的凯库勒结构。

在苯环平面内，每个碳原子形成三个σ键。一个键与径向位于环外的氢原子相连，另外两个键与环中相邻的碳原子相连。这些键之间的夹角为120°。形成这些键的碳原子轨道的线性叠加被描述为sp²杂化。这解释了每个碳原子四个价电子中的三个。

剩余的电子位于垂直于苯环平面的p轨道中。每个碳原子在这些p轨道中有一个电子，这些p轨道在相邻碳原子上重叠，提供额外的键合。化学家将这种重叠p轨道的链称为共轭p轨道。这些分子中的键合可以通过将分子轨道理论应用于其碳-碳键来理解。我们可以由共轭p轨道的线性组合形成分子轨道，然后使其能量最小化。

278
原子、分子与固体
通过改变系数以产生久期方程来求能量，正如我们之前对双原子分子所做的那样。

通过采用埃里希·休克尔(Erich Hückel)于1930年首次引入的几个近似，该问题被大大简化。这种方法被称为休克尔理论(Hückel theory)，它提供了对平面分子（如苯）某些化学性质的定性理解。在这样的共轭p轨道体系中，电子轨道Ψₙ 用归一化原子轨道χᵣ 的线性组合来近似，其中r标记原子，因此
Ψₙ = ∑ᵣ c⁽ⁿ⁾ᵣ χᵣ , (9.20)
系数 c⁽ⁿ⁾ᵣ 为常数。

首先，我们假设不同原子上的原子轨道之间的重叠S可以忽略不计。其次，我们假设每个碳原子的原子环境相同，因此所有对角元素都相同，即∫χᵣHχᵣ d³x = α。对于像苯这样的对称分子，这是精确成立的。最后，我们假设除了对应于最近邻原子的矩阵元外，所有矩阵元为零，即如果原子r是原子s的最近邻，则∫χᵣHχₛ d³x = β，否则为零，并且β为负。在苯的情况下，这将久期行列式简化为

这六个久期方程，也称为休克尔方程，可以通过假设
c⁽ⁿ⁾ᵣ = e^(i(2πnr)/6) (9.22)
来求解。代入休克尔方程得到
(α−Eₙ)e^(i(2πnr)/6) + β[e^(i(2πn(r−1))/6) + e^(i(2πn(r+1))/6)] = 0 , (9.23)
化简为
(α−Eₙ) + β[e^(−i(2πn)/6) + e^(i(2πn)/6)] = 0 , (9.24)
因此
Eₙ = α + 2β cos[(1/6)(2πn)] . (9.25)

有机化学
279
图9.13 左：苯中由共轭碳pz轨道线性组合形成的电子轨道。轨道取向垂直于苯环。黑色和白色球体分别代表正瓣和负瓣。点表示在该原子位置上轨道无贡献。右：箭头代表在苯基态中占据最低能量轨道的自旋向上和自旋向下电子。

图9.13

我们可以找到简并解的线性组合，使得所有六个正交归一波函数具有实系数，因此：
Ψ₀ = (1/√6)(χ₁+χ₂+χ₃+χ₄+χ₅+χ₆), E₀ = α−2|β|
Ψ₁ = (1/√12)(2χ₁+χ₂−χ₃−2χ₄−χ₅+χ₆), E₁ = α−|β|
Ψ₂ = (1/√12)(2χ₁−χ₂−χ₃+2χ₄−χ₅−χ₆), E₂ = α+|β|
Ψ₃ = (1/√6)(χ₁−χ₂+χ₃−χ₄+χ₅−χ₆), E₃ = α+2|β|
Ψ₄ = (1/2)(χ₂−χ₃+χ₅−χ₆), E₄ = α+|β|
Ψ₅ = (1/2)(χ₂+χ₃−χ₅−χ₆), E₅ = α−|β| . (9.26)

280
原子、分子和固体
这些轨道如图9.13所示。六个原子轨道的完全同相组合产生最低能量态 Ψ0。处于该轨道的电子具有最长的波长，因此动能最低。能量随波函数中节点数的增加而增加，因为每个节点都会减小波长。总的来说，电子的离域允许它们占据波长更大、因而动能更低的分子轨道。与原子轨道相比，这种能量的降低增加了分子的稳定性。

图9.13

暂且不论sp²杂化轨道中的电子（因为它们对该论证不重要），我们可以计算由于共轭pz轨道中电子的离域而赋予苯环的额外稳定性。凯库勒(Kekulé)提出的苯结构具有三个单键和三个双键。该结构包含三个π键，每个π键有两个电子。我们已定义 R χrHχs = β，因此一个电子在π成键轨道中的能量为 α −|β|。在凯库勒结构中，这六个电子的总能量将是 6(α −|β|) = 6α −6|β|。休克尔(Hückel)理论表明，在苯的基态中，共轭pz轨道中有六个电子，双双占据三个可用的最低能量轨道，如图9.13所示。这六个电子的总能量为 E = 2(α −2|β|) + 4(α −|β|) = 6α −8|β|。因此，与凯库勒结构相比，苯通过额外的能量 −2|β| 得到稳定。这种额外的稳定性解释了苯相对化学惰性。

图9.13

9.3.2
多烯
由碳和氢组成的化合物 CnH2n+2，围绕着一系列单键碳原子链构建，被称为烷烃(alkanes)，其后缀“烷”(ane)表示碳-碳单键链。碳-碳双键由后缀“烯”(ene)表示，因此含有共轭p轨道的碳-碳链被称为多烯(polyenes)。图9.14展示了戊二烯(pentadiene)的化学结构，它是一种具有五个碳原子和两个双键的多烯。
H
C
C
C
C
C
H
H
H
H
H
H
H
图9.14 戊二烯。

休克尔理论可应用于多烯分子。轨道必须在分子末端以外消失，因此对于长度为N的线性分子，边界条件为 c(n)0 = c(n)N+1 = 0。我们可以猜想解为：
c(n)r = sin
πnr
N + 1

.
(9.27)
图9.15显示了前几个多烯分子中可用于离域电子的轨道。

有机化学
281
能量
图9.15 含有多达七个共轭p轨道的多烯分子（从乙烯到庚三烯）中的多烯轨道。
将系数c(n)ₓ代入休克尔方程，得到
(α −Eₙ) sin ⎛⎝πnr/(N + 1)⎞⎠ + β ⎧⎩ sin ⎛⎝πn(r −1)/(N + 1)⎞⎠ + sin ⎛⎝πn(r + 1)/(N + 1)⎞⎠ ⎫⎭ = 0 ,
(9.28)
经过一些代数运算后简化为
(α −Eₙ) + 2β cos ⎛⎝πn/(N + 1)⎞⎠ = 0 ,
(9.29)
因此
Eₙ = α + 2β cos ⎛⎝πn/(N + 1)⎞⎠ .
(9.30)
由于−1 ≤ cos θ ≤ 1，分子轨道的能量处于以下范围
α − 2|β| ≤ Eₙ ≤ α + 2|β| ,
(9.31)
如图9.16所示。该范围与多烯的长度无关，因此能级的平均间距随着N的增大而减小。每个态最多可容纳两个自旋相反的电子。由于每个碳原子向共轭p轨道贡献一个电子，在基态时，只有较低的一半轨道会被占据，这与苯的情况相同。这些轨道中的每一个在能量上都低于原子p轨道，因此离域电子赋予了多烯额外的稳定性。

图9.16

将电子从最高占据能级激发到最低未占据能级所需的能量，随着多烯长度的增加而减小。短链烯烃需要紫外光子来激发电子。对于较大的N，可见光光子可以将电子激发到未占据的能级。因此，长链多烯是有颜色的。当N → ∞时，能级之间的间隔趋于零，因此存在一个半满的连续能带，宽度为4|β|，系统可以吸收连续频率范围的光。半满能带也是导体的一个特征，因为部分填充能带中的电子可以自由地进入新的态，并在受到小电场作用或热激发时这样做。

282
原子、分子与固体
反键轨道
4|β|
成键轨道
N
2
3
14
26
44
图9.16 多烯能级。N是多烯中碳原子的数目。

图9.16

2010年，安德烈·海姆(Andre Geim)和康斯坦丁·诺沃肖洛夫(Konstantin Novoselov)因发现石墨烯(graphene)而获得了诺贝尔物理学奖，石墨烯由碳原子的二维六角形晶格组成。以重量计，石墨烯的强度大约是钢的100倍。它可以被视为一个无限大的多环芳香族分子。每个碳原子通过平面sp²轨道与另外三个碳原子键合，键角为120°。每个碳原子还有一个电子位于垂直于该平面的p轨道上。这些轨道形成了一个本质上无限的共轭p轨道系统。电子可用的轨道遍及整个石墨烯，能级形成一个连续的能带。当碳原子键合成大分子时，可用态的总数不变，并且由于每个碳原子贡献一个电子，只有能带下半部分的态被填充。因此，正如我们之前对此类系统的讨论所预期的，石墨烯是热和电的优良导体。
图9.17 碳的同素异形体。从左上角顺时针方向：石墨烯(graphene)、石墨(graphite)、巴克球(buckyball)、碳纳米管(carbon nanotube)。

固体
283
近年来，化学家们已成功制备出碳纳米管（图9.17）。这相当于将石墨烯分子卷起形成长圆柱体。纳米管凭借其独特的结构和电学性质，有望在技术应用上产生重大影响。

石墨由石墨烯层堆叠构成，每一层中半数的碳原子位于前一层六元环中心的上方。与石墨烯中一样，p轨道相互交叠，形成一个半满的电子能带，这赋予了石墨光亮的金属外观及其众所周知的导电性。显然，分子中原子的排列方式对其物理和化学性质至关重要。

9.4
固体
我们在日常生活中遇到的大多数材料都是以大量原子构成的固体形式存在。这些物质中有许多是通过通常被描述为离子键、共价键或金属键的化学键结合而成的大分子。这种分类并非互斥，因为化学键可能表现出介于这些不同类型之间的特征，而材料也可能包含多种不同的键。

前一节的思路可以推广，用相邻原子上外层原子轨道的交叠来描述固体中的成键。在孤立的原子中，电子被束缚在具有明确分裂能级的轨道上。当原子聚集形成固体时，内层轨道仍保持这一特征。它们的半径很小，与相邻原子的交叠并不显著。其能级可能与自由原子有所不同，但差异非常微小。相比之下，外层轨道通常会与其他原子的轨道发生交叠，此时它们的能级会展宽形成连续能带，就如同无限多烯的休克尔(Hückel)模型那样。态的总数保持不变，因此，例如单个原子轨道在10^23个原子键合在一起时会产生一个包含10^23个态的能带。若将态视为原子轨道的线性组合，则必然如此。由于电子遵循泡利不相容原理，同一个态上不可能存在两个电子。在基态，即固体处于绝对零度时的状态，电子按能量递增的顺序填充能级，最高填充能级位于费米能εF处。利用X射线光谱学等技术可以确定费米能附近区域的状态密度。这些状态在决定固体性质方面起着根本性作用。图9.18给出了不同类型物质中状态密度的示意图。

图9.18

对于某些材料，最高占据态与最低未占据态之间没有能隙。电子可以自由进入新的状态，并在微小的电场作用下实现这一点，因此这些物质能够导电。它们遵循欧姆定律(Ohm’s law)，即电流与外电场之间呈线性关系，并且其电导率随温度升高而下降。我们称其为金属。金属是不透明的，由于可见光与其电子之间存在强相互作用，它们具有良好的反射能力，呈现出镜面般的光泽。金属还具有延展性。

在许多物质中，包括氯化钠等离子型固体，最高占据态与最低未占据态之间存在一个很大的能隙∆E。占据态的能带称为价带，其上的能带称为导带。这些材料是绝缘体，因为其电子无法对微小的电场作出响应。它们通常呈透明或白色，因为可见光光子没有

284
原子、分子与固体
金属
ε
εF
半金属
半导体
绝缘体
图9.18 各类材料中的带隙。灰色深浅表示在小的非零温度下能带的填充情况。

图9.18

具有足够的能量将电子激发到更高能态。光子要么透过，要么被散射⁴，但不会被吸收。

在某些材料中，费米能 εF 位于一个能带之内，但该处的电子态密度接近于零。这类材料称为半金属（semimetal），包括砷、铋和石墨。例如在铋中，每10⁵个原子才有一个电子处于导带。然而，这比另一些材料——如硅和锗——要多得多，这些材料在满带（价带）与导带之间有一个小的能量间隙。如果这个带隙 ΔE 小于约1 eV，该材料就被归类为半导体（semiconductor）。在这类材料中，少量电子会通过随机热振动被激发到导带，其概率由玻尔兹曼因子 exp(−ΔE/kBT) 给出。（室温下 kBT ≃ 0.025 eV，半导体的玻尔兹曼因子约在10⁻¹⁰量级，而绝缘体的则在10⁻³⁰到10⁻⁴⁰量级。价带中有10²³个电子，半导体能有约10¹³个电子被激发到导带，而绝缘体则几乎为零。）与金属不同，随着温度升高、更多电子被激发到导带，半导体的电导率会增大。电子也可以通过光照激发，因为可见光光子有足够能量将其激发到空态。因此入射光子被吸收，所以半导体通常看起来是黑色的。吸收光将电子激发到导带会增大半导体的电导率，这可以作为光探测器（例如光电二极管）的工作原理——这是半导体的众多应用之一。半导体通常是共价固体。

9.4.1
共价固体
碳原子通过共价键结合成大分子金刚石，其结构如图9.19所示。每个碳原子上的2s和2p轨道与其他四个碳原子的轨道发生重叠。我们可以把这些轨道看作sp³杂化轨道。键的空间排布呈四面体

⁴ 这种散射可能由晶格中的杂质或缺陷引起。
⁵ 玻尔兹曼分布（或称吉布斯分布）将在第10.4节讨论。

固体
285
图 9.19 左：金刚石结构。右：硫化锌结构。
每个碳原子周围都是对称的。由于这种对称性，且所有原子都相同，没有原子获得净电荷。
金刚石的物理性质源于其大分子结构。每个碳原子有四个最近邻原子。这个数目被称为堆积的配位数。四是一个很低的配位数，因此金刚石的密度较低。金刚石结构非常稳定，由强共价键结合在一起，这使得金刚石具有极高的熔点（3820 K）。重叠的轨道形成成键轨道和反键轨道的能带，每条能带对每个原子包含四个态。每个原子贡献四个电子，因此成键轨道填满电子，而反键轨道是空的。填满的成键轨道（价带）与空的反键轨道（导带）之间5.5 eV的大能隙意味着金刚石是绝缘体。这也意味着金刚石是透明的，因为可见光没有足够的能量将电子激发到导带。
碳以下第14族（第IV族）的元素硅和锗具有相同的外层电子结构，不足为奇的是，它们作为固体也采用金刚石结构。随着在族中向下移动，原子半径增加，这降低了共价键的强度，并降低了这些元素的熔点。这也增加了相邻原子上的轨道重叠，使能带变宽，并减小了价带和导带之间的能隙。金刚石是能隙为5.5 eV的绝缘体，而硅和锗分别是能隙为1.1 eV和0.67 eV的半导体。该族的下一个元素锡，存在几种同素异形体。其中一种，灰锡，具有金刚石结构，但能隙为零，因此是半金属。（在铅中，键合较弱，不形成金刚石结构；铅也是半金属。）
如前所述，具有金刚石结构的物质具有低配位数和低密度。当它们熔化时，其原子堆积得更紧密，密度增加。6 液态中原子的密堆积增加了相邻原子上轨道的重叠。这增加了能带的宽度，导致能隙消失。因此液态硅和液态锗是金属性的。
6 水也表现出这种不寻常的行为——冰浮在水上——并且原因相同。水在固态时采用金刚石结构。在冰中，水分子呈四面体配位，其两对孤对电子与邻近水分子中的氢原子成键。

286
原子、分子和固体
这是一个很好的例子，说明固体的原子排列如何对其物理性质产生显著影响。
图9.19中还展示了称为硫化锌(ZnS)结构的堆积方式，它与金刚石结构密切相关。一半的碳原子被锌原子取代，另一半被硫原子取代，使得每个原子与四个相反类型的原子成键。这些键略有极性。许多有用的半导体化合物都采用这种结构，这些化合物由第IV族两侧各族元素形成。其中包括III–V族化合物氮化硼、砷化镓和锑化铟，以及II–VI族化合物如硒化锌。
半导体有着广泛的应用，已经改变了我们的世界，但我们无法对这个庞大的课题做出充分的论述。
9.5
能带理论
我们在9.2节讨论过分子轨道，类似的概念也适用于固体中的电子轨道。与分子情况一样，我们将假设电子-电子相互作用不太强，并采用独立电子模型。在双原子分子中，两个轨道的重叠产生一个成键轨道和一个反键轨道，而在固体中，轨道会分裂成能带，其能量介于极端的成键极限和反键极限之间。对于每个原子轨道，固体中都有一个对应的能带，其宽度取决于相邻原子上轨道之间的重叠程度。在原子紧密堆积的材料中，这种重叠可能很大，重叠越大，能带越宽。宽的能带可能合并，消除能带间的带隙。这导致了金属行为。相反，当电子被紧紧束缚在单个原子上时，如离子晶体中，重叠很小，因此能带很窄，最高占据能带与下一个可用能态之间有一个大的带隙。这导致了绝缘行为。
9.5.1
原子晶格
确定固体详细电子结构的关键在于利用其原子通常排列成晶格这一事实。我们将考虑一个理想化的、无限大且完美周期性的晶体，忽略任何表面效应，并忽略实际晶体中不可避免地存在的缺陷和杂质。
晶体中每个原子的中心都位于晶格的一个格点上。三维晶格是点的规则阵列，其位置是三个基矢或生成元 ai (i = 1, 2, 3) 的整数倍之和。我们可以定义一个单胞，其棱边就是这三个矢量。一般格点的位置为
R = n1a1 + n2a2 + n3a3 , (9.32)
其中 (n1, n2, n3) 均为整数。尽管晶格中有一点是原点，但所有格点在几何上是等价的。
最简单的晶格是简单立方晶格，它由下列矢量生成
a1 = a(1, 0, 0) ,
a2 = a(0, 1, 0) ,
a3 = a(0, 0, 1) , (9.33)
其中 a 是晶格常数。其单胞是边长为 a 的立方体。数学家将填充空间的多面体集合称为蜂窝。简单立方晶格中的格点

能带理论
287
位于立方蜂巢结构的立方体顶点上，如图9.20（左）所示。简单立方晶格中每个原子有六个最近邻，因此其配位数(coordination number)为6。

图9.20

图9.20 左：简单立方堆积。中：体心立方(bcc)堆积。右：面心立方(fcc)堆积。

图9.20

在考虑通过晶格传播的波时，定义倒格子(reciprocal lattice)或对偶晶格会带来便利。三维空间中，倒格子中的每个矢量都正交于原始晶格中的一个平面，反之亦然。倒格子由三个初基矢量(primitive vectors) (\mathbf{A}_j) ((j = 1, 2, 3))生成，倒格子中的一般矢量可表示为
[
\mathbf{K} = k_1\mathbf{A}_1 + k_2\mathbf{A}_2 + k_3\mathbf{A}_3,
\tag{9.34}
]
其中 ((k_1, k_2, k_3)) 为整数。倒格子的定义性特征是它的初基矢量满足条件 (\mathbf{a}_i \cdot \mathbf{A}j = 2\pi\delta{ij})。（因子 (2\pi) 是固态物理学中的习惯用法。）因此，(\mathbf{A}_1) 垂直于 (\mathbf{a}_2) 和 (\mathbf{a}_3)，从而垂直于由 (\mathbf{a}_2) 和 (\mathbf{a}_3) 生成的晶面。(\mathbf{A}_2) 和 (\mathbf{A}_3) 的情形类似。一般地，
[
\mathbf{A}_1 = 2\pi\frac{\mathbf{a}_2 \times \mathbf{a}_3}{\mathbf{a}_1 \cdot \mathbf{a}_2 \times \mathbf{a}_3}, \quad
\mathbf{A}_2 = 2\pi\frac{\mathbf{a}_3 \times \mathbf{a}_1}{\mathbf{a}_2 \cdot \mathbf{a}_3 \times \mathbf{a}_1}, \quad
\mathbf{A}_3 = 2\pi\frac{\mathbf{a}_1 \times \mathbf{a}_2}{\mathbf{a}_3 \cdot \mathbf{a}_1 \times \mathbf{a}_2},
\tag{9.35}
]
这些表达式自动满足定义性方程。⁷
倒格子矢量 (\mathbf{K}) 与原始晶格矢量 (\mathbf{R}) 之间的点积是 (2\pi) 乘以一个整数，因为
[
\mathbf{K} \cdot \mathbf{R} = (k_1\mathbf{A}_1 + k_2\mathbf{A}_2 + k_3\mathbf{A}_3) \cdot (n_1\mathbf{a}_1 + n_2\mathbf{a}_2 + n_3\mathbf{a}3) = 2\pi\sum{i=1}^{3} k_i n_i.
\tag{9.36}
]
此式导致一个重要结果，即
[
\exp(i\mathbf{K} \cdot \mathbf{R}) = 1 .
\tag{9.37}
]
⁷ 请注意分母完全相同。

288
原子、分子与固体
不难看出，具有生成元(9.33)的简单立方晶格，其倒格子生成元为
[
\mathbf{A}_1 = \frac{2\pi}{a}(1, 0, 0), \quad
\mathbf{A}_2 = \frac{2\pi}{a}(0, 1, 0), \quad
\mathbf{A}_3 = \frac{2\pi}{a}(0, 0, 1),
\tag{9.38}
]
这其实就是原始晶格的一个缩放副本。图9.20展示了固态物理学中频繁出现的另外两种晶格的单胞：体心立方(bcc)晶格，其初基矢量为

图9.20

[
\mathbf{a}_1 = \frac{a}{2}(-1, 1, 1), \quad
\mathbf{a}_2 = \frac{a}{2}(1, -1, 1), \quad
\mathbf{a}_3 = \frac{a}{2}(1, 1, -1),
\tag{9.39}
]
以及面心立方(fcc)晶格，其初基矢量为
[
\mathbf{a}_1 = \frac{a}{2}(0, 1, 1), \quad
\mathbf{a}_2 = \frac{a}{2}(1, 0, 1), \quad
\mathbf{a}_3 = \frac{a}{2}(1, 1, 0).
\tag{9.40}
]
bcc晶格中，原子的配位数为8，同时还有六个距离稍远的次近邻。fcc晶格中，原子的配位数为12。最近邻原子位于一个截角立方体(cuboctahedron)的顶点上，如图9.21所示。对于具有生成元(9.40)的fcc晶格，矢量

图9.21

[
\mathbf{A}_1 = \frac{2\pi}{a}(-1, 1, 1), \quad
\mathbf{A}_2 = \frac{2\pi}{a}(1, -1, 1), \quad
\mathbf{A}_3 = \frac{2\pi}{a}(1, 1, -1)
\tag{9.41}
]
生成其倒格子，这可以通过计算点积 (\mathbf{a}_i \cdot \mathbf{A}_j) 轻松验证。这些倒格子生成元显然是经过重新标度的bcc晶格生成元(9.39)，因此fcc晶格和bcc晶格互为倒格子。

接下来，我们将探讨为什么倒格子是描述周期性晶格阵列中电子波函数的一个有用概念。

图9.21 fcc晶格中每个原子的最近邻位于一个截角立方体的顶点上。

图9.21

能带理论
289
9.5.2 布洛赫定理
合理地假设，晶体固体中电子的哈密顿量 (H) 具有与晶体本身相同的周期性。因此，对于任意格矢 (R)，有 (H(\boldsymbol{r}) = H(\boldsymbol{r} + \boldsymbol{R}))。
让我们对矢量 (R) 定义一个平移算符 (T_R)，它将任意函数 (f) 的自变量平移 (R)，即
[
T_R f(\boldsymbol{r}) = f(\boldsymbol{r} + \boldsymbol{R}) .
\tag{9.42}
]
这些平移算符满足 (T_R T_{R’} = T_{R+R’})，并且它们全部对易，因为
[
T_R T_{R’} f(\boldsymbol{r}) = f(\boldsymbol{r} + \boldsymbol{R} + \boldsymbol{R}’) = T_{R’} T_R f(\boldsymbol{r}) .
\tag{9.43}
]
若 (\Psi(\boldsymbol{r})) 是一个波函数，则
[
T_R H(\boldsymbol{r}) \Psi(\boldsymbol{r}) = H(\boldsymbol{r} + \boldsymbol{R}) \Psi(\boldsymbol{r} + \boldsymbol{R}) = H(\boldsymbol{r}) \Psi(\boldsymbol{r} + \boldsymbol{R}) = H(\boldsymbol{r}) T_R \Psi(\boldsymbol{r}) .
\tag{9.44}
]
因此，平移算符既与哈密顿量对易，也彼此对易。这意味着，正如第7.7节所讨论的，我们可以选择哈密顿量的本征态同时为所有晶格平移算符的共同本征态。
平移算符 (T_R) 的一个本征态满足 (T_R \Psi = c(\boldsymbol{R}) \Psi)，其中 (c(\boldsymbol{R})) 是本征值，而 (T_R T_{R’} = T_{R+R’}) 意味着
[
T_R T_{R’} \Psi(\boldsymbol{r}) = T_R c(\boldsymbol{R}’) \Psi(\boldsymbol{r}) = c(\boldsymbol{R}) c(\boldsymbol{R}’) \Psi(\boldsymbol{r}) = c(\boldsymbol{R} + \boldsymbol{R}’) \Psi(\boldsymbol{r}) ,
\tag{9.45}
]
所以 (c(\boldsymbol{R} + \boldsymbol{R}’) = c(\boldsymbol{R}) c(\boldsymbol{R}’))。反复应用这一结果，我们看到，对于一般的格矢 (\boldsymbol{R} = n_1 \boldsymbol{a}_1 + n_2 \boldsymbol{a}_2 + n_3 \boldsymbol{a}_3)，其中 (\boldsymbol{a}_i) 是初基晶格矢量，
[
c(\boldsymbol{R}) = c(\boldsymbol{a}_1)^{n_1} c(\boldsymbol{a}_2)^{n_2} c(\boldsymbol{a}_3)^{n_3} .
\tag{9.46}
]
由此可见，我们可以将 (c(\boldsymbol{R})) 表示为一个指数函数，而且由于电子波函数在任何方向上都不会指数增长，(c(\boldsymbol{R})) 的模必须为1，因此具有形式 (c(\boldsymbol{R}) = \exp(i \boldsymbol{k} \cdot \boldsymbol{R}))。(\boldsymbol{k}) 可以方便地表示为 (\boldsymbol{k} = k_1 \boldsymbol{A}_1 + k_2 \boldsymbol{A}_2 + k_3 \boldsymbol{A}_3)，其中 (\boldsymbol{A}_i) 是倒格子生成元，这里的 ((k_1, k_2, k_3)) 是任意的。总之，我们可以找到 (H) 的本征态 (\Psi)，使得对于每个格矢 (\boldsymbol{R})，
[
T_R \Psi(\boldsymbol{r}) = \Psi(\boldsymbol{r} + \boldsymbol{R}) = c(\boldsymbol{R}) \Psi(\boldsymbol{r}) = \exp(i \boldsymbol{k} \cdot \boldsymbol{R}) \Psi(\boldsymbol{r}) .
\tag{9.47}
]
如果 (\Psi) 是一个布洛赫(Bloch)态，上述最后一个方程即可得解，
[
\Psi(\boldsymbol{r}) = \exp(i \boldsymbol{k} \cdot \boldsymbol{r}) u(\boldsymbol{r}) ,
\tag{9.48}
]
它是一个具有晶格周期性的函数 (u(\boldsymbol{r}) = u(\boldsymbol{r} + \boldsymbol{R})) 与一个平面波 (\exp(i \boldsymbol{k} \cdot \boldsymbol{r})) 的乘积。方程 (9.47) 得以满足，因为
[
\begin{aligned}
T_R \Psi(\boldsymbol{r})
&= \exp(i \boldsymbol{k} \cdot (\boldsymbol{r} + \boldsymbol{R})) u(\boldsymbol{r} + \boldsymbol{R}) \
&= \exp(i \boldsymbol{k} \cdot (\boldsymbol{r} + \boldsymbol{R})) u(\boldsymbol{r}) = \exp(i \boldsymbol{k} \cdot \boldsymbol{R}) \Psi(\boldsymbol{r}) .
\end{aligned}
\tag{9.49}
]
周期函数 (u(\boldsymbol{r})) 通常随 (\boldsymbol{k}) 变化。人们常说，在布洛赫态中，周期函数 (u(\boldsymbol{r})) 被平面波 (\exp(i \boldsymbol{k} \cdot \boldsymbol{r})) 所调制。图9.22给出了一个一维示例。在三维空间中，平面波充满整个空间，顾名思义，

290
原子、分子和固体
这意味着在整个平面上保持同相，沿着垂直于平面的方向振荡。
布洛赫(Bloch)定理指出，当哈密顿量具有周期性时，形如(9.48)式的态，即周期函数乘以平面波，构成一套完备的定态波函数。尽管表面上很简单，这是一个深刻的结果，为晶体固体中的量子力学研究奠定了基础。
周期性函数 u(z)
Ψ(z) = exp(ikz)u(z)
图9.22 一个布洛赫态的例子（实部）
k 被称为晶体动量。其大小为 |k| = 2π/λ，其中 λ 是调制波的波长。尽管 k 可以取任意值，但这些不同的 k 值不一定导致不同的布洛赫态。对于倒格子中的任意 K，函数 exp(iK · r) 具有晶格的周期性，这是因为方程(9.37)。因此，将 k 移动 K 并不会改变布洛赫态，因为额外的因子 exp(iK · r) 可以被吸收进 u(r) 中。为了找到薛定谔方程的所有唯一解，我们只需考虑倒格子一个单胞内的 k 值。方便的做法是将这个单胞取为维格纳–赛茨(Wigner–Seitz)原胞，它是围绕所选倒格子点、且距离该点比距离其他任何倒格子点都更近的区域。⁸ 维格纳–赛茨原胞是由平分所选点与其倒格子中近邻点之间连线的平面所围成的区域。通过构造，这些原胞填满 k 空间形成蜂巢结构。以原点为中心的维格纳–赛茨原胞也被物理学家称为第一布里渊区(Brillouin zone)。在一维中，第一布里渊区是通过将 k 限制在 −π/a ≤ k ≤ π/a 范围内得到的。面心立方(fcc)晶格的第一布里渊区是一个菱形十二面体，而体心立方(bcc)晶格的第一布里渊区则是一个截角八面体，如图9.23所示。

图9.23

布里渊区的相对面相差一个倒格矢，因此这些面上对应的 k 值给出相同的布洛赫态，具有相同的能量。在接下来的一些图中，可以看到布里渊区相对面上态的等价性。

9.5.3 有限晶体中的布洛赫态
我们在第8.2.1节中看到，体积为 V 的有限盒子中的自由粒子在 k 空间的状态密度为 V/(2π)³。类似地，如果我们有一块有限晶体，即一块体积为 V 的长方体晶态固体，那么第一布里渊区中的布洛赫态密度就是 V/(2π)³。这是因为施加在布洛赫态 exp(ik · r)u(r) 上的周期性边界条件限制了 k
⁸ 数学家称之为沃罗诺伊原胞(Voronoi cell)。

能带理论
291
图 9.23 左图:体心立方(bcc)晶格的维格纳–赛茨(Wigner–Seitz)原胞是一个截角八面体。右图:面心立方(fcc)晶格的维格纳–赛茨原胞是一个菱形十二面体。

图 9.23

正如自由粒子态 exp(ik·r) 那样，函数 u(r) 自动是周期性的。第一布里渊区(Brillouin zone)是 k 空间中的一个区域，其体积等于倒格子原胞的体积，即对于简单立方晶格为 (2π)³/a³。因此，布里渊区中的状态总数是 V/a³，即以晶体原胞为单位测得的晶体体积。这也就是有限晶体中原胞的数目。由于我们假设每个原胞中只有一个原子，所以这也就是原子的总数目 N。

每一个相互重叠的原子轨道都产生一个能带，其中的 k 值填满布里渊区。因为每一个原子轨道可以被两个自旋投影相反的电子所占据，所以能带中的状态数是 2N，即晶体中原子数目的两倍。这些态的能量是 k 的函数。

并非所有这些状态都需要被占据。例如，钠只有一个价电子。由钠的 s 轨道重叠产生的钠 s 带，包含了足够每个原子容纳两个电子的状态，但是可用的电子只填充了能带的下半部分。在三维的第一布里渊区内存在一个费米面(Fermi surface)，即 k 空间中的一个曲面。最高填充能级的能量是费米能量 ε_F，费米面由所有给出这一能量的 k 值组成。ε_F 的值使得费米面的内部包含了布里渊区总体积的一半。

9.5.4 紧束缚模型
将原子轨道线性组合(LCAO)近似下的分子轨道理论应用于固体时，就被称为紧束缚模型(tight-binding model)。为了说明这个模型，考虑一个沿 z 轴由无穷多个等间距(间距为 a)原子构成的无限长线形成的一维固体。其倒格子是由间距为 2π/a 的等间距点构成的无限长线。固体中的电子受到由原子阵列产生的周期性势场的作用。根据布洛赫定理(Bloch’s theorem)，具有一维周期性势场的薛定谔方程的定态解取如下的形式
Ψ_k(z) = exp(ikz)u(z) , -π/a ≤ k ≤ π/a , (9.50)

292
原子、分子与固体
其中 u(z) 是一个与势场具有相同周期的周期函数，即
u(z + a) = u(z)。Ψk(z) 是一个一维布洛赫态。它是一个被相位因子 exp(ikz) 调制的周期函数。
我们将使用分子轨道理论来寻找固体中的电子波函数。这与多烯链的休克尔(Hückel)分析非常相似。考虑一个无限序列的重叠 s 轨道，u(z) 等于无限多个 s 轨道之和，每个原子一个。
态的能量为
Es

αs + βs(exp(ika) + exp(−ika))

αs −2|βs| cos(ka) ,
(9.51)
其中，如前所述，αs 是 s 轨道的原子能级，βs < 0 是由于相邻原子上 s 轨道重叠而产生的矩阵元。最低能量态由完全同相的 s 轨道之和构成，给出 k =
2π
λ
= 0 的布洛赫态。每个原子上 s 轨道的相位相同。在紧束缚近似下，其他解具有相同的 u(z)，但 k 取不同值，一直延伸到最高能量态，其中 |k| = π
a。当 |k| = π
a 时，波长等于原子间距的两倍，即 2a。这是完全反相的解，此时相邻原子上的相位相反。结果如图 9.24（左）下半部分所示。

图 9.24

反键
能量
0
k
0

k
2a
π
反键
成键
成键
a
π
a
– π
a
π

k
0
a
π
2a
π
图 9.24 一维固体中的轨道。下图：重叠的 s 轨道。k = 0 态具有最大的相长重叠，因此能量最低。|k| = π

图 9.24

a 的态具有最大的相消重叠，因此能量最高。上图：重叠的 pz 轨道。pz 轨道在 k = 0 时具有最大的相消重叠，能量最高；在 |k| = π
a 时具有最大的相长重叠，能量最低。
从方程 (9.51) 我们看到，当 k = 0 时，Es = αs −2|βs|；当 |k| =
π
a 时，
Es = αs + 2|βs|，因此带宽为 4|βs|。这主要源于能带底部和顶部之间的动能差异。布洛赫函数的形式

能带理论
293
波函数展示于图9.24的下部。当k = 0时，波具有无限大的波长。在分子语言中，这些对应于成键态。当|k| =

图9.24

π/2a时，相邻原子上没有重叠，能量等于原子轨道的能量。更大的|k|值产生的态具有比原子轨道更短的波长。这些对应于反键态。当|k| = π/a时达到最高能量态。

在像碱金属这样的固体中，每个原子有一个自由电子，自由电子的数量恰好足以填满s带中一半的态，因此所有成键轨道都被占据。在一维紧束缚模型中，这些态填满第一布里渊区的一半，从k = 0延伸至费米能级，费米能级位于|k| = π/2a。费米面仅由两个点k = ±π/2a构成。费米能级之上紧邻着空态，因此这样的材料是金属性的。所有占据态的能量都低于原子s轨道，这提供了将固体维系在一起的结合能。电子在整个固体中离域化而导致的能量降低被称为金属键(metallic bonding)。

p轨道可以用类似的方式分析。考虑一维排列的重叠pz轨道链，在固体中形成分子σ轨道。周期函数u(z)现在是pz轨道的无限求和。能量最低的态出现在沿着链从一个原子到下一个原子pz轨道的取向交替变化时，这样相同符号的波瓣彼此相邻。轨道的最大相长重叠发生在|k| = π/a时，如图9.24上部（左）所示，对应于波长为λ = 2a，即两倍原子间距。在这个解与无限波长解（k = 0）之间存在一个能带，在无限波长解中所有轨道取向相同，使得每个原子上的正波瓣与下一个原子上的负波瓣重叠。这是能量最高的最大反键轨道。当|k| = π/a时，Ep = αp − 2|βp|；当k = 0时，Ep = αp + 2|βp|，其中αp是pz轨道的原子能级，βp是相邻原子上轨道的重叠矩阵元。

图9.24

在k = π/a的s带态与k = π/a的p带态的能量之间存在一个带隙。这两个态具有相同的波长2a，但s带态中的电子波函数集中在原子位点附近，而p带态的波函数集中在原子之间，并在每个原子处有节点。由于电子在两个能带中都是离域的，晶格格点上的剩余原子是带正电的离子。s带顶部的能量小于p带底部的能量，因为在s带中电子离离子更近。

9.5.5
近自由电子模型
重叠分子轨道模型为实际材料中的s带提供了一幅良好的图像。还有一幅非常不同的互补图像。固体内的电子可以被视为自由或近自由电子气。对于那些波长远大于原子间距的电子态，离子晶格产生的势可以平均化，给出一个恒定的背景势V0。这对所有态的能量贡献相同，给出
Ek = ¯h²k²/(2m∗s) + V0 , (9.52)
而态之间的能量差异仅仅源于它们动能的不同。m∗s是固体中s带电子的有效质量，并不是

294
原子、分子与固体
动能的差值等同于电子静止质量。通过令能带顶部（$k = \pi/a$）与底部（$k = 0$）的动能差等于能带宽度，我们推得
$$\frac{\hbar^2\pi^2}{2m_s^* a^2} = 4|\beta_s|. \tag{9.53}$$
这在直觉上是合理的，因为电子无法像在真空中那样自由地穿过固体的背景势场；它们的迁移率受到原子轨道间重叠程度的制约。方程(9.53)表明，若轨道间的重叠积分$|\beta_s|$较大且能带较宽，则有效质量较小，因此电子的迁移率较大。反之，在诸如离子固体这类重叠较小的固体中，$|\beta_s|$会很小，从而产生较大的有效质量和较低的迁移率，因此电子将被强烈地束缚在离子上，难以在固体中轻易移动。有效质量会因能带而异，并且在不同方向上也可能不同。

9.5.6 离子固体

离子化合物，例如氯化钠，凝结成规则密堆积的原子阵列，其排列方式使得正离子被负离子包围，反之亦然。它们通过长程库仑相互作用而稳定。电子被紧紧束缚在各个离子上，因此相邻离子的轨道之间几乎没有重叠。这产生了窄能带以及价带与导带之间较大的间隙，所以离子固体往往是绝缘体。离子晶体通常坚硬但易碎，具有相当大的机械强度。例如，氧化铝$\text{Al}_2\text{O}_3$形成刚玉矿物，氧化锆$\text{ZrO}_2$形成氧化锆矿物。离子固体通常是透明的，除非含有杂质。当离子固体中存在过渡金属离子时，可能会形成宝石。红宝石的颜色源于少量$\text{Cr}^{3+}$离子取代了刚玉中的铝离子，而铁离子则造就了蓝宝石。这些杂质离子在带隙内产生了能态。吸收具有合适能量的可见光可以将电子从价带激发到这些能态，从而使晶体呈现颜色。能级的精确位置由杂质离子与其晶体环境之间复杂的相互作用决定。然而，由于可见光谱范围从光子能量为$1.8,\text{eV}$的红光到光子能量约为$3.0,\text{eV}$的紫光，在带隙中间附近的任何新能级都将导致光的吸收。

离子在尺寸上差异显著（金属离子较小，非金属离子较大）。这在决定离子的配位数以及离子在固体中的堆积方式方面起着重要作用。氯化钠是图9.25所示的一种常见排列的原型。在此结构中，钠离子和氯离子的配位数均为6。如果将钠离子和氯离子换成相同的原子，那么堆积方式将是简单立方。

图9.25

9.5.7 氯化铯的例子

氯化铯提供了一个真实离子固体中电子能带结构的例子。在图9.25所示的氯化铯堆积中，配位数为8。铯离子形成简单立方堆积，而氯离子形成第二个沿对角线平移的简单立方堆积。如果将铯离子和氯离子换成相同的原子，那么堆积方式将是体心立方。

图9.25

能带理论
295
图9.25 左：氯化钠结构。右：氯化铯结构。

图9.25

铯离子具有闭合壳层结构，其电子处于芯轨道中。同样，第一和第二氯壳层中的电子也处于低能芯轨道，这些轨道不与其他离子上的轨道重叠。决定成键的重要态是氯的3s和3p轨道。这些态的能量远低于铯的最低可用态，因此我们可以忽略氯和铯轨道之间的任何重叠，而只关注最近邻氯原子上外层轨道之间的重叠。⁹这些3s和3p态将展宽成能带。如第9.5.4节所讨论的，所得的态是用晶体动量k标记的布洛赫(Bloch)态。由于氯离子形成的子晶格是简单立方结构，其倒格子也是简单立方结构，如图9.26所示。晶体动量定义在倒格子的立方维格纳-赛茨(Wigner–Seitz)原胞内，范围从中心k = (0, 0, 0)到角点k = (± π/a, ± π/a, ± π/a)。对于维格纳-赛茨原胞中的每个k值，3s能带中有一个轨道，三个3p能带中各有一个轨道，它们的能量是k的函数。

图9.26

R
M
X
Γ
图9.26 左：简单立方晶格的维格纳-赛茨原胞是一个立方体。右：维格纳-赛茨原胞的高对称点及其常用标记。

图9.26

考虑到极性键时已在第9.2.2节讨论过，只有能量接近的轨道之间才会发生显著重叠。——原注

296
原子、分子与固体
每个氯离子有六个最近邻氯离子。忽略所有非最近邻的相互作用，并如前求解久期方程，氯s轨道的重叠给出能量为
E(k) = αₛ − |βₛ| Σⱼ₌₁⁶ exp(ik·aⱼ) = αₛ − 2|βₛ|(cos(k₁a) + cos(k₂a) + cos(k₃a))。(9.54)
该能带的宽度为12|βₛ|。（一般地，如果假设轨道重叠仅对最近邻是显著的，那么能带宽度为2Q|βₛ|，其中Q是配位数。这与先前的例子相符，例如双原子分子（Q=1）的方程(9.11)和(9.12)，以及苯（Q=2）的方程(9.26)。）
绘制E(k)比较棘手，因为它需要三个维度来表示k的坐标，一个维度表示E(k)。幸运的是，立方的维格纳-赛茨原胞具有反射对称性，这使得其中许多信息是冗余的。固体物理学家定义了高对称点，如图9.26（右）所示，并沿着连接这些点的直线绘制E(k)。按照惯例，点k = (0, 0, 0)被标记为Γ。图9.27绘制了氯化铯的s能带和三个p能带沿着其中两条线的E(k)曲线。ΓX连接k = (0, 0, 0)和k = (π/a, 0, 0)。从方程(9.54)我们看到，s态的能量从Γ处的αₛ − 6|βₛ|增加到X处的αₛ − 2|βₛ|。

图9.26

αₚ
αₛ
Γ
能量 (eV)
pᵧ, p₂
pₓ
s
M
X
图9.27 氯化铯的能带。

现在转向p轨道，p态在Γ处达到最大能量，这与第9.5.4节中的一维例子类似。pₓ态在k₁方向上形成σ键。沿ΓX方向，pₓ态的能量从αₚ + 6|βₚ|降低到αₚ + 4|βₚ|。pᵧ和p₂态的能量沿ΓX不发生变化，因为在此线上k₂和k₃均为零。

能带理论
297
在图9.27的左侧，ΓM连接了k = (0, 0, 0)和k = (π/a, π/a, 0)。沿着这条线，
k1 = k2且k3 = 0，因此px和py态是简并的，而pz态的能量是常数。s能带态的能量为E(k) = αs − 2|βs|(2 cos(k1a) + 1)，该能量从αs − 6|βs|增加到αs + 2|βs|。

每个氯原子贡献七个价电子，每个铯原子贡献一个。每个原胞中的这八个电子填满了氯的3s能带和三个氯的3p能带中的所有态。费米能级位于3p能带的顶部。到下一个可用态之间存在一个很大的带隙，这些态位于铯6s轨道交叠所产生的能带中，因此氯化铯是一种绝缘体。

9.5.8 金属
大多数元素是金属。它们的原子是密堆积的。许多金属，例如第1族元素，形成bcc结构，而其他一些形成fcc结构。许多金属采用的另一种重要堆积方式称为六方密堆积(hcp)。金属根据其原子的电子结构可分为几类。第1族和第2族元素加上铝被称为简单金属或sp金属。它们的外层电子位于s轨道中。（对于铝，还有一个价电子位于p轨道中。）第3至10族元素的价电子位于s和d轨道中，它们被称为过渡金属。外层的s和d轨道在能量上很接近，因此这些轨道被占据的顺序因元素而异，并取决于外层电子之间的相互作用。第11和12族被称为后过渡金属，因为它们的d轨道是满的，价电子位于s轨道中，分别具有d10s1和d10s2的外层电子组态。第11族元素铜、银和金被称为铸币金属或贵金属。

图9.28 费米面。从左到右：钠Na (bcc)，锰Mn (fcc)，铜Cu (fcc)。

图9.28

某些金属的物理性质，特别是第1族和第2族金属，可以很好地用自由电子气模型描述。自由电子模型之所以有效，是因为相邻原子上s轨道有很大的交叠，从而产生了宽的能带。电子与离子之间的相互作用可以如第9.5.5节所述，作为一个恒定的背景势来处理。在基态，单电子态被填充至费米能级εF。在动量空间中存在一个半径为kF的填充球，其中
εF = ¯h²k²F / (2m)。 (9.55)

298
原子、分子与固体
碱金属（如钠）的费米面确实几乎是球形的，如图9.28（左）所示。

图9.28

我们可以计算费米球的大小。如9.5.3节所讨论的，布里渊区的体积为
2π
a
3，而费米球的体积是其一半，4π3
a3 。
利用球体体积公式，我们有
4
3πk 3
F = 4π3
a3
(9.56)
所以kF = (3π2)
1
3 1
a。我们还有金属体积与其电子数之间的关系，V = Na3。因此
kF =
3π2N
V
1
3
(9.57)
而费米能为，如方程(8.74)，
εF = ¯h2
2m
3π2N
V
2
3
,
(9.58)
仅取决于金属中的电子密度。通过将εF等同于经典粒子的动能1
2mv 2
F，我们可以估算金属中的电子速度vF。
例如，在钠中，离子间距为0.366 nm。钠具有体心立方(bcc)结构，考虑到这一点，得出εF ≃3.2 eV，这对应于费米速度大约为vF ≃106 m s−1。（气体粒子要在温度TF = εF
kB ≃37,000 K时才能达到这些能量。）

9.5.9
铜的例子
自由电子模型对于过渡金属效果不佳。d轨道的半径比s轨道小得多，因此它们与相邻原子轨道的重叠要小得多。结果，d轨道产生窄带，这些窄带穿越s带。这使得过渡金属的电子结构复杂化，因为它们的费米面位于五个部分填充的d带区域。现在有计算机程序可以常规地计算精确的能带结构。由这类程序生成的过渡金属锰的费米面如图9.28（中）所示。

图9.28

在后过渡金属中，例如铜，其外层电子结构为3d104s1，d带是完全占满的，每个原子在4s带中有一个价电子。铜以及其他贵金属的原子采取面心立方(fcc)堆积。fcc晶格的第一布里渊区（倒易bcc晶格的维格纳–赛茨原胞(Wigner–Seitz cell)）是一个截角八面体，如图9.29所示，图中标出了高对称点。铜是第一个通过实验确定其费米面的材料，由布赖恩·皮帕德(Brian Pippard)于1955年完成。这个费米面如图9.28（右）所示。图9.30显示了维格纳–赛茨原胞的一个截面。该图中的黑线显示了费米面的截面，作为对比，灰色圆圈代表自由电子气的费米球截面。或许令人惊讶的是，费米球达到了（布里渊区边界）90%以上的位置。

图9.30

图9.28

图9.29

能带理论
299
L
Γ
Σ
∆
Λ
K
W
U
X
图9.29　面心立方晶格的第一布里渊区，标注了高对称点的常用符号。

图9.29

对于波长与铜离子平面间距相当的态，自由电子模型不再适用。这些态与离子的相互作用更强，其能量相对于相应的自由电子态有所降低。它们的晶体动量k位于从费米球凸出并交截维格纳-塞茨原胞六边形面的“颈部”区域。这些颈部区域内态的能量低于费米能量，因此它们的晶体动量位于费米面之内。

图9.31左侧展示了计算机生成的铜能带结构。在自由电子模型中，s带具有抛物线形状，如方程(9.52)所描述。这一点在图中可以看到，s带几乎呈抛物线形状，特别是在Γ点附近。五条相当复杂的能带穿过s带，这些能带来源于相互重叠的d轨道，并与s轨道混合。在d带之上，s带的能量恢复其抛物线形状，如图上半部分所示。费米面位于半满的s带内。图的右侧显示了态密度。由于宽s带中每个原子只有一个电子，而窄d带中每个原子有十个电子，因此电子密度峰位于d带区域。

通过比较图9.31与图9.30所示的费米面截面图，我们可以看出能带结构与费米面之间的关系。图9.31最左侧展示了Γ点与X点之间的能带结构。费米能级εF处的虚线在接近X点处穿越s带，这对应于图9.30中从Γ到X的路径与费米面相交的点。类似地，在图9.31中，s带在Γ与K之间穿越费米能级，这与图9.30中从Γ到K的路径与费米面相交的点相匹配。需要注意的是，在两个图中，沿Γ到L的路径都没有这种穿越，因为该路径的终点位于费米面内部的颈部区域。

图9.30

9.6　铁磁性

到目前为止，我们在考虑固体的电子结构时，一直采用独立电子近似，即每个分子轨道提供两个简并态，可容纳两个自旋相反的电子。我们假设电子按能量递增的顺序填充可用态，并且电子自旋总是配对，使总自旋为零。这对于芯电子是正确的，但对于价电子则不一定。

脚注
10 体心立方倒格子（顶点为(±1, ±1, ±1)）的立方晶胞体积为8。每个晶胞有两个格点，因此维格纳-塞茨原胞（此时为截角八面体）的体积为4。对于单个价电子，费米球的体积是维格纳-塞茨原胞体积的一半，因此费米球体积为2，半径为 $\sqrt[3]{\frac{3}{2\pi}} \approx 0.782$。维格纳-塞茨原胞六边形面的中心位于(±1/2, ±1/2, ±1/2)，因此这些点到原点的距离为 $\frac{\sqrt{3}}{2} \approx 0.866$。

铁磁性
301
电子。正如我们在第9.2.1节讨论氧分子时所见，如果最低的可用轨道是简并的，电子倾向于进入不同的轨道并使其自旋平行排列。如果交换能主导了几个部分填充价带的能量间隔，那么固体中也可能发生这种情况，这种情形普遍存在于具有部分填充d轨道的过渡金属中。过渡金属原子中d轨道的半径远小于外层s轨道的半径。因此，它们与相邻原子轨道的重叠非常小，五个d带既窄且能量接近，正如我们所见。

我们可以估算过渡金属中电子自旋何时会排列。两个电子以相反自旋占据同一轨道的能量代价是交换能K，正如第9.2.1节所讨论的。如果d带的总宽度为W，并假设每个带宽大致相同，为1 5W，那么将最高占据d带中的两个电子之一激发到下一个d带的代价是1 5W −K。因此，发生自旋排列的条件是K > 1 5W，如果该条件成立，自旋平行的电子数将达到最大，¹¹符合洪德第一定则(Hund’s first rule)。例如，铁离子Fe³⁺的外层电子结构为3d⁵，五个电子全部以平行自旋占据不同的d轨道。

正如我们在讨论氧分子时提到的，平行的电子自旋赋予原子一个磁矩。在固体中，这种效应可能被急剧放大，因为与单个原子相关的磁矩可能在整个晶体中平行排列，从而产生宏观磁场。这被称为铁磁性。它出现在铁、钴和镍中，但需低于一个称为居里温度(Curie temperature)的转变温度。铁的居里温度为1043 K。或者，相邻原子的磁矩也可能反平行排列，从而不产生净磁矩。这种长程磁有序被称为反铁磁性，它出现在低于一个称为奈尔温度(Néel temperature)的转变温度的许多磁性材料中。例如，氧化镍NiO在520 K以下为反铁磁体。我们将在第10.12节讨论自旋排列的理论分析。

第一系列过渡金属从外层电子构型为4s²3d¹的钪开始，到外层电子构型为4s²3d⁸的镍结束。沿着这一系列每步进一位，原子核就增加一个质子。不断增加的核电荷减小了d轨道的半径，因此相邻原子间d轨道的重叠减小，从而W减小。同时，轨道半径的减小迫使共享同一d轨道的电子彼此靠得更近，因此交换能K增加。这些趋势意味着电子自旋排列的倾向不断增强。我们确实发现第一过渡系列后半部分的元素表现出铁磁和反铁磁性质。接下来两个过渡系列中的4d和5d轨道半径更大，导致能带更宽、交换能更小，因此磁性不是这些元素的特征。

在镧系元素中，4f轨道是部分填充的。这些轨道的半径比已填满的5s、5p和6s轨道小得多，因此它们不与相邻原子的轨道重叠

¹¹ 由于波函数的反对称化，总交换能等于K乘以自旋平行的电子对数。对于n个这样的电子，此值为n(n−1) 2 K。为了使每个电子各占据一个不同的d轨道而将电子提升所经过的能量阶梯（大小为1 5W）的数目为Pn−1 1 m = n(n−1) 2。

302
原子、分子与固体
显著地表现出与原子轨道类似的行为。电子自旋对齐的条件得以满足。镧系元素在所有原子中具有最大的磁矩，这些元素及其化合物展现出一系列有趣且有用的磁性。
目前市售最强的永磁体被称为NIB磁体。它们由钕、铁和硼组成的合金制成，化学式为Nd₂Fe₁₄B。钕是一种镧系元素，外层电子结构为5s²5p⁶6s²4f⁴。

9.7 扩展阅读

关于原子轨道和分子结合的全面讨论，参见：
C.S. McCaw, Orbitals: with Applications in Atomic Spectra (轨道：在原子光谱中的应用), London: Imperial College Press, 2015.
A. Alavi, Part II Chemistry, A4: Theoretical Techniques and Ideas (化学第二部分，A4：理论技术与思想), Cambridge University, 2009. 可访问: www-alavi.ch.cam.ac.uk/files/A4-notes.pdf
R.M. Nix, An Introduction to Molecular Orbital Theory (分子轨道理论导论), Lecture Notes, Queen Mary University of London, 2013. 可访问: www.chem.qmul.ac.uk/software/download/mo/

关于固体物理，参见：
P.A. Cox, The Electronic Structure and Chemistry of Solids (固体的电子结构与化学), Oxford: OUP, 1987.
H.P. Myers, Introductory Solid State Physics (固体物理学导论) (第二版), London: Taylor and Francis, 1997.
N.W. Ashcroft 和 N.D. Mermin, Solid State Physics (固体物理学), Fort Worth TX: Harcourt, 1976.
S.L. Altmann, Band Theory of Solids: An Introduction from the Point of View of Symmetry (固体能带理论：从对称性角度的导论), Oxford: OUP, 1991.

10_Thermodynamics

10
热力学
10.1
引言
热力学统一了我们对物理世界的理解。它涉及我们称之为固体、液体和气体的整个物质范畴，因此在物理学、化学乃至生物科学中都具有重要意义。其巨大重要性可以从这一事实来判断：当热力学应用于电磁辐射时，触发了量子革命的序幕。热力学描述基本粒子的行为，它也在解释整个宇宙的演化中扮演着至关重要的角色，因为这在很大程度上是物质和辐射在膨胀时空中热的历史。相当令人惊讶的是，热力学对黑洞也有着重要的应用。

正如前几章所展示的，一个或两个物体的动力学很容易用数学来描述。但随着物体数量的增加，计算迅速变得难以处理。然而，当我们达到非常大的数量时，我们会到达另一个简化层次，再次有可能进行精确的统计或概率计算。这就是热力学的领域，也是物理学家常将这一分支学科称为统计力学的原因。每当一个物理系统由众多具有一定独立性、又有一定程度接触的子系统组成时，统计力学就适用了。经典的例子是由大量时不时碰撞的分子所组成的气体。

热力学始于我们对热和冷的感知。我们从日常经验中知道，这些性质与材料中容易观察到的变化相对应。例如，固态铁在熔炉中会从红色变为橙色。气体受热时会膨胀，而液体如水银和水也会膨胀。这些变化可用来标定温度标度，从而使我们能够构建测量温度的设备。传统上，温度是用水银温度计来测量的。如今，温度计通常依赖于与温度相关的材料电学性质的稳定变化。

当两个物体接触时，它们的温度会发生变化，并且经过足够长的时间后，它们会达到一个稳定的状态，称为平衡，此时它们的温度相等。我们总是观察到热量从温度较高的物体流向温度较低的物体，因此较热物体的温度降低，而较冷物体的温度升高。似乎不存在违反这一定律而达到平衡的路径。这引发了热量究竟是什么的问题。

物理世界. 尼古拉斯·曼顿(Nicholas Manton) 和尼古拉斯·米(Nicholas Mee), 牛津大学出版社 (2017).
© 尼古拉斯·曼顿和尼古拉斯·米. DOI 10.1093/acprof:oso/9780198795933.001.0001

304
热力学
10.1.1
何为热？
18 世纪的自然哲学家们认为热是一种流体，他们称之为热质(caloric)。这一想法的核心是，热物体比冷物体含有更多的热质，当两者接触时，这种流体会从热物体转移到冷物体，从而升高冷物体的温度。热质被想象成一种守恒的流体，可以四处移动，但绝不会产生或消灭。显然，这种过于简单的理论无法解释一些关于热的很明显的事实。（即便如此，该理论的残余仍存留于现代世界中。我们谈论热流，有些人还会计算他们的卡路里。）1798 年，本杰明·汤普森(Benjamin Thompson)，也被称为伦福德伯爵(Count Rumford)，发表了他的产热实验结果。伦福德测量了由机械功引起的温度变化。他研究的对象之一是炮筒的镗孔加工，这需要多队马匹施加非常大的功。伦福德证明，这一过程中产生的热量可以用来将大量水烧开，而且只要镗孔持续进行，就似乎有取之不尽的热量供应。结论很清楚。热不可能是包含在炮筒金属内部的一种流体，相反，它是由马匹的劳动所驱动的镗孔设备通过摩擦传递给金属的。这表明了产生温度变化的热，与通过多种力的作用传递给材料的能量即机械功之间，存在着紧密联系。因此，很自然地可以假设热是能量的一种形式。

认识到功可以转化为热，对于将能量概念拓展到动能和势能这些力学概念之外至关重要。在诸如燃料燃烧之类的化学反应中，常常会释放出热量，所以能量变化在化学中扮演着重要角色。储存在各种物质中的化学能，可以通过测量化学反应中产生的热量来确定。这让我们兜了一圈又回到了原点，因为伦福德观察到的马匹所产生的能量来自它们的食物，而食物的化学能可以通过直接将其燃烧来测量。物理和化学的能量概念在此于生物过程的领域中统一起来，而且尽管总能量必须守恒，但热本身并不守恒。

理解热与机械能之间关系的需求，随着工业革命期间蒸汽动力发展而变得更加紧迫。在发动机中，热部分地转化为功。热力学正是从对蒸汽机锅炉和活塞中热与功相互作用的理论分析中发展出来的。事实上，热力学(thermodynamics)这个词由两部分构成——它关乎的是温度与动力学之间的关系，也就是热、力和运动之间的关系。

10.1.2
理想气体定律
1662 年，罗伯特·玻意耳(Robert Boyle)发表了他关于气体实验的记述。他证明，在固定温度 T 下，一定质量气体的压强 P 和体积 V 成反比，这一结果此后被称为玻意耳定律(Boyle’s law)。七十年后，数学家丹尼尔·伯努利(Daniel Bernouilli)指出，玻意耳定律可以通过假设气体由不断进行无规则运动的小粒子组成，这些粒子持续地彼此碰撞并与容器壁碰撞来加以解释。这一洞见在超过一个世纪的时间中无人跟进，而后它将成为气体动理学理论(kinetic theory of gases)的基石。

引言
305
在动理学理论中，理想气体被模型化为大量的点粒子，当它们彼此分离时不发生相互作用，而发生完全弹性碰撞。这一模型是对许多实际气体在其沸点以上温度下的有效描述。当气体的密度远低于其液相或固相时，该模型效果良好；而在高压下，当分子间力和分子的有限大小变得重要时，该模型便会失效。氦气提供了理想气体的最佳物理实现，但其他由非极性分子构成的气体，如干燥空气中的氮气和氧气，也是很好的例子。相比之下，水蒸气则不符合，因为水分子是极性的，彼此之间有强烈的相互作用。理想气体的物理性质之间满足如下简单关系，该关系是玻意耳(Boyle)定律的推广：
PV = A(T + T0) .
(10.1)
这被称为理想气体状态方程，实际气体在不同精度下近似遵守此式。该定律的一个重要特征是包含了附加常数温度 T0，其值约为 273°C（摄氏度）。这一常数由实验确定，并且发现对于所有能良好近似为理想气体的气体都是相同的。常数 A 与气体的质量成正比，我们稍后将对其数值进行更精确的说明。

实际上，当用汞温度计测量温度时，理想气体状态方程并不被严格满足。这是因为基于液体（如汞）热膨胀的温标并非完全令人满意。基于固体物理性质（如电阻率）的温标同样如此。液体和固体是由大量原子以复杂方式相互作用而形成的材料。它们的物理性质与温度之间的任何线性关系可能在某个温度范围内很好地近似成立，但期望这样的关系完全精确是不现实的。定义温度的一个更好方法是利用理想气体的性质，此时我们可以将方程(10.1)作为温度的定义。

加上常数 T0 的偏移意义重大。它使我们能够将 Tabs = T + T0 定义为绝对温度，并建立起一个从零向上的绝对温标。这就是开尔文温标，以威廉·汤姆孙(William Thomson)的名字命名，他后来被授予开尔文勋爵(Lord Kelvin)爵位。Tabs 以开尔文度为单位，记作 K。在开尔文温标下，水的冰点约为 273.15 K，沸点约为 373.15 K。反过来，−273.15°C 是温度的绝对零度。在该温度下，理想气体将不施加任何压强。换言之，一个有限的压强会将理想气体压缩到零体积。从现在开始，我们将改变符号，始终用 T 表示绝对温度。因此理想气体状态方程变为
PV = AT .
(10.2)
当然，理想气体是一种数学构造。在现实世界中，我们只能通过测量实际物质的性质来确定温度，但我们知道，在足够低的压强下，所有气体都表现得像理想气体。因此我们可以将温度定义如下：
T = 1/A lim_{P → 0} PV .
(10.3)
实验物理学家已经开发出精巧的制冷技术来降低实际物质样品的温度。随着温度越来越接近绝对零度，这一过程变得越来越困难，但

306
热力学
温度趋近绝对零度，且事实证明不可能达到负的绝对温度，甚至连绝对零度本身也无法达到。

10.1.3 热的微观起源
如果一个热的物体比冷的物体包含更多的能量，人们自然会问这些能量是以何种形式存在的。第一个给出令人信服答案的人是亨利·卡文迪许(Henry Cavendish)，他认识到加热固体会加剧构成该固体的粒子的振动。卡文迪许于1810年去世，与他大部分的成果一样，他对这个问题的分析也一直未予发表。然而，到了19世纪中叶，许多研究者也开始持类似观点。麦克斯韦(Maxwell)运用动力学理论，对气体的情况进行了统计上的分析。在理想气体中，粒子间的相互作用被忽略，因此每个粒子的能量仅由其动能 $\frac{1}{2}mv^2$ 组成，其中 $m$ 是粒子的质量，$v$ 是其速率。

麦克斯韦计算出，在室温下，空气中氮分子的平均速率约为 500 m s⁻¹，这比客机的最高速度的两倍还多。显然，空气整体并非以如此高速运动。更确切地说，是内部的分子在快速地但方向随机地运动着，并且它们不断地相互碰撞。动力学理论的成就之一，就是能根据气体组分粒子的速率来预测声音在该气体中的传播速度。¹

10.1.4 冰茶
热量总是从热的物体流向冷的物体，而绝不会从冷的物体流向热的物体，但为什么会这样呢？我们毕生与周遭世界互动的经验告诉我们，如果把冰放入茶中，冰总是会使茶冷却，而绝不会使茶变热。然而，我们从冰箱中取出的冰块含有相当多的热量；例如，它们的温度远比西伯利亚的冬日要高得多。也许这些热量中的一部分可以从冰中释放出来并加入到茶中，从而使茶变热并使冰进一步冷却。虽然这样做会守恒能量，但我们知道这从未发生过。

这一过程的不可能性在19世纪中叶通过引入一个新的量——熵 $S$ 得到了解释。熵的变化等于热量的变化量 $\Delta E$ 除以温度 $T$：
$$\Delta S = \frac{\Delta E}{T}. \tag{10.4}$$
对于给定的热量，高温下的熵变小于低温下的熵变。如果用 $T_h$ 表示高温，$T_l$ 表示低温，那么
$$\frac{\Delta E}{T_h} < \frac{\Delta E}{T_l},$$
所以
$$\Delta S_h < \Delta S_l. \tag{10.5}$$
这意味着当一定量的热量 $\Delta E$ 从热的物体传递到冷的物体时，总熵会增加。如果热量从冷的物体传递到热的物体，那么熵就会减少。我们对这两个过程中的第一个非常熟悉，但第二个过程从未发生过。这一观察结果被概括为以下的表述：

熵与温度
307
在任何允许的过程中，宇宙的总熵必定增加，这一事实最初由19世纪的工程师萨迪·卡诺(Sadi Carnot)在分析蒸汽机时认识到。
通过与能量守恒的比较，可以突出这一概念的目的。如果状态A与状态B具有相同的能量，那么状态A可能演变为状态B，反之亦然。能量守恒定律允许任何一种情况。相比之下，熵只能增加而绝不能减少的定律决定了过程发生的方向。它限制了宇宙演化的可能方式，并以某种方式与时间的流逝及我们对时间方向的感知相关联。然而，熵在引入时，其起源是一个谜。熵总是增加的规则或许提供了一种简洁的方法来判断哪些过程被禁止，但它并没有告诉我们为什么这些过程不被观察到。它们只是被简单地宣布为非法。我们需要找出导致基本热力学量——熵和温度——的微观变量。
如今，熵被认为是热力学中最基本的量。麦克斯韦(Maxwell)证明，我们无需了解每个原子或分子运动的细节，就能从统计上理解热量的总体效应。随机运动的宏观效应由温度的概念捕捉，但热量是一种无序的能量形式，而熵是这种无序性最直接的度量。路德维希·玻尔兹曼(Ludwig Boltzmann)基于经典动力学，将熵解释为由分子的随机速度产生。
然而，经典动力学的精确度是有限的。正如我们所见，当人们试图详细理解分子和原子，或者液体和固体的性质时，就需要量子力学。熵的最简单定义实际上建立在量子态之上。这就是我们接下来要考虑的内容。

10.2 熵与温度
一个简单的热力学系统依赖于两个独立的宏观变量，一个是热学类的，一个是动力学类的。这样的一对变量是温度 ( T ) 和体积 ( V )。其他变量对还包括能量 ( E ) 和压强 ( P )。理论上，最方便的一对是 ( E ) 和 ( V )。此时，( E ) 被称为内能，常记为 ( U )。它与分子不可见的热运动相关，但不包括系统作为一个整体运动时的动能，如果系统恰好处于运动中的话。
热力学变量自然地分为两类，称为强度量和广延量。强度量是系统不依赖于系统大小或物质数量的物理性质。这类变量包括密度、温度和压强。另一方面，广延量是可加的性质，与系统中物质的数量成正比。这类变量包括能量、质量和体积。
我们假设系统由非常大量的分子 ( N ) 组成，处在一个体积为 ( V ) 的容器中。这些分子表现为一个受哈密顿量控制的量子系统，该哈密顿量可能包含描述分子间相互作用的项。每个分子的波函数必须在容器壁处为零，因此在容器外找到粒子的概率为零。这个边界条件意味着能级依赖于 ( V )，但它们在很大程度上并不依赖于容器的形状。
在本节的其余部分，我们将假设体积 ( V ) 是固定的，只考虑改变系统能量所带来的影响。在10.3节，我们将考虑同时改变能量和体积的影响。

308
热力学

单个分子的能级间隔随其能量增加而减小。对于由N个分子组成的系统也是如此，当总能量E增加时，系统的总能级密度以惊人的速度增长。

我们将Ω(E)定义为N粒子系统中能量介于E − ∆E与E之间的独立量子态数目。∆E取非常小的能量，小于实验中可能达到的能量分辨率，但其精确值并不十分重要。粗略地说，Ω就是系统在能量E处的状态数。更精确地有，
Ω(E) = g(E) ∆E , (10.6)
其中g(E)是态密度，即E附近单位能量间隔内的状态数。
在宏观物理系统中，Ω随能量的增长如此之快，以至于我们也可以将Ω(E)定义为能量低于E的量子态数。虽然这听起来颇为不同，但实际上几乎是一样的，因为能量显著低于E的状态数与那些非常接近E的状态数相比，可以忽略不计。这里可以类比高维空间中单位半径球体的表面积。该面积本质上与球体的体积相同，因为几乎所有的体积都非常靠近表面。

统计力学的一个基本假设是：除了能量之外，没有任何东西能显著区分系统的状态。因此，如果系统具有能量E且处于平衡态，那么系统处于该能量下任一可及状态的概率是均等的。于是，所有能量为E的状态均以相同的概率1/Ω(E)出现。这是统计力学的基石。对这一陈述的最好辩护是，它表达了我们对N个粒子微观状态中除总能量之外所有细节的完全无知。因此，除E之外，唯一重要的量就是状态数Ω(E)。这使我们得以把握热系统中无序的概念。

Ω和g都极其巨大；它们指数依赖于N。一个桌面上的系统通常具有超过N = 10²³个分子。任何形如exp cN的数（其中c是一个不大的系数，而N具有如此量级）几乎都难以想象。这种指数依赖性可以这样理解。任何热力学系统都可以视为由接触很弱的子系统构成。例如，一份气体样品可以看作沿一个共同界面接触的两个较小样品。对于相互作用微弱的两个系统，联合系统的量子态可表示为Ψ = Ψ₁Ψ₂，其中Ψ₁遍历系统1可及的所有状态，Ψ₂遍历系统2可及的所有状态。因此，联合系统的状态数为Ω = Ω₁Ω₂。这一乘法规则与Ω指数依赖于粒子数的事实相容，因为如果系统是同类型的，且Ω₁ = exp cN₁，Ω₂ = exp cN₂，其中N₁和N₂分别是两个系统中的粒子数，那么Ω = exp cN，其中N = N₁ + N₂是总粒子数。

我们定义系统的熵S为
S(E) = log Ω(E) , (10.7)
尽管它仍然巨大得难以置信，但已变得更容易处理，因为它大致与N成比例。熵是一个广延的、可加的函数。对式(10.6)取对数，我们²
² 注意，这是针对N粒子系统的，而非如8.2.1节中那样针对单个粒子。

熵与温度
309
我们会发现，实际上 (S(E) = \log \Omega(E) = \log g(E))，因为 (\log \Delta E) 是固定的且不与 (N) 成比例。根据熵的概念，基本假设是：处于能量 (E) 的每个量子态出现的概率为
(\frac{1}{\Omega(E)} = e^{-S(E)})。熵常被描述为无序度的量度。这里所说的无序度，是指系统可及的物理状态数 (\Omega(E)) 的对数，它反映了我们由于对系统微观细节缺乏精确了解而无法区分这些状态的能力。³
熵仅仅是对状态进行计数，它与温度有何关联？让我们考虑两个体积固定但类型未必相同的系统。首先假设这两个系统不接触，它们的能量分别为 (E_1) 和 (E_2)，熵分别为 (S_1(E_1)) 和 (S_2(E_2))。组合系统可及的总状态数是两个系统各自可及状态数的乘积，即 (\Omega = \Omega_1 \Omega_2 = e^{S_1(E_1)} e^{S_2(E_2)})。取对数后，总熵为
[
S = S_1(E_1) + S_2(E_2) .
\tag{10.8}
]
接下来，使两个系统足够靠近以形成热接触，允许能量在它们之间流动，但不至于近到交换粒子的程度。总能量 (E = E_1 + E_2) 守恒，因此我们可以将 (E_2) 写为 (E - E_1)，从而得到
[
S = S_1(E_1) + S_2(E - E_1) .
\tag{10.9}
]
热接触允许 (E_1) 发生变化。
现在，函数 (\Omega = \Omega_1 \Omega_2) 在某个特定的 (E_1) 值处具有一个极高且极窄的极大值。这是因为 (\Omega) 的巨大指数发生微小的分数变化，就会对 (\Omega) 本身产生巨大影响。因此，对于给定的总能量 (E)，组合系统中绝大多数的状态都呈现出以此特定 (E_1) 值进行能量分配的特征。当能量在系统间流动之后，组合系统极有可能占据这些最概然状态之一。在初始的能量流动之后，(E_1) 将不再变化，我们就说此时组合系统已达到平衡。
(S) 在此特定 (E_1) 处同样具有一个极大值，尽管相对于 (\Omega) 而言不那么显著，也不那么尖锐。为了从热力学角度表征这个极大值，我们对 (E_1) 求导。极大值出现在
[
\frac{dS}{dE_1} = \frac{dS_1}{dE_1} + \frac{dS_2}{dE_2} \frac{dE_2}{dE_1} = 0 .
\tag{10.10}
]
由于 (E = E_1 + E_2) 是常数，(\frac{dE_2}{dE_1} = -1)，因此平衡条件为
[
\frac{dS_1}{dE_1} = \frac{dS_2}{dE_2} .
\tag{10.11}
]
这为温度的热力学定义提供了动机。对于任何其熵作为能量函数（在给定体积 (V) 下）为 (S(E)) 的系统，定义该系统的温度 (T) 为
[
\frac{1}{T} = \frac{dS}{dE} .
\tag{10.12}
]
这个温度的定义甚至比基于理想气体状态方程的定义更为基本。一个能量为 (E) 的系统的热力学温度 (T)，简单来说就是

³ 一个处于能量 (E) 的纯量子态本身并不会演化成无序态，但如果该系统与一个外部环境（即热浴）存在弱耦合，那么随着时间的推移，我们可以预期它会变得无序。

310
热力学
是系统态密度决定的S(E)图线斜率的倒数。T是E的函数。所有实际物理系统都具有S随E增加而增大的性质，因此T恒为正。无序度随能量增加。此外，斜率dS/dE随E递减，故温度随能量升高。方程(10.11)反映了两系统在平衡态具有相同温度的事实。这是温度最基本的性质，被称为热力学第零定律(zeroth law of thermodynamics)。
通过方程(10.12)定义的热力学温度T或许显得过于形式化，但它满足了运用温度和熵的现象学概念所发现的关键性质。从此以后我们将统一使用这一温度概念。
考察趋向平衡过程中能量流动的方向颇具深意。将方程(10.8)对时间求导，并注意到dE₂/dt = -dE₁/dt，可得
dS/dt = (dS₁/dE₁)(dE₁/dt) + (dS₂/dE₂)(dE₂/dt)
= (1/T₁ - 1/T₂) dE₁/dt. (10.13)
然而我们已经论证过，在两独立系统合并为单一系统的任何过程中，能量流动会驱动S趋向最大值，因此熵随时间递增：
dS/dt ≥ 0. (10.14)
因此当T₂ > T₁时dE₁/dt为正，此时E₁增加；若T₁ > T₂则dE₁/dt为负，E₁减少。两种情况下能量都从高温系统流向低温系统。这一表述及更普遍的方程(10.14)即热力学第二定律(second law of thermodynamics)。

热力学温标与理想气体温标的一致性并非显而易见。两者之间可能存在相当复杂的函数关系。所幸事实并非如此——正如我们将在第10.6节展示的，运用熵和温度的定义，通过量子力学第一性原理即可推导出理想气体的压强与熵。我们将发现理想气体温度实际上等同于热力学温度。
S无量纲，因此T具有能量量纲。这本是自然之事，但出于历史原因，实用温度以开尔文(K)计量，需借助转换因子k_B(即玻尔兹曼常数(Boltzmann’s constant))将开尔文温度与焦耳能量相关联。我们将取k_B=1，从而直接以能量单位作为温度单位。在原子物理学中，电子伏特eV是实用的能量单位，1 eV约对应10⁴ K。
使用无穷小量处理更为便利，可将方程(10.12)写作
dE = T dS. (10.15)
当系统能量变化与体积变化完全无关时，这部分能量即被视为热量。因此T dS就是无穷小热量。向系统添加热量时，内能增加导致温度上升。使系统产生单位温度变化(体积V固定)所需的热量称为定容热容量，记作C_V。更精确地说，热容量C_V = dE/dT，由方程(10.15)可得关系式
C_V = T dS/dT. (10.16)

热力学第一定律
311
可以通过例如使用电阻电线圈供热来精确测定加入系统的热量。温度的变化也容易确定，因此CV易于测量。利用方程(10.16)并积分，即可计算熵S，公式为
S(T) −S( eT) =
Z T
e
T
CV
T dT ,
(10.17)
其中eT是某个固定的温度。与熵相关的无序度无法直接测量，因此该公式提供了计算系统熵的实用方法。然而，它留下了未定的可加常数S( eT)。不过，根据量子力学可知，任何量子系统都有唯一的最小能量基态。在绝对零度时，这是系统唯一可及的状态，因此Ω= 1，熵S(0) = log Ω= 0，这就固定了常数。这个关于任何系统在绝对零度时熵趋于零的命题被称为热力学第三定律。在积分(10.17)中取eT = 0，得到
S(T) =
Z T
0
CV
T dT ,
(10.18)
这样便可以通过热容测量来实验确定绝对熵⁴，尽管在实践中可能很难测量或估计直至绝对零度的CV。

10.3 热力学第一定律

热力学第一定律是关于热力学中当系统的能量E和体积V都可变时能量与熵的精确陈述。能量E处的状态数为Ω(E, V )，熵为
S(E, V ) = log Ω(E, V ) 。
(10.19)
温度现在通过偏导数定义，
∂S
∂E

V
= 1
T ,
(10.20)
这里我们采用了标准记号，竖线下标表示求偏导数时固定不变的变量。（在此情形中体积V是固定的。）由于S总是随E增加，可以将E视为两个独立变量S和V的函数。

当气体（或液体）体积增大时，会对周围介质做功，结果气体的部分内能会损失。假设外部压力略小于内部压力，因此膨胀是稳定而非爆炸性的；这样系统在膨胀时保持平衡。进一步假设系统膨胀时没有热量进入或离开。这样的膨胀称为绝热过程，而

⁴还有来自温度T以下相变时潜热的额外贡献。

312
热力学

活塞初始位置
活塞最终位置
面积 A
∆x
∆V = A∆x
图 10.1 活塞。
这种膨胀的一个好例子是，一团空气被风卷起并越过山顶。气压随高度略有下降，因此这团空气膨胀、损失能量并冷却，但在此过程中，它基本上不与周围空气发生热量传递。

压强 P 是气体施加在容器壁或周围气体区域（即使没有分隔壁时）上单位面积的力。气体膨胀时所做的无穷小功为 P dV，其中 dV 是体积的无穷小增量。这是因为 dV 等于面积乘以移动的距离，如图 10.1 所示，所以 P dV 等于压强乘以面积再乘以距离。这又等于力乘以距离，即力所做的功。

在一个不涉及热量的过程中，所做的功必定来自气体的内能 E，因此
dE = −P dV . (10.21)

一个一般的热力学过程同时涉及热量和功，因此系统能量变化的普遍公式为
dE = T dS − P dV . (10.22)
这就是热力学第一定律。

热力学第一定律结合了两个陈述：在 V 固定时，T 是 E 关于 S 的导数；在 S 固定时，−P 是 E 关于 V 的导数。更确切地说，T 和 P 是以下偏导数：
T = ∂E/∂S |_V , P = −∂E/∂V |_S , (10.23)
并且两者同时是 S 和 V 的函数。两个通过薄的可移动隔板接触的系统，只有当它们具有相同的温度和压强时才处于平衡。

方程 (10.23) 有一个有趣的数学推论。混合二阶偏导数总是对称的，特别地，
∂²E/∂V∂S = ∂²E/∂S∂V 。因此，
∂T/∂V |_S = −∂P/∂S |_V . (10.24)

热力学第一定律
313

能量
图 10.2 能级的绝热变化。
这就是麦克斯韦关系（Maxwell relation）的一个例子。

我们将绝热变化定义为不涉及热量的变化。这种变化满足 dS = 0，因此 S 是常数。然而，根据我们的定义，S 是系统可用状态数的对数。这些思想是否一致？答案是肯定的。当气体膨胀时，体积增加，量子能级发生变化。通常，随着体积增加，能级会降低，但量子能级的数量不变，因此 S 保持恒定。能级的流动如图 10.2 所示。随着气体膨胀，初始能量附近众多可用的能级一起移动，变成靠近最终较低能量的相同数量的可用能级。如果系统占据其中一个能级，那么，随着能级的变化，系统将连续地跟随这个能级向下移动，因为在不加热以激发系统的情况下，量子系统在平稳缓慢的变化中不会发生跳跃。因此，熵不会改变。

10.3.1 新变量
我们强调过，一个简单的热力学系统由两个独立变量控制，一个是热学变量，一个是动力学变量。在热力学第一定律 (10.22) 中，独立变量被取为 S 和 V，但还有其他多种选择。一种方便的选择是，将容易测量的温度 T 和体积 V 作为独立变量。如方程 (10.20) 所示，T 与 S 的导数有关，因此这种变量变换需要小心处理。标准步骤是定义一个新的能量函数 F，即亥姆霍兹自由能（Helmholtz free energy，简称自由能），以赫尔曼·冯·亥姆霍兹（Hermann von Helmholtz）的名字命名。自由能是
F = E − TS (10.25)
它是 S 和 V 的函数，但可以通过将 E 和 S 用 T 和 V 表示，将其转换为 T 和 V 的函数。F 的无穷小变化为
dF = dE − T dS − S dT
= T dS − P dV − T dS − S dT
= −S dT − P dV , (10.26)

314
热力学
这里我们使用了莱布尼茨法则 d(TS) = T dS + S dT，然后利用热力学第一定律(10.22)替换了 dE。最终的表达式在形式上与第一定律相似，只是用 F 代替了 E。注意到在这个表达式中，只出现了新自变量 dT 和 dV 的无穷小变化。因此，将自由能视为函数 F(T, V )，我们看到
S = −∂F
∂T

V
,
P = −∂F
∂V

T
,
(10.27)
并且由此得出一个新的麦克斯韦关系 ∂S
∂V

T = ∂P
∂T

V。
P dV 是系统膨胀时所做的功。这等于系统在 dT = 0 时膨胀所减少的自由能，因此自由能是在温度保持恒定情况下可用于做功的能量。当然，在系统膨胀时要保持其温度不变，必须供给一些热量。自由能 F 是一个有用的概念，因为正如我们将看到的，它可以通过一种与将 TS 从 E 中减去并更换变量截然不同的方式计算出来。
另一个有用的自变量选择是 S 和 P。同样，定义一个修改过的能量函数是方便的。这就是焓 H，定义为
H = E + PV .
(10.28)
H 的一个无穷小变化是
dH

T dS −P dV + P dV + V dP

T dS + V dP ,
(10.29)
所以当 H 被视为 S 和 P 的函数时，有
T = ∂H
∂S

P
,
V = ∂H
∂P

S
.
(10.30)
在压力恒定的情况下，焓 H 是最有用的热力学能量函数。例如，它适用于处于正常大气压影响下的气体和液体。因此，H 对于化学家特别有意义，因为无论是在实验室还是在工业中，大多数化学反应都是在常压系统中进行的。
T dS 一如既往是热量，因此在恒定压力下，将系统温度升高一个单位所需的热量为
CP = T ∂S
∂T

P
= ∂H
∂T

P
.
(10.31)
CP 是恒压热容。
最后一个修改的能量函数是吉布斯自由能(Gibbs free energy) G，以乔赛亚·威拉德·吉布斯(Josiah Willard Gibbs)命名。（有时也称为吉布斯势，用 Φ 表示）。它结合了

子系统——吉布斯分布
315
从 E 到 F 以及从 E 到 H 的变换。吉布斯自由能定义为
G = E −TS + PV .
(10.32)
利用热力学第一定律和莱布尼茨法则，可求得
dG = −S dT + V dP .
(10.33)
因此 G 很自然地被视为强度变量 T 和 P 的函数，这两个变量都不依赖于系统的大小，并且
S = −∂G
∂T

P
,
V = ∂G
∂P

T
.
(10.34)
G 本身（如同 E、F 和 H）是广延量，意味着它与系统中的分子数 N 成正比。因此 G 可以表示为
G(T, P, N) = N eG(T, P)
(10.35)
其中 eG(T, P) 是每个分子的吉布斯自由能。^5
我们稍后将看到，eG 正是该热力学系统的化学势。每当粒子数可变时，例如在化学反应以及相变分析中，这是一个很有用的概念。

10.4 子系统——吉布斯分布
到目前为止，我们考虑的是一个具有给定能量 E 的宏观系统。熵 S 是该能量下可用量子态数的对数，并且假设在平衡时每个态被占据的概率相等。当系统与另一系统热接触时，能量可以在两系统之间传递，但一旦复合系统达到新的平衡且温度相等，能量的进一步涨落就可忽略不计。

现在我们来考虑初始系统的一个子系统，并假设整个系统已达到平衡。如果子系统是宏观的——例如，初始系统的 1%——那么该子系统将具有确定的能量，涨落可忽略不计。事实上，它的能量和熵将是总量的 1%，且子系统的温度与整个系统的温度相同。如果子系统是微观的，情况会更有趣。

微观子系统的一个例子是气体中的单个原子或分子，或是气体中的杂质粒子。由于子系统与系统的其余部分接触，它会通过与其余部分的碰撞来交换能量，因此它的能量会变化。在任何特定时刻，我们对子系统状态的不完全了解意味着，我们能期望的最佳描述是子系统各态被占据的概率。当系统处于平衡时，即使子系统自身的能量可以涨落，这个概率分布也不会改变。

^5 对 E 来说，类似关系式会是更复杂的表达式，E = N e E(S/N, V/N)。

316
热力学
让我们用一个整数 n 来标记子系统的独立量子态，并用 En 表示第 n 个态的能量。其中一些态在能量上可能是简并的。通常 n 从 0 取到 ∞，不过对于某些自旋系统，范围是有限的。
现在我们要确定子系统处于第 n 个态的概率。这个概率取决于 En 以及系统其余部分的温度 T。假设整个系统是孤立的，并且具有能量 E(0)。根据能量守恒，E(0) 是常数。如果子系统具有能量 En，那么系统其余部分的能量就是 E(0) − En。En 仅是 E(0) 的微观份额，但由于宏观系统的状态数量如此庞大，并且对能量极为敏感，我们必须把这个能量移动考虑进去。系统其余部分可以被视为一个热浴 (heat bath)，当子系统具有能量 En 时，它的熵为 S(E(0) − En)。因为 En 很小，我们可以使用一阶泰勒展开 (Taylor expansion)：
S(E(0) − En) ≃ S(E(0)) − En dS/dE (10.36)
= S(E(0)) − En/T , (10.37)
其中热浴的温度 T 是在能量 E(0) 处求值的。因此，热浴可用的状态数目为
e^{S(E(0)−En)} = e^{S(E(0))} e^{-En/T}. (10.38)
既然子系统处于一个确定的状态（第 n 个态），这也正是整个系统的状态数目。
现在再回到整个系统，但不固定子系统的状态。整个系统所有可用的状态都是等概率的，而 e^{S(E(0))} 是一个常数，所以子系统处于第 n 个态的相对概率就简单地正比于子系统处于这个态时可用的状态数目。这个概率是
P(En) ∝ e^{-En/T}, (10.39)
这被称为吉布斯分布 (Gibbs distribution)，不过路德维希·玻尔兹曼 (Ludwig Boltzmann) 在一个更受限的背景下也知道了这个分布。
比例常数必须确定，以使总概率为 1。因此，我们定义一个量 Z，称为吉布斯和 (Gibbs sum) 或配分函数 (partition function)：
Z = ∑_{n=0}^{∞} e^{-En/T}. (10.40)
当子系统是一个温度为 T 的系统的一部分时，它处于能量为 En 的特定状态的正确定归一化概率就是
P(En) = (1/Z) e^{-En/T}. (10.41)
配分函数是一个非常有用的量，值得重视。
需要着重指出，尽管子系统必须与热浴有热接触，但这种接触应当足够弱，以便子系统的能级 En 不致受到显著扰动。

子系统——吉布斯分布

不受接触的影响。换句话说，热浴的唯一作用是确定温度 $T$。如果子系统耦合更强，例如固体中的单个原子，那么它就不能被孤立出来单独考虑。

我们可以对吉布斯分布做一致性检验。一个宏观子系统的行为应该与它被孤立并自身构成一个完整系统时的行为相同。设其能量为 $E$。这样一个宏观子系统具有配分函数，其中求和 (10.40) 可以用积分代替：
$$
Z = \int_{E_{\text{min}}}^{\infty} g(E) e^{-E/T} dE .
\tag{10.42}
$$
$g(E)$ 是态密度，这对宏观子系统是有意义的。将 $g$ 用子系统的熵来表示，可得：
$$
Z = \int_{E_{\text{min}}}^{\infty} e^{S(E) - E/T} dE .
\tag{10.43}
$$
指数部分对 $E$ 有一个极大值，满足
$$
\frac{dS(E)}{dE} - \frac{1}{T} = 0 ,
\tag{10.44}
$$
这便将 $E$ 与温度 $T$ 按我们对任何热力学系统所期望的方式联系了起来。$Z$ 本身完全由该极大值紧邻区域对积分的贡献所主导，因此 $Z$ 可近似为
$$
Z = e^{S(E) - E/T} ,
\tag{10.45}
$$
其中 $S$、$E$ 和 $T$ 由方程 (10.44) 关联。取对数得到
$$
-T \log Z = E - T S(E) ,
\tag{10.46}
$$
而右边正是温度为 $T$ 的宏观系统自由能 $F$ 的定义，所以
$$
F = -T \log Z ,
\tag{10.47}
$$
或等价地，$Z = e^{-F/T}$。因此，与温度为 $T$ 的热浴接触的宏观系统的归一化吉布斯分布 (10.41) 为
$$
P(E) = e^{(F - E)/T} .
\tag{10.48}
$$
这便是系统处于能量为 $E$ 的某个特定微观状态的概率。

事实上，压倒性的概率是发现系统的能量等于热力学平衡值 $E$。对于这个能量，有 $F = E - TS$。因此概率 (10.48) 变为
$$
P(E) = e^{(E - TS - E)/T} = e^{-S} .
\tag{10.49}
$$
然而，由于能量为 $E$ 的状态有 $e^{S(E)}$ 个，某个特定状态被占据的概率确实应为 $e^{-S(E)}$。这样就完成了一致性检验。

对一个与热浴接触的宏观系统，偏离热力学平衡能量 (E) 的涨落是可能发生的，但显著的涨落概率可以忽略。在较低能量时，涨落受熵因子的抑制；在较高能量时则受能量因子的抑制。通过对这些能量涨落进行更精确的分析，可以估算其大小，结果发现它们取决于系统的热容。结论是：热力学温度为 (T) 的宏观系统，无论是否与热浴接触，都具有相同的热力学性质。

方程 (10.47) 表明了配分函数 (Z = \sum_n e^{-E_n/T}) 的用处。它提供了一条最直接的途径，从了解宏观系统的量子态出发，得到该系统的热力学性质。自由能 (F = -T \log Z) 是 (T) 和 (V) 的函数，因为能量 (E_n) 依赖于体积 (V)。根据方程 (10.27)，(-F) 对 (V) 的导数就是压强 (P)，而用 (T) 和 (V) 表示 (P) 的表达式称为状态方程。(-F) 对 (T) 的导数是熵 (S)，再通过方程 (10.16)，(S) 对 (T) 的导数决定了热容 (C_V)。对于一个由 (N) 个近似无相互作用的子系统组成的系统，例如 (N) 个原子或分子组成的稀薄气体，配分函数是相当容易计算的，我们将在第 10.6 节中看到这一点。

10.5 麦克斯韦速度分布

麦克斯韦(Maxwell)在推导出温度为 (T) 的理想气体中粒子速度的概率分布时，展示了统计力学的重要性。沿用麦克斯韦的思路，我们可以认为宏观容器中的分子在很好的近似下表现为经典行为。在这个极限下，量子力学预言的离散动量变为准连续的，通常的经典动能公式对每个分子都有效：
[
\varepsilon = \frac{1}{2m}(p_x^2 + p_y^2 + p_z^2) = \frac{1}{2}m(v_x^2 + v_y^2 + v_z^2) \tag{10.50}
]
其中 (\mathbf{v} = (v_x, v_y, v_z)) 是分子的速度，(m) 是其质量。势能取决于容器中分子间的相对位置，但这部分可以分离出来。如果分子间力是吸引力，分子倾向于轻微聚集在一起；如果是排斥力，分子则倾向于均匀散开，但分子的速度不受其空间排列的影响，最重要的是，每个分子的速度可以独立处理。

因此，每个分子速度的概率密度为
[
P(v_x, v_y, v_z) \propto e^{-\frac{m(v_x^2+v_y^2+v_z^2)}{2T}}. \tag{10.51}
]
这就是麦克斯韦分布，它是吉布斯(Gibbs)分布的特殊情况，适用于可用状态正好对应每个分子可能的动能范围的情形。正确归一化的概率密度为
[
P(v_x, v_y, v_z) = \left( \frac{m}{2\pi T} \right)^{\frac{3}{2}} e^{-\frac{m(v_x^2+v_y^2+v_z^2)}{2T}}, \tag{10.52}
]
满足 (I = \int P(v_x, v_y, v_z) , dv_x dv_y dv_z = 1)，这由高斯积分 (1.64) (\int_{-\infty}^{\infty} e^{-au^2} du = \left( \frac{\pi}{a} \right)^{\frac{1}{2}}) 可得。

麦克斯韦速度分布
319
0
0
3
2
5
2
7
2
T
CV
Trot
Tvib
图10.3 在低温下，双原子气体每分子的热容 (C_V) 等于 (\frac{3}{2})。在较高温度下，分子可能被激发到转动状态，热容相应增加。在更高温度下，分子还会被激发到振动状态。

图10.3

运动方向均等可能，因此分子速率 (v) 的分布比速度分布更有意义。由 (v^2 = v_x^2 + v_y^2 + v_z^2)，该概率分布为
[
P(v) = \left( \frac{m}{2\pi T} \right)^{\frac{3}{2}} 4\pi v^2 e^{-\frac{mv^2}{2T}},
\tag{10.53}
]
平均速率和分布的方差很容易求出。特别是，每个分子的平均动能为
[
\langle K \rangle = \left( \frac{m}{2\pi T} \right)^{\frac{3}{2}} \int_0^\infty \left( \frac{1}{2}mv^2 \right) 4\pi v^2 e^{-\frac{mv^2}{2T}} dv = \frac{3}{2}T,
\tag{10.54}
]
此结果由高斯积分 (1.66) 得出。

气体中 (N) 个分子的总动能为 (N\langle K \rangle = \frac{3}{2}NT)，如果气体由无相互作用、无结构的原子组成，这就是总能量 (E)。此时热容为
[
C_V = \frac{dE}{dT} = \frac{3}{2}N.
\tag{10.55}
]
测量热容是直接的，这为确定气体样品中原子数目提供了一种方法。历史上，这是建立物质原子图像的重要一步。

对于大多数实际气体，总能量还包括另外两种贡献。首先，如果气体不够稀薄，分子间的距离与分子间力的作用范围相当，……

320
热力学
分子间势能，大致为分子尺寸的量级，则必须计入势能。其次，分子的内部结构也可能有贡献，此时就会有与分子转动和振动运动相关的能量。（如果这些能量中的任何一种非常大，分子就会分解为原子，但这只发生在极高的温度下。）必须像方程(10.40)那样计算吉布斯求和，以求出每个分子的配分函数，而这要求对分子的量子态有相当多的了解。然而，在低温下，无结构分子或原子的理想图像成立。随着温度的升高，修正随之而来，首先是最低能量激发态的贡献。通常，分子的转动态能量最低，振动态能量较高，而原子内的电子激发能量更高。随着这些不同的量子态被占据，分子气体的热容随温度升高而增加，如图10.3所示。

图10.3

10.6 理想气体——状态方程与熵
我们可以利用在8.2.1节提到的相空间中的态密度，计算理想气体的更多性质。单个无结构分子的配分函数z为
z =
∫ e^{-(p_x^2 + p_y^2 + p_z^2)/(2mT)} (d^3x d^3p)/(2πℏ)^3 。
(10.56)
在经典极限下，这个对分子位置和动量坐标的积分，每个空间维度带有一个归一化因子2πℏ，替代了对量子态的求和。指数部分是当只有动能ε有贡献时−ε/T的经典表达式。空间积分给出体积V，动量积分是高斯型的。计算这些积分得到
z = V/(2πℏ)^3 (2πmT)^{3/2} = V ( mT/(2πℏ^2) )^{3/2} 。
(10.57)
对于N个分子，总配分函数为
Z = (1/N!) z^N 。
(10.58)
因子z^N正确地计入了总能量，因为各个分子能量之和为E = ε_1 + ε_2 + ··· + ε_N，而积分遍历所有分子的位置和动量。组合因子N!补偿了对物理上不可区分的态的重复计数。根据量子力学，全同粒子无法被标记，因此分子的排列没有物理效应，如8.7节所讨论的。（这对费米子和玻色子都成立。）

我们感兴趣的是自由能F = −T log Z，而不是Z本身。代入方程(10.58)，我们得到
F = −T log( (1/N!) z^N ) = −T( N log z − log N! ) 。
(10.59)

理想气体——状态方程与熵
321
现在，著名的关于 N! 的斯特林(Stirling)近似派上了用场：
N! ≃(2πN)
1
2 N Ne−N ,
(10.60)
而对于统计力学来说，一个足够好的近似是
log N! ≃N log N −N .
(10.61)
（下一项正比于 log N，当 N 的数量级为 10²³ 时可以忽略。）利用这个近似并提取出共同的因子 N，得到
F = −NT(log z + 1 −log N) = −NT log
ze
N

,
(10.62)
其中 e = 2.718 … 是欧拉(Euler)常数，即自然对数的底。代入方程 (10.57) 中的 z，我们发现在体积 V、温度 T 下，由 N 个分子组成的理想气体的自由能为
F = −NT log

V e
N
mT
2π¯h2
3
2 !
.
(10.63)
将其分为依赖于分子数密度 N/V 的项和仅依赖于温度的项，得到
F = −NT log
V e
N

−3
2NT log
mT
2π¯h2

.
(10.64)
自由能是广延量，因为它正比于 N，并且 F/N 仅依赖于强度量 N/V 和 T。如果没有 N! 因子的贡献，情况就不会如此。
现在我们可以计算压强 P 和熵 S。压强为
P = −∂F
∂V

T
= NT
V
.
(10.65)
这就是理想气体的状态方程。它就是理想气体定律 PV = NT，因此方程 (10.2) 中的常数 A 就简单地等于分子数 N。（如果包含玻尔兹曼(Boltzmann)常数，或者将分子数替换为气体的摩尔数，其形式会略有不同。）我们从第一性原理推导出了这个方程，这意味着我们相当抽象的温度定义 (10.12) 与方程 (10.3) 中定义的理想气体温标是一致的。
类似地，熵为
S = −∂F
∂T

V
= N log
V e
N

3
2N log
mT
2π¯h2
3
2N .
(10.66)
同样，这是一个广延量，但对温度和密度有着相当复杂的依赖关系。这个 S 的表达式仅在高温下有效，因为它依赖于……

322
热力学
这是对配分函数的经典估计。它不满足热力学第三定律：当 (T = 0) 时 (S = 0)。热容的表达式更简单，为
[
C_V = T \frac{\partial S}{\partial T}\bigg|_V = \frac{3}{2}N , \tag{10.67}
]
正如我们之前所得到的。其他有用的量，如能量、焓以及定压热容 (C_P)，都可以轻松计算。

如果分子或原子具有内部结构，但气体仍保持稀薄，那么自由能的第二项对温度的依赖关系会有所不同，因为它源自方程 (10.56) 中的指数，其中会包含额外的项，因此气体的熵和热容会不同。然而，取决于体积的第一项保持不变，因而状态方程仍为 (PV = NT)。两个处于力学平衡和热平衡（即压强和温度相同）且体积相等的理想气体样品，因此含有相同数量的分子，正如阿梅代奥·阿伏伽德罗 (Amedeo Avogadro) 在 19 世纪初首先认识到的那样。通过称量这两个气体样品，可以求出它们分子量的比值。这使得化学家能够确定诸如 O₂、H₂O 和 CO₂ 等简单分子的原子结构。

10.7 非理想气体
分子间相互作用通常比原子间相互作用更为复杂，因此我们现在考虑单原子气体，例如稀有气体，其分子就是单个原子。即使单原子气体也会以多种方式偏离理想行为。随着密度的增加，两个原子靠得很近的几率上升，相互作用势能⁶ 的影响变得更大。在高密度和低温下，原子是费米子还是玻色子也变得重要起来。之前我们考虑了能量为 (\varepsilon) 的单原子态，并假设气体的 (N) 个原子独立地占据这些态。这在高温和低密度下是合理的，因为某个特定态被单个原子占据的概率远小于 1。在这种情况下，费米子和玻色子的行为相似。然而，在低温下，吉布斯分布告诉我们，低能态被占据的概率远大于高能态。最多只有一个费米子原子可以占据一个单原子态，而任意数量的玻色子原子可以占据这样一个态，因此现在组合因子不再是简单的常数 (N!)。无论哪种情况，原子之间都存在一种有效的相互作用，因此吉布斯分布被修改，这影响了气体的热力学性质。

对于接近理想的气体，有一种系统的方法来写状态方程，即按数密度 (N/V) 进行展开。这被称为维里展开 (virial expansion)，其形式为
[
P = \frac{NT}{V} \left( 1 + \frac{N B(T)}{V} + \frac{N^2 C(T)}{V^2} + \cdots \right) . \tag{10.68}
]
首项当然给出了理想气体定律。(B(T)) 和 (C(T)) 分别称为第二和第三维里系数 (virial coefficients)。对于经典气体，(B(T)) 可以计算为一个积分，涉及……

⁶ 稀有气体原子之间存在非常弱的范德瓦尔斯力，这是由于原子中电子场的涨落产生的电偶极子所致。

化学势
323
只依赖于一对原子的相互作用势，但通常它对温度的依赖关系并不特别简单。最简单的非理想气体可以模拟为硬球原子气体，每个原子直径为l，因此原子中心不能彼此靠近到小于l的距离。这代表了原子之间的短程硬排斥。由于原子自身占据空间导致体积减小，其压强大于理想气体。对于硬球气体，人们发现第二维里系数与温度无关，等于(\frac{2}{3}\pi l^3)。即使对于硬球气体，(C(T))也更难计算，因为它与三原子相互作用有关。
对于费米子或玻色子气体，即使没有相互作用势因而原子之间没有吸引力或排斥力，维里系数也不为零。人们发现
[
B(T) = \pm \frac{1}{2g}\left(\frac{\pi \hbar^2}{mT}\right)^{\frac{3}{2}} .
]
(10.69)
这里上面的符号对应费米子，下面的符号对应玻色子。g是原子独立自旋态的数目，对于自旋为0的玻色子为1，对于自旋为(\frac{1}{2})的费米子为2。由于泡利(Pauli)不相容原理，费米子的压强高于经典理想气体的压强。对于玻色子则较低。
我们一直在讨论的效应发生在中等密度下，但在高密度下，真实气体通常会液化，至少在足够低的温度下是如此。这种不连续行为是一种相变，理论上更难理解。我们将在10.13节中讨论一些有关相变的内容。

10.8 化学势
一个系统的化学势(\mu)，在10.3.1节末尾提到过，是一个与系统粒子数N的变化相关的强度量。在许多情况下，化学势起着重要作用。这些包括化学反应，其中各种化学物质的分子数目可能改变。当考虑气体系统的子体积时，化学势也很有用，因为粒子可以进入或离开。第三个例子是相变，其中粒子从一相转变为另一相。
(\mu)与N的关系颇为类似于T与E的关系。回想一下，孤立系统具有固定的能量E，而温度T是通过熵间接定义的。然而，我们也可以考虑一个与热浴接触而保持固定温度T的系统，此时能量E会调整到给定的温度。类似地，孤立系统通常具有固定的粒子数N，但往往很有用的是，考虑系统通过多孔膜与一个具有固定化学势(\mu)的粒子浴接触，然后N会调整，直到达到这个给定的(\mu)值。
正如我们曾证明两个热接触的系统在温度相等时达到平衡且熵最大一样，可以证明两个自由交换粒子的系统将达到化学势相等的平衡态。现在让我们更精确地定义化学势。

324
热力学
如果我们允许宏观系统的粒子数变化，那么能量是熵、体积和粒子数的函数，E(S, V, N)。于是化学势为
µ = (∂E/∂N){S,V},
(10.70)
这是一个熵 S 和体积 V 均固定的偏导数，并且第一定律推广为
dE = T dS − P dV + µ dN.
(10.71)
项 µ dN 必须包含在所有能量函数中，包括吉布斯自由能 G，因此
dG = −S dT + V dP + µ dN
(10.72)
且 µ = (∂G/∂N){T,P}。然而，回忆 G(T, P, N) = N \tilde{G}(T, P)，其中 \tilde{G}(T, P) 是每粒子的吉布斯自由能，因此 (∂G/∂N)_{T,P} = \tilde{G}(T, P)。所以系统的化学势并非一个全新的量，而是等于每粒子的吉布斯自由能。总的吉布斯自由能为 G = µN。

现在考虑一个系统（不一定是宏观的）与一个远大于它的热与粒子库相接触，组合系统的总能量和总粒子数具有恒定值 E^{(0)} 和 N^{(0)}。我们关心的是发现该系统处于某个特定量子态的概率，该量子态下系统具有能量 E 并包含 N 个粒子。对于这样一个微观态，库将具有能量 E^{(0)} − E 和粒子数 N^{(0)} − N。与吉布斯分布的推导类似，我们可以对库的熵 S 做线性近似，
S(E^{(0)} − E, N^{(0)} − N) = S(E^{(0)}, N^{(0)}) − E/T + µN/T,
(10.73)
这里我们假设体积固定，并使用了第一定律的形式 dS = dE/T − µ dN/T。因此，组合系统可及的态数为
e^{S(E^{(0)}−E, N^{(0)}−N)} = e^{S(E^{(0)}, N^{(0)})} e^{(\mu N − E)/T},
(10.74)
而系统占据该微观态的概率为
P(E, N) = \frac{1}{Z_G} e^{(\mu N − E)/T}.
(10.75)
这是吉布斯分布在考虑粒子数可变情形下的对应形式。归一化因子 Z_G 确保总概率之和为 1，称为巨配分函数。概率分布 (10.75) 根据 T 和 µ 决定了 E 和 N 的平均值。对于宏观系统，这些平均值就是热力学值。

10.9 低温下的费米子气体和玻色子气体
当温度接近绝对零度时，费米子或玻色子气体表现出引人注目的性质。特别是玻色子，可以发生一种称为玻色–爱因斯坦凝聚的相变。

低温下的费米子与玻色子气体
325
我们假设气体由 N 个全同粒子组成，它们可以是费米子也可以是玻色子，盛放在体积为 V 的盒子中，且彼此之间没有直接相互作用。唯一的相互作用来自全同粒子多粒子波函数的量子性质。没有直接相互作用意味着我们可以处理每个单独粒子的能级，而由于盒子是宏观的，单粒子态具有准连续的能谱 ε。
如果粒子是费米子，一个单粒子态只能有 0 或 1 的占据数；如果是玻色子，则可以是 0 或任意正整数。在此情况下，化学势很有用，因为它避免了复杂的组合计算。我们可以将一个能量为 ε 的单粒子态视为一个与其余气体构成的热源和粒子源相接触的系统，该热源温度为 T，化学势为 µ。该态的占据数是可变的，当占据数为 n 时，系统的能量为 εn = nε，因此 µn − εn = n(µ − ε)。
根据分布 (10.75)，令 N = n, E = nε，则能量为 ε 的单粒子态占据数为 n 的归一化概率为
P(n) = 1/z e^{n(µ−ε)/T} , (10.76)
其中 z = Σ_n e^{n(µ−ε)/T}。对于费米子，n = 0, 1，因此求和中仅有两项；对于玻色子，n = 0, 1, 2, …，因此求和是一个无穷几何级数，只要 µ < ε 便收敛且容易求和。这些单粒子配分函数为
z_F = 1 + e^{(µ−ε)/T} (费米子) , (10.77)
z_B = 1 / (1 − e^{(µ−ε)/T}) (玻色子) . (10.78)
10.9.1 费米–狄拉克函数
比这些概率分布更重要的是作为 ε 函数的平均占据数，
n(ε) = 1/z Σ_n n e^{n(µ−ε)/T} . (10.79)
对于费米子，z = z_F，n 取值为 0 和 1，故平均值为
n(ε) = e^{(µ−ε)/T} / (1 + e^{(µ−ε)/T}) = 1 / (e^{(ε−µ)/T} + 1) ≡ n_F(ε) . (10.80)
n_F(ε) 称为费米–狄拉克函数。图 10.4 给出了它在不同温度下的图像。对于能量 ε 小于 µ 的态，分母中的指数项很小，故平均占据数接近于 1；而对于能量大于 µ 的态，指数项很大，平均占据数接近于 0。由于指数与 1/T 成正比，这种过渡在低温下很陡峭，在高温下则比较平缓。零温极限情形是简并费米气体，此时所有低于 µ 的态都被占据，所有高于它的态都空着。此时 µ 是最高占据态的能量，即费米能 ε_F。在有限温度下，占据数在 ε_F 处的尖锐间断被展宽了。

图 10.4

326
热力学
0
–2
T = 0.1
T = 0.5
T = 1.0
–4
–6
–8
0
0.2
0.4
0.6
0.8
nF
1
2
4
6
8
ε –µ
图10.4 费米-狄拉克(Fermi–Dirac)分布函数。

图10.4

假设盒中单粒子态的密度为g(ε)，可能的能量从最小值εmin向上延伸。那么总粒子数N等于平均费米子占据数nF(ε)在整个可用能量范围内对态密度加权的积分，
N =
Z ∞
εmin
g(ε)
e
ε−µ
T

1
dε .
(10.81)
这给出了N作为µ和T的函数。通过反演这个表达式，可以确定µ作为N和T的函数。气体的总能量可由一个类似的积分得到，在被积函数中多一个因子ε。
对于T = 0时的简并费米气体，所有状态直到费米能量εF都被占据，因此µ = εF，且εF与N的关系为
N =
Z εF
εmin
g(ε) dε .
(10.82)
对于很小的T，µ与εF仅有微小差别，这个差别取决于靠近εF处的态密度g(ε)。
10.9.2
简并电子气体的压强
考虑体积为V的盒子中的N个电子。假设它们的电荷被背景离子的正电荷所屏蔽，因此电子可以被视为无相互作用。设温度很低，电子表现为简并费米气体。电子的动能从0向上延伸，态密度为
g(ε) =
V
2π2
(
2m
¯h2
)
3/2
ε
1/2 .
低于费米能量εF的所有状态都被占据，高于它的所有状态都空着。在8.7.1节中我们计算了简并电子气体的费米能量，也计算了N个电子的总能量，得到
E = 3(3π2)
2/3
5
¯h2
2m
(
N
V
)
2/3
N .
(10.83)

低温下的费米子和玻色子气体
327
简并电子气的态是N个电子能量最低的态，因此它是零温态。由于该态是唯一的，熵为零。
现在假设体积V变化。熵S保持为零，因此TdS为零，热力学第一定律简化为dE = −PdV。因此，简并电子气的压强为
P = −dE
dV = 2(3π2)
2
3
5
¯h2
2m
N
V
5
3
.
(10.84)
这种可观的压强，与密度的5/3次幂成正比，是泡利(Pauli)不相容原理的结果。它被称为电子简并压。状态方程为PV = NT的经典理想气体在零温时压强为零，但不相容原理要求几乎所有电子即使在零温下也具有正的动能，并且当体积减小时总能量增加，从而产生压强。这种压强在白矮星的演化中起着至关重要的作用，我们将在第13.7.1节中看到。
10.9.3
电子气的热容
在德鲁德(Drude)理论中，金属中的电子被视为经典的自由粒子气体。尽管这个早期理论取得了一些成功，但其关于电子对金属热容贡献的预测却缺乏实验支持。如果电子真的表现为经典的无相互作用粒子，我们会预期其能谱与第10.5节中讨论的理想气体的能谱相同。对于Ne个电子，热容将为3
2Ne，正如理想气体的方程(10.55)所给出的。在正常室温下，这超过了测量值的100倍。
要精确计算热容，必须使用量子理论。电子是费米子，因此量子态的平均占据数由费米-狄拉克(Fermi–Dirac)函数(10.80)给出。金属中的电子数密度很高，因此电子的费米能量εF远大于室温T。费米-狄拉克函数从1到0的跃变发生在εF附近约为T量级的相对较窄的能量范围内，因此热激发只影响一小部分电子——那些能量接近εF的电子。
我们现在将在远低于εF的温度下计算电子热容。电子费米气体的热力学能量为
Ee =
Z ∞
εmin
εg(ε)nF(ε) dε ,
(10.85)
其中g(ε)是态密度，nF(ε)是费米-狄拉克函数。态密度不依赖于温度，但nF依赖于温度，因此热容为
Ce = dEe
dT =
Z ∞
εmin
εg(ε)∂nF
∂T dε .
(10.86)
在低温下，化学势µ近似为εF，其温度依赖性可以忽略。令x = ε−εF
T
。费米-狄拉克函数则为
nF(x) =
1
ex + 1
.
(10.87)

328
热力学
其对温度 T 的导数为
∂nF
∂T = dnF
dx
∂x
∂T =
ex
(ex + 1)2
ε −εF
T 2
= 1
T
xex
(ex + 1)2 .
(10.88)
最后一个量可以重新表示为
1
T
x
(e
1
2 x + e−1
2 x)2 ,
(10.89)
这是一个关于 x 的奇函数，集中在 x = 0 附近，即集中在 ε = εF 附近。因此在积分 (10.86) 中，我们可以将积分范围拓展到 −∞ 到 ∞，将 g(ε) 视为常数 g(εF)，并将能量因子 ε 替换为 (ε − εF) + εF = Tx + εF。常数 εF 由于乘以奇函数，对积分没有贡献。然后将 dε 替换为 Tdx，我们得到
Ce = Tg(εF)
Z ∞
−∞
x2
(e
1
2 x + e−1
2 x)2 dx .
(10.90)
这是一个标准积分，其值为 π2
3 。因此
Ce = π2
3 g(εF) T
(10.91)
在低温下。
在第 8.7.1 节中，我们计算了自由电子的态密度为
g(ε) = (2m3)
1
2
V
π2¯h3 ε
1
2 = 3
2
N(ε)
ε
,
(10.92)
其中 N(ε) 是能量不超过 ε 的电子态总数。因此，费米面处的态密度为 g(εF) = 3
2
Ne
εF ，因为 N(εF) = Ne，代入方程 (10.91) 得到
Ce ≃ π2
2 Ne
T
εF
.
(10.93)
由于室温下金属的 T ≪ εF，该热容远小于经典的 3
2 Ne。
在低温下，金属的热容可以表示为电子贡献与晶格振动贡献之和。晶格贡献和电子贡献的高阶修正都与 T 3 成正比。在低温下，与 T 成正比的电子贡献占主导地位。对于自由电子模型适用的金属，这个简单模型与热容测量值之间有合理的一致性。这些金属是货币金属和碱金属，其电子热容的预测值准确度在 10% – 30% 以内。

费米子气体与玻色子气体在低温下
329
10.9.4
玻色–爱因斯坦函数
对于玻色子粒子，每个单粒子态的平均占据数可以用与费米子相似的方法计算。利用概率分布 (10.76)，其中 z = zB 来自方程 (10.78)，我们求得平均占据数为
n(ε)

1
zB
∞
X
n=0
n e
n(µ−ε)
T

1 − e
µ−ε
T
∞
X
n=0
ne
n(µ−ε)
T

0 + e
µ−ε
T
+ 2e
2(µ−ε)
T
+ 3e
3(µ−ε)
T
+ · · ·
−0
−e
2(µ−ε)
T
−2e
3(µ−ε)
T
−· · ·

∞
X
n=1
e
n(µ−ε)
T
.
(10.94)
对于 µ < ε，该几何级数求和为
n(ε) =
e
µ−ε
T
1 − e
µ−ε
T

1
e
ε−µ
T
−1
≡ nB(ε) .
(10.95)
nB(ε) 称为玻色–爱因斯坦函数(Bose–Einstein function)，它与费米–狄拉克函数(Fermi–Dirac function) nF(ε) 的区别仅在于分母中的 +1 换成了 −1。图 10.5 展示了函数 nB，同时也画出了 nF 以作比较。

图 10.5

nB(ε) 分母的形式意味着积分
Z ∞
0
xn−1
ex −1 dx
(10.96)
经常出现在玻色气体理论中，对不同 n。其值为
Z ∞
0
xn−1
ex −1 dx

Z ∞
0
xn−1(e−x + e−2x + e−3x + · · ·) dx

Z ∞
0
xn−1e−xdx +
Z ∞
0
x′
2
n−1
e−x′ 1
2dx′ +
Z ∞
0
x′′
3
n−1
e−x′′ 1
3dx′′ + · · ·

Z ∞
0
xn−1e−x dx

1 + 1
2n + 1
3n + · · ·

Γ(n)ζ(n) ,
(10.97)
其中 Γ(n) = R ∞
0 xn−1e−x dx，ζ(n) = P∞
k=1
1
kn 。Γ(n) 是欧拉伽马函数(Euler gamma function)，ζ(n) 是黎曼泽塔函数(Riemann zeta function)。当 n 为正整数时，Γ(n) = (n − 1)!。另一个有用的值是 Γ( 3
2) = 1
2 π
1
2 。以下泽塔函数值也会用到：ζ( 3
2) ≃ 2.612，ζ(3) ≃ 1.202，ζ(4) = π4
90 。
单粒子态的能量范围从 εmin 向上延伸。nB(ε) 仅在 µ 小于所有允许能量 ε 时才有意义，因为平均占据数不能为负。

330
热力学
–2
–3
–4
0
0.5
1
1.5
2
n
2.5
3
–1
0
1
2
3
4
T
ε –µ
图10.5 玻色-爱因斯坦分布函数与费米-狄拉克分布函数（上下曲线）的比较。

图10.5

当ε≫µ时，它们在渐近意义下相同，因为此时一个态上多重占有的概率可以忽略不计。其渐近形式为麦克斯韦-玻尔兹曼函数e
µ−ε
T
（中间曲线）。
因此µ < εmin。µ的值由总粒子数为N这一要求决定，这同样引出一个积分约束条件
N =
Z ∞
εmin
g(ε)
e
ε−µ
T
−1
dε .
(10.98)
对于小T，玻色-爱因斯坦函数随ε增加而迅速减小，因此若N固定，
µ必随T减小而自下方趋近于εmin。此时大多数粒子占据一个狭窄的激发态能区，其能量等于或略高于εmin。
值得注意的是，存在一个临界温度Tc，低于此温度时，只有有限比例的粒子能处于ε > εmin的态上。其余粒子全部处于能量为εmin的基态。此时基态被宏观地占据。这一现象被称为玻色-爱因斯坦凝聚(Bose–Einstein condensation)。
为求得Tc，我们假设基态是分立的且能量为εmin，但单粒子激发态具有准连续能谱，其态密度为

费米子与玻色子气体在低温下的行为
331
0
1 –
3/2
0
1
1
0
0.5
1
0.6
1.2
1.8
T
Tc
T
Tc
T
Tc
N0
N
N0
N
图10.6 左图：均匀三维盒子中玻色子凝聚体比例N0
N 随约化温度 T
Tc 变化的预测曲线。右图：三维谐振子阱中原子玻色-爱因斯坦凝聚体观测到的凝聚体比例随约化温度的变化。虚线为N0
N = 1 −( T
Tc )3的曲线。
g(ε)。对于质量为m、可在体积为V的盒子中自由运动的非相对论性自旋为0的玻色子，我们可以设εmin = 0。激发态的态密度为
g(ε) =
m3
2
1
2
V
π2¯h3 ε
1
2 .
(10.99)
当µ = 0时达到临界温度Tc。在此温度下，处于基态的粒子比例基本上仍为零，因此将g(ε)代入方程(10.98)并设µ = 0，可得总粒子数为
N

m3
2
1
2
V
π2¯h3
Z ∞
0
ε
1
2
e
ε
Tc −1
dε

mTc
2π¯h2
3
2
V 2
π
1
2
Z ∞
0
x
1
2
ex −1 dx

2.612 V
mTc
2π¯h2
3
2
,
(10.100)
其中我们代入了x =
ε
Tc 以得到n = 3
2 时的标准积分(10.96)，然后利用了Γ( 3
2) = 1
2π
1
2 和ζ( 3
2) ≃2.612。因此，玻色-爱因斯坦凝聚的临界温度与数密度之间的关系由下式给出
N
V = 2.612
mTc
2π¯h2
3
2
.
(10.101)
在更低的温度下，µ保持为0，处于激发态的粒子数为2.612 V
mT
2π¯h2
3
2 ，这小于N。其余粒子均处于基态。若以N0(T)表示这些基态粒子数，则总粒子数现在为
N = N0(T) + 2.612 V
mT
2π¯h2
3
2
.
(10.102)

332
热力学
1
0
2
温度 /K
2.17 K
液氦-4的比热容
3
图10.7 氦的热容在2.17 K温度处有一个非常尖锐的峰，因其形状而被称为λ峰。
利用表达式(10.100)将N表示为Tc的函数，我们得到
N0(T) = 2.612 V
m
2π¯h2
3
2
T
3
2
c −T
3
2

,
(10.103)
并除以N给出处于基态的粒子分数，
N0(T)
N
= 1 −
T
Tc
3
2
.
(10.104)
在图10.6左侧，该分数被表示为T的函数。
在临界温度Tc处发生相变，此时玻色-爱因斯坦凝聚(Bose–Einstein condensation)开始发生，因为基态粒子数N0(T)的导数和热容CV在此处不连续。
玻色-爱因斯坦凝聚在物理系统中并不容易发生，因为大多数天然存在的玻色子原子气体在远高于其临界温度时就会液化，而在液相中原子间的相互作用不再可以忽略。然而，人们认为玻色-爱因斯坦凝聚发生在液氦中，针对的是最丰富的同位素⁴He的原子。氦在达到大约4 K之前一直保持气态，在此温度下液化。在该液体的自然密度下，预测的临界温度Tc约为3 K。处于基态的原子分数无法直接测量，但热容是可以测量的。如图10.7所示，在2.17 K温度处，氦的热容有一个非常尖锐的峰。低于此温度时，氦成为超流体，这一相变被认为与玻色-爱因斯坦凝聚有关。
在超冷碱金属原子系统中，有不容置疑的证据表明存在玻色-爱因斯坦凝聚。利用激光和非均匀磁场，研究人员能够

费米子和玻色子气体在低温下的性质
333
图10.8 玻色-爱因斯坦凝聚体。通过将作为玻色子的铷原子冷却到低于1.7×10⁻⁷ K的温度，卡尔·威曼(Carl Wieman)和埃里克·康奈尔(Eric Cornell)于1995年制备出了第一个真正的玻色-爱因斯坦凝聚体。

图10.8

将诸如铷-87和钠-23的原子囚禁在谐振子势阱中。通常，大约有10⁴–10⁷个原子被囚禁，其密度远低于液氦的密度。因此，这些原子间的相互作用远弱于液氦中的情形，它们更符合理想玻色气体理论的假设。低密度意味着临界温度Tc在微开尔文范围。Tc可以利用类似于(10.100)的积分来计算，但在谐波阱中态密度⁷正比于ε²而不是ε^(1/2)。在变量变换为x = ε/Tc后，ε² dε → T_c³ x² dx，结果得到表达式N₀/N = 1 − (T/Tc)³，如图10.6右侧所示。利用这些技术，卡尔·威曼和埃里克·康奈尔于1995年首次创建了玻色-爱因斯坦凝聚体(BEC)，当时他们将一团铷-87原子云冷却至超低温。这些原子是玻色子，因为它们包含偶数个自旋为½的粒子，即37个电子、37个质子和50个中子。当被冷却到低于1.7×10⁻⁷ K时，大部分铷原子凝聚到同一状态。图10.8中的图形是一幅伪彩色图像，显示了在三种不同温度下铷原子云的空间密度分布，展示了随着温度降低原子逐渐聚集到同一状态。

图10.8

⁷在三维谐振子的第N能级，能量为ε_N = (N+ 3/2)¯hω，简并度为g(ε_N) = ½(N+1)(N+2)，我们将在11.3.2节中证明此点，因此g(ε_N) ∝ (ε_N − ½¯hω)(ε_N + ½¯hω) = ε_N² − ¼ ¯h²ω²。对于大N，我们可以忽略最后一项。

334
热力学
图10.9 左：旋转的钠原子凝聚体中规则的涡旋晶格。使用激光使一个直径60微米、长度250微米的凝聚体旋转起来。右：让凝聚体弹道式膨胀，结果放大了20倍。图像表示穿过密度分布的二维截面，并显示出由涡旋核心导致的密度极小值。所示例子分别含有0, 16, 70和130个涡旋。降低。红色表示低密度，黄色和绿色表示中等密度，高密度由蓝色到白色表示。

图10.9

激光脉冲可用来使玻色–爱因斯坦凝聚体旋转，这导致在凝聚体内形成承载角动量的涡旋阵列。图10.9显示了一个旋转的玻色–爱因斯坦凝聚体。

图10.9

10.10
黑体辐射
到目前为止，我们关于费米气体和玻色气体的讨论都是针对由大质量原子或电子组成的、非相对论性运动的气体，但还有一些粒子集合体或许不会被认为是气体，却可以用类似的方法分析其性质。其中之一就是光子气体，我们称之为黑体辐射。这是对一个理想化的完美电磁辐射发射体和吸收体所产生的辐射的称呼。测量得到的黑体谱无法用经典热力学解释，这导致了19世纪末物理学的一场危机，直到量子物理学出现才得以解决。
令人惊讶的是，即使是一个不包含任何物质的空盒子也具有热力学性质。这是因为盒子内的电磁场被构成盒壁的物质以热的方式激发。盒子里充满了光子气体，这些光子不断地被盒壁材料发射和吸收。这些光子迅速达到热平衡，其温度T等于盒子的温度。
化学势µ代表能量对粒子数的导数。µ是将粒子数增加1所需的能量代价。光子的静止质量为零，这意味着发射一个光子所需的能量代价可以任意小；具有无限长波长的光子能量为零。由于光子数不守恒，且光子不断地被发射和吸收，光子化学

黑体辐射
335
因此化学势为 µ = 0。我们可以将整个空间中的电磁场视为一个无限的粒子浴，它使光子的化学势保持为零。

光子是无质量的自旋为1的粒子，因而是玻色子，并具有两个独立的、垂直于传播方向的偏振态。作为相对论性粒子，它们满足关系 E = |p|，这是无质量粒子的方程(4.27)的类似形式。它们之间的相互作用可以忽略不计，因此它们构成理想玻色气体。在一个体积为 V 的有限盒子里，采用周期性边界条件，电磁波模的允许波矢 k 是离散的。k 空间中的波模密度为
2V
(2π)³ ，这是我们在第8.2.1节中推导出的结果，并因两个偏振态而多出一个因子2。在波数 k（波矢的大小）上的密度为 8πk²V
(2π)³ = k²V
π² 。用频率 ω 来处理更为方便，而对电磁波来说 ω 等于 k，因此 ω 的模密度为
g(ω) = ω²V
π² 。
(10.105)

盒子中的每一个电磁辐射模都可以被任意数量的光子占据。如果该模的频率为 ω，则每个光子具有能量 ¯hω，若有 n 个光子，总能量就是 n¯hω。每个模中的平均光子数由 µ = 0 的玻色–爱因斯坦函数给出，
nB(ω) =
1
e
¯hω
T −1
。
(10.106)

频率 ω 处的光子数密度是一个模中的平均光子数 nB(ω) 与模密度 g(ω) 的乘积，
N(ω) = V
π²
ω²
e
¯hω
T −1
。
(10.107)

由 N(ω) 乘以 ¯hω 即得到光子的能量密度，
E(ω) = V ¯h
π²
ω³
e
¯hω
T −1
。
(10.108)

这就是著名的普朗克公式，普朗克(Planck)在此处首次引入了以他名字命名的常数 h。E(ω) 是黑体辐射的谱能量密度。能量密度作为波长的函数，在不同温度下的曲线绘于图10.10中。

图10.10

现在来确定峰值辐亮度——即 E(ω) 的最大值——如何随温度变化。方便的做法是作代换 x = ¯hω
T ，从而有 E(ω) ∝
x³
eˣ−1 。求导后可知，最大值出现在 3x²(eˣ −1)−x³eˣ = 0 处，或等价地出现在
x
1−e⁻ˣ = 3
处，该方程可通过数值求解给出 x ≃ 2.8214。因此，黑体辐射的峰值辐亮度位于
¯hω_peak ≃ 2.8214 T 。
(10.109)

这种随温度的线性增大被称为维恩位移定律(Wien’s displacement law)。它常以 λ_peak ∝ 1
T 的形式呈现，温度与峰值波长之间的这一关系可从图10.10中看出。而一个热的烹饪锅主要发射红外

图10.10

336
热力学
1000
波长 (nm)
T = 6000 K
紫外
可见光范围
红外
T = 5000 K
T = 4000 K
T = 3000 K
1500
λ峰值
2000
0
500
强度
图10.10 不同温度下的黑体辐射普朗克公式。

图10.10

像太阳这样的辐射源，其表面温度约为6000 K，所发出的辐射中有相当大一部分是可见光和紫外光。值得注意的是，温度更高的物体在所有波长上都会辐射出更多的能量，而不仅仅是在峰值区域。在第13章讨论恒星物理时，我们将用到维恩位移定律。
所有模式中的光子总数为N(ω)的积分，
N = V
π²
∫₀^∞
ω²
e^{ħω/T} −1
dω = V T³
π²ħ³
∫₀^∞
x²
eˣ −1 dx ≃2.404 V T³
π²ħ³ ,
(10.110)
其中我们代入了x = ħω/T 以得到n = 3时的积分(10.96)，然后利用了Γ(3) = 2和ζ(3) ≃1.202的数值。
黑体辐射的总能量为E(ω)的积分，
E = V ħ
π²
∫₀^∞
ω³
e^{ħω/T} −1
dω = V T⁴
π²ħ³
∫₀^∞
x³
eˣ −1 dx = π²
15
V T⁴
ħ³
.
(10.111)
这里我们使用了n = 4的积分(10.96)以及Γ(4) = 3! = 6和ζ(4) = π⁴/90的数值。结果通常表示为
E = 4σV T⁴ ,
(10.112)
其中σ = π²/(60ħ³) 是斯特藩–玻尔兹曼常数(Stefan–Boltzmann constant)。
在经典物理中，辐射会有无穷多个模式，每个模式携带等量的热能，因此总能量将是无穷大。我们现在知道，电磁辐射是以分立的波包，即光子，形式传播的，这抑制了极紫外模式中的能量，使得量子理论中的总能量有限。

激光器
337
黑体辐射的总光子数N和总能量E与体积成正比，且两者均为有限值。这是普朗克(Planck)引入量子概念后取得的首次成功。

黑体辐射具有更多的热力学性质。在体积固定的情况下，热力学第一定律表明dE = T dS，由E = 4σV T⁴可得dE = 16σV T³ dT，因此dS = 16σV T² dT。积分后得到黑体辐射的熵为
S = 16/3 σV T³，
(10.113)
其中积分常数为零，因为熵在零温时消失。将方程(10.112)中的T代入，我们得到表达式
E = (81/1024 σ)¹/³ V⁻¹/³ S⁴/³。
(10.114)
该式用S和V表示了E。温度为T的黑体内光子产生的辐射压强因此为
P = −∂E/∂V∣_S = 1/(3V) E = 4/3 σT⁴。
(10.115)
当我们考虑恒星内部的辐射压强时，这一结果将在第13章中发挥作用。

同样重要的是黑体表面发射的能量。这可以通过以下方式计算。假设在物体表面附近有一小团温度为T的黑体辐射。能量由以单位速度（光速）沿所有方向随机运动的光子组成。能量密度为4σT⁴，如果所有这些能量都沿垂直于表面的方向离开物体，那么单位面积的能量发射率将是4σT⁴，但只有一半能量向外离开表面，而对于这一半能量，垂直于表面的速度分量在0到1之间变化。垂直于表面的平均速度分量为1/2（cos ϑ在半球0 ≤ ϑ ≤ π/2上的平均值）。因此，单位面积的能量发射率为σT⁴。这被称为斯特藩-玻尔兹曼定律(Stefan–Boltzmann law)，它决定了恒星的光度。

10.11 激光器
在本节中，我们将研究黑体辐射与原子中光子吸收和发射的相互作用，并讨论由此物理学原理产生的激光技术。

玻尔(Bohr)提出了原子中的电子存在众多可用能级的概念，处于激发态E₂的电子会自发跃迁至较低能级E₁，并发射一个能量为E₂ − E₁ = ¯hω的光子，其中ω是光子的频率。反之，一个能量恰好为¯hω的光子可以将电子从能级E₁激发到E₂。爱因斯坦(Einstein)意识到，在存在合适能量光子的情况下，电子也可能被诱导跃迁至较低能级。能量为E₂ − E₁ = ¯hω的光子会激发处于激发态E₂的电子，使其发射更多具有相同能量的光子并跃迁至能级E₁。

338
热力学
爱因斯坦(Einstein)的论证基于一个简单的原子模型，该模型用二能级系统描述，其中 E₂ > E₁，每个能级 Eₘ 上的电子布居数为 nₘ。爱因斯坦假定布居数 n₂ 的变化率为
dn₂
dt = −n₂A₂₁ − n₂B₂₁u(ω) + n₁B₁₂u(ω) ,
(10.116)
其中 u(ω) 是单位体积光子的光谱能量密度。此处，−n₂A₂₁ 为自发辐射(spontaneous emission)速率，−n₂B₂₁u(ω) 为受激辐射(stimulated emission)速率，n₁B₁₂u(ω) 为将电子从能级 E₁ 提升至 E₂ 的受激吸收(stimulated absorption)速率。A₂₁ 是与能级半衰期相关的内禀属性，而通过 u(ω)，包含 B₂₁ 和 B₁₂ 的项依赖于频率为 ω 的其他光子的存在。对于处于热平衡且与黑体辐射相伴的这类原子气体，两个能级上的电子布居数保持恒定，即 dn₁/dt = dn₂/dt = 0，因此由方程(10.116)得，
(n₁B₁₂ − n₂B₂₁)u(ω) = n₂A₂₁ ,
(10.117)
重新整理后得到
u(ω) = A₂₁
B₁₂
1
( n₁/n₂ − B₂₁/B₁₂ ) .
(10.118)
在温度为 T 的热力学平衡态下，原子布居数之比由吉布斯因子(Gibbs factors)之比给出
n₁
n₂ = e^{−E₁/T} / e^{−E₂/T} = e^{¯hω/T} ,
(10.119)
而 u(ω) = (1/V)E(ω) 由普朗克公式(Planck formula)(10.108)给出，于是我们得到
u(ω) = (¯hω³/π²) · 1/(e^{¯hω/T} − 1) = (A₂₁/B₁₂) · 1/(e^{¯hω/T} − B₂₁/B₁₂) .
(10.120)
此方程只有在 B₁₂ = B₂₁ 时才能成立，据此我们发现了一个令人惊讶的关系：A₂₁/B₂₁ = ¯hω³/π²。

受激辐射是光子玻色性的直接结果。倘若方程(10.116)中没有受激辐射项 B₂₁u(ω)，我们就会得到适用于可区分粒子的结果：u(ω) = (A₂₁/B₁₂) e^{−¯hω/T}。通俗地说，玻色子喜欢占据与其他玻色子相同的状态。

我们可以通过考虑几个现实例子来评估受激辐射的重要性。对于波长为 632.8 nm 的红光，ω ≃ 3×10¹⁵ s⁻¹。在室温下，T ≃ 0.025 eV = 4×10⁻²¹ J，因此 ¯hω/T ≃ (10⁻³⁴ × 3×10¹⁵)/(4×10⁻²¹) = 75。由方程(10.120)及 B 系数的相等关系，
A₂₁/(B₂₁u(ω)) = e^{¯hω/T} − 1 ≃ e⁷⁵ ,
(10.121)
所以在室温下，红光的自发辐射远远超过受激辐射。然而，对于 ω ≃ 10¹² s⁻¹，相当于微波谱的高频端，¯hω/T ≃ 0.025。

激光
339
能量
1s
基态
扩散至管壁
通过电流
激发
2p
1.15 µm
3.39 µm
632.8 nm
3p
3s
2s
23S1
21S0
快速辐射
跃迁
He-Ne
碰撞
氦
氖
图10.11 氦原子和氖原子中的能级。粒子数反转发生在氖的3s和2p能级之间。
这给出
A21
B21u(ω) = e0.025 −1 ≃0.025 ,
(10.122)
所以受激辐射压倒了自发辐射。一般地，对于频率远高于黑体谱峰值的辐射，自发辐射将占主导；而对于频率低于黑体谱峰值的辐射，受激辐射将占主导。
看起来自发辐射和受激辐射过程似乎截然不同，但实际上并非如此。即使电磁场不包含任何光子激发，每个模式仍然具有零点能 1 2¯hω，而自发辐射可以看作是由这些零点振荡所激发的辐射。
受激辐射现象赐予我们一项如此重要的技术，以至于其缩写词laser（Light Amplication by the Stimulated Emission of Radiation，受激辐射光放大）已进入我们的日常语言。要产生激光，系统必须偏离热力学平衡，并输入能量以维持电子能级上的粒子数反转。我们稍后将探讨这是如何实现的。在一个二能级系统中，如果我们设法让大多数电子占据能级E2，那么一个自发落到能级E1的电子将发射一个频率为ω的光子，这个光子可能激发同频率的更多光子的发射，并触发光子级联。通过泵浦能量使电子回到能级E2，我们就可以获得频率为ω的光子的连续输出。最重要的是，每个受激发射的光子不仅频率相同、偏振相同，而且与激发波同相，并沿相同方向发射。
最早于1960年演示的实用激光器，是基于以10:1比例混合的氦原子和氖原子气体。如图10.11所示，氦原子具有与氖原子相近的激发态。让电流通过混合气体会激发电子

340
热力学
阳极
氦氖混合气体
激光器放电管
玻璃管
阴极
输出
耦合器
高
反射镜
图10.12 氦氖激光器。放电管必须很窄，以便氖原子能迅速扩散到管壁，在那里碰撞使得处于氖1s激发态的电子回到基态。

氦原子中的电子。然后氦原子与氖原子发生碰撞，将氖原子的外层电子激发到激发态。（微小的能量差由氦原子的动能提供。）氖的3s态是亚稳态，因此布居数很高，而氖的2p态会迅速衰变到1s态，因此其布居数非常少。只要气体中有电流通过，这种粒子数反转就会持续下去。

为了产生激光，把这种混合气体置于两个高度抛光的镜面之间的狭窄腔室内，这两个镜面构成一个光学谐振腔，如图10.12所示。从氖的3s能级到2p能级的自发衰变会产生光子，这些光子会激发更多的这种跃迁。这些光子束在两端镜面之间来回反射。（任何偏离光束轴线发射的光子都会损失掉。）激光器本质上是一个频率非常高的电磁振荡器。其中一端的镜面部分（99%）镀银，使得一束光子可以逸出。氦氖激光器发出波长为632.8 nm的红光。

作为一种廉价、紧凑而强大的单色光源，它已经得到了许多应用，包括条形码扫描器。现在已经基于各种材料——气体、液体、晶态固体、半导体和绝缘体——开发出了许多其他类型的激光系统。

激光束与白炽灯泡那样的传统光源发出的光非常不同。当钨丝被电流加热时，它发出的辐射具有热辐射谱，能很好地近似遵从普朗克公式。这种辐射是随机过程的结果，向所有方向发射，具有所有可能的偏振态，相位随机分布，因此这种光是非相干的。相比之下，激光中的光子全部同相，沿同一方向以窄束发射，且具有相同的偏振。标准透镜可以将激光器发出的相干光聚焦到一个衍射受限的光斑，其大小取决于波长。很容易获得高达10¹⁷ W cm⁻²的能流密度，与此相比，氧乙炔焰的能流密度为10³ W cm⁻²。这使得激光的应用范围从焊接到核聚变研究不等。激光束的相干性对于许多其他应用至关重要，包括全息照相和引力波干涉仪。其他应用还包括CD和DVD的数据存储与读取、眼科手术、自适应光学导引星、激光印刷以及光纤。目前人们正在投入大量努力开发光子学技术，以作为电子学的替代方案。由于光子以光速传播，并且与其他光子的相互作用可以忽略不计，光子器件有望带来尺寸更小、速度更快的显著优势。

自旋系统中的磁化
341
图 10.13 下：一维反铁磁体的基态。
上：带有两个缺陷的一维反铁磁体。
10.12 自旋系统中的磁化
正如我们在第9章中看到的，在由规则原子晶格构成的晶体固体中，原子通常具有净自旋。因此，每个原子表现得像一个微型磁体，具有磁矩，在某些固体中，这些磁矩会在相邻原子之间产生磁相互作用。人们对于用基于自旋晶格系统的简单模型来解释这类材料的热力学性质和物理特征有着极大的兴趣。让我们考虑自旋为 1/2 的原子，这样只有两个独立的量子自旋态，晶格结构迫使每个自旋沿着其中一条晶轴要么向上要么向下，自旋投影为 +1/2 和 −1/2。自旋的叠加可以忽略不计。于是磁矩将指向上或下，其强度是某个常数乘以自旋投影。
磁力随距离增加而迅速衰减，因此我们将假设对能量的唯一贡献来自相邻晶格位置上的自旋之间的相互作用。在大多数常见材料中，这些微观磁体的行为与我们熟悉的条形磁铁对类似。异极倾向于靠近在一起。在这类材料中，原子自旋的最低能量排列是相邻磁矩反向平行排列。任何平行排列的磁矩都会增加能量。
最简单的这类模型是一条由大量（N+1）个等间距自旋组成的一维链。在基态中，自旋交替排列，如图 10.13（下）所示，该态被称为严格反铁磁有序的。我们将能量归一化使得基态能量为零。激发态中存在缺陷，即相邻自旋沿相同方向排列。图 10.13（上）所示的态有两个缺陷。
我们可以从第一性原理研究该系统的热力学性质。假定一个缺陷使能量增加 ε，并假设仅考虑最近邻自旋相互作用，那么 n 个缺陷的能量为 nε。这 n 个缺陷有 N 个可能的位置，且所有缺陷必须处于不同的位置。假设链左端的自旋固定为向上，那么具有 n 个缺陷的态数 Ω 为组合因子
[
\binom{N}{n} = \frac{N!}{n!(N-n)!},
]
(10.123)

342
热力学
这是从N个位置中选择n个位置的方式数。由于N很大，我们记作
n = αN，其中α是缺陷的分数密度。那么
Ω=
N
αN

N!
(αN)!((1 −α)N)! .
(10.124)
利用近似 (10.60)，log X! = X log X −X，我们得到熵作为α的函数，
S = log Ω

N(log N −1) −αN(log(αN) −1) −(1 −α)N(log((1 −α)N) −1)

N{log N −α log(αN) −(1 −α) log((1 −α)N)}

N{log N −α(log α + log N) −(1 −α)(log(1 −α) + log N)}

−N{α log α + (1 −α) log(1 −α)} ,
(10.125)
用α表示，能量为E = αNε。
在固定N的情况下，对这些表达式关于α求导，得到
dS
dα

−N(log α + 1 −log(1 −α) −1) = N log
1
α −1

,
(10.126)
dE
dα

Nε .
(10.127)
因此，对于此系统，
1
T = dS
dE = dS
dα
dα
dE = 1
ε log
1
α −1

.
(10.128)
如果我们将此关系反转，得到
α =
1
e
ε
T + 1 .
(10.129)
这是反铁磁体中相邻自旋对形成缺陷的比例，其中自旋排列一致。在低温T ≪ε下，该比例α ≃ e−ε
T，呈指数级小，因此存在具有严格反铁磁序的大块自旋区域。然而，由于缺陷密度很小，随着N趋于无穷大，不存在长程序。距离链左端很远的自旋向上或向下的概率相等。在高温T ≫ε下，比例α趋近于1/2，缺陷和非缺陷出现的可能性相同。自旋完全随机化，当T →∞时，即使最近邻之间也毫无关联。

这只是晶格自旋最简单的模型。人们还设计了无数其他模型。在一维中，存在铁磁链，其中相邻自旋倾向于同向排列，如图10.14所示。任何一种链都可以受到外磁场的影响，外磁场改变能量并倾向于使自旋沿某个方向排列。上面讨论的自旋链是一个纯热学系统，但通过引入外场，它成为一个热力学系统，其中外场取代了气体中的压强变量，净磁化强度取代了体积。

图10.14

还可以考虑二维或三维的自旋晶格，并允许自旋投影具有两个以上的值，以模拟自旋大于

关于相变的一点介绍
343
图10.14 下：一维铁磁体的基态。上：带有两个缺陷的一维铁磁体。

图10.14

1
2。对于立方晶格，相邻自旋之间的耦合可能不同，取决于相邻自旋是平行于自旋投影方向还是垂直于它。
还存在真正的量子自旋晶格，其中每个原子具有自旋
1
2，并且有自旋算符 s，但人们不能直接假定每个自旋要么向上要么向下。每对相邻自旋 s(1) 和 s(2) 的量子哈密顿量可能具有各向同性的形式 c s(1) · s(2)，或者更复杂的形式 c1s(1)
x s(2)
x

c2s(1)
y s(2)
y
c3s(1)
z s(2)
z 。
总哈密顿量是所有相邻自旋对上这种项的和。
这些晶格自旋模型中，有一些具有可以精确计算的热力学性质，特别是二维铁磁伊辛模型(Ising model)，其中 c1 = c2 = 0 而 c3 < 0。
该模型由拉斯·昂萨格(Lars Onsager)使用比我们之前用于一维反铁磁链更复杂的组合方法求解。伊辛模型最引人注目的结果是，在低温下存在无限程的铁磁序，即使没有任何外磁场。这意味着系统的大部分形成一个连通区域，其中所有自旋指向同一方向。缺陷表现为指向相反方向的小自旋岛，随着温度升高，无序度增加。在铁磁体中，在一个临界温度 TCurie，即居里温度(Curie temperature)处，发生相变，无限程序消失。如果某特定自旋向上，那么邻近自旋仍然更可能向上而不是向下，但远处自旋向上的概率随着距离增加趋近于 1
2。
10.13
关于相变的一点介绍
许多材料的物理特性会在某个精确温度下发生剧烈变化。水结冰和沸腾是这些转变最熟悉的例子，这些转变被称为相变(phase transition)。相变发生在系统的热力学行为出现不连续性，甚至外观也往往发生改变之时。在大气压下，水在273 K（精确到度）结冰成冰，蒸汽在373 K变成液态水。冰明显不同于液态水或蒸汽，因为它是晶态固体，融化1克冰需要334焦耳的热量，这称为潜热(latent heat)。水与蒸汽之间的区别则不那么容易识别。在373 K时水的性质确实存在不连续性，因为在此温度将水转化为蒸汽需要大量的潜热。在大气压下，将1克水从273 K加热到373 K大约需要420焦耳，然后再需要2270

344
热力学
水
水
蒸汽
三相点
临界点
P
atm
冰
100
T oC
0
0.006
1
218
0.01
374
图 10.15 水的 T, P 相图示意图。（三相点附近区域已放大，且冰-水共存曲线的斜率被夸大了。）

图 10.15

将水转化为蒸汽所需的焦耳数。这就是为什么将水壶中的水全部烧开需要很长时间。蒸汽的体积也比水的体积大得多，并且蒸汽的熵大于水的熵。

我们遇到过其他类型的相变，例如，玻色气体的玻色-爱因斯坦凝聚(Bose–Einstein condensation)，当温度低于临界温度时，有限比例的原子处于单粒子基态。固体材料中还存在与其电性和磁性相关的相变，例如铁磁体的居里温度(Curie temperature)，低于该温度时，由于原子自旋的净排列，铁磁材料会自发获得净磁化强度。还有其他相变，其中固体的晶体结构发生转变。例如，铁的晶体结构在1044 K的临界温度下从体心立方转变为面心立方。（有关这些堆积的描述，请参见图9.20。）这与铁在其居里温度1043 K时的铁磁转变有关。其他相变发生在混合物和化学溶液中，例如液晶。另一个例子是超导现象，当某些材料被冷却到临界温度以下时，超导性会突然出现。低于此转变温度时，超导体会排出穿过材料的任何磁场，并且其电阻消失，因此任何电流都将无限期地持续下去。少数能够严格证明会发生相变的模型系统之一是二维伊辛铁磁系统(Ising ferromagnetic system)，如前所述。

图9.20

不同相的一个基本特征是，它们可以在相互接触的系统（例如，水与蒸汽接触）中共存，并且仍然处于平衡状态。我们从一般热力学考虑得知，处于平衡状态的系统必须具有相同的温度、压力和化学势。否则，它们会交换能量或粒子，或者分隔它们的界面会移动。让我们假设自变量是温度和压力，所有其他热力学量都是这些变量的函数。特别是，相 I 和相 II 的化学势是两个不同的函数 μI(T, P) 和 μII(T, P)。然后，在 (T, P) 平面上，当 μI(T, P) = μII(T, P) 时，两相可以在相变曲线上平衡共存。这是一个将 P 与 T 联系起来的单一方程。（μI 是在相 I 区域内定义的函数，但理论上可以将其范围扩展到该曲线之外的相 II 区域，尽管相 I 在那里是不稳定的。类似地，μII 可以扩展到相 I 区域。这与过冷和过热(supercooling and superheating)现象有关。）

图 10.15 是 (T, P) 平面中的典型相图。许多系统具有三个或更多不同的相。三个相只能在 (T, P) 平面中的孤立点具有相等的化学势。三相共存的点称为三相点(triple point)。

图 10.15

如果绘制在 (V, T) 平面中，相图看起来会有所不同。这里，V 表示固定质量物质的总

关于相变的一点知识
345
临界点
过热蒸汽区域
P = 常数
饱和液体-蒸汽区域
V
T
1
I
II
2
压缩液体区域
T
图 10.16 V, T 相图。

体积，因此两相的体积并不相同。典型的液-气相图在 (V, T) 平面中如图 10.16 所示。

346
热力学
沿着固定温度线 ( T = eT ) 向右移动，在区域 I 中，体积在增加但很小，物质为纯液体。压强在降低，但图中未显示。
在曲线 1 上，相变开始，在曲线 1 与曲线 2 之间，存在液态和气态共存并接触的样本。两条曲线之间体积增加，液体比例从 1 减小到 0，但压强和温度保持不变。
在曲线 2 处为纯气体，在区域 II 中，体积继续增加，压强再次降低。
潜热与 ((T, P)) 平面中相分离曲线的斜率之间有一个有趣的关系，称为克劳修斯–克拉佩龙关系 (Clausius–Clapeyron relation)。紧邻曲线左侧和右侧的点代表系统分别处于相 I 和相 II。
在这样两个点上，(T)、(P) 和 (\mu) 的值均相等，并且由于相变中粒子不会产生或消灭，(N) 也具有相等的值。因此吉布斯自由能 (Gibbs free energy)，(G = \mu N)，在这两点具有相等的值。当系统穿过相分离曲线时，发生不连续跳跃的量是熵 (S) 和体积 (V)。我们将曲线两侧的这些量分别记为 (S_I, V_I) 和 (S_{II}, V_{II})。我们也将两侧的吉布斯自由能记为 (G_I) 和 (G_{II})，尽管它们相等。
现在考虑沿曲线作一无穷小移动 ((dT, dP)) 至相邻的一对邻近点。沿曲线两侧 (G_I) 和 (G_{II}) 的无穷小变化相等。因此，由于 (dG = -S dT + V dP + \mu dN)，且粒子数固定，
[
-S_I dT + V_I dP = -S_{II} dT + V_{II} dP ,
\tag{10.130}
]
所以
[
(S_{II} -S_I) dT = (V_{II} -V_I) dP ,
\tag{10.131}
]
这意味着沿曲线，斜率为
[
\frac{dP}{dT} = \frac{S_{II} -S_I}{V_{II} -V_I} .
\tag{10.132}
]
一般来说，(T dS) 是无穷小的热量。在相变中，(T) 恒定，我们可以对此积分并推出 (T(S_{II} -S_I)) 是该相变的潜热 (L)。因此方程 (10.132) 可重新表示为
[
\frac{dP}{dT} = \frac{L}{T(V_{II} -V_I)} ,
\tag{10.133}
]
这就是克劳修斯–克拉佩龙关系（图 10.17）。相变曲线的斜率正比于相变所需的潜热。(L) 和 (V) 都是广延量，因此斜率不依赖于所涉及物质的量。在液体到气体的转变中，(L) 和 (T) 为正且 (V_{II} \gg V_I)，故斜率为正，这意味着压强增大时，沸点升高。这就是为何高压锅（蒸汽被部分封闭）能加快烹饪，也是为何在高山上（那里大气压低于海平面）水在低于 373 K 的温度就沸腾的原因。
在冰熔化为水的相变中，液态水的体积小于等质量固态冰的体积。这是冰的晶体结构带来的一个令人惊讶的结果，如 9.4.1 节所述。由于 (L) 和 (T) 为正，克劳修斯–克拉佩龙关系

霍金辐射
347
T+ dT
P + dP
I
GI= GII
GI< GII
GI>GII
II
T
P
图 10.17 克劳修斯-克拉珀龙关系。
这意味着，随着压力降低，熔化温度升高，但效应非常微小，因为 VII 与 VI 非常接近。在约为大气压的百分之一的压力下，水具有三相点。在更低的压力下，液态水不再存在，如图 10.15 所示。

图 10.15

10.14 霍金辐射
在6.11.1节中，我们证明了质量为M的非旋转黑洞的事件视界是一个表面积为
A = 4πr^2_S = 16πG^2M^2 , (10.134)
的球面，其中 rS 是施瓦西半径(Schwarzschild radius)。任何落入黑洞的物质都会增加其质量，同时也增加其面积。如果两个质量为M的施瓦西黑洞合并，产生的质量为2M的黑洞面积为 64πG^2M^2，这大于两个原黑洞面积之和 2 × 16πG^2M^2。这通常是正确的，即使黑洞在旋转或带电也如此。实际上，从非常一般的假设出发，斯蒂芬·霍金(Stephen Hawking)于1971年证明，在任何过程中，宇宙中黑洞事件视界的总面积 A 必定增加：
dA/dt ≥ 0 . (10.135)
这被称为黑洞面积定理(black hole area theorem)。
大约在同一时期，雅各布·贝肯斯坦(Jacob Bekenstein)担心，黑洞似乎提供了一条途径，宇宙可能由此损失部分熵。任何落入黑洞的物质都与它所包含的熵一起，永远无法回到宇宙的其他部分。这似乎是一种减少宇宙熵的方式，这将会违反……

348
热力学
热力学第二定律，这实在令人困惑。到1972年，贝肯斯坦（Bekenstein）意识到，如果有可能为黑洞赋予一个熵值，或许就能找到解决之道。贝肯斯坦注意到霍金的面积定理与热力学第二定律之间的相似性，试探性地提出两者之间可能存在精确的对应关系，即黑洞的面积实际上就是其熵的量度。当物质落入黑洞时，其事件视界的面积会增加。如果将此解释为黑洞熵的增加，那么它或许能补偿宇宙其余部分熵的损失。但这怎么可能呢？黑洞的面积定理是广义相对论中的一个几何结论，而热力学第二定律则是关于热量的统计规律。此外，当时人们认为黑洞本质上没有特征，仅由其质量、角动量和电荷来描述。它们怎么可能具有任何统计性质呢？

霍金起初否定了贝肯斯坦的想法。如果赋予黑洞一个熵，那么黑洞必定表现得像一个具有确定温度的物体，因此它必须发出辐射。这与当时关于黑洞的所有认知相矛盾。在广义相对论中建立黑洞模型时，其温度必须为零，因为虽然辐射可能落入黑洞，但没有任何东西能从中逃逸出来。然而，霍金很快意识到，如果考虑量子力学，情况将大不相同。广义相对论运作得极其出色，它是我们拥有的最佳引力理论，但它是一个经典理论。实际上，世界是量子力学的，因此终极的引力理论必须是一个量子理论。霍金证明，一个量子的黑洞确实会发射辐射，即现在所称的霍金辐射（Hawking radiation），因此具有非零的温度。

霍金的面积定理（10.135）常被称为黑洞力学第二定律，继贝肯斯坦之后，它被视为热力学第二定律（10.14）的类比。进一步追寻这种类比，黑洞力学第一定律，即热力学第一定律（10.22）的类比，应该将黑洞质量（或等价地，其能量）的变化与其事件视界面积的变化及其角动量J的变化联系起来。由面积-质量关系（10.134）可知，对于一个非旋转黑洞，有 dA = 32πG²M dM，因此 dM = (κ/8πG) dA，其中 κ = 1/(4GM)。这就是 J=0 时的第一定律。更一般地，对于旋转黑洞，黑洞力学第一定律为
dM = (κ/8πG) dA + Ω dJ, (10.136)
其中 Ω = a/(2Mr₊) 是事件视界的角速度，其定义见6.11.2节。如果黑洞还带有电荷，第一定律中还会有一项。

κ = 1/(4GM) 被解释为事件视界处的表面引力（surface gravity），它是物体表面所受到的引力加速度 g 在相对论中的推广。⁸ 表面引力 κ 在黑洞的事件视界上必须为常数，这为我们提供了热力学第零定律的类比，其中 κ 的某个倍数扮演着温度的角色。通过运用量子理论研究黑洞的光子发射，霍金计算出了一个黑洞具有霍金温度（Hawking temperature）
T_H = (¯h/2π) κ = (¯h)/(8πGM). (10.137)

⁸ κ 表达式的推导需要严格的广义相对论处理，但我们可以通过考虑史瓦西半径处的牛顿加速度来理解其形式，该加速度为 GM/r_S² = GM/(2GM)² = 1/(4GM)。

霍金辐射
349
由此，根据黑洞力学第一定律(10.136)可得
κ
8πG dA =
TH
4¯hG dA = TH dSBH，因此黑洞的熵为
SBH =
A
4¯hG 。
(10.138)
黑洞的温度，是由远离其事件视界的观测者根据黑洞发射的霍金辐射推断出的温度。所以，尽管黑洞内部可能发生难以置信的剧烈过程，它的温度却可能极低。事实上，恒星质量黑洞的温度低到无法测量。

要理解黑洞质量与其温度之间的联系，最简单的方法是考虑它所发射辐射的波长。根据量子力学，黑洞无法约束波长大于其事件视界的辐射。黑洞内部的电磁场在不断涨落。任何产生的、波长大于史瓦西半径的光子，都可能通过量子力学隧穿效应跑到黑洞外部，并逃逸到远处的观测者那里。如果霍金辐射的典型波长 λH ≃ rS = 2GM，那么其频率 ωH = 2π/λH ≃ π/GM，由此我们可以粗略估算霍金温度。利用将黑体辐射峰值频率与温度关联起来的方程(10.109)，我们得到
TH ≃¯hωH
2.8 ≃π
2.8
¯h
GM 。
(10.139)
霍金更精确的计算给出了温度(10.137)。

恒星质量黑洞的史瓦西半径为几千米，因此其霍金辐射的典型波长也是几千米，对应的温度低于 10^−7 K。这个温度如此之低，以至于这样的黑洞不可避免地吸收的辐射多于它发射的辐射。宇宙沐浴在一种称为宇宙微波背景的辐射中，这种辐射产生于大爆炸后不久。它的谱对应约 2.7 K 的黑体温度，远高于恒星质量黑洞的霍金温度。

由于霍金辐射的波长与事件视界的大小相当，史瓦西半径为几百纳米的黑洞将发射可见光谱范围内的辐射，其温度因此在 10^3 K 量级。这对应于质量为 10^20 kg 的黑洞。霍金猜测，这种微型黑洞可能是在大爆炸后不久宇宙极其致密时形成的。如果早期宇宙中的物质分布相当不均匀，一些更致密的区域坍缩形成黑洞，这种情况就可能发生。这些假想的微型黑洞被称为原初黑洞(primordial black holes)。例如，它们可能拥有与一颗小行星相当的质量，却被压缩到比原子还小的区域内⁹。因为温度高，微型黑洞会发射大量辐射，从而逐渐损失质量。随着质量的减小，它们的温度会进一步升高，从而提高其辐射速率。在一个失控的过程中，微型黑洞的温度会在其最后时刻急剧上升，直至它在一阵巨大的辐射爆发中消失。

目前，质量相当于一座山大小、约为 10^11 kg 的原初黑洞，应该正处于爆炸的边缘。质量略大的黑洞将继续以极低的速率发射辐射，
⁹ 一颗直径 1000 km 的大型小行星的质量约为 10^20 kg。

350
热力学
X射线和伽马射线将绵延无数纪元。天文学家搜寻过由微小黑洞爆炸所产生的伽马射线暴，但从未观测到过。无论它们是否真实存在，都毫无疑问的是，该理论的一般原理是正确的，黑洞确实会发出霍金辐射（Hawking radiation）。广义相对论、量子力学和热力学如此紧密交织，使得这些思想必定在宇宙的基本结构中扮演重要角色。这是第一个将量子力学与引力联系起来的结果，这也是它之所以跻身现代物理学最深刻思想之列的原因。黑洞熵的微观起源仍未完全理解，但该熵被认为对应于量子引力微观态数的对数，描述了时空度规的量子涨落。

10.15
进一步阅读
K. 黄（K. Huang），《统计物理学导论》（Introduction to Statistical Physics），伦敦：Taylor and Francis，2001年。
L.D. 朗道（L.D. Landau）和 E.M. 利夫希茨（E.M. Lifschitz），《统计物理学（第一部分）：理论物理学教程，第5卷（第三版）》（Statistical Physics (Part 1): Course of Theoretical Physics, Vol. 5 (3rd ed.)），牛津：Butterworth-Heinemann，1980年。
关于相变的综述，请参阅
J.M. 约曼斯（J.M. Yeomans），《相变的统计力学》（Statistical Mechanics of Phase Transitions），牛津：牛津大学出版社（OUP），1992年。
关于玻色-爱因斯坦凝聚的阐述，请参阅
C.J. 佩西克（C.J. Pethick）和 H. 史密斯（H. Smith），《稀薄气体中的玻色-爱因斯坦凝聚》（Bose–Einstein Condensation in Dilute Gases），剑桥：剑桥大学出版社（CUP），2002年。
关于光、光学、黑体辐射和激光的广泛综述，请参阅
I.R. 肯永（I.R. Kenyon），《神奇的光》（The Light Fantastic），牛津：牛津大学出版社（OUP），2008年。

11_Nuclear_Physics

11
核物理学
11.1
核物理学的诞生
原子核的存在于1911年由卢瑟福(Rutherford)根据他发起的汉斯·盖革(Hans Geiger)与欧内斯特·马斯登(Ernest Marsden)的金箔实验推断得出。α粒子被金箔散射的结果使卢瑟福能够计算出金原子核的半径。¹ 现代测量值为7.3 fm，其中fm代表飞米(femtometre)，即10⁻¹⁵ m。相较之下，金原子的半径为135 pm，其中pm代表皮米(picometre)，即10⁻¹² m。后者大了18500倍，因此原子核在原子里只占据极小的比例。
随后在那十年的后期，卢瑟福继续发现了原子核的第一个组分，并将其命名为质子(proton)。1920年，卢瑟福预测，原子核内必定还包含一种质量相近的中性粒子。在整个1920年代，卢瑟福在剑桥的团队一直在搜寻这种难以捉摸的粒子，但未能成功。
1930年，瓦尔特·博特(Walther Bothe)和赫伯特·贝克尔(Herbert Becker)用来自放射性钋源的α粒子轰击铍样品，发现发射出具有极强穿透力的辐射。他们推测这种辐射由高能γ射线光子组成。不久之后，伊雷娜·居里(Irène Curie)和弗雷德里克·约里奥(Frédéric Joliot)发现，这种辐射能将质子从富含氢的石蜡靶中击出。这意味着，如果这种辐射真的由γ射线构成，那么它们必定具有远超此前发现的任何辐射的能量，超过52 MeV。当詹姆斯·查德威克(James Chadwick)听说约里奥-居里实验时，他意识到这可能是卢瑟福所预言的中性粒子的迹象。在1932年进行的一系列持续约六周的细致实验中，查德威克证明了轰击铍确实释放出一种新粒子——中子(neutron)，这正是卢瑟福预言的核粒子。中子的质量几乎与质子相等，但从石蜡中击出质子所需的动能远小于γ射线。中子的发现改变了我们对物质结构的理解。现在已清楚，原子由一个带正电的原子核和一团绕核运行的电子云组成，而原子核本身则由两类核子(nucleons)聚集而成：质子和中子。尽管原子核在原子中只占据极微小的区域，但它几乎包含了所有的质量，因此原子核的密度远大于普通物质的密度。中子与质子的质量分别为939.57 MeV和938.27 MeV，分别是电子质量的1838.7倍和1836.2倍。由于通常
¹ α粒子并未激发或打散金原子核，且遵循卢瑟福弹性散射公式，因此可通过将其动能等同于库仑势能来确定其与原子核的最接近距离。这使卢瑟福得出了金原子核的最大半径，该值约为实际半径的三倍。
《物理世界》。作者：Nicholas Manton 与 Nicholas Mee，牛津大学出版社 (2017年)。
版权归 Nicholas Manton 与 Nicholas Mee所有。DOI 10.1093/acprof:oso/9780198795933.001.0001

352
核物理学
一个原子核中的核子数量至少是电子数量的两倍，因此原子核的质量大约是电子质量的4000倍。

查德威克(Chadwick)的发现是理解和利用原子核的关键。该十年末战争的爆发促成了美国的曼哈顿计划，加速了核技术的发展。到战争结束时，距离中子的发现仅13年，世界上已有了核裂变反应堆，核武器也已被用于战争。

11.2
强力
元素X的原子核标准记号为(^{A}{Z}\mathrm{X}{N})，其中原子序数(Z)等于核内的质子数，核质量数为(A = Z + N)，(N)是核内的中子数。通常这一记号简写为(^{A}\mathrm{X})，因为(Z)和(N)可以容易地由元素名称和质量数算出。例如，铀-238的α衰变由以下核转变描述：
[
^{238}{\ 92}\mathrm{U}{146} \rightarrow \ ^{234}{\ 90}\mathrm{Th}{144} + \ ^{4}{2}\mathrm{He}{2}.
\tag{11.1}
]
这里(^{238}{\ 92}\mathrm{U}{146})和(^{234}{\ 90}\mathrm{Th}{144})代表铀核和钍核，(^{4}{2}\mathrm{He}{2})是氦核或α粒子。一个核过程的Q值是该核转变中释放的能量；在此例中Q值为4.27 MeV。这一能量由α粒子的动能（4.198 MeV）和反冲钍核的动能（0.070 MeV）共同分享。

通过一些基本的实验事实，可以轻松推导出原子核的许多性质。原子核由紧密结合的质子和中子集合构成，两者的数目大致相等。质子带正电荷，而中子不带电，这立即意味着核内必然存在一种远比电磁力更强的力，以克服质子之间的排斥力。我们知道这种力就是强力。在原子核内部，它的强度大约是两质子间静电力的100倍。静电力遵循平方反比定律，因而具有无限大的力程。相比之下，强力仅在原子核内部起作用。其力程大约为1–3 fm。在距离小于1 fm时，核子之间有一个硬排斥芯。² 如果强力在这些短距离处不是排斥性的，核物质就会直接坍缩。

化学键涉及的能量相对很小。尽管一个原子与另一个原子成键时其质量会减小，但质量差小到无法测量。这与核结合能形成鲜明对比，核结合能最好通过反应核的质量变化来表示。例如，最简单的核系统是氘核，由一个中子和一个质子组成。氘核质量(m_d)显著小于中子质量(m_n)与质子质量(m_p)之和，即
[
m_d = 2.01355\ \mathrm{u}
\tag{11.2}
]
而
[
m_n + m_p = 1.00866\ \mathrm{u} + 1.00728\ \mathrm{u} = 2.01594\ \mathrm{u}.
\tag{11.3}
]

² 质子的核心半径约为0.8 fm。

强相互作用力
353
此处，u为统一原子质量单位(unified atomic mass unit)，其定义为处于基态的一个未结合的中性碳原子质量的十二分之一；u等于931.4941 MeV或1.660539×10⁻²⁷ kg。因此氘核的结合能为
Δm = (mₙ + mₚ) - m_d = 2.01594 u - 2.01355 u = 0.00239 u , (11.4)
即2.2 MeV。一般情形下，原子核的结合能由下式给出：
B(Z, A) = Zmₚ + Nmₙ + Zmₑ - m(Z, A) , (11.5)
其中mₑ是电子质量，m(Z, A)是原子质量。(通常引用原子质量而非核质量，因为原子质量更易测量，且核反应中电子数量保持不变，其质量会相互抵消。)

最稳定的低质量原子核通常包含等量的质子和中子，即满足Z = N。此类实例为数众多，包括⁴He、¹²C、¹⁴N和¹⁶O。这表明强相互作用力以相同方式作用于质子和中子。重原子核所含中子数多于质子数；最稳定原子核通常满足Z/A ≃ 0.4或N ≃ 1.5Z。当我们计入质子间的静电排斥作用时，这便容易理解了。图11.1展示了原子核中中子数与质子数的关系图。稳定原子核所含中子与质子恰处于恰当比例，落于稳定谷之内，其两侧则为质子或中子过剩的放射性原子核。Z值决定了每种元素的身份。Z值相同而N值不同的核素被称作该元素的不同同位素。许多元素拥有不止一种稳定同位素。例如，碳有两种稳定同位素：¹²C和¹³C。

图11.1

通过广泛的散射实验及其他实验³，人们已对原子核内核子的分布进行了探索。结果表明，核子密度在核体内部近似保持恒定，但在接近边缘处下降，由此原子核拥有一个密度较低的”表皮”。如图11.2所示，不同原子核的表皮深度近似相同，约为2.3 fm。这起因于强相互作用力的有限力程。

此外，除了那些密度稍低的最轻原子核之外，所有原子核的核子密度几乎相同。随着核子被添加进原子核，核的体积V按比例增大。这就像将黏性球粘合在一起。每单位核体积内的核子数为常数，因此对于质量数为A的原子核，
V = (4π/3)R₀³A
且
R = R₀A^(1/3), (11.6)
其中R₀为长度常量，R为核半径。这应与原子半径的变化趋势进行比较，后者远没有这般规律。例如，11号元素钠的一个原子半径是180 pm，而18号元素氩的一个原子半径仅为70 pm。

³ 这些实验包括α衰变分析以及π原子(π介子-原子核束缚态)的光谱学研究。α衰变对核势极为敏感，我们稍后会加以讨论。π介子比电子质量更大，因而与原子核结合得更紧密。它们的轨道会穿透原子核，核结构对其能级有显著影响。

354
核物理
160
稳定
无数据
1014 年
1012 年
1010 年
108 年
106 年
104 年
106 秒
104 秒
100 年
100 秒
1 秒
10–2 秒
10–4 秒
10–6 秒
10–8 秒
1 年
140
120
100
80
60
40
20
N
Z
Z = N
20
40
60
80
100
图11.1 显示稳定谷和原子核半衰期的核素图。

图11.1

一系列实验给出的 (R_0) 一致值在 1.2 fm 左右。
此外，质子和中子在每个原子核内的分布相当均匀，
因此核密度是常数，其值为
[
\rho_{\text{nuc}} = \frac{m_p A}{V}
= \frac{3m_p}{4\pi (1.2)^3} , \text{fm}^{-3} \simeq 2.31 \times 10^{17} , \text{kg m}^{-3}.
\tag{11.7}
]
在推导该表达式时，我们将所有核子赋予相同的质量，因为 (m_n \simeq m_p)，并使用了方程 (11.6)。

11.2.1 核势

将原子核中的核子视为在所有其他核子产生的平均势中做量子力学运动，是一个很好的近似。按照

强力
355
0
0.0
0.05
0.10
2
电荷分布 (e/fm³)
He
Ni
Sm
Pb
R
Ca
4
r (fm)
6
8
图11.2 核密度分布。
这个模型，核子被观察到具有分立的能级。质子所感受到的势与中子所感受到的势略有不同，这是由于质子之间的库仑斥力。这使质子的能级相对于中子的能级升高。这些势如图11.3所示。它们的深度和半径取决于核质量数 (A)。

质子和中子是自旋 (\frac{1}{2}) 的费米子，因此它们服从泡利不相容原理(Pauli exclusion principle)，这是原子核结构的关键。这意味着不能有两个核子占据完全相同的状态。在核基态中，核子占据与泡利原理相容的最低能态。原子核也可以存在于激发态，其中一个或多个质子或中子被提升到较高的能级。原子核还可能存在由于整个原子核的集体激发而产生的激发态。这些包括转动和振动状态。集体激发很难用单个核子能级来理解。

激发核通过发射伽马射线光子迅速衰变到它们的基态。这些光子通常具有 MeV 量级的能量，这大约是原子中电子跃迁所涉及的能量差的一百万倍。原子核也可能通过发射其他粒子，如α粒子或中子，甚至通过发生核裂变而落入较低能态。

由于核密度是常数，一个体积为 (V) 的有限深球方阱是核势的一个良好初级近似。这可以用来估算核子的动能。在原子核的基态，核子填满所有状态，直到对应于最大动量 (p_F) 的最大能量 (\varepsilon_F)，(p_F) 是动量空间中被占据态的球体的半径。(\varepsilon_F) 是费米能(Fermi energy)，(p_F) 是费米动量(Fermi momentum)，就像在固体物理学中一样；参见第十章方程 (10.82)。

356
核物理
E
净中子势
费米能级 (\varepsilon_F)
净质子势
(V_c)
图11.3 中子（左）和质子（右）的核势。(V_C) 是库仑势，它只影响质子。
动量空间无限小区域 (\mathrm{d}^3p) 中的核子状态数为
[
\mathrm{d}A = 2 \times 2 \times V \frac{\mathrm{d}^3p}{(2\pi\hbar)^3} = 4V \frac{4\pi p^2 \mathrm{d}p}{(2\pi\hbar)^3},
\tag{11.8}
]
其中一个因子 2 来自两种类型的核子，另一个因子 2 代表两个自旋态。可以积分给出原子核中的总核子数
[
A = \frac{16\pi V}{8\pi^3 \hbar^3} \int_0^{p_F} p^2 \mathrm{d}p =
\frac{2V}{3\pi^2 \hbar^3} p_F^3,
\tag{11.9}
]
所以利用方程 (11.7)，
[
p_F^2 =
\left( \frac{3\pi^2 \hbar^3 A}{2V} \right)^{\frac{2}{3}}

\left( \frac{3\pi^2 \hbar^3 \rho_{\text{nuc}}}{2m_p} \right)^{\frac{2}{3}}.
\tag{11.10}
]
因此，每个最高能量核子的动能为
[
\varepsilon_F = \frac{p_F^2}{2m_p}
= \frac{1}{2m_p} \left( \frac{3\pi^2 \hbar^3 \rho_{\text{nuc}}}{2m_p} \right)^{\frac{2}{3}}
\simeq 35 , \text{MeV}.
\tag{11.11}
]

强相互作用力
357
4
r [fm]
5
6
7
8
3
2
1
0
–1.0
–0.8
–0.6
–0.4
–0.2
0.0
V(r)
V0
图11.4 原子核具有一个密度恒定的核心，周围包裹着一层较为弥散的表面。这种密度分布反映在核势中，可以用Woods–Saxon势来模拟，如图所示。该势介于具有尖锐边界的球形势阱和三维谐振子势之间。

图11.4

这几乎占核子静止质量的4%，使得核子的速度超过光速的25%。即使这些能量最高的核子也仍然被束缚，其结合能约为8 MeV，因此原子核的球形势阱深度必须至少为43 MeV。势阱的半径随A增大而增大，但其深度几乎与A无关。
核势可以用Woods–Saxon势更精确地模拟，它代表了由核子分布产生的平均场。该势考虑了原子核较低密度的表面层，其形式为
V (r) = −
V0
e
r−R
a

1
(11.12)
其中V0是势阱的深度，近似与A无关；a是表面厚度；R是原子核半径。该势如图11.4所示。

图11.4

11.2.2
核子配对
在第9章中，我们讨论了电子倾向于按照洪德(Hund)第一规则排列自旋。两个电子之间的静电力是排斥力，因此电子优先占据反对称的空间波函数，以最大化它们之间的距离，从而使静电势能最小化。由于电子是费米子，双电子波函数是反对称的，所以处于反对称空间波函数的一对电子必须具有对称的自旋波函数，且自旋平行排列。
对于原子核中的中子和质子，相应的情况则相反，因为强相互作用力是吸引力。两个全同核子进入同一轨道在能量上是有利的，因为这样可以使它们的平均距离最小化，从而最大化它们的结合能。此时，双核子的空间波函数是对称的，而自旋波函数必须是反对称的。因此，通过配对可以最大化核子的结合能。

358
核物理学
0
中子数
82
锡同位素中子的增量结合能
2
4
6
8
10
12
14
图11.5 锡同位素中逐个添加中子的结合能（以MeV为单位）。第83个中子结合能的下降将在后文解释。
成对核子以相反自旋进入同一轨道，这条规则被普遍遵循。
锡同位素中子的结合能如图11.5所示。图中显示出一种锯齿模式，这是由于偶数中子因配对相互作用而结合得更紧密。配对效应通常会使能量降低1.0–1.5 MeV。
质子的结合能也表现出类似的模式，这导致了原子序数Z为偶数和奇数的元素丰度之间存在显著差异，如图11.6所示。图中以对数标度显示了太阳系中元素的相对丰度。例如，14号元素硅的丰度是15号元素磷的100倍，而16号元素硫的丰度则大约是磷的70倍。⁴
最引人注目的一点或许是，几乎不存在N和Z均为奇数的稳定原子核。

11.2.3 液滴模型
图11.7绘制了沿稳定谷的原子核每核子结合能的实验测定值 B/A。（这是使原子核完全解体所需的能量除以核子数，而不是仅移出一个核子所需的能量。）B/A 随 A 增加而增大，直至在 A ≈ 60 附近达到一个宽阔的稳定峰值，对应于铁周围的元素，此处 B/A ≃ 8.6 MeV 每核子。最稳定的原子核是 ⁵⁶₂₆Fe₃₀。这意味着，原则上可以通过将轻核聚变成质量小于 ⁵⁶Fe 的原子核，或通过将重核裂变成质量大于 ⁵⁶Fe 的碎片来释放能量。由于铁附近的平台区域，将铁以下的同位素聚变并不能释放太多能量。事实上，可用的聚变能主要来自第一步，即将氢聚变产生氦。同样，直到我们达到比铁重得多的元素，裂变才能提供可观的能量。当 A 超过 60 时，B/A 逐渐下降，对于最重的原子核，降至约 7.6 MeV 每核子。
通过将原子核视为类似于液滴，可以构建一个非常有用的公式，用来表示总核结合能 B(Z, A) 作为 Z 和 A 的函数。我们称其为液滴公式，但它也被称为半经验质量公式。

⁴ 磷是DNA等生物分子的重要组成部分。它在地球上的丰度远低于构成生物体的其他主要原子成分。

强相互作用力
359
25
30
35
40
45
Z, 原子序数
–3
–2
–1
0
1
2
3
4
5
6
7
8
9
10
11
12
Be
B
Log10(丰度)
F
Na
P
Si S
Sc
V
Ti
Ca
Ar
Fe
Ni
Zn
Co
Cu
Ga
Ge
Zr
Nb
Mo
In
Sn
TeXeBa
Pr
Re
Au
W
Pt
Hg
Pb
Bi
Si的丰度
归一化到106
Th
U
As
Ne
O
C
He
H
N
Li
50
55
60
65
70
75
80
85
90
95
20
15
10
5
0
图11.6 太阳系核素丰度（对数标度）。铍的丰度异常低，因为⁸Be不稳定，而稳定的⁹Be在恒星的聚变反应中被迅速消耗。
30
0
H1
H2
He3
H3
Li6
Li7
He4
C12
O16
Fe56
U235
U238
0
1
2
3
4
5
6
7
8
9
60
90
原子核中的核子数
每个核子的平均结合能 (MeV)
120
150
180
210
240
270
图11.7 每个核子的结合能。
公式或称贝特–魏茨泽克(Bethe–Weizsäcker)公式。该公式基于对原子核结构的一些简单观察，由五项组成，形式为
B(Z, A) = aVA − aSA^{2/3} − aCZ(Z − 1)A^{−1/3} − aA (A − 2Z)²/A + δ(Z, A) . (11.13)
第一项aVA与核子数成正比，由于核体积V随A变化，如方程(11.6)所述，这一项正比于体积。这一项占主导地位，因此每个核子的结合能近似为常数。其物理原因在于核力的作用范围与核子的大小相当。

360
核物理学
因此，核子只与其最近邻的核子结合。如果每个核子与原子核中所有其他核子之间都存在吸引力，那么结合能将按 A(A −1) 的比例缩放。
原子核边缘附近的核子并未完全被其他核子包围，因此结合得较不紧密。第二项 −aSA
2
3 是一个表面能项，用于补偿核子靠近表面时较低的结合能。它可以被视为一种表面张力效应，与核表面积成正比。随着核尺寸增大，表面积与体积之比减小，因此该项随 A 增大而变得不那么重要。
到目前为止，该公式将所有核子视为相同的，就强相互作用力而言确实如此。然而，就电磁力而言，它们非常不同。第三项是质子之间库仑排斥力的修正。 Z 个质子中的每一个都受到其他 Z −1 个质子的排斥，因此该项正比于 Z(Z−1)
R
。核半径 R 正比于 A
1
3 ，因此库仑项的形式为 −aCZ(Z −1)A−1
3 。
如果我们能够关闭电磁相互作用，我们预期稳定原子核将包含相等数量的中子和质子，以使中子和质子的费米能 εF 相同。第四项正比于 (A−2Z)2
A
，或等效地 (N−Z)2
A
，表示原子核偏离 N = Z 时的能量代价。这被称为非对称项。其系数正比于
1
A ，因为随着 A 增大，更高的能级被核子占据，而这些能级彼此更接近。
最后，如前所述，中子对和质子对将尽可能形成。形成这样的配对在能量上是有利的，这反映在中子数和质子数为偶数的原子核与这些粒子数为奇数的原子核在结合能上的差异。事实上，这一效应对核稳定性如此重要，以至于只有四种稳定的奇–奇核：2H、6Li、10B 和 14N。配对效应似乎在核基态中被普遍遵循，而液滴公式中的最后一项将其量化。它表示为
δ(Z, A) =



+δ0,
当 N, Z 为偶数时
0,
当 A 为奇数时
−δ0,
当 N, Z 为奇数时
其中 δ0 = aPA−3
4 。
常数 aV, aS, aC, aA, aP 由实验确定，并取以下值：
aV ≃15.6 MeV,
aS ≃16.8 MeV,
aC ≃0.72 MeV,
aA ≃23.3 MeV,
aP ≃34 MeV .
(11.14)
液滴公式表明每个核子的结合能（以 MeV 为单位）为
B(Z, A)
A
= aV −aSA−1
3 −aCZ(Z −1)A−4
3 −aA
(A −2Z)2
A2

δ(A, Z)
A
.
(11.15)
图11.8显示了该公式中各项的组合方式。表面能、库仑能和非对称能均给出负贡献，从而降低结合能。由液滴公式得出的结合能与图11.7中所示的测量结合能吻合良好。

强力
361
B
A
平均
结合能
单位 MeV/核子
0
0
2
4
6
8
10
12
14
16
30
O17 S33Mn53Cu63
I127
Pt195
Bk245
60
净结合能
非对称能
体积能
90
120
质量数 A
150
180
210
240
270
表面能
库仑能
图 11.8 液滴模型中每个核子结合能的各项贡献。
我们可以以 ²³⁸U 为例来看每一项的相对重要性。在该例中，每个核子的结合能为
B(92, 238)
A

15.6 −
16.8
(238)
1
3 −0.7292 × 91
(238)
4
3 −23.3 (54)²
(238)² +
34
(238)
7
4

15.6 −2.7 −4.1 −1.2 + 0.002 = 7.6 MeV .
(11.16)
（请注意，对于重核，配对项相对不重要，因为它只修正原子核内最后几个核子之间的配对相互作用。这就是配对项未在图 11.8 中出现的原因。）²³⁸U 的质量 m(92, 238) 为 238.050788 u = 238.050788 × 931.4941 MeV = 221,742.9 MeV。我们可以利用公式 (11.5) 计算出原子核的真实结合能
B(92, 238)

92mp + 146mn + 92me −m(92, 238)

92 × 938.2723 + 146 × 939.5656 + 92 × 0.5110 −221, 742.9

223, 544.6 −221, 742.9

1801.7 MeV ,
(11.17)
因此每个核子的实际结合能为 1801.7/238 = 7.57 MeV。液滴模型的计算结果与测量值在其五个参数的精度范围内一致。
我们可以利用液滴公式找出稳定核中质子数 Z 与总核子数 A 之间的关系。在固定 A 的情况下，对公式 (11.13) 关于 Z 求导，我们发现当满足下式时结合能达到最大值：
∂B
∂Z = −aC(2Z −1)A−1
3 + 4aA
A −2Z
A
= 0 .
(11.18)

362
核物理学
可将此式重排为
[
\frac{Z}{A} = \frac{1}{2}
\left(
\frac{4a_{\mathrm{A}} + a_{\mathrm{C}} A^{-\frac{1}{3}}}{4a_{\mathrm{A}} + a_{\mathrm{C}} A^{\frac{2}{3}}}
\right)
\simeq \frac{1}{2}
\left(
\frac{1}{1 + \frac{a_{\mathrm{C}}}{4a_{\mathrm{A}}} A^{\frac{2}{3}}}
\right),
\tag{11.19}
]
这里我们利用了 (a_{\mathrm{C}} A^{-\frac{1}{3}}) 总是很小这一事实。该表达式给出质子所占比例，对于小 (A) 核素，(Z/A \simeq 0.5)，但随着 (A) 增大，(Z/A) 减小。当 (A = 238) 时，公式正确地预言原子核中有 (0.39 \times 238 = 92) 个质子。

液滴模型在考虑α衰变、裂变和其他放射性类型，甚至中子星结构时非常有用。

11.3 核壳层模型
液滴公式很好地符合了核结合能的总体趋势。然而，有些原子核的结合能比预期的大，如图11.7所示。这些核的结合能超过了公式给出的值，并且当核内质子或中子数达到某些幻数(magic numbers)时就会出现这种情况。幻数已由大量实验明确揭示，它们是2、8、20、28、50、82和126。中子数或质子数为幻数的原子核具有增强的稳定性，且比相邻核素更丰裕。它们还以更多的稳定同位素或同中子异荷素（中子数相同而质子数不同的核素）的形式存在。例如，拥有最多稳定同位素的元素是锡，它是第50号元素，质子数为幻数。锡有10种稳定同位素。相比之下，相邻的元素铟（(Z = 49)）和锑（(Z = 51)）各自只有一两种稳定同位素。幻数核的第一激发能也特别大，半衰期异常长（如果不稳定），中子俘获截面非常低。双幻核，如 (^{4}{2}\mathrm{He}{2})、(^{16}{8}\mathrm{O}{8}) 和 (^{208}{82}\mathrm{Pb}{126})，与相邻核素相比尤其稳定。事实上，(^{208}{82}\mathrm{Pb}{126}) 是最重的稳定核。（最近发现 (^{209}{83}\mathrm{Bi}{126}) 是准稳定的，半衰期为 (1.9 \times 10^{19}) 年。）

11.3.1 原子壳层类比
那么，我们如何解释这些原子核的异常稳定性呢？有一个明显的类比——惰性气体（氦、氖、氩、氪、氙、氡）的化学稳定性。根据9.1.2节的讨论，这些原子的性质很容易用其电子结构来理解。图9.10表明，随着原子序数变化，从原子中移走一个电子所需的能量在每种惰性气体处达到峰值，这解释了为什么它们不易形成化合物，并以单原子气体天然存在。电子轨道存在于能量上分离的壳层中；惰性气体原子具有满壳层组态，并且是稳定的，因为需要大量能量才能将一个电子激发到下一个空的能级。连续壳层中的状态数和相应的原子幻数列于表9.1和图9.3中。类似地，人们相信核幻数代表了完全填满核势阱壳层的质子或中子数。

图9.3

图9.10

如果沿袭这个类比，我们就能理解为什么图11.5显示第83个中子的结合能急剧下降，以及为什么与中子数更少的相邻锡同位素相比，该同位素的寿命也较短。这是因为第82个中子填满了一个壳层，所以下一个中子必须进入一个更高的能壳。最后

核壳层模型
363
锡同位素 (^{133}{,,50}\mathrm{Sn}{83}) 中的中子与碱金属原子（如钾）中束缚松散的外层电子相当。

11.3.2 谐振子
核的幻数与原子幻数不同，因为核势与原子中的库仑势显著不同，因此每个壳层中的态数目也不同。对于球形势阱（一个球形盒子）或伍兹–萨克森势（图11.4），薛定谔方程都无法解析求解。然而，存在另一种具有简单解的势，它被证明是描述核势的一个良好起点——三维谐振子。⁵

图11.4

如第7章所讨论的，一维谐振子的薛定谔方程
[
\left( -\frac{\hbar^2}{2m} \frac{d^2}{dx^2} + \frac{1}{2}m\omega^2 x^2 \right) \chi(x) = E\chi(x) ,
\tag{11.20}
]
具有（未归一化的）解
[
\chi_n(x) = H_n \left( \sqrt{\frac{m\omega}{\hbar}} x \right) e^{-\frac{m\omega}{2\hbar} x^2} ,
\tag{11.21}
]
其中函数 (H_n) 是埃尔米特多项式（7.37）。能级为
[
E_n = \left( n + \frac{1}{2} \right) \hbar\omega ,
\tag{11.22}
]
因此基态具有能量 (\frac{1}{2}\hbar\omega)，且激发态之间的能量间隔为 (\hbar\omega)。
谐振子很容易推广到任意维度。在二维情况下，势为 (V(x,y) = \frac{1}{2}m(\omega_x^2 x^2 + \omega_y^2 y^2))。解是一维解的乘积，其能量等于一维能量的和，(E_{p,q} = (p+\frac{1}{2})\hbar\omega_x + (q+\frac{1}{2})\hbar\omega_y)。在各向同性情况 ((\omega_x = \omega_y = \omega)) 下，能级为 (E_n = (n+1)\hbar\omega)，其中 (n = p+q)。能级 (E_n) 的简并度为 (n+1)，这是 (n) 由 (p) 和 (q) 构成的方式数（(p) 可以取 0 到 (n) 的任何值，然后 (q) 确定）。类似地，在三维情况下，各向同性谐振子的势为 (V(x,y,z) = \frac{1}{2}m\omega^2(x^2 + y^2 + z^2))。解是一维解的乘积，标记为 ((p,q,r))，且 (N = p+q+r)。能级为 (E_N = (N+\frac{3}{2})\hbar\omega)，且具有更大的简并度。在能级 (E_N) 处，(p+q) 可以取从 0 到 (N) 的任何值 (n)，一旦 (p) 和 (q) 确定，(r) 也随之确定，因此利用之前的二维结果，总简并度 (\Delta_N) 为和式
[
\Delta_N = \sum_{n=0}^{N} (n+1) = \frac{1}{2}(N+1)(N+2) ,
\tag{11.23}
]
即第 ((N+1)) 个三角数。⁶

⁵ 乍一看这可能不合适，因为我们知道核子通过强相互作用力相互作用，这种力是短程的，而谐振子力是长程的并随距离增加。然而，如果我们从球形势阱开始，它是短程的且有急剧截止，我们将得到本质上相同的最终结果。
⁶ 这也是 (x, y, z) 中 (N) 次单项式的个数。

364
核物理
在球极坐标下，三维各向同性谐振子的薛定谔方程是
[
\left( -\frac{\bar{h}^2}{2m}\nabla^2 + \frac{1}{2}m\omega^2 r^2 \right) \chi = E\chi .
\tag{11.24}
]
分离径向和角向坐标后，解可以表示为
[
\chi_{nlm}(r, \vartheta, \phi) = \frac{1}{r} R_n(r) P^m_l(\vartheta, \phi) ,
\tag{11.25}
]
其中 (n) 现在是径向量子数，(l) 是轨道角动量，(m) 是角动量的 (z) 分量。角动量态的标记方式与原子物理学中相同
[
l = 0, 1, 2, 3, 4, 5 \ldots ;
s, p, d, f, g, h \ldots .
\tag{11.26}
]
能量为
[
E_N = \left( 2n + l - \frac{1}{2} \right) \bar{h}\omega ,
\tag{11.27}
]
因此 (N = 2n + l -2)，径向量子数 (n) 每增加一步所导致的能量增加等于角动量 (l) 增加两步。对于给定的 (N)，(l) 的最大值为 (N)，其他容许值相差 2 的倍数。

因此，简并度为 (\Delta N) 的谐振子多重态可以分解为如下角动量多重态：
[
\Delta_{2k} = 1 + 5 + 9 + \ldots + (4k + 1) ,
\tag{11.28}
]
[
\Delta_{2k+1} = 3 + 7 + 11 + \ldots + (4k + 3) .
\tag{11.29}
]
例如，三维谐振子的第五激发能级，其简并度 (\Delta_5) 分解为
[
\Delta_5 = 21 = 3 + 7 + 11 = 3p + 2f + 1h .
\tag{11.30}
]
（角动量多重态按能量增加的顺序依次标记。例如，(p) 态的第三次出现是在能级 5，因此标记为 (3p)。）三维谐振子的低激发态在表 11.1 中给出。

考虑到核子的两种自旋态，这将给出幻数 2、8、20、40、70 和 112。因此最低的几个幻数能够正确重现，但对于更大的数，这种吻合就消失了。然而，正如玛丽亚·格佩特-迈耶(Maria Goeppert-Mayer)与奥托·哈克塞尔(Otto Haxel)、汉斯·延森(Hans Jensen)和汉斯·苏斯(Hans Suess)分别独立证明的那样，通过修改谐振子势，幻数问题可以得到解决。他们的解释发表于 1949 年同一期的《物理评论》(Physical Review)上。

遵循这些作者的工作，我们假设谐振子态受到一个依赖于其角动量的微扰。在每个谐振子能级 (N) 处，低角动量态的能量上升，而高角动量态的能量下降。由于核子的平均径向位置随其角动量增大而增大，高角动量态往往更靠近核表面，这具有使谐振子势变平的效果，使其更接近伍兹-萨克森势(Woods–Saxon potential)。

核壳层模型
365
能级 N
态
（含自旋）
简并度 2∆N
幻数
0
1s
2
2
1
1p
6
8
2
1d, 2s
10 + 2 = 12
20
3
1f, 2p
14 + 6 = 20
40
4
1g, 2d, 3s
18 + 10 + 2 = 30
70
5
1h, 2f, 3p
22 + 14 + 6 = 42
112
表11.1 三维谐振子态表。
如果我们简单地在哈密顿量中加入一项与 −l^2 成正比的项，这会产生减小壳层间隙的不良效果。为了补偿这一点，我们减去每个振子能级的 l^2 平均值 ⟨l^2⟩_N，因此所要加的项变为 −β(l^2 −⟨l^2⟩_N)，其中 β 是由实验确定的正的常数。例如，考虑15个 N = 4 的振子态，由各向同性谐振子势中简并的1个 3s、5个 2d 和9个 1g 轨道组成。l^2 的本征值为 l(l + 1)，对这些轨道分别取值为0、6和20，所以平均值为 ⟨l^2⟩_4 = (1/15)(1 × 0 + 5 × 6 + 9 × 20) = 14。因此，对 N = 4 态能量所加的项为 −β(l(l+1)−14)，这解除了简并，提高了 3s 和 2d 态的能量，降低了 1g 态的能量。一般而言，⟨l^2⟩_N = (1/2)N(N+3)。修改后的三维谐振子的能级序列如图11.10左图所示。注意，我们也可以从球形势阱出发，加入一个相反符号的角动量项，得到非常相似的结果。

图11.10

11.3.3 自旋–轨道耦合
图11.9 在原子核内，强力使得核子的轨道角动量和自旋平行排列。效果是降低了总角动量 j = l + 1/2 的核子态（左）的能量，并升高了 j = l − 1/2 的核子态（右）的能量。

图11.9

迈耶(Mayer)、哈克塞尔(Haxel)、延森(Jensen)和聚斯(Suess)所作的关键性突破是引入了附加的自旋–轨道耦合。这意味着核子的自旋与其轨道角动量有很强的平行趋势，因此态必须用它们的总角动量 j = l + 1/2 或 j = l − 1/2 来标记。例如，十八个 1g 态……

366
核物理学
能量
简并度
幻数
能级 N
态（含自旋）
数
0
1s 1
2
2
2
2
1
1p 3
2 , 1p 1
2
4 + 2 = 6
8
2
1d 5
2 , 1d 3
2 , 2s 1
2
6 + 4 + 2 = 12
20
3
1f 7
2
8
28
4
1f 5
2 , 2p 3
2 , 2p 1
2 , 1g 9
2
6 + 4 + 2 + 10 = 22
50
5
1g 7
2 , 2d 5
2 , 2d 3
2 , 3s 1
2 , 1h 11
2
8 + 6 + 4 + 2 + 12 = 32
82
6
1h 9
2 , 2f 7
2 , 2f 5
2 , 3p 3
2 , 3p 1
2 , 1i 13
2
10 + 8 + 6 + 4 + 2 + 14 = 44
126
表 11.2 核态表。
l = 4的态分裂为十个1g 9
2 态和八个1g 7
2 态。自旋-轨道耦合项降低了自旋与角动量同向的态的能量，并升高了自旋与角动量反向的态的能量，如图11.9所示。因此，1g 9

图11.9

2 态的能量降低，而1g 7
2 态的能量升高。
自旋-轨道耦合是一种表面效应。原子核内部的核子所经历的环境在所有方向上都是相同的，因此在这里轨道角动量的方向失去了意义。然而，对于处于表面层的核子，径向和切向是不同的，而轨道角动量是切向的。自旋-轨道耦合可以在哈密顿量中通过一项−2α l · s来建模，其中α为正。可以通过对总角动量算符 j = l + s 进行平方来计算此项的影响。这给出 j2 = (l + s)2 = l2 + s2 + 2 l · s，所以 2 l · s = j2 −l2 −s2。用这些算符的本征值表示，我们得到 2 l · s = j(j + 1) −l(l + 1) −s(s + 1)。代入 j 的值以及 s = 1
2，我们发现对于 j = l + 1
2，自旋-轨道项为 −αl，而对于 j = l −1
2，自旋-轨道项为 α(l + 1)，因此总的来说，对于轨道角动量为 l 的态，自旋-轨道项产生了一个 α(2l + 1) 的能级分裂。这意味着在 N = 3 能级，1f 7
2 和 1f 5
2 态之间的能量分裂，比在谐振子势中与其简并的 2p 3
2 和 2p 1
2 态之间的分裂更大；而在 N = 4 能级，1g 9
2 和 1g 7
2 态受到的影响远大于 2d 5
2、2d 3
2 或 3s 1
2 态。一般来说，在每个谐振子能级 N，自旋-轨道项对高角动量态的影响远大于对低角动量态的影响，并且它将最高角动量态的能量降低到足以使其降至下一个壳层，如图11.10右侧所示。例如，八个1f 7

图11.10

2 态被降入一个它们自己独立的壳层，而十个1g 9
2 态则被降低整整一个壳层。这些大的能级移动改变了核壳层中的态数目，并重现了观测到的核幻数，如图11.10所示。每个壳层中的态在表11.2中给出。

图11.10

自旋-轨道耦合对强相互作用的贡献产生了非常显著的效应，远大于在原子物理中观测到的电磁自旋-轨道耦合，后者对原子壳层的构成没有影响。耦合强度 α 如此之大的原因尚不完全清楚。

核壳层模型
367
谐振子
能级
N=5
p (l =1)
3p1/2
2f5/2
3p3/2
li13/2
1h9/2
2f7/2
1h11/2
2d3/2
3s1/2
1g7/2
2d5/2
1g9/2
2p1/2
1f5/2
2p3/2
1f7/2
1d3/2
2s1/2
1d5/2
1p1/2
1p3/2
1s1/2
s (l =0)
p (l =1)
s (l =0)
p (l =1)
s (l =0)
d (l =2)
f (l =3)
d (l =2)
g (l =4)
f (l =3)
h (l =5)
N=4
N=3
N=2
N=1
N=0
角动量
多重态
自旋-轨道
多重态
2
(126)
(124)
(118)
(114)
(100)
(90)
(82)
(70)
(66)
(64)
(56)
(50)
(40)
(38)
(32)
(28)
(20)
(16)
(14)
(8)
(6)
(2)
6
4
14
10
8
12
4
2
8
6
10
2
6
4
8
4
2
6
2
2
4
简并度
[126]
[82]
[50]
[28]
[20]
[2]
[8]
累加
总数
幻数
图 11.10 核壳层。

图 11.10

在哈密顿量的常规参数化中，α 和 β 表示为 α = κ¯hω0 和 β = µκ¯hω0，其中 ω0 是最佳谐振子频率。修正后的谐振子势为
VMO = 1
2mω2
0r2 + Vl ,
(11.31)
其中
Vl = −κ¯hω0

µ

l2 −1
2N(N + 3)

2 l · s

.
(11.32)

368
核物理学
该模型仅依赖于三个参数：κ、μ 和 ω0。当取值 κ ≃ 0.06 和 μ ≃ 0.4 时，可以很好地重现核能级。振荡器频率 ω0 因核而异；¯hω0 约为 41A−1 3 MeV。对于 A = 125 到 216，A 1 3 = 5 到 6，因此 41A−1 3 MeV ≃ 7 到 8 MeV，这给出了中重核主壳层之间能隙的指示。

壳模型对于接近幻数的原子核非常有效。由于配对效应，所有偶偶核的自旋均为零，因为核子以相反的自旋配对。壳层结构的重要性在诸如 41
20Ca21 这样的核中显而易见，它具有幻数的质子和比幻数多一个的中子。那个额外的未配对中子决定了核的整体自旋。在其基态，这个核具有若干填满的质子和中子壳层，再加上一个进入新壳层的额外中子。从图 11.10 中我们可以看到，第 21 个中子将处于 1f 7

图 11.10

2 态。我们应该预期这个核的自旋为 J = 7
2，事实也是如此，其镜像核 41
21Sc20 亦然。类似地，核 91
41Nb50 和 91
40Zr51 的自旋分别为 9
2 和 5
2，这也可以通过查看图 11.10 来验证。

图 11.10

在幻数核心外有两个核子的核中，核子之间存在相当强的剩余相互作用。这种作用是短程且吸引的，因此能量最低的态是那些核子波函数重叠最大的态。我们可以借助一个近似的经典图像来理解其后果。回想一下，由于自旋–轨道耦合，核子自旋与其轨道角动量平行。核子沿着赤道轨道运动，如图 11.9（左）所示。当经典轨道沿着同一赤道，方向相同或相反时，两个核子的波函数有较大重叠。它们的角动量矢量此时平行或反平行。

图 11.9

对于两个中子或两个质子，泡利原理(Pauli principle)禁止粒子处于同一位置并具有相同的自旋态。如果角动量平行，这将抵消短程吸引，从而有利于角动量反平行的组态。在 42
20Ca22 中，在幻数核心 40
20Ca20 之外有两个处于 1f 7
2 态的中子，根据泡利原理，总角动量可以是 J = 0, 2, 4, 6。基态具有 J = 0，因为该态下中子角动量反平行，并且随着 J 增大，能量增加。

核 42
21Sc21 更有趣。这里在核心外有一个质子和一个中子，均处于 1f 7
2 态。总角动量 J 可以取 0 到 7 之间的任意值，但与 42
20Ca22 结构不同的态是那些 J 为奇数的态。这些态中最低的一个，其质子和中子角动量几乎反平行，具有 J = 1，但引人注目的是，J = 7 且角动量平行的态能量仅略高一些。J = 3 和 J = 5 的态能量则要高得多。

J = 7 态因其较大的自旋间距和与 J = 1 态之间的小能隙，不易释放其多余的能量。事实上，42
21Sc21 的 J = 7 态会经历逆 β 衰变成为 42
20Ca22（见第 11.3.4 节），其半衰期超过一分钟。一个位于基态之上的核态具有如此长的半衰期是不寻常的，正因如此，42
21Sc21 的 J = 7 态被称为同核异能态(isomer)，意指准稳定的激发核。

当在幻数核心之外有三个或四个核子时，它们之间的吸引剩余相互作用可能足以使这些核子形成一个集团，例如，

核壳层模型

一个氚团簇（³₁H₂）或α粒子。这种团簇化很常见，例如在原子核¹⁹₉F₁₀和²⁰₁₀Ne₁₀中就存在，它们分别在¹⁶₈O₈核心外具有氚团簇和α粒子团簇。

11.3.4 β衰变

图11.11 ⁹Li核（左）内中子和质子能级的示意图，该核以178 ms的半衰期进行β衰变形成⁹Be（右）。

图11.11

中子和质子分别填充核能级，因此幻数分别适用于中子和质子。这一点很明显，因为虽然两个中子不能存在于同一个态，但中子和质子可以，因为它们是不同的粒子。质子受到核内所有其他质子的静电排斥作用。这使得它们的能级相对于中子的能级向上移动。在稳定原子核中，最高占据能级——费米能级——对于中子和质子必须相同，否则通过将中子转化为质子或将质子转化为中子就可以释放能量。由于弱力的存在，这种转化是可能的，并被观测为放射性β衰变。中子过剩的原子核可能发生如下反应：

⁹₃Li₆ → ⁹₄Be₅ + e⁻ + ν̄ₑ , (11.33)

其中e⁻是电子（或β粒子），ν̄ₑ表示反中微子。这些原子核中核子的能级如图11.11所示。自由中子会以大约10分钟的半衰期进行β衰变：

图11.11

n → p + e⁻ + ν̄ₑ . (11.34)

质子过剩的原子核可能发生如下反应：

²³₁₂Mg₁₁ → ²³₁₁Na₁₂ + e⁺ + νₑ , (11.35)

其中e⁺是正电子（电子的反粒子），νₑ表示中微子。这被称为逆β衰变。在某些较重的原子核中，质子也可能通过俘获一个内层原子电子并发射一个中微子而转化为中子。这个过程被称为电子俘获。

这些过程驱使原子核趋向稳定谷，如图11.1的核素图所示。在核素图中，位于稳定谷左侧的原子核发生β衰变，而位于右侧的原子核则发生逆β衰变。在图11.11中，质子的能级相对于中子的能级略有升高。由于库仑排斥作用，这种偏移在较重的原子核中显著增加，这就是为什么在较重的原子核中稳定谷会偏离Z = N线。

图11.11

图11.1

370
核物理
单个质子和中子极少会自发地从原子核中发射出来。这是因为每个质子和中子都具有正结合能。然而，如果在稳定谷左侧的原子核中添加若干中子，连续添加的中子其结合能会逐渐减小，直至再加入一个中子时结合能为零。此时，我们就到达了中子滴线。超过这一界限的丰中子核会在约10⁻²³ s的时间尺度上释放中子，这相当于光传播中子半径距离所需的时间，因此这些原子核会以因果律允许的最快速度解体。在稳定谷的另一侧，我们发现了质子滴线，丰质子核会在此处迅速释放质子。

11.3.5 尼尔松模型

y
1–δ
1–δ
1+ε
1+ε
y
z
z
y
y
x
x

图11.12 上：ε > 0的长椭球，左图z轴水平，右图z轴垂直纸面向外。下：ε < 0的扁椭球，左图z轴水平，右图z轴垂直纸面向外。

图11.12

在幻数区域，原子核呈球形，上述球形壳模型工作得很好。当核壳层仅被部分填充时，原子核会通过变形为椭球来达到能量更低的组态，从而打破完全的旋转对称性。这对分析这些原子核至关重要。它们由一个更精细的壳模型描述，该模型以其提出者斯文·约斯塔·尼尔松(Sven Gösta Nilsson)的名字命名，称为尼尔松模型。这些原子核依然围绕被定义为z轴的轴线保持轴对称，并且其体积等于包含相同核子数的球形核的体积。形变由一个参量ε来参数化。当ε为正时，原子核为长椭球；当ε为负时，原子核为扁椭球，如图11.12所示。大多数外层核子壳层部分填充的大核都形成长椭球。外层壳层中有少量空态（或空穴）的原子核则倾向于呈扁椭球。

图11.12

图11.13 如果原子核变形为长椭球，球对称性就被破坏了。图中显示了三个半径相同的正交轨道。其轴线与剩余对称轴重合的轨道能量更高，因为该轨道的大部分位于原子核外部，使得处于该轨道上的核子感受到较少的吸引势。

图11.13

在最初的球形壳模型中，具有相同总角动量j的核子态是简并的。例如，所有六个1d 5 2态都具有相同的能量。然而，一个小的长椭球形变会产生一个微扰，劈裂这一简并；此时能量依赖于角动量沿z轴（即剩余对称轴）的投影K。图11.13展示了围绕长椭球核的三个假想轨道，它们具有相等的角动量。其中一个轨道位于(x, y)平面内，因此其轴线与z轴重合，且K = j。另外两个轨道的轴线垂直于z轴。在这两种情况下，角动量沿z轴的投影均为K = 0。K = j的轨道大部分处于原子核的吸引势阱之外，因此束缚较不紧密，能量高于另外两个大部分位于核内的轨道。一般而言，对于长椭球变，主要轨道位于核内的态能量会下降，而轨道主要位于核外的态能量则会上升。一个态的角动量沿z轴的投影越小，其能量就越低。例如，1d 5 2态的六重简并分裂为三对二重简并态，按能量递增的顺序，它们的K值分别为K = ± 1/2，K = ± 3/2和K = ± 5/2。

图11.13

372
核物理
一个椭球形的原子核可以用尼尔森(Nilsson)势 ( V_N ) 来建模，该势是一种各向异性谐振子势，并加入了与球壳模型中相同（或类似）的角动量项和自旋-轨道项 ( V_l ) 进行了修正，
[
V_N = \frac{1}{2m} \left( \omega_x (x^2 + y^2) + \omega_z z^2 \right) + V_l,
\tag{11.36}
]
其中 ( \omega_x^2 = \omega_y^2 = \omega_0^2 (1 + \frac{1}{3}\varepsilon) )，( \omega_z^2 = \omega_0^2 (1 - \frac{2}{3}\varepsilon) )。图11.14展示了在此势中单核子态的能量随形变参数 ( \varepsilon ) 的变化关系。中间那条线对应于球形核（( \varepsilon = 0 )）的能级；向右 ( \varepsilon ) 为正，产生长椭球核；向左 ( \varepsilon ) 为负，原子核为扁椭球形。例如，对于正的 ( \varepsilon )，在 ( \varepsilon = 0 ) 时简并的六个 ( 1d_{5/2} ) 态会分裂成三对态，按能量升高顺序分别标记为 ( \frac{1}{2}[220] )、( \frac{3}{2}[211] ) 和 ( \frac{5}{2}[202] )，并且能级分裂随 ( \varepsilon ) 增大而增加。对于负的 ( \varepsilon )，能量顺序则相反。现在我们来解释这种标记。方括号前面的分数是 ( |K| ) 的值。方括号内，第一个数字给出三维（各向同性）谐振子能级，第二个数字给出 z 方向的谐振子能级，第三个数字是轨道角动量在 z 方向的投影 ( m )，其中 ( K = m \pm \frac{1}{2} )。

图11.14

原子核的长椭球变形是如何产生的呢？这种形变是核子的一种自洽、集体效应，通过增强它们之间的相互作用来降低总能量。一个 j 多重态中所有波函数的总密度是球对称的，因此所有填满的较低壳层构成一个球对称的核心。然而，在最外壳层中，那些轨道轴近乎垂直于 z 轴的轨道会被优先占据，从而沿 z 轴方向产生了长椭球变形，同时也降低了那些对形变有贡献的轨道的能量。例如，对于一个外 ( 1h_{11/2} ) 质子壳层半满的原子核（对应 ( Z = 76 )），这种形变意味着质子可以填充 ( K = \pm \frac{1}{2}, \pm \frac{3}{2}, \pm \frac{5}{2} ) 的态，这些态的能量都低于相应的球壳模型态的能量；而那些能量升高的态，即 ( K = \pm \frac{7}{2}, \pm \frac{9}{2}, \pm \frac{11}{2} )，则全部空着，因此总体上原子核的形变降低了总能量。这就是许多 ( Z = 76 ) 的锇同位素呈长椭球形的原因。

尼尔森模型还有进一步的改进。椭球形核可以被激发到集体转动状态，即围绕垂直于 z 轴的轴自旋。此时，每个核子的角动量与整个原子核的自旋之间存在相互作用。类似于经典动力学，这种效应被称为科里奥利力(Coriolis force)。这会导致核子能级的进一步分裂：它使 ( K ) 与核自旋方向相同的态能量降低，而使 ( K ) 相反的态能量升高。

11.4
α衰变
越过铁峰之后，随着原子序数增加，原子核的每核子结合能逐渐降低。这由图11.7所示，并由液滴模型公式(11.15)很好地描述。因此，重核分裂可以释放能量。这主要是由于核内质子间库仑排斥力的增加。然而，强力将核子束缚在一个势阱之内，阻止了核子的即刻解体。

重核是不稳定的，会在随机的时刻衰变，每种可能的衰变过程都有其特征的半衰期。重核常见的衰变途径是通过发射

α 衰变
373
4.5
1/2[301]
5/2[422]
7/2[413]
1/2[440]
7/2[404]
5/2[413]
1/2[420]
3/2[301]
7/2[303]
1/2[321]
3/2[312]
3/2[431]
5/2[422]
7/2[413]
9/2[404]
1/2[431]
1/2[301]
1/2[440]
3/2[301]
1/2[310]
5/2[312]
3/2[321]
1/2[330]
3/2[202]
1/2[200]
1/2[211]
5/2[202]
3/2[211]
1/2[220]
1/2[101]
3/2[101]
1/2[110]
1/2[310]
5/2[303]
3/2[312]
3/2[321]
5/2[312]
7/2[303]
3/2[202]
3/2[211]
5/2[202]
1/2[110]
3/2[101]
1/2[220]
1/2[200]
1/2[330]
1/2[321]
9/2[404]
4.0
E
3.5
3.0
2.5
2.0
–0.3
–0.2
–0.1
0.0
0.1
0.2
0.3
5.0
50
2p1/2
2p3/2
1f7/2
1d3/2
1f5/2
1g9/2
2s1/2
1d5/2
1p1/2
1p3/2
28
20
8
ε
图 11.14 Nilsson 图。

图 11.14

在诸如 (11.1) 这样的过程中，α 粒子带走了大部分剩余能量，这些能量表现为 α 粒子的动能。α 衰变的半衰期对所释放的能量（即 Qα 值）有着极强的依赖性，而该能量取决于发生衰变的同位素。能量越高的 α 粒子，其发射时对应的半衰期远短于能量较低的粒子。对于几种既含偶数个质子又含偶数个中子的放射性元素同位素，其半衰期如图 11.15 所示，它们分别落在几乎平行的不同直线上。对于每种元素，当质子数固定而中子数可变时，半衰期 τ 1/2 与释放能量之间呈对数关系，可表示为

374
核物理学
214
212
0.30
–8
–4
0
4
8
12
16
20
0.40
(Qα/MeV)–1/2
0.50
216
222
224
228
236
238
240
234
232
218Po
226Ra
238U
242Pu
log(τ1/s)
2
图 11.15 Geiger–Nuttall 定律。
A
Qα (MeV)
1/√Qα
τ 1/2 (s)
log τ 1/2
218
9.85
0.319
10−7
-7.00
220
8.95
0.334
10−5
-5.00
222
8.13
0.351
2.8 ×10−3
-2.55
224
7.31
0.370
1.04
0.017
226
6.45
0.394
1854
3.27
228
5.52
0.426
6.0 ×107
7.78
230
4.77
0.458
2.5 ×1012
12.40
232
4.08
0.495
4.4 ×1017
17.64
表 11.3 钍同位素的 α 衰变能量和半衰期。 1/√Qα 每增加 0.01，对应的 log τ 1/2 约增加 1.4。
这个关系被称为 Geiger–Nuttall 定律 (Geiger–Nuttall law)。对于拥有 90 个质子的钍元素同位素，其结果列于表 11.3 中。
从经典物理角度看，原子核内的 α 粒子会被束缚在核势阱中，如果没有外界能量输入，就无法逃逸。但正如 George Gamow 在 1928 年指出的，量子力学允许隧穿的可能性

α衰变
375
R
势垒穿透
b
V(r)
r
Qα
χ
图11.16 穿过势垒的隧穿。图中展示了势能V(r)和波函数χ(r)。

穿过一个势垒，因此α粒子总是有一个很小的概率出现在势垒的另一侧。这一洞见导致了对盖革-努塔尔定律(Geiger–Nuttall law)的解释，这是量子理论早期的一项胜利，不仅对理解α衰变至关重要，对裂变和聚变也是如此。

遵循伽莫夫(Gamow)的思路，我们可以计算α衰变的半衰期。α粒子感受到的势V(r)在核内可以近似为一个半径为R的有限深球方势阱，在核外则是一个长程的排斥库仑势。如图11.16所示。图中的零能量线等于α粒子和子核分离后最终静止时所具有的总能量。实际能量为E = Qα，是正值，但低于势垒顶部。

因此α粒子必须隧穿通过势垒。我们将忽略任何角动量依赖，把问题当作一维问题处理，假设α粒子预形成并在核势V(r)中运动。α粒子波函数χ(r)的大部分位于球方势阱内部。波函数在球方势阱周围的势垒内呈指数衰减，并在势垒之外有一个微小的振荡尾巴。

对于r > R的区域，描述阱外α粒子的薛定谔方程为
[
-\frac{\bar{h}^2}{2m_\alpha} \frac{d^2\chi}{dr^2} + (V(r) - Q_\alpha)\chi = 0,
]
(11.38)
其中V是库仑势
[
V(r) = \frac{2Ze^2}{4\pi r}.
]
(11.39)
Ze是子核的电荷数，2e是α粒子的电荷数，mα是α粒子的质量。⁷ 势垒位于R以外V(r) > Qα的区域。

⁷ 严格来说，这里应该是α粒子的约化质量。

376
核物理学
在这里波函数呈指数衰减，近似为
[
\chi(r) \simeq \chi_0 \exp\left( -\sqrt{\frac{2m_\alpha}{\bar{h}^2}} \int_R^r \sqrt{V(r) - Q_\alpha} , dr \right),
]
(11.40)
其中χ₀是归一化因子。势垒外缘在半径b处，那里库仑势V(r)等于Qα，因此
[
b = \frac{2Ze^2}{4\pi Q_\alpha}.
]
(11.41)
在此半径之外，α粒子具有正的动能，并被核的其余部分排斥，加速直到获得动能Qα。例如，在钍同位素的α衰变中，子核电荷数为Z = 88，而e²/(4π) ≃ 1.440 MeV·fm，我们得到
[
b = \frac{1.440 \times 176}{Q_\alpha} , \text{fm} = 253.44 \frac{1}{Q_\alpha} , \text{fm},
]
(11.42)
其中Qα以MeV为单位。表11.3中的Qα值得出的势垒半径b在25.7–62.1 fm之间。(相应的子核半径范围是7.2到7.3 fm。)

利用b的表达式(11.41)，库仑势可以重新表示为
[
V(r) = Q_\alpha \frac{b}{r}.
]
(11.43)
α衰变的速率ℜα正比于α粒子穿透势垒的概率。这个隧穿概率Ptun是势垒外刚刚出去r = b处波函数振幅的平方。由方程(11.40)和(11.43)，
[
P_{\text{tun}} = \chi_0^2 \exp(-2G),
]
(11.44)
其中伽莫夫因子G为
[
G = \sqrt{\frac{2m_\alpha}{\bar{h}^2}} \int_R^b \sqrt{V(r) - Q_\alpha} , dr = \sqrt{\frac{2m_\alpha Q_\alpha}{\bar{h}^2}} \int_R^b \sqrt{\frac{b}{r} - 1} , dr.
]
(11.45)
该积分可以通过代换r = b sin² θ精确计算，但由于R ≪ b，一个足够好的近似是令R = 0，得到
[
\int_R^b \sqrt{\frac{b}{r} - 1} , dr \simeq b \frac{\pi}{2}.
]
(11.46)
利用这个近似，
[
G \simeq \sqrt{\frac{2m_\alpha Q_\alpha}{\bar{h}^2}} \frac{b\pi}{2} = \sqrt{\frac{2m_\alpha}{\bar{h}^2 Q_\alpha}} \frac{Ze^2}{4},
]
(11.47)
这里我们再次使用了b的公式(11.41)。α衰变的半衰期是上述概率的倒数

裂变
377
衰变速率ℜα；因此
τ 1
2 = 1
ℜα
= a exp(2G)
(11.48)
且
log τ 1
2 = log a + 2G = log a +
r
2mα
¯h2
e2
2
Z
√Qα
,
(11.49)
其中a为常数。我们便得到了盖革–努塔尔定律(Geiger–Nuttall law)，即方程(11.37)。
尽管伽莫夫(Gamow)的理论解释了偶偶核的α衰变趋势，但它假设存在一个预先形成的α粒子。虽然对于偶偶核，我们可以预期α粒子容易由位于最高占据能级上的一个中子对和一个质子对形成，但要估算这种预形成的概率却不容易。对于质量数A为奇数的原子核，情况则大不相同，因为能量最高的核子是不配对的。在这样的核中要形成一个α粒子，至少得有一个核子来自较低的能级。这一额外的复杂性意味着，我们不应该指望奇A核会表现出像偶偶核那样简单的α衰变规律。

重核发射α粒子是众所周知的，但其他轻核的发射情况又如何呢？从能量角度看，发射¹²C核的条件非常有利。例如，²²⁰Ra发射¹²C的Q值为32 MeV。若对上述α衰变速率的计算作适当修正，便会预言¹²C的发射速率大约要小一个因子10⁻³。然而，实验中并未观察到¹²C的发射。另一方面，²²³Ra的α衰变半衰期为11.2天，并且还观测到了下列衰变：
²²³Ra
→
¹⁴C
+
²⁰⁹Pb ,
(11.50)
其衰变速率为α衰变速率的10⁻⁹倍。这表明，在镭核内部形成一个¹⁴C核的概率大约是形成一个α粒子概率的10⁻⁶倍。值得注意的是，尽管¹²C在自由空间中最稳定的碳核，但在重核内富含中子的环境中，¹⁴C似乎更稳定，或者至少更可能形成。

11.5 裂变

²³⁸U是地球上天然存在的最重核。地壳中发现的铀由它的两种最长寿同位素组成：99.27%的²³⁸U和0.72%的²³⁵U，以及微量的²³⁴U。²³⁸U的α衰变半衰期为4.5×10⁹年，而²³⁵U的半衰期为7.0×10⁸年，因此在遥远的过去，天然存在的²³⁵U比例会更高。这两种同位素的比例具有重大的技术意义，因为这两种核的裂变性质截然不同，我们随后便会看到。

最重的核对于裂变是不稳定的，它们会离解成两个更小、束缚得更紧的核，例如下面的反应：
²³⁸₉₂U₁₄₆
→
¹⁴³₅₅Cs₈₈
+
⁹³₃₇Rb₅₆
+
2n .
(11.51)
²³⁸U的比结合能约为7.6 MeV，而大小为它一半的那些核的比结合能约为8.5 MeV。这意味着一个²³⁸U核裂变会释放出大约

378
核物理
238 × 0.9 = 214 MeV。（这只是粗略估计，因为原子核可能以多种方式裂变。）尽管释放了如此巨大的能量，自发裂变的概率仍然非常低。²³⁸U自发裂变的半衰期约为10¹⁶年，比α衰变的半衰期长两百万倍。
其原因是两个裂变碎片必须越过裂变路径上能量高于原始核的势垒。这个势垒维持着原子核的完整性。沿裂变路径的势能分布如图11.17所示。
0
x
液滴模型
基态能量
激发能
势垒 V
E
E< V
E>V
E V
图11.17 两个核碎片的势能随其中心间距x变化的曲线。
因此，如同α衰变，裂变也涉及隧穿效应，但对于大的核碎片来说，隧穿概率远小于相对较小的α粒子，因为伽莫夫因子(Gamow factor) (11.45) 随碎片质量的增加而增大。这解释了²³⁸U裂变的半衰期远长于α衰变的原因。势垒的高度称为激活能。对²³⁸U而言，该值约为5.5 MeV。
在一次裂变事件中，例如(11.51)式，有很大概率会额外释放中子，因为稳定像²³⁸U这样的重核所需的中子数要比稳定两个较小碎片所需的多。对于A > 200的核素，N/Z ≃1.5；而对于70 < A < 160的核素，N/Z ≃1.3–1.4。因此，裂变后会有多余的中子。为达到核稳定谷，这些中子会以各种方式被释放。一些中子在裂变时立即释放，这些被称为瞬发中子。另一些则由高度激发的裂变产物在如下反应中发射：
⁹⁰₃₆Kr₅₄ → ⁸⁹₃₆Kr₅₃ + n , (11.52)
其中表示激发态。这些缓发中子所提供的时间延迟对于裂变反应堆的控制至关重要。即使没有释放中子，许多裂变产物也具有很强的放射性，并通过β衰变将中子转变为质子，但这一过程可能耗时多年。

裂变
379
图11.18 中子诱发的核裂变。

图11.18

由于没有库仑势垒，释放出的中子很容易被其他铀核吸收。铀核吸收中子会释放能量，因此新生成的铀同位素处于激发态。激发能足以推动核越过裂变势垒，如图11.18所示。例如，²³⁵U含有奇数个中子，因此在反应

图11.18

²³⁵₉₂U₁₄₃ + n → ²³⁶₉₂U₁₄₄ (11.53)
中，再结合一个中子形成²³⁶U是更有利的，并产生一个处于高度激发态的²³⁶U核，其能量为
m(92, 236) = m(92, 235) + mₙ = (235.043924 u + 1.0086665 u) = 236.052589 u。 (11.54)
激发能为
Q_{exc} = m(92, 236)* − m(92, 236) = 236.052589 u − 236.045563 u = 6.5 MeV， (11.55)
而²³⁶U的激活能为6.2 MeV，因此新形成的核具有足够的能量轻易越过裂变势垒。每次中子诱发的裂变都会释放出更多的中子，因此²³⁵U中可能发生链式反应，若不加控制，可能导致爆炸。
相比之下，²³⁸U核含有偶数个中子，因此额外中子的结合能要低得多。与上述类似的计算得到的激发能为4.8 MeV，低于5.5 MeV的裂变激活能。因此，除非中子被吸收时带有足够的动能（0.7 MeV）来弥补这一差值，否则²³⁸U中无法发生链式反应。这些铀同位素的性质决定了可运行的核反应堆的可能设计方案。

380
核物理学
第11.6节
聚变
聚变反应对于宇宙中所有比氢重的元素的合成至关重要，因此对我们的存在也至关重要。它们也负责恒星中的能量产生，这将在第13章中描述。长期以来，物理学家一直梦想着利用核聚变产生廉价而丰富的能源。为了实现这一目标，过去五十年左右建造了各种实验性聚变反应堆，目前正在法国卡达拉舍(Cadarache)建造国际热核聚变实验反应堆(ITER， International Thermonuclear Experimental Reactor)（图11.19）。

图11.19

图11.19 正在建设中的ITER聚变反应堆剖面图。

图11.19

要使聚变发生，两个原子核必须足够接近，以便强力发挥作用。所有原子核都带正电荷，因此在通常的温度和压力下，库仑势垒阻止它们足够接近。对于Z值较小的原子核，势垒低得多，因此最轻的原子核发生聚变所需的温度最低。

考虑一个过程，如
B + X → Y (11.56)
在粒子X的静止系中。非相对论性粒子B的动量为p，其碰撞截面σ_coll等于以德布罗意波长2πħ/p为半径的圆盘面积。因此，碰撞截面与粒子的动能E成反比，
σ_coll = π (2πħ)^2 / p^2 ∝ 1/E 。 (11.57)

聚变
381
为了实现聚变，两个原子核必须碰撞，然后隧穿通过势垒，因此聚变截面σ_fus是碰撞截面与隧穿概率的乘积。这类似于α衰变的逆过程；B的动能越高，势垒越窄，隧穿概率就越高。

因此，我们可以使用第11.4节的结果。隧穿概率正比于exp(-2G(E))，其中G(E)是伽莫夫因子(Gamow factor)，所以聚变截面为
σ_fus(E) = (S(E)/E) exp(-2G(E)) ， (11.58)
其中S(E)是一个缓慢变化的核结构函数，可以通过实验确定或半经验估算。伽莫夫因子可由方程(11.45)改写得到，
G(E) = √(2μ/ħ^2) ∫_R^b √(V(r) - E) dr = √(2μE/ħ^2) ∫_R^b √(b/r - 1) dr ， (11.59)
其中μ是B和X的约化质量，b是B的动能等于库仑势能处的距离，即E = V(b) = Z_B Z_X e^2 / (4πb)。G(E)可以像之前一样计算，得到方程(11.47)的修正版本，
2G(E) ≃ 2 √(2μ/(ħ^2 E)) * (Z_B Z_X e^2 / 8) = √(2π^2 α^2 m_p) √(μ/m_p) (Z_B Z_X) / √E = √(E_G / E) ， (11.60)
其中α = e^2/(4πħ)是精细结构常数，我们已将所有常数项合并定义为伽莫夫能量E_G
E_G = 2π^2 α^2 m_p (μ/m_p) (Z_B Z_X)^2 = 2π^2 α^2 × (938 MeV) (μ/m_p) (Z_B Z_X)^2
= (μ/m_p) (Z_B Z_X)^2 × 987 keV 。 (11.61)
（为了得到伽莫夫能量的最终表达式，我们代入了质子的静止质量m_p = 938 MeV，并使用了众所周知的近似α ≃ 1/137。）

当一束单能的粒子B（数密度为n_B，速度为v）撞击由原子核X（数密度为n_X）组成的靶时，就像在粒子加速器中可能发生的那样，在体积dV和时间dt内发生的聚变反应总数为
dN_fus = (n_B n_X / (1 + δ_BX)) σ_fus(E) v dt dV ， (11.62)
其中σ_fus(E)由公式(11.58)给出。这里E = (1/2)μv^2，且为了避免全同原子核聚变时的重复计数，当B和X相同时δ_BX = 1，否则为零。

11.6.1 热核聚变
在高温电离等离子体中，例如在恒星内部，原子核的速度呈随机分布，聚变的概率取决于任意两个入射粒子的相对速度。这一概率随速度增加而急剧增大，并且聚变只有在非常高的温度T下才有可能。因此，它被称为热核聚变。在热力学平衡下

382
核物理学
在平衡状态下，原子核的速度分布遵循麦克斯韦分布(10.53)。为了计算聚变速率，我们必须将截面在该分布上进行积分。根据方程(11.62)，单位体积的积分反应速率为
ℜfus = dNfus
dV dt =
nBnX
1 + δBX
⟨σfus(E)v⟩,
(11.63)
其中
⟨σfus(E)v⟩

Z ∞
0
µ
2πT
3
2 exp

−E
T

σfus(E) v 4πv2 dv

2
πµT 3
1
2 Z ∞
0
exp

−E
T

σfus(E)E dE ,
(11.64)
包含T的因子来自麦克斯韦分布。代入方程(11.58)，σfus = S(E)
E
exp(−2G(E))，并插入来自方程(11.60)的伽莫夫(Gamow)因子2G(E) =
q
EG
E
，得到
⟨σfus(E)v⟩=

2
πµT 3
1
2 Z ∞
0
S(E) exp

−E
T −
r
EG
E
!
dE .
(11.65)
即使在恒星内部，也只有处于麦克斯韦分布尾部、能量异常高的粒子才具有足够的动能来促成聚变。因子exp(−E
T )随能量E快速下降，而隧穿概率exp

−
q
EG
E

则快速上升。只有在这两个指数函数显著重叠的区域，即所谓的伽莫夫峰(Gamow peak)，聚变才可能发生。伽莫夫峰最大值附近相对较窄的范围被称为最佳轰击能量Eo。随着温度T升高，麦克斯韦分布向更高能量移动，这同时增加了伽莫夫峰的高度和宽度，如图11.20所示，因此聚变速率急剧增加。

方程(11.65)中的积分无法解析计算，但指数项f(E) = −E
T −
q
EG
E 存在一个尖锐的极大值，因此可以利用1.4.4节中描述的最速下降法对该积分进行近似估算。如果最佳轰击能量附近没有核共振，这个方法能给出聚变速率的一个良好估计。对指数项求导，我们发现其最大值出现在
f ′(E) = −1
T + 1
2E
r
EG
E = 0 .
(11.66)
解此方程可得到最佳轰击能量和伽莫夫峰的高度，
Eo =
EGT 2
4
1
3
以及
f(Eo) = −3
EG
4T
1
3
.
(11.67)
计算二阶导数并代入Eo，我们得到
f ′′(E) = −3
4E2
r
EG
E ,
所以
1
p
|f ′′(Eo)|

1
√
3
(2EGT 5)
1
6 ,
(11.68)

聚变
383
0
20
40
60
T =5 keV
T = 10 keV
T = 20 keV
n(E)
n(E)
n(E)
80 100
×5
E (keV)
0
20
40
60
80
100
E (keV)
0
20
40
60
80
100
E (keV)
σfus v
σfus v
σfus v
图11.20 随着温度T升高，玻尔兹曼因子n(E) = exp(−E
T )向右移动。这增加了它与隧穿概率σfus(E)v的重叠部分，从而显著增大了伽莫夫峰（阴影部分）的面积，并导致聚变速率对温度有很强的依赖性。
其中
1
√
|f ′′(Eo)| 是伽莫夫峰的宽度。然后，最速下降公式(1.77)给出
⟨σfus(E)v⟩
≃

2
πµT 3
1
2
S(Eo) exp(f(Eo))
s
2π
|f ′′(Eo)|

4
µT 3
1
2
1
√
3
(2EGT 5)
1
6 S(Eo) exp
(
−3
EG
4T
1
3 )
.
(11.69)
代入方程(11.63)，我们得到聚变速率
ℜfus ≃
nBnX
1 + δBX

2
√3µ
S(Eo)(2EG)
1
6
T
2
3
exp
(
−3
EG
4T
1
3 )
.
(11.70)
天体物理学家常将聚变速率对温度的依赖关系表述为ℜfus ∝T n，其中指数n通过取ℜfus的对数导数求得，即 n =
T
ℜfus
dℜfus
dT 。尽管指数n随温度变化，但当聚变反应在恒星内部某一设定温度下发生时，这样的公式仍然很有用。取方程(11.70)的对数得到
ln ℜfus = −2
3 ln T −3
EG
4T
1
3

常数 ,
(11.71)
其对数为
n =
T
ℜfus
dℜfus
dT
= T d ln ℜfus
dT
= −2
3 +
EG
4T
1
3
.
(11.72)

384
核物理学
将方程(11.61)中的(E_G)代入，我们求得伽莫夫(Gamow)峰的最佳轰击能量和宽度为
[
E_0 \simeq 1220 \times \left( \frac{\mu}{m_p} (Z_B Z_X)^2 (T_6)^2 \right)^{\frac{1}{3}} \ \text{eV},
\tag{11.73}
]
[
\frac{1}{\sqrt{|f’’(E_0)|}} \simeq 265 \times \left( \frac{\mu}{m_p} (Z_B Z_X)^2 \right)^{\frac{1}{6}} (T_6)^{\frac{5}{6}} \ \text{eV},
\tag{11.74}
]
其中(T_6 = \frac{T}{10^6 , \text{K}})是以百万开尔文为单位、无量纲的恒星温度记号。由于(1 , \text{K} = 8.62 \times 10^{-5} , \text{eV})，温度(T_6)对应(86.2 , T_6 , \text{eV})。采用这一记号，我们还可得到
[
n = -\frac{2}{3} + \left( 2860 \frac{\mu}{m_p} \frac{(Z_B Z_X)^2}{T_6} \right)^{\frac{1}{3}}.
\tag{11.75}
]

太阳的大部分能量产生于一个称为质子–质子链（pp链）的过程，它涉及两个质子的聚变，我们将在第13.5.1节中讨论。此时B和X都是质子，故(Z_B = Z_X = 1)，而聚变质子的约化质量为(\mu = \frac{1}{2} m_p)。聚变发生在太阳核心约(T = 1.6 \times 10^7 , \text{K})处，因此(T_6 = 16)，于是有
[
\begin{aligned}
E_0(\text{pp链}) &\simeq 1220 \times \left( \frac{1}{2} (16)^2 \right)^{\frac{1}{3}} \ \text{eV} \simeq 6.2 , \text{keV}, \
\frac{1}{\sqrt{|f’’(E_0)|}}(\text{pp链}) &\simeq 265 \times \left( \frac{1}{2} \right)^{\frac{1}{6}} (16)^{\frac{5}{6}} \ \text{eV} \simeq 2.4 , \text{keV}.
\end{aligned}
\tag{11.76}
]
在这一温度下，质子的典型能量为(86.2 \times 16 , \text{eV} \simeq 1.4 , \text{keV})。由于最佳轰击能量(E_0)为(6.2 , \text{keV})，太阳中产生的大部分聚变能量来自能量超过这一典型能量四倍多的碰撞。

比太阳更大质量的恒星主要通过CNO循环产生其大部分能量，这是一个由碳、氮和氧核催化的聚变过程，我们将在第13.5.2节中看到。这类恒星的核心温度约为(T = 2.0 \times 10^7 , \text{K})，故(T_6 = 20)。CNO循环的瓶颈是反应
[
p + {}^{14}\text{N} \rightarrow {}^{15}\text{O}.
\tag{11.77}
]
此时(Z_B = 1)，(Z_X = 7)，碰撞的质子与氮核的约化质量为(\mu = \frac{14}{15} m_p \simeq m_p)。将这些值代入方程(11.73)和(11.74)，得
[
\begin{aligned}
E_0(\text{CNO循环}) &\simeq 1220 \times \left( (7)^2 (20)^2 \right)^{\frac{1}{3}} \ \text{eV} \simeq 33 , \text{keV}, \
\frac{1}{\sqrt{|f’’(E_0)|}}(\text{CNO循环}) &\simeq 265 \times (7)^{\frac{1}{3}} (20)^{\frac{5}{6}} \ \text{eV} \simeq 6.2 , \text{keV}.
\end{aligned}
\tag{11.78}
]
此时质子的典型能量约为(1.7 , \text{keV})，因此CNO循环中产生的大部分能量来自极小部分能量异常高的质子。

稳定岛
385
在太阳核心温度 ( T_6 = 16 ) 时，决定pp链聚变速率温度依赖性的指数 ( n ) 为
[
n(\text{pp链}) \simeq -\frac{2}{3} + \left( \frac{2860}{2 \times 16} \right)^{\frac{1}{3}} = -0.67 + 4.47 \simeq 3.8 ,
\tag{11.79}
]
而在温度 ( T_6 = 20 ) 的情况下，对CNO循环有
[
n(\text{CNO循环}) \simeq -\frac{2}{3} + \left( \frac{2860 \times (7)^2}{20} \right)^{\frac{1}{3}} \simeq -0.67 + 19.1 \simeq 18 ,
\tag{11.80}
]
所以CNO循环的聚变速率对温度极其敏感。我们将在第13章用到这些结果。

11.6.2 受控核聚变

回到受控聚变的前景，氢的同位素显然是核燃料的首选。氢的同位素有氘(deuterium) ( ^2\text{H} )，其核由一个质子和一个中子组成，以及氚(tritium) ( ^3\text{H} )，其核由一个质子和两个中子组成。这些核常被称为氘核(deuterons)和氚核(tritons)。将氘核熔合为 ( ^4\text{He} ) 核并不是一个非常有效的过程，因为释放的能量为 23.8 MeV，足以解离一个中子或一个质子。下列反应发生的概率相等，且可能性大得多：
[
^2\text{H} + ^2\text{H} \rightarrow , ^3\text{He} + n + 3.3 , \text{MeV}
\tag{11.81}
]
[
^2\text{H} + ^2\text{H} \rightarrow , ^3\text{H} + p + 4.0 , \text{MeV} .
\tag{11.82}
]
ITER(国际热核聚变实验堆)将通过更有效的氘核与氚核聚变来产生能量：
[
^2\text{H} + ^3\text{H} \rightarrow , ^4\text{He} + n + 17.6 , \text{MeV}
\tag{11.83}
]
[
^3\text{H} + ^3\text{H} \rightarrow , ^4\text{He} + 2n + 11.3 , \text{MeV} .
\tag{11.84}
]
氘-氚等离子体将被约束在一个环形托卡马克(tokamak)中，其中温度将被提升至 ( 10^8 , \text{K} ) 以实现聚变。目标是产生十倍于维持反应堆运行所需的能量。如果一切按计划进行，聚变将在每次持续最多十分钟的时间内得以维持，同时产生 500 MW 的功率。
氚的半衰期为12.3年，在自然界中不易获得。ITER的核心将被一层锂(lithium)包层包围，这样反应堆就能通过以下过程自行产生氚燃料：
[
n + ^6\text{Li} \rightarrow , ^4\text{He} + ^3\text{H}
\tag{11.85}
]
[
n + ^7\text{Li} \rightarrow n + ^4\text{He} + ^3\text{H} .
\tag{11.86}
]
锂存在于盐矿床中，并以低浓度存在于海水中。

11.7 稳定岛

自然界中存在的最重的核是 ( ^{238}\text{U} )，因为所有更重核的半衰期都远短于地球的年龄。自1940年以来，许多这些超铀元素(transuranic elements)被人工合成。

386
核物理学
已经在实验室中人工制造并研究。原子序数Z为93–100的原子核最初由格伦·西博格(Glenn Seaborg)及其团队在加州大学伯克利分校通过将铀长时间暴露在核反应堆的强中子通量中而产生。⁸ 新的富中子核发生β衰变后形成超铀元素。然后可以化学分离和纯化这些元素。用这种方法创造新元素存在局限性。随着原子序数Z的增加，核半衰期急剧缩短。钚的最长寿命同位素是²⁴⁴₉₄Pu₁₅₀，半衰期为8×10⁷年，而锎同位素的最长半衰期是²⁵¹₉₈Cf₁₅₃的898年，镄同位素²⁵⁷₁₀₀Fm₁₅₇的半衰期仅为100.5天。向更重原子核的推进被下一个同位素²⁵⁸₁₀₀Fm₁₅₈所阻碍，它的半衰期只有0.3毫秒。要到达超出此范围的原子核，必须加速轻原子核并将其射向由重原子核构成的靶。
例如，104号元素𬬻于1969年在伯克利通过将¹²C原子核射向锎原子核而产生，反应为
¹²₆C₆ + ²⁴⁹₉₈Cf₁₅₁ → ²⁵⁷₁₀₄Rf₁₅₃ + 4n 。 (11.87)
这项研究需要高能重离子加速器，因为在质子数为Z₁和Z₂的离子之间的反应中，需要克服一个正比于Z₁Z₂的巨大库仑势垒。在上述情况下，Z₁Z₂ = 6×98 = 588。

原子核壳层的填充赋予原子核额外的稳定性。20世纪60年代末，西博格提出，当Z和N接近下一个幻数时，不稳定趋势应该逆转。这一观点得到了尼尔森(Nilsson)及其合作者对α衰变、β衰变预期速率和裂变半衰期计算的支持。这些新的幻数尚不确切，但预计为Z = 114、118或126，且N在184附近。可能存在于这些值附近、寿命相对较长的原子核被称为稳定岛(stability island)。计算表明，²⁹⁴₁₁₀Ds₁₈₄，即𫟼-294的半衰期可能长达10⁶年。到达稳定岛超出了当前的技术能力，但也仅差一步之遥。

天然存在钙的0.2%由双幻数富中子核⁴⁸₂₀Ca₂₈构成。其高中子比例使其成为产生富中子重核的理想弹核。俄罗斯杜布纳联合核研究所弗廖罗夫核反应实验室(Flerov Laboratory of Nuclear Reactions)和德国达姆施塔特亥姆霍兹重离子研究中心(GSI Helmholtz Centre for Heavy Ion Research)的研究人员通过将⁴⁸Ca原子核束射向由Pu、Am、Cm、Bk和Cf等元素制成的重靶，已经产生了原子序数高达118的所有元素的原子核。例如，最近命名的117号元素鿬(tennessine)的原子于2014年在达姆施塔特通过将⁴⁸₂₀Ca₂₈离子射向锫靶而创造出来。美国橡树岭国家实验室(Oak Ridge National Laboratory)专门为该实验生产了约13毫克半衰期仅为330天的²⁴⁹₉₇Bk₁₅₂。随后通过以下反应产生了鿬原子核：
⁴⁸₂₀Ca₂₈ + ²⁴⁹₉₇Bk₁₅₂ → ²⁹³₁₁₇Ts₁₇₆ + 4n 。 (11.88)
在这个反应中，Z₁Z₂ = 20×97 = 1940，这让人对合成超重核所需不断增加的束流能量有了一些概念。

已知最重核同位素的半衰期随中子数的增加而增加，并且通常与预测相当吻合，因此我们可能已经临近稳定岛。

⁸ 这相当于天体物理学家所知的r过程。

奇异核
387
11.8
奇异核
最轻的那些原子核，其大部分核子都处于核表面，因此它们的键并未饱和。这些核不符合液滴公式，其密度也低于根据公式(11.6)描述的密度趋势所预期的值。还有一些其他原子核与壳模型的预言也不完全吻合。例如，图11.7显示¹²C具有相对较高的每核子结合能，尽管它并不具有中子或质子的幻数。描述轻核的模型有若干种，每一种都抓住了其结构的某些方面。

最轻的复合核是氘核，由一个中子和一个质子组成。它的结合能仅为2.2 MeV，远小于大核的每核子结合能，并且它没有束缚的激发态。因此，氘核的平均半径为2.14 fm，明显大于根据公式(11.6)所预期的值。最稳定的轻核是⁴He。稳定到甚至添加一个额外的中子或质子以形成⁵He或⁵Li，或者融合两个⁴He核以形成⁸Be，都是不可能的。这构成了产生比氦更重元素的一个重大障碍。虽然添加一个额外的粒子不会产生稳定的核，但向⁴He中添加两个额外的核组分确实能产生稳定的核，如⁶Li、⁹Be和¹²C。

图11.21 博罗梅奥环。

图11.21

后面这些核被称为博罗梅奥核(Borromean nuclei)，因为它们具有一种奇特的性质：如果移除其中一个组分，它们就会分裂成三个部分。这让人联想到意大利博罗梅奥(Borromeo)家族纹章上的博罗梅奥环，如图11.21所示。虽然三个环无法分离，但任意两个环之间都没有连接，因此如果移除一个环，另外两个就会散开。其他博罗梅奥核的例子有⁶He、¹¹Li、¹⁴Be和²²C。它们很难用壳模型来理解，但似乎具有一种近乎分子的结构。

图11.21

例如，⁹Be似乎由两个α粒子加上一个中子组成，如图11.22（左）所示，并且该核很容易分解为这些组分：

图11.22

⁹Be → ⁴He + ⁴He + n . (11.89)

388
核物理学
图11.22 左：由两个α粒子加一个中子组成的⁹Be核。右：由三个α粒子组成的¹²C。

图11.22

当铍受到α粒子轰击时，会释放出中子，这对于中子的发现至关重要，正如我们在11.1节中所见。

也有证据表明，诸如¹²C、¹⁶O、²⁰Ne和²⁴Mg等核可被视为α粒子的团簇。¹²C的基态似乎呈现为由三个α粒子组成的等边三角形形状，如图11.22（右）所示。弗雷德·霍伊尔(Fred Hoyle)预言了¹²C的一个激发态的存在，该态在核合成中起着非常重要的作用，这将在第13章中讨论。这个激发态被认为对应于三个α粒子排成的一条直线（或可能是弯曲）链。

图11.22

图11.23 左：晕核¹¹Li。右：大小与¹¹Li相当的²⁰⁸Pb核。

图11.23

自20世纪80年代以来，人们对接近中子滴线的富中子、低质量核产生了极大的兴趣。这些核比基于公式(11.6)给出的关系所预期的要大得多。它们被称为晕核(halo nuclei)，因为它们包含仅与核实弱束缚的中子。这些弱束缚的晕核子待在核内的时间不到一半。一个例子是⁶He，它包含两个与⁴He核芯弱束缚的中子。另一个被广泛研究的晕核是¹¹Li，它包含两个与⁹Li芯弱束缚的晕中子。这个核的大小与²⁰⁸Pb相当，如图11.23所示。¹¹Li的半衰期为9 ms。它是一个博罗梅奥核，只需0.3 MeV的能量就能移除它的两个晕中子。

图11.23

π介子、汤川理论与QCD
389
3
6He
8B
11Be 12Be
11Li
14Be
17B
19C
17Ne
17F
8He
2
1
4
5
质子晕
单中子晕
双中子晕
6
8
9
10
7
图11.24 晕核。纵轴表示Z。
其他晕核如图11.24所示。它们包括 8He, 11Be, 14Be, 17B 和 19C。还有一些如 8B 和 17Ne 的原子核，似乎包含束缚松散的晕质子。
11.9
π介子、汤川理论与QCD
到目前为止，我们使用了诸如壳模型和液滴模型等唯象模型来研究原子核。通过更精细的核子-核子相互作用模型以及高性能计算机，现在可以精确计算许多较小原子核的质量及其激发态的能量。原子核需要被看作一个多核子量子力学系统，具有基本的二核子和三核子势。为了更深入地理解，应当从核子间更基本的相互作用导出这些核势。1935年，汤川秀树(Hideki Yukawa)尝试进行了这项工作。他提出了一个理论来解释强力的短程性和核密度在核子表面的减少。他的想法是，核子间的强力源于一种新粒子的交换。与交换光子产生电磁力不同，汤川的粒子质量非零。

390
核物理
0
–100
0
核子间势 (MeV)
100
200
300
0.5
排斥
核心
2π
1.0
分离距离 (fm)
1.5
2.0
2.5
π
ρ, ω, σ
图11.25 介子交换势。
由交换这种粒子所产生的力由汤川势 (Yukawa potential) 描述
V (r) = −λ2
4πr exp

−r
a

,
(11.90)
其中 λ2 决定了相互作用的强度。力的力程 a = ¯h
mπ ，其中 mπ 是交换粒子的质量。请注意，对于无质量交换粒子，汤川势约化为具有无限力程的库仑势。为了与已知的强力力程相匹配，汤川预言这种粒子的质量至少是电子质量的200倍，大约在 130 MeV 的范围内。1947年，塞西尔·鲍威尔(Cecil Powell)、塞萨尔·拉特斯(C´esar Lattes)和朱塞佩·奥基亚利尼(Giuseppe Occhialini)在宇宙射线中发现了一组具有所需性质的三重态粒子，π−, π0, π+。它们被称为π介子(pions)，是介子(mesons)粒子族中最轻的。电中性 π0 的质量为 135.0 MeV，带电 π− 和 π+ 的质量为 139.6 MeV。
图11.25所示的核子-核子势已在散射实验中确定，但部分可以通过π介子交换来解释。继汤川的工作之后，其他日本理论家发展了更精细的原子核模型。特别是，武谷三男(Mituo Taketani)及其合作者在20世纪50年代提出，核势可以从三个层次来理解。单π介子交换，正如汤川势所描述的，解释了 2.0 fm 以外的最外层区域。在大约 1.0 fm 和 2.0 fm 之间，双π介子交换能最好地解释该势，它产生了范德瓦尔斯型势的如下形式：
V (r) ≃−P(mπr)
r6
exp

−2r
a

,
(11.91)

π介子、汤川理论与QCD
391
p
p
p
p
p
p
n
n
n
n
p
π±
π±
π±
π0
n
n
n
图11.26 左：两个单π介子交换的例子。右：一个双π介子交换的例子。

图11.26

其中P是mπr的多项式。表示这些π介子交换相互作用的图如图11.26所示。在这些较短的距离上，其他较重介子的交换也很重要。这些包括η(549)、ρ(770)和ω(782)介子，9 括号中的数字是以MeV为单位的质量。在内区，距离小于1.0 fm时，核子间存在急剧的排斥力，这赋予了它们一个硬芯并阻止其融合。

图11.26

实际上，强力的物理要比这更为复杂。势能并不是图11.25所示的单一函数，因为它依赖于核子的自旋，也取决于核子是否属于同一类型。目前最好的2核子和3核子势仍然是唯象的，因为它们是通过匹配散射数据和少数束缚态的性质来调整的，但其特征可以通过强相互作用π介子的有效场论来理解，并在一定程度上进行预测。

我们现在知道，质子和中子实际上都不是基本粒子。质子包含两个上夸克和一个下夸克，而中子包含一个上夸克和两个下夸克。夸克通过量子色动力学（QCD）所描述的色力束缚在一起。我们将在第12章对此作更多阐述。
术语“介子”最初用于指质量介于电子和核子之间的粒子。这已不再成立。介子的现代含义是由一个夸克-反夸克对形成的粒子。π介子，即这类粒子中最轻的，由上夸克和下夸克及其反夸克对构成。

QCD现在是一个得到大量实验支持且非常成熟的理论。具有讽刺意味的是，我们对将夸克结合成核子的力比对决定原子核结构的核子间力有更深刻的理解。原则上，应该可以从QCD推导出核子-核子势以及
9 还有σ介子，其结构尚未完全清楚。

392
核物理
要想从QCD出发推导原子核的性质，虽然原则上可行，但这却是一个极为困难的问题。例如，核子与原子核之间的自旋–轨道耦合至今仍未被很好地理解。借助大量计算资源，人们最近已经可以直接从QCD出发，以大约5%的精度推导出强相互作用粒子的质量，包括质子和中子以及各种介子。这是一项了不起的成就。如今，人们也在利用计算机探索核子之间的相互作用，早期结果似乎表明，QCD确实能给出一种核子–核子势，该势会在较远距离处表现为吸引力，而在小于1.0 fm的距离上急剧转变为强排斥力，这与图11.25所示的观测势相吻合。

11.10
拓展阅读
K. Heyde, Basic Ideas and Concepts in Nuclear Physics: An Introductory Approach (第三版), Bristol: IOP, 2004.
K.S. Krane, Introductory Nuclear Physics, New York: Wiley, 1988.
R.F. Casten, Nuclear Structure from a Simple Perspective (第二版), Oxford: OUP, 2000.
壳模型（包括核形变效应）的综述可参见：
S.G. Nilsson 和 I. Ragnarsson, Shapes and Shells in Nuclear Structure, Cambridge: CUP, 1995.
关于超重核的产生和性质的综述，可参见：
Y. Oganessian, Synthesis and Decay Properties of Superheavy Elements, Pure Appl. Chem. 78 (2006) 889-904.
关于晕核的综述，可参见：
J. Al-Khalili, An Introduction to Halo Nuclei，收录于 The Euroschool Lectures on Physics with Exotic Beams, 第1卷，J.S. Al-Khalili 和 E. Roeckl 编，第77–112页，Berlin, Heidelberg: Springer, 2004.
关于汤川(Yukawa)的介子理论的综述，可参见：
W. Weise, Yukawa’s Pion, Low-Energy QCD and Nuclear Chiral Dynamics, Prog. Theor. Phys. Suppl. 170 (2007) 161-184.

12_Particle_Physics

12
粒子物理
12.1
标准模型

在本章中，我们将探究物质的基本组分。至此，我们已经从四种不同的力的角度考察了宇宙的结构及其所包含的物质：引力与电磁力，再加上两种核力——强力和弱力。引力决定了宇宙的大尺度结构，但引力内在的微弱性意味着它对基本粒子对（例如原子中的电子）之间相互作用的影响完全可以忽略不计。相比之下，其他三种力在粒子物理中都扮演着重要角色。电磁力将原子束缚在一起，强力将质子和中子束缚在原子核中，它在α衰变和核裂变中也至关重要。弱力负责原子核的β衰变，并在恒星内部元素合成中起主要作用。当弱力起作用时，粒子可能会改变其身份。例如，在β衰变中，一个中子转变为一个质子，同时产生一个电子和一个电子反中微子。今天，这三种力被理解在一个单一的结构中，其中包括电磁力和弱力的统一理论，以及与强力的一个相当类似的理论相结合。这个极为成功的理论是现代物理学的辉煌胜利之一，它被称为标准模型。

质量
电荷
2/3
≈2.3 MeV/c²
≈4.8 MeV/c²
≈95 MeV/c²
≈4.18 GeV/c²
≈126 GeV/c²
0.511 MeV/c²
<2.2 eV/c²
<0.17 MeV/c²
<15.5 MeV/c²
105.7 MeV/c²
1.777 GeV/c²
≈1.275 GeV/c²
≈173.07 GeV/c²
1/2
–1/3
1/2
–1
1/2
0
1/2
0
1/2
0
1/2
–1
1/2
–1
1/2
–1/3
1/2
–1/3
1/2
2/3
1/2
2/3
1/2
0
u
上
d
下
e
电子
νₑ
电子中微子
ν_μ
缪子中微子
ν_τ
陶子中微子
μ
缪子
τ
陶子
夸克
轻子
规范玻色子
奇
底
s
b
粲
c
胶子
希格斯玻色子
光子
Z玻色子
W玻色子
G
H
Z
W
γ
t
顶
自旋
0
0
0
1
0
0
1
91.2 GeV/c²
80.4 GeV/c²
0
1
±1
1

图12.1 标准模型粒子表。前三列展示了三代费米子，最后一列展示了玻色子。

图12.1

The Physical World. Nicholas Manton and Nicholas Mee, Oxford University Press (2017).
©Nicholas Manton and Nicholas Mee. DOI 10.1093/acprof:oso/9780198795933.001.0001

394
粒子物理
12.1.1
基本粒子
所有已知粒子和相互作用都可约化为少数几种基本粒子的相互作用，如图 12.1 所示。每一种粒子都由其静止质量、自旋以及决定其相互作用的各类荷完全定义。粒子还可能具有许多其他性质，比如磁矩，以及它们衰变为其他类型粒子的速率。这些都可以从理论上计算。量子力学将同种粒子视为全同粒子。它们自然地分为两类：玻色子(bosons)，具有整数自旋，遵循玻色-爱因斯坦统计；费米子(fermions)，具有半整数自旋，遵循费米-狄拉克统计和泡利不相容原理。基本费米子只有 12 种，自旋均为 1/2，连同它们的反粒子，列于表 12.1 中。它们分为两类：夸克(quarks)和轻子(leptons)，取决于它们是否受强力影响。夸克通过强力、弱力和电磁力发生相互作用。带电轻子，即电子、μ子和τ子，通过电磁力和弱力相互作用，但不参与强力。不带电的轻子是中微子。它们只通过弱力相互作用。

图 12.1

这 12 种费米子构成了三代，每代包含四个粒子。第一代由上夸克、下夸克、电子和电子中微子组成。普通物质由前三种粒子构成。质子由两个上夸克和一个下夸克结合而成。中子由两个下夸克和一个上夸克组成。第二代的两个夸克称为粲夸克和奇异夸克，两个轻子是μ子和μ子中微子。第三代由顶夸克、底夸克、τ子和τ子中微子组成。第二代和第三代中的每一个粒子都带有与第一代对应粒子相同的荷，似乎只是它们的更重复制品。

大多数粒子是不稳定的，并通过由某种基本相互作用控制的过程衰变。较重的粒子衰变为两个或更多较轻的粒子，释放出的能量以衰变产物的动能形式带走。如果这类粒子的平均寿命为 T（即半衰期 (log 2)T），在时间 t = 0 时有 N(0) 个粒子，那么随后时刻的粒子数为
N(t) = N(0) exp(−ℜt)
(12.1)
其中衰变率为 ℜ = 1/T。通常，在对撞机实验中测量的是衰变宽度
Γ = ¯hℜ = ¯h/T
(12.2)
（以能量为单位）。短寿命粒子的静止质量（或能量）因量子力学不确定性关系而无法精确定义。Γ 是静止质量分布的宽度，例如在图 12.26 中所示。若粒子有多种衰变方式，则有

图 12.26

Γ_total = Σ_i Γ_i
且
Br_i = Γ_i / Γ_total,
(12.3)
其中 Γ_i 是衰变模式 i 的部分衰变宽度，Br_i 是该模式的分支比。

量子场论
395
代
轻子
q
质量 (GeV)
夸克
q
质量 (GeV)
I
电子 (e⁻)
−1
0.0005
上夸克 (u)
2/3
0.002
I
中微子 (νₑ)
0
< 10⁻⁹
下夸克 (d)
−1/3
0.005
II
μ子 (µ⁻)
−1
0.106
粲夸克 (c)
2/3
1.3
II
中微子 (ν_µ)
0
< 10⁻⁹
奇异夸克 (s)
−1/3
0.1
III
τ子 (τ⁻)
−1
1.78
顶夸克 (t)
2/3
173
III
中微子 (ν_τ)
0
< 10⁻⁹
底夸克 (b)
−1/3
4.2
表12.1 标准模型(Standard Model)中的基本自旋1/2费米子。q是以质子电荷为单位的电荷数。(每个粒子都有一个质量相同、电荷相反的反粒子。)
玻色子
q
质量 (GeV)
自旋
作用
胶子 (G)
0
0
1
QCD交换玻色子
光子 (γ)
0
0
1
QED交换玻色子
W±玻色子
±1
80.4
1
弱交换玻色子
Z玻色子
0
91.2
1
弱交换玻色子
希格斯玻色子 (H)
0
125
0
希格斯机制
表12.2 标准模型中的基本玻色子。
在粒子衰变中观察到的寿命通常为：强力，10⁻²⁴−10⁻²⁰ s；电磁力，10⁻¹⁹−10⁻¹⁶ s；弱力，10⁻¹²−10⁻⁶ s。第二代和第三代的夸克以及带电轻子是不稳定的，主要通过弱力迅速衰变。
有两个守恒定律似乎在所有粒子碰撞和衰变中普遍成立。它们是轻子数守恒，其中每个轻子贡献+1，每个反轻子贡献−1；以及重子数守恒，其中每个夸克贡献1/3，每个反夸克贡献−1/3。出现1/3这个因子，是因为重子（如质子和中子）由三个夸克组成，而反重子由三个反夸克组成。
基本玻色子见表12.2。表中列出的这少数几种自旋为1的玻色子的交换，产生了强力、电磁力和弱力，我们稍后将讨论。希格斯玻色子是唯一已知的自旋为0或标量的基本粒子。它在标准模型中扮演着独特的角色，通过赋予W和Z玻色子以及基本费米子质量（但不赋予光子质量）来打破电弱力的对称性。基本粒子（无论是费米子还是玻色子）的质量差异巨大。
标准模型中所有粒子和力的行为，只能由同时结合了量子力学和相对论的理论来解释。实现这种结合的正确语言是量子场论(quantum field theory)，我们现在转向它。
12.2 量子场论
爱因斯坦(Einstein)最先引用量子力学来解释光电效应，将电磁波视为由光子组成，光子是无质量、以光速运动的粒子。然而，标准的量子力学显然是一个非相对论理论。薛定谔方程包含对时间的一阶导数，却包含对空间的二阶导数。此外，能量与动量的关系对于一个

396
粒子物理
一个质量为m、不受势场作用的量子力学粒子的能量为E = p²/2m，而非相对论关系E² = p² + m²。为了描述光子及其他以接近光速运动的粒子，需要找到一种与狭义相对论相容的量子力学形式。

最早的尝试是寻找薛定谔(Schrödinger)方程的相对论性不变等价物，并期望其解就是相对论粒子的波函数。起初有两个方程看起来颇有希望。一个是克莱因-戈尔登(Klein–Gordon)方程，我们在第3.2节中提到过。在该方程中，单个时间导数被移除，而负拉普拉斯算子−∇²被波算子∂²/∂t² − ∇²取代。第二个更激进的选项是狄拉克(Dirac)方程。狄拉克认识到在量子力学波动方程中保留单个时间导数的重要性，这样波函数向未来的演化仅取决于初始时刻的波函数本身，而不依赖于它的一阶时间导数。这与波函数坍缩的假设一致，该假设意味着波函数由测量结果决定，其后续演化则由波动方程确定。狄拉克方程将单个时间导数与单个空间导数结合在一起。我们将在第12.3节中描述实现这一点的创新方式。

然而，无论是克莱因-戈尔登方程还是狄拉克方程，都不能被视为薛定谔方程真正的相对论性单粒子类比。以这种方式使用克莱因-戈尔登方程的缺陷在于，无法定义合适的粒子位置概率密度。狄拉克方程的障碍是，除了通常的正能量态外，其解还包括具有任意大负能量的粒子态。

这些问题的根本原因在于，粒子在相对论速度下的相互作用可能涉及足够的能量来产生新粒子。在标准量子力学中，可以为多个相互作用的粒子定义波函数，正如我们在第8.7节所做的那样，但粒子数不随时间改变。然而，当粒子以接近光速运动时，其总能量可能是其静止质量的数倍。在高能粒子碰撞中，能量很容易转化为新的粒子，因此在相对论物理学中，粒子数经常发生变化。这意味着相对论量子力学必然是一个多粒子理论，而且粒子数并不固定。

历史上，理解粒子数可变的多粒子量子力学的进展颇为曲折，但最终的结果是量子场论。克莱因-戈尔登方程和狄拉克方程在这里重新出现，但它们是作为相对论性场方程，其解释更接近经典麦克斯韦(Maxwell)方程组。我们对这一主题的讨论将主要是描述性的，因为量子场论中的计算涉及大量技术细节和复杂的数学工具。

在经典物理学中，物质粒子与场之间有着清晰的区别。粒子是点状的或至少是高度定域的，而场则贯穿时空；场也负责粒子之间的力。量子场论在很大程度上消解了这一区别。例如，存在一个与电子相关的电子场，正如存在一个与光子相关的电磁场一样。然而，仍有一些区别，因为物质主要由费米子粒子组成，而半整数自旋的费米子（如电子）与整数自旋的玻色子（如光子）对应着不同类型的量子化场。

量子场论
397
量子场论的一个强大特征是，它能够解释粒子相互作用的所有方式（引力相互作用除外）。因此，通常用吸引或排斥力来描述的粒子束缚态和粒子散射理论，与粒子产生和衰变的理论被统一起来。这就是为什么我们把中子衰变或Z玻色子产生等现象归因于弱力的原因。

12.2.1 电磁场的量子化
目前人们相信，每种基本粒子都有一个对应的场，而这些场是时空结构的一部分。一个场在空间的每一点都有一个动力学自由度，因此总体来说，一个场拥有无限多个自由度。不同点的场值相互耦合，结果在最简单的情况下，场方程的基本动力学解是波模，具有确定的波矢k和频率ω。场方程用k来决定ω，但由于k可以是任何三维矢量，因此仍然存在无限多个解。在经典理论中，每个波模的振幅A(k)都独立地振荡。

在量子场论中，这些振幅中的每一个都被当作一个量子谐振子来处理，并且对于每一个k都有一个谐振子。（这里进行类比的是谐振子的变量x和波模的变量A(k)。x通常是一个空间位置，但在这里并不重要。）粒子就是这些量子化波模的激发态。它们不是在空间上定域的，但它们具有确定的能量和动量，这些能量和动量与ω和k相关。

自旋为0的粒子是遵循克莱因-戈登方程(Klein–Gordon equation)或其变体的场的激发态。自旋为1/2的粒子是遵循狄拉克方程(Dirac equation)的场的激发态。我们将在适当的时候描述这些粒子，但首先我们将考虑自旋为1的光子。它们是更为人们熟知的电磁场的量子化激发。我们已经在第3章中考察了电磁场的经典理论，而在第10.10节关于黑体辐射的讨论中，光子也扮演了重要角色。

在构建电磁学的量子场论时，我们从服从无源相对论性麦克斯韦方程组(Maxwell equations)的经典电磁场开始。这个场具有无限多个波模，对于每个非零波矢k，有两个独立的偏振方向。（波矢为零的模是非物理的，因为它可以通过规范变换去除。）每个波模都有一个振荡幅度，由4维矢势A的强度，或者等效地由相互关联的电场和磁场强度来描述。麦克斯韦方程组意味着，波矢为k的波模的频率为ω = |k|。将电磁场量子化意味着将所有这些波模量子化。更准确地说，这意味着为一组无限维的谐振子构造一个量子哈密顿算符。这是三维谐振子的一个无限延伸，例如，在11.3.5节关于原子核的尼尔森模型(Nilsson model)中出现过。隐式地，所有谐振子都有一个薛定谔方程(Schrödinger equation)，其组合解被称为场的波泛函。

对于具有波矢k和频率ω以及特定偏振选择的模，谐振子的能级为E_n = (n + 1/2)ħω，其中n = 0, 1, 2, …。基态被解释为没有光子的状态。第一激发态的能量比基态高ħω，并被解释为一个具有波矢k和频率ω = |k|的单光子，这与爱因斯坦(Einstein)的假设一致，即频率为ω的电磁波由能量为ħω的光子组成。第n激发态是n个光子的状态，每个光子都…

398
粒子物理
波矢k和能量¯hω，并且这个n光子态是唯一的，因此光子的排列交换没有影响。此外，对n没有限制，因此该理论正确地将光子描述为玻色子。量子场论的定态最好用占有数——即具有各种波矢k的光子数——来描述。一般的态是这些态的叠加。

如果所有模式都处于其基态，那么整个电磁场就处于基态。这个态被称为真空(vacuum)，完全没有光子。频率为ω的谐振子的基态能量为1/2¯hω，因此所有波模式的基态能量之和（其数量为无穷大）似乎是一个无穷大的总能量。然而，这种能量在物理上是不可探测的，所以可以简单地将其舍弃，将基态能量定义为零。¹ 这可以通过将每个谐振子的量子哈密顿量移动一个常数来实现，使得其基态能量为零，而不是1/2¯hω。

经典电磁场既携带能量也携带动量。用波模式的振幅及其波矢k可以表达动量，由此我们可以在量子场论中推导出动量算符。它是每个波模式各自贡献的项之和。对于波矢为k的波模式，其动量算符与哈密顿量类似，只是将ω替换为k。因此，该模式的一个1光子态同时具有动量p = ¯hk和能量E = ¯hω。由于ω = |k|，这意味着光子满足相对论性的能量-动量关系E = |p|。所以光子是无质量的。

光子是自旋为1的粒子（矢量粒子）。一个有质量的自旋1粒子会有三个独立的极化状态，因为在其静止参考系中，所有三个正交的空间方向都可用。但由于光子是无质量的且不能静止（即不能具有零动量），因此它只有两个独立的极化状态，并且沿k方向没有极化状态，这是自洽的。这是经典矢量势中平行于k的纵向部分可以通过规范变换（如3.7节所述）消除的直接结果。然而，光子仍然是一个矢量粒子，因为在围绕k轴的空间转动下，其极化状态会像矢量一样旋转。

电磁场的量子化导出了一个完整的光子理论，将光子描述为无质量、自旋为1的粒子。这一方法的成功表明，其他粒子或许可以通过对满足适当场方程的不同类型场进行量子化来理解。

12.2.2 量子化的标量克莱因-戈登场
量子场论最方便的出发点通常是场的经典拉格朗日量密度。由此，利用最小作用量原理(principle of least action)，可以推导出经典的动力学场方程，如2.3节所述。

让我们考虑一个实标量场φ(x, t)的如下拉格朗日量密度：
L = 1/2 ∂φ · ∂φ − 1/2 m₀²φ² = 1/2 (∂φ/∂t)² − 1/2 ∇φ · ∇φ − 1/2 m₀²φ², (12.4)
其中m₀是一个正的质量参数。总作用量是L在时空上的积分，
S = ∫ L d⁴x , (12.5)

¹ 这个步骤在我们将要考虑的电磁场或其他场的量子理论中不会带来任何问题，但这对于引力的量子理论来说会是一个问题，因为所有的能量都是引力场的源。

量子场论
399
由该作用量导出的场方程是克莱因-戈登(Klein–Gordon)方程
∂²φ
∂t² − ∇²φ + m₀²φ = 0 。 (12.6)
这就是我们的方程(3.18)，但由于现在它满足相对论性要求，我们已取 c = 1。（同时将 µ 替换为 m₀。）

克莱因-戈登方程比麦克斯韦(Maxwell)方程组更简单，因为 φ 只有一个大小量，没有矢量极化，也无需考虑规范变换。它对 φ 是线性的，因此其独立解同样是波模，具有波矢 k 和频率 ω。将波形式
φ(x, t) = A e^{i(k·x − ωt)} (12.7)
代入方程(12.6)，我们得到关系式
ω² = k² + m₀² 。 (12.8)
这个特解是复数的，但与其他涉及振荡的问题一样，可以利用复数解的线性组合得到实数解。此时，场以正频率 ω = √(k² + m₀²) 作简谐振荡。

量子化的处理方法是将每个波模视为一个量子谐振子，就像电磁场情形那样。对每个模，将谐振子振幅 A 量子化。频率为 ω 的模式的基态能量为 ½¯hω，并存在能量间隔为 ¯hω 的激发态。在真空中，所有模式都处于基态。无穷多个模式贡献的总基态能量同样被抛弃，并将真空定义为零能量。波矢为 k 的模的第一激发态被解释为一个单粒子态，类似于单个光子。该粒子的能量为 E = ¯hω = ¯h√(k² + m₀²)，并且通过寻找代表场总动量的量子算符可以再次证明，该粒子具有动量 p = ¯hk。将式(12.8)乘以 ¯h² 表明，粒子的能量和动量满足关系
E² = p² + (¯hm₀)² ， (12.9)
其中 E 为正。这正是质量为 m = ¯hm₀ 的相对论性粒子的能量-动量关系。因此，量子化后的实克莱因-戈登场理论描述了一种质量为 m 的单一类型粒子。若某个谐振子模式处于第 n 激发态，则该态代表 n 个全同粒子，每个粒子具有相同的动量和能量。与光子情形相同，我们得到的是一个玻色子理论。克莱因-戈登粒子的自旋为 0，因为单粒子态完全由其动量决定，不存在极化矢量。这类粒子被称为标量玻色子。

注意，粒子质量 m = ¯hm₀ 是一种涉及普朗克(Planck)常数的量子现象。这相当令人惊讶。m₀ 是场的质量参数，有时被不严谨地称为场的质量，但它本身的量纲并不匹配粒子质量。波模在空间上并非定域的，因此作为克莱因-戈登场激发的粒子并不具有明确的位置。动量与波矢之间是德布罗意(de Broglie)关系 p = ¯hk，因此在非相对论极限下，克莱因-戈登场与单个量子

400
粒子物理
力学粒子。克莱因-戈登场方程的解在波矢远小于 m0 时，表现得就像一个非相对论粒子的量子态。这是因为在小动量情况下，能量–动量关系 (12.9) 变为 E ≃ m + p²/2m。常数项 m 仅在场中产生一个普适的、依赖于时间的指数因子 e⁻ⁱᵐ⁰ᵗ。提取出这一因子后，剩下的就是一个满足质量为 m 的自由粒子薛定谔方程的场。通过组合不同动量的模式，我们可以像在非相对论量子力学中一样，构造一个空间局域的单粒子态。然而，动量必须很小，这限制了空间局域化的程度。任何过度局域化一个粒子的尝试，实际上都会产生一个多粒子态，因此，不存在与相对论一致的、精确截断到单粒子量子理论的情况。

12.3 狄拉克场
狄拉克场 ψ 满足一个在时间和空间导数上都是一阶的相对论性方程。这样的方程只有当使用四个 4 × 4 矩阵 γ（现在称为狄拉克矩阵或伽马矩阵）来构造时才有可能，因此 ψ 必须具有排列成一列的四个复分量。在第 8.5 节中，我们引入了自旋为 ½ 的电子的波函数是一个二分量旋量的概念。狄拉克场 ψ 是这一概念的修正，被称为四分量狄拉克旋量²。量子化后，它描述了两个相关粒子的态，这两个粒子的自旋都是 ½。我们将在下文中更仔细地解释这一点，但提前预告一下：如果其中一个粒子是电子，那么另一个粒子就是它的反粒子，即正电子，这是反物质的一个例子。狄拉克场的量子化给出了一个多粒子理论，但和克莱因-戈登情况一样，单粒子态是基本的状态。

12.3.1 狄拉克方程
使用我们在第 4 章和第 6 章中用过的简写 4-矢量符号，狄拉克方程是
(iγ · ∂ − m₀)ψ = 0 , (12.10)
其中 m₀ 是一个质量参数。展开 4-矢量的点积 γ · ∂，方程变为 iγᵘ ∂ψ/∂xᵘ − m₀ψ = 0，或者完整写出：
iγ⁰ ∂ψ/∂x⁰ + iγ¹ ∂ψ/∂x¹ + iγ² ∂ψ/∂x² + iγ³ ∂ψ/∂x³ − m₀ψ = 0 。 (12.11)
我们看到，它以对称的方式涉及时间 (x⁰ = t) 和空间 (x¹, x², x³) 的单阶导数，且无疑看起来是相对论性的。乍一看，γ 似乎是某个恒定的、普适的 4-矢量，但这不可能正确，因为选择一个特定的 4-矢量会破坏相对论性理论所必需的洛伦兹变换对称性。相对运动的不同的观测者，将需要 γ 是不同的 4-矢量。

狄拉克(Dirac)找到了这个问题的解决办法。他没有让 γ 的分量使用普通数，而是用四个恒定的方矩阵 γ = (γ⁰, γ¹, γ², γ³) 构造了这个 4-矢量，这些矩阵集合起来具有所期望的洛伦兹变换性质。这四个伽马矩阵需要满足某些代数关系，以确保与狭义相对论相容。其结果是，ψ 的每个分量都满足相对论性的克莱因-戈登方程。波动模式解随之满足频率与波矢之间的相对论关系，ω² = k² + m₀²。

² 它不是一个 4-矢量，因为旋量和矢量在洛伦兹变换下的变换方式不同。

狄拉克场

为了找到这些代数关系，我们假设 ψ 满足狄拉克方程 (12.10)，然后从左侧作用算符 iγ·∂ + m₀，得到
(iγ·∂ + m₀)(iγ·∂ − m₀)ψ = 0 (12.12)
或者更具体地写为
$$
\left( i\gamma^\nu \frac{\partial}{\partial x^\nu} + m_0 \right) \left( i\gamma^\mu \frac{\partial}{\partial x^\mu} - m_0 \right) \psi = 0 .
$$ (12.13)
展开此方程给出
$$
\gamma^\nu \gamma^\mu \frac{\partial^2 \psi}{\partial x^\nu \partial x^\mu} + m_0^2 \psi = 0 .
$$ (12.14)
由于双重偏导数在交换 μ 和 ν 下是对称的，γ^νγ^μ 中唯一有贡献的部分是对称组合 ½(γ^μγ^ν + γ^νγ^μ)。对于 ψ 的每个分量，方程 (12.14) 约化为克莱因-戈登方程
$$
\frac{\partial^2 \psi}{\partial t^2} - \nabla^2 \psi + m_0^2 \psi = 0 ,
$$ (12.15)
只要满足
$$
\gamma^0 \gamma^0 = 1_n , \quad \gamma^1 \gamma^1 = \gamma^2 \gamma^2 = \gamma^3 \gamma^3 = -1_n ,
$$ (12.16)
其中 1_n 是某个 n × n 单位矩阵，并且当 μ 和 ν 不同时
$$
\gamma^\mu \gamma^\nu + \gamma^\nu \gamma^\mu = 0
$$ (12.17)
恒成立。将代数关系 (12.16) 和 (12.17) 写为更紧凑的形式，即
$$
\gamma^\mu \gamma^\nu + \gamma^\nu \gamma^\mu = 2\eta^{\mu\nu} 1_n ,
$$ (12.18)
其中 η^{μν} = diag(1, −1, −1, −1) 是（逆）闵可夫斯基度规张量，由方程 (6.11) 所定义。

关系 (12.18) 被称作狄拉克代数，或者等效地称为伽马矩阵反对易关系（式中“反”指的是左侧两项之间的加号）。这些关系确实可以满足，并且基本解是用 4 × 4 矩阵来表示的。不存在更小的可行矩阵。例如，1 × 1 矩阵仅仅是数，尽管方程 (12.16) 可以用 ±1 和 ±i 来求解，但方程 (12.17) 却无法同时满足。一种给出解的方式是将 4 × 4 矩阵写成 2 × 2 分块形式，这些分块要么是零矩阵、单位矩阵 1₂，要么是第 8.5 节所定义的泡利矩阵 σ₁, σ₂, σ₃。于是伽马矩阵为
$$
\gamma^0 = \begin{pmatrix} 1_2 & 0 \ 0 & -1_2 \end{pmatrix}, \quad \gamma^i = \begin{pmatrix} 0 & \sigma_i \ -\sigma_i & 0 \end{pmatrix}, \quad i = 1, 2, 3,
$$ (12.19)
这样写是可行的，因为 σ_i σ_j + σ_j σ_i = 2δ_{ij} 1₂。虽然这个解不唯一，但使用 4 × 4 矩阵的变体解仅仅是在狄拉克旋量空间中的基变换下有所不同，而这并不产生物理上的差异。存在更大矩阵的解，但它们只是由上面 4 × 4 矩阵解的若干份拷贝构造而成，对应于拥有

402 粒子物理

多个表示多种狄拉克场的旋量。因此我们给出的解本质上是唯一的。

在任意时空维度中都存在狄拉克代数 (Dirac algebra) 的一个版本，且每个时空坐标既可以是类时的，也可以是类空的。特别地，在任意维数的欧几里得空间 (Euclidean space) 中同样存在一个版本。每当维数增加二，狄拉克矩阵 (Dirac matrices) 的尺寸就加倍。因此在十维时空中，矩阵为32 × 32，但它们仍然可以由12和泡利矩阵 (Pauli matrices) 构建而成。

现在让我们回到四维时空，寻找狄拉克方程 (Dirac equation) 的解。由于伽马矩阵 (gamma matrices) 以2 × 2分块形式写出，将ψ分解为一对二分量旋量会很方便。狄拉克方程不显含空间和时间的函数，因此很自然地可以寻求如下形式的波模解
ψ(x, t) = ei(k·x−ωt)

χ
ξ

,
(12.20)
其中χ和ξ为常二分量旋量。将此式代入狄拉克方程(12.10)，我们得到耦合方程组
(ω −m0)χ −k · σ ξ

0
k · σ χ −(ω + m0)ξ

0 ,
(12.21)
其中
k · σ = k1σ1 + k2σ2 + k3σ3 =

k3
k1 −ik2
k1 + ik2
−k3

(12.22)
为2×2矩阵。若取χ为任意常二分量旋量，则第二个方程将ξ确定为
ξ = k · σ χ
ω + m0
.
(12.23)
代入第一个方程并利用恒等式 (k · σ)2 = k2 12，我们得到
(ω −m0)χ −k2
χ
ω + m0
= 0.
(12.24)
非平凡解通常要求χ非零，这就需要有 ω2 −m2
0 −k2 = 0，或等价地
ω2 = k2 + m2
0 .
(12.25)
这一条件确保了狄拉克方程得以满足，其结果是狄拉克旋量 (Dirac spinor) ψ的每个分量都满足克莱因–戈登方程 (Klein–Gordon equation)。

这里没有理由固定ω的符号。对于给定的k，频率ω是 k2 + m2
0 的平方根，可正可负。若m0取定为正，则当ω为正时有 ω ≥ m0，当ω为负时有 ω ≤ −m0。（若k为零且ω = −m0，则χ为零而ξ为任意常二分量旋量。）狄拉克方程是线性的，因此各种波模解相互独立且可叠加。

由于ψ的每个分量都遵从克莱因–戈登方程，现在狄拉克方程在相对论上自洽是显而易见的。然而旋量场ψ的四个分量并不独立，寻找ψ的恰当洛伦兹变换 (Lorentz transformation) 需要

狄拉克场
403
更多的代数工作。事实上，我们可以验证狄拉克方程允许洛伦兹变换。一个推进(boost)会混合上、下二分量旋量 χ 和 ξ，但空间转动的作用更简单。每个二分量旋量的转动方式与非相对论二分量旋量的转动方式相同。这正是所需要的。这意味着 χ 的变换如同一个自旋 1/2 粒子的自旋态，自旋可以沿任意方向排列。在 χ 固定的情况下，ξ 由公式 (12.23) 确定，并以相同的方式变换。

12.3.2 狄拉克场的量子化——粒子和反粒子
我们可以尝试像处理其他类型的场那样，将狄拉克场量子化，把每个波模当作谐振子处理。在朴素真空(na¨ıve vacuum)中，所有模都处于未激发态。然而，这一步骤存在一个严重问题。负频率 ω 的解对应于负能量的粒子态。负频率模的每一次激发都会降低总能量，这将导致无法遏制的能量坍缩。狄拉克场与另一个场之间的相互作用会激发正、负频率模，从而产生无限多的负能量粒子。简而言之，该理论将是不稳定的。

现在，狄拉克场是为描述电子而发明的，电子是费米子。狄拉克(Dirac)认识到负能态问题与泡利不相容原理密切相关，并提出了以下每个模的显式费米子量子化方案。每个波模只有两种可能的量子态。它要么未激发，此时没有粒子存在；要么激发，此时恰好存在一个粒子。换言之，波模要么未被占据，要么被占据一次。没有两个粒子可以处于相同的动量、能量和自旋态。在真空态中，所有正频率模都未被占据。一个正频率 ω 模的占据态具有比空态高 ¯hω 的能量，并被解释为一个正能量粒子。若波矢为 k，则粒子具有动量 ¯hk 和能量 q ¯h2k2 + ¯h2m2 0，因此与克莱因-戈登(Klein–Gordon)理论中一样，粒子质量为 m = ¯hm0。

↑
↑
2m
图 12.2 从左到右：朴素真空；朴素单粒子态；填满的狄拉克海，即真正的真空态；代表反粒子的单空穴狄拉克态；具有一个粒子和一个反粒子的态。

图 12.2

那么负频率模呢？狄拉克假设在真正的真空态中，所有这些模都被占据了。这个狄拉克真空态也被称为填满的狄拉克海。如图 12.2 中间所示。狄拉克真空赋予理论一种显著的对称性，这种对称性不同于朴素真空的对称性。它是

图 12.2

404
粒子物理学
一种交换正负能量、同时交换占据态与未占据态的对称性。

现在考虑一个负频率波模从占据态变为未占据态时会发生什么。由于ω为负，能量以负值减少；换句话说，能量增加了。未占据态的能量比占据态高出¯h|ω|。我们可以将这份正能量视为一种新型粒子的能量，即反粒子（antiparticle）。（反粒子最初被称为空穴（hole），因为它是狄拉克海（Dirac sea）中的一个空穴。）

该理论描述了粒子和反粒子，两者都可以存在于具有动量p = ¯hk且自旋向上或向下的态中。动量为p = ¯hk的粒子是波矢为k的波模的激发。动量为p = ¯hk的反粒子是波矢为−k的波模的去激发。粒子和反粒子具有相同的正质量m = ¯hm0，并且都具有正能量
p
p2 + m2。那么是什么区分了粒子和反粒子呢？通常，它们会参与不同的相互作用。在许多情况下，我们可以通过它们的电荷来区分它们³。当与电磁场耦合时，狄拉克场具有确定的电荷，这对所有波模都是相同的。当一个未占据态变为占据态时，电荷会改变一个固定的量q。因此粒子带有电荷q。但反粒子是在一个占据态变为未占据态时产生的。这使电荷改变−q，因此反粒子带有电荷−q。

当狄拉克场与量子化的电磁场耦合时，一个光子有可能将狄拉克海中一个占据的负能态（一个负能粒子）提升到一个正能态。这同时产生狄拉克海中的一个空穴和一个正能粒子。这被解释为粒子-反粒子对的产生，如图12.3所示。电荷是守恒的，因为光子和粒子-反粒子对都具有零净电荷。负能态和正能态之间的能隙是2m，因此该过程只对至少具有此能量的光子才可能发生。

如果q是电子的电荷−e，且m是电子质量me，那么狄拉克理论描述了相对论性电子（e⁻），并预言了带有电荷e的电子的反粒子的存在。这些反粒子现在被称为正电子（e⁺），因为它们带正电。这是对反物质（antimatter）的首次预言。1932年，在狄拉克提出该理论后不久，正电子被正在用云室研究宇宙射线的卡尔·安德森（Carl Anderson）发现。图12.4展示了首张发表的正电子径迹照片。正如预言的那样，正电子具有与电子相同的质量，但电荷相反。它们的发现是该理论的伟大胜利。

图12.4

从历史上看，填满的狄拉克海（Dirac sea）这一思想非常重要，因为它导致了反粒子的发现，但它也引发了许多关于真空态的问题。这个态必须具有零净能量、零净动量和零净电荷，但它却被假定为由无限多的负能粒子海填满，潜在地具有无限的负总能量和负总电荷。尽管反粒子最初以我们描述的方式被解释为狄拉克海中的空穴，但今天的粒子物理学家认为填满的狄拉克海是一个不必要的拐杖。如今通常直接讨论粒子和反粒子作为狄拉克场的独立激发。这样就避免了需要论证掉一个无限的负能粒子海。

³ 对于不带电的狄拉克粒子，例如中微子，我们可以定义一种新的荷，称为ψ粒子数，并定义ψ粒子带有荷+1，ψ反粒子带有荷−1。

狄拉克场
405
能量
光子
m
–m
狄拉克海
反粒子（空穴）
粒子
图12.3 从狄拉克海中产生粒子对。
图12.4 第一张正电子照片。其路径在探测器中的磁场作用下发生弯曲。正电子从右上角入射，在穿过位于探测器中心的铅板时逐渐减速。

图12.4

量子化的狄拉克场不仅适用于电子和正电子；它适用于所有自旋为1/2的粒子。具体而言，对于每一个其他的大质量轻子——μ子和τ子及其反粒子，以及每一类夸克和反夸克，都存在一个单独的狄拉克场。这些粒子通过其质量、电荷以及它们的场与其他场的相互作用方式而彼此区分。
中微子更为复杂，目前仍未完全理解。它们也具有自旋1/2，但在量子场论中最适合描述它们的方式尚待确定。直到20世纪90年代，中微子通常用一种质量参数为零的狄拉克场的变体来描述。我们现在知道，中微子具有极小但不为零的静止质量。非常引人注目的是，它们可以在真空中从一种类型转化为另一种类型，甚至可能

406
粒子物理学
中微子与其反粒子完全相同。我们将在第12.9节描述对其性质的持续研究。
12.4
作用量与相互作用
到目前为止，我们一直在考虑服从线性场方程的场的量子化，其激发代表无相互作用的自由粒子。一个应用是模拟黑体辐射的光子盒。大量光子可能被困在盒子中，但它们彼此之间几乎没有散射。

相互作用的粒子在高能碰撞中相互散射，它们的动能可能转化为新的粒子。这正是粒子物理学成为令人兴奋的实验学科的原因。粒子碰撞后，如果我们要看到出射粒子的径迹并测量其能量和动量，探测器内的进一步相互作用至关重要。相互作用还导致粒子衰变，其中不稳定的粒子通常会衰变成两个或更多较轻的粒子。

为了描述相互作用粒子，我们必须考虑相互作用场，这需要在场方程中加入非线性项。于是，一种场成为另一种场的源。在经典非线性理论中，一种场的波模振荡可以激发另一种场的波模振荡。在量子场论中，这对应于粒子的产生和衰变。即使只有一种场，非线性项也可以将不同频率和波矢的波模耦合起来。这在量子力学中被解释为粒子散射，即粒子碰撞中能量从一个方向的运动转移到另一个方向的运动。

场拉格朗日量提供了编码场与粒子相互作用的最简洁方式。二次型拉格朗日量通过最小作用量原理导出线性场方程，其量子化场论没有粒子相互作用。包含场的高次幂的拉格朗日量导致非线性场方程和粒子相互作用。除少数特殊情况外，精确求解相互作用的量子场论是不可能的。通常的策略是假设任何非二次项的系数都很小，这样相互作用对自由粒子理论产生小的修正。这些系数称为耦合常数。然后，该理论预言的可测量量的振幅可以计算为耦合常数的级数展开，这一过程称为微扰论。正是这种方法导致了费曼图（Feynman diagrams）。
12.4.1
量子电动力学
粒子相互作用的微扰方法是首先由物理学家在模拟光子与带电粒子的相互作用时发展起来的。这些努力的巅峰是有史以来最成功的理论之一——量子电动力学（quantum electrodynamics，简称QED）。在这个理论中，电磁力源于带电粒子（如质子和电子）之间光子的交换，或者更基本地说，源于夸克和带电轻子之间光子的交换。QED的预言已经在实验室中得到检验，并与实验测量结果以惊人的精度相符，在某些情况下接近万亿分之一（1012）。

电磁学的一个非常重要的方面是存在通过进行规范变换（gauge transformation）重新定义势的自由，正如第3章所讨论的。规范变换保持电磁场 (F) 不变，因此对任何物理可测量量没有影响。它只是我们描述中冗余性的反映。

作用量与相互作用
407
描述电磁学，但它是经典理论和量子场论的一个基本特征。任何包含电磁场的拉格朗日密度都必须在规范变换下保持不变。换句话说，它必须是规范不变的。
在构造拉格朗日量时，实现规范不变性的方法是，对任何携带电荷 q 的场作用以下述修改的导数项：
∂
−→
D = ∂−iqA ,
(12.26)
其中 A 是电磁4-矢量势。这在引入相互作用的同时保持了规范不变性。描述带荷的自旋
1
2 粒子通过电磁场相互作用的QED拉格朗日密度为⁴
L = −1
4F · F + iψγ · Dψ −m0ψψ .
(12.27)
这里的场包括4-矢量势 A，及其场强
F = ∂A −(∂A)T ,
(12.28)
以及狄拉克场 ψ，它具有质量参数 m0 和电荷 q。ψ 是 ψ 的狄拉克共轭，一个行4-旋量，由 ψ 分量的复共轭构造而成（其中第三和第四分量取相反的符号，以实现洛伦兹不变性）。Dψ 表示 ∂ψ −iqAψ。
规范变换对场的作用如下：
A →A −∂λ ,
ψ →e−iqλψ ,
(12.29)
其中 λ 是空间和时间的任意函数。A 的变换将方程(3.58)中给出的规范变换写成了4-矢量形式。ψ 的改变是一个依赖于 λ 及电荷 q 的相因子。
我们来检验QED拉格朗日密度(12.27)的规范不变性。在规范变换(12.29)下，∂A 获得一个额外项 −∂∂λ，而 (∂A)T 获得其转置，这反转了偏导数的次序。由混合偏导数的对称性，这些额外项在 F 中相互抵消，因此 L 的第一项是规范不变的。最后的狄拉克场质量项是不变的，因为 ψ 涉及 ψ 的复共轭，它按照相因子 eiqλ 变换，与乘以 ψ 的相因子相消。中间项最有趣。修改后的导数 Dψ = ∂ψ −iqAψ 在规范变换下变为
∂ψ −iqAψ
→
∂
e−iqλψ

−iq(A −∂λ)e−iqλψ

e−iqλ (∂ψ −iq(∂λ)ψ −iqAψ + iq(∂λ)ψ)

e−iqλ(∂ψ −iqAψ) .
(12.30)
换句话说，Dψ 变换为 e−iqλDψ，仅仅乘以与 ψ 自身相同的相因子，因此 Dψ 被称为 ψ 的规范协变导数。中间项

⁴ 本方程及后续方程中所示的 γ 表示伽马矩阵的4-矢量，不应与光子混淆。

408
粒子物理
中的一项 L 包含了 ψ 和 Dψ 的乘积，它们获得相互抵消的相位因子，因此这一项也是规范不变的。
规范不变性之所以重要，有以下几个原因。它确保了光子没有纵偏振的物理态。这与涉及偏振器和光束的简单实验相一致。两个正交的偏振器会阻挡两种横偏振，从而完全阻断光束。此外，如果光有纵偏振态，黑体辐射的能量和熵的公式将会不同，从而与辐射压的测量结果不符。最后，或许也是最重要的一点是，如果没有规范不变性，光子可能通过其相互作用获得质量。那样的话，光在真空中将不会以固定的“光速”传播，从而动摇相对论在物理学各个领域取得的诸多成功。
在 QED 拉格朗日密度中，除了这一项之外的所有项都是二次的
Lint = q(ψγψ) · A
(12.31)
这一项来自规范协变导数的第二部分。正是这一项负责带电粒子、它们的反粒子以及光子之间的相互作用。
我们现在将更详细地探讨由这些粒子相互作用产生的物理。
12.4.2
费曼图 (Feynman diagrams)
费曼(Feynman)设计了一种非常有用的图形化方法来直观地表示粒子的相互作用。对于电子、正电子和光子，QED 拉格朗日密度中的相互作用项是
Lint = −e(ψγψ) · A ,
(12.32)
并且它可以表示为一个被称为顶点的简单图形，如图 12.5（左）和（中）所示。

图 12.5

e–
e–
e–
e–
e–
e–
e–
e+
图 12.5 表示电子发射或吸收光子、电子-正电子湮灭产生光子，以及两个散射电子之间交换光子的费曼图。

图 12.5

在图中，时间向上流逝。实线代表电子和正电子，波浪线代表光子。向前的箭头表示电子，向后的箭头表示正电子。同一个顶点根据其方向可以表示不同的过程。左边的顶点显示一个电子发射或吸收一个光子。中间的图表示一个电子和一个正电子湮灭并产生一个光子。相互作用的强度由耦合常数 −e 决定。在每个顶点，所有与理论相关的守恒定律，例如电荷守恒以及能量和动量守恒，都必须遵守。

作用与相互作用
409
当使用完整的量子场论机制来构造这些图时，这一点自动实现。

这些顶点可以组合起来生成表示粒子散射过程的费曼图。表示两个电子散射的最简单费曼图如图12.5（右）所示。在此图中，一个单光子被两个电子交换。由于光子携带能量和动量，其交换在电子之间传递能量和动量，从而改变它们的轨迹。该图可在微扰论中计算到最低阶，以求得两个电子散射的振幅。振幅正比于e²，因为每个顶点有一个电荷因子。物理上可测量的量，如截面，依赖于散射概率，而散射概率通过取振幅的模平方来计算，因此散射截面正比于e⁴。

图12.5

完整结果是量子力学中两个电子通过排斥的e²/(4πr)库仑势散射所得结果的相对论性推广。这是一项重大成就，因为在非相对论量子力学中，库仑势只是从诸多可能势中简单地选取的。构建自洽的量子场论要困难得多。只有那些具有最简单相互作用顶点的理论才是自洽的，因此没有选择势的自由。我们通过在规范不变的拉格朗日量中定义最简单的电子-光子相互作用顶点，得到了最低阶结果。本质上没有其他方法将带电费米子与电磁场耦合，唯一的自由度就是通过改变电荷q来改变耦合的值。因此，量子场论为库仑力提供了深刻得多的解释。

图12.6 单圈QED费曼图。

图12.6

我们可以构造出微扰论中更高阶的表示电子-电子散射的费曼图，如图12.6中所示。包含这些高阶图将对基本结果给出的一系列量子修正。费曼图是跟踪这些高阶项的最简单方法。每个图都可以计算，作为对散射量子振幅的贡献。如果不同图对应的初态和末态相同，那么这些贡献之间可能会发生量子干涉，因为对应这些图的振幅必须在计算最终的散射截面之前相加。要计算到e⁴阶的散射振幅，我们必须包含所有可能的不超过四个顶点的图，且外线代表电子。内线代表只短暂存在的粒子，称为虚粒子。它们可以是光子、电子或正电子。这些图看似给出物理过程的时空图像，尽管每个具有内圈的图实际上对应于对虚粒子可能能量和动量进行的一个相当复杂的积分。只要耦合常数很小，

图12.6

410
粒子物理
交换单个光子，如图12.5（右）所示，给出散射振幅的主要贡献。图中每增加一个顶点就多一个因子e，这会减小其贡献的大小。这一系列图形代表了一种微扰展开，原则上可以用来计算任意精度下的散射振幅。

图12.5

计算这些图绝非易事，特别是当它们包含若干内圈时，因为它们编码了多重4-动量积分。这依赖于一种被称为重整化(renormalization)的复杂技术程序。重整化的一个特征是我们必须承认，粒子的质量和耦合参数不由理论确定，而必须通过测量得到，并作为实验输入来处理。然后我们可以高精度地计算散射截面和其他可测量量，且可达到任意高能量。这赋予了量子场论强大的预言能力。

e
μ⁻
μ⁺
e
e
eq
q
q̄
e⁻
e⁺
e⁻
e⁺
图12.7 表示电子–正电子湮灭产生μ子–反μ子对（左）或夸克–反夸克对（右）的费曼图(Feynman diagrams)。

图12.7

带电粒子有多种类型。在完整的QED理论中，我们必须为每一种基本费米子引入一个狄拉克场(Dirac field)。于是我们得到一个描述所有这些不同带电粒子之间电磁相互作用的理论。这种QED过程的一个例子是电子–正电子对转化为μ子–反μ子对。这由一个虚光子介导，该光子短暂地携带全部的能量和动量。对如图12.7（左）所示费曼图代表的过程，其总截面σ的最低阶预言为

图12.7

σ(e⁺e⁻→μ⁺μ⁻) = 4πα²/(3E²)， (12.33)
其中α = e²/(4π¯h) ≃ 1/137为精细结构常数(fine structure constant)，E是质心能量。无量纲的α是QED微扰级数的真实展开参数。

12.5 强力
汤川(Yukawa)于1935年提出，将原子核束缚在一起的质子p和中子n之间的强力，可以通过交换三种自旋为0的粒子来解释，这些粒子现在被称为π介子π⁺、π⁻和π⁰。这在第11.9节中已经描述过，但量子场论提供了更深刻的见解。在汤川设计的实际理论中，有一个代表核子N = (p, n)的狄拉克场二重态。该二重态的两个成员

强力 411

通过同位旋⁵来区分；质子p的同位旋为1/2，中子n的同位旋为−1/2。标量π介子场(π⁺, π⁰, π⁻)的同位旋分别为1、0和−1。

汤川(Yukawa)理论的一个简化版本只包含一个质量为参数M₀的狄拉克场ψ，与一个质量为参数m₀的标量克莱因–戈登场φ相互作用。其拉格朗日密度为

L = ½∂φ·∂φ − ½m₀²φ² + iψγ·∂ψ − M₀ψψ + λψψφ . (12.34)

前四项描述自由克莱因–戈登场和自由狄拉克场，只有最后那个非二次的项含有这些场之间的耦合λψψφ，对应于图12.8所示的顶点。这就是所谓的汤川耦合。量子化后的理论包含一个自旋½的狄拉克粒子（我们也称其为ψ）及其反粒子（反ψ），以及一个自旋0的标量粒子φ。在费曼图中，实线代表ψ和反ψ粒子，虚线代表φ粒子。两个ψ粒子的散射由图12.9所示的费曼图表示。这些都是树图的例子——即不含圈图的图。

图12.9

图12.8

图12.8 汤川顶点；λ是顶点处的耦合常数。左：一个φ粒子转变为一个ψ粒子和一个反ψ粒子。右：一个ψ粒子和一个反ψ粒子湮灭而形成一个φ粒子。

图12.8

自由φ场满足克莱因–戈登方程(12.6)，

∂²φ/∂t² − ∇²φ + m₀²φ = 0 , (12.35)

或者对于静态场，满足

∇²φ(x) = m₀²φ(x) . (12.36)

该方程的解描述了位于原点的ψ粒子与距离为r处的ψ粒子的相互作用，即汤川势

V(r) = −λ²/(4πr) exp(−m₀r) , (12.37)

其力程为1/m₀。这一势也出现在利用图12.9的图计算出的散射振幅中。回忆一下，ψ粒子的质量为M = ¯hM₀。如果这个质量远大于可获得的动能，那么ψ粒子的对产生⁵

图12.9

⁵ 同位旋与自旋有些相似，用于对强相互作用粒子进行分类。就我们的目的而言，我们只需要考虑同位旋的一个分量，类似于自旋的s₃分量。

412
粒子物理
图12.9 ψ–反ψ散射的汤川树图。左图：一个ψ和一个反ψ湮灭形成一个虚φ，然后再转化回一个ψ和一个反ψ。右图：一个ψ和一个反ψ交换一个φ。

图12.9

是不可能的。然而，运动缓慢的ψ粒子通过汤川势发生量子力学相互作用。这就是将核子与π介子的汤川理论作为核子-核子力模型的基础。

在更完整的汤川理论中，包含核子二重态和π介子三重态，二重态中的场在相互作用中混合，三重态中的场也是如此。这意味着一个粒子的身份可能在相互作用后发生改变。中子可能变成质子，反之亦然，如图11.26中的图表所示。同位旋在每个顶点守恒，这约束了这些变换。例如，在图11.26中，左上图展示了一个通过交换π0介导的过程，其中核子的同位旋不改变，但在左下图，左侧顶点处一个中子放出一个同位旋为-1的π−并变成一个质子。质子比中子多一个单位的同位旋，因此同位旋在顶点处守恒。在右侧顶点处，π−被一个质子吸收，该质子转变为中子，同位旋再次守恒。这些过程在原子核中的中子和质子身上不断发生。在这些例子中，同位旋守恒似乎仅仅是确保电荷守恒的一种方式，但同位旋实际上是强相互作用的一种内部旋转对称性，其蕴含的意义更为丰富。例如，它将π0耦合的强度与π±耦合的强度联系了起来。

图11.26

为了解释强力的力程，汤川(Yukawa)预言π介子的质量mπ应在130 MeV左右的区域。实验观测到的带电π介子π+和π−的静止质量mπ为139.6 MeV。在原子核内部，π介子通常不会衰变，但作为自由粒子，它们通过弱力衰变，平均寿命为2.6 × 10−8秒，过程如下：
π−→µ−+ ¯νµ ,
π+ →µ+ + νµ ,
(12.38)
其中µ−是μ子，µ+是反μ子。中性π介子π0的质量为135.0 MeV。它通过电磁力衰变，这使其具有短得多的半衰期，为8.4×10−17秒。主要的衰变模式（γ表示光子）为：
π0 →2γ
(Br = 0.988) ,
π0 →γ + e−+ e+
(Br = 0.012) ,
(12.39)

强相互作用力
413
其中分支比 $Br$ 是每种衰变所占的比例。
20世纪40年代和50年代，人们为发展汤川理论付出了巨大努力。必须包含π介子场之间的相互作用项，才能构造出一个现实的拉格朗日量，而这些项相当复杂，且很难通过实验确定。然而，原则上，通过遵循这一方法，所有核力以及原子核的性质都可以用少数几个耦合常数来预测。但在实践中，由于耦合常数 $\lambda$ 很大，计算无法可靠地进行。这正是强相互作用之所以被称为”强”的原因。高阶费曼图，类似于图12.6中的圈图，会产生巨大的效应，尤其是在短程范围内，因此，尽管汤川势能很好地描述中等距离（1–5 fm）上的强核子–核子力，但它在更短距离上则不具备预测能力。

图12.6

另一个复杂之处在于，π介子彼此之间的相互作用足够强，以至于存在一些可以被解释为由两个π介子或三个π介子构成的短寿命束缚态的粒子。这些粒子被称为$\rho$介子和$\omega$介子。原则上，它们的效应已经完全包含在汤川理论中了，但通常将它们视为与核子耦合的独立粒子会更简单。
到1960年左右，核子之间以及π介子与核子之间的高能碰撞导致了更多粒子的发现，而所有这些粒子的强相互作用理论变得极其复杂且不能令人满意。看来，所有构建强相互作用力量子场论的努力似乎都注定要失败。但就在这时，一个非凡的突破出现了，为当前的强相互作用理论铺平了道路。
12.5.1
夸克
像质子、中子和π介子这样通过强相互作用力发生作用的粒子被称为强子。(位于日内瓦的欧洲核子研究中心(CERN)的大型强子对撞机(LHC)的名字即源于此，它是一台质子对撞机。)强子分为两类：一类是介子，如π介子；另一类是重子，如质子和中子。20世纪50年代和60年代的粒子加速器发现了许多介子和重子。我们现在从这些粒子的亚结构来理解它们的性质。默里·盖尔曼(Murray Gell-Mann)意识到，它们的存在可以用自旋为$\frac{1}{2}$的组分粒子来解释，他将这些粒子命名为夸克，这表明质子和中子之间的汤川力是夸克之间一种更深层次相互作用的结果，而这种相互作用最终构成了强相互作用力的基础。
最初，人们假设存在三种夸克：上夸克 $u$、下夸克 $d$ 和奇异夸克 $s$。$u$ 和 $d$ 夸克共同构成一个同位旋二重态，而 $s$ 夸克是一个同位旋单态。⁶ 盖尔曼方案的一个重要部分是，这三种夸克被统一在一个更大的对称性结构中。我们现在知道还有另外三种更重的夸克类型，分别命名为粲夸克 $c$、底夸克 $b$ 和顶夸克 $t$。这六种夸克类型被称为六味夸克。盖尔曼的想法是，像π介子和K介子($K$)这样的介子，是由一个夸克和一个反夸克束缚在一起而形成的。例如，带正电的π介子($\pi^+$)由一个上夸克和一个反下夸克 $u\bar{d}$ 组成。图12.10展示了最轻介子的夸克组成。这个介子八重态中的所有粒子自旋均为0，其组分夸克和反夸克的自旋反平行排列。还有一组类似的质量更大的自旋为1的介子，包括$\rho$和$\omega$介子，其中夸克和反夸克的自旋是反平行的。

图12.10

⁶ $s$夸克也被认为携带一个（负）单位的奇异数。

414
粒子物理
夸克和反夸克的自旋是平行的。还存在自旋更高的介子，其中的夸克组分携带一定的轨道角动量。这些介子相应地具有更大的质量。

dsˉ
duˉ
uu–dd
ˉ ˉ
suˉ
sdˉ
–
uu +dd –2ss
ˉ ˉ ˉ
udˉ
usˉ
K 0
K 0
K –
K +
π–
π0
0
π+
Strangeness
Isospin
0
–1
+1
0
+1
–1
1
– 2
1

2
图12.10 自旋为0的介子及其夸克组分u、d和s。字母上的横线表示反夸克。不带电的介子π0和η0由夸克和反夸克的正交叠加组成。

图12.10

关键是，在盖尔曼(Gell-Mann)的模型中，粒子还可以通过另一种方式由夸克形成。三个夸克可以结合成一个重子。例如，质子由一个下夸克和两个上夸克构成，即duu；中子由两个下夸克和一个上夸克构成，即ddu。中子和质子具有自旋1/2。这是因为一个夸克的自旋与另外两个夸克的自旋方向相反。自旋1/2重子八重态中每个粒子的夸克组分如图12.11（左）所示。与介子的情况类似，也存在质量更大、夸克自旋和轨道角动量排列不同的重子。由u、d和s夸克可以形成十个自旋3/2的重子，这些夸克的自旋全部平行排列。盖尔曼将这批重子命名为“decimet”，但现在它们通常被称为重子十重态(baryon decuplet)。这些粒子各自的夸克组分如图12.11（右）所示。这些粒子集合的六角形和三角形结构，是盖尔曼夸克味对称性的成功预言。

图12.11

除质子外，所有这些粒子都是不稳定的。Δ粒子通过强相互作用力衰变成核子和π介子；它们的衰变极为迅速，以至于无法直接观测到，其存在的主要证据是，当π介子与核子在质心系能量约1230 MeV处相互作用时，截面会显著增强。自由中子通过弱相互作用力衰变，半衰期约为10分钟。所有其他粒子都至少含有一个奇异夸克，也通过弱相互作用力衰变，例如，
Σ+ →p + π0
(Br = 0.52) ,
Σ+ →n + π+
(Br = 0.48) ,
(12.40)

强力
415
0
–1
–3
–2
0
–1
–2
0
ddd
∆⁻
∑⁻
∑⁻
∑⁺
∑⁰
0
∆⁰
∆⁺
∆⁺⁺
sdd
Ω⁻
sss
sdu
ddu
ddu
n
p
duu
duu
uuu
suu
奇异数
同位旋
奇异数
同位旋
+1
–1
ssd
Ξ⁻
ssu
Ξ⁰
ssd
Ξ⁻
ssu
Ξ⁰
∑⁺
∑⁰
1
– 2
3
– 2
3

2
1
2
0
sdd
sdu
suu
+1
–1
1
– 2
1
2
图12.11 左：自旋为1/2的重子的夸克组成。Σ⁰和Λ⁰由u、d和s夸克的正交叠加构成。右：自旋为3/2的重子十重态的夸克组成。

图12.11

它们在衰变前会在粒子探测器中留下径迹。

12.5.2 禁闭
尽管盖尔曼(Gell-Mann)的夸克假说为粒子加速器中观测到的数百种强子的性质提供了简洁的解释，但却存在一个明显的问题。从未有人观测到过夸克。为了匹配质子、中子和其他强子的电荷，上夸克的电荷必须为 qu = 2/3，下夸克的电荷必须为 qd = −1/3（以质子电荷e为单位）。带分数电荷的粒子很容易与其他任何粒子区分开来。例如，该粒子在气泡室照片中的径迹宽度会窄得多。然而，在四十多年的探寻中，从未发现过自由夸克存在的任何证据。

幸运的是，即使不提取和分离出单个夸克，也有可能探测质子和中子并证明它们含有这些点状组分。20世纪60年代末和70年代初，加利福尼亚州斯坦福直线加速器中心(SLAC)进行了一系列实验，旨在寻找质子内部可能存在的隐藏亚结构。这些实验的方法与卢瑟福(Rutherford)的α粒子实验非常相似，但规模要大得多。用能量在5 GeV到20 GeV之间的电子束轰击液态氢靶。结果表明，质子内部确实含有微小的、坚硬的、自旋为1/2的组分，它们散射了电子。自然而然可以推断，质子内部的这些“金块”就是盖尔曼的夸克。

夸克之间的力如此之强，以至于夸克不可能摆脱囚禁而作为独立的自由粒子存在。它们总是被束缚在π介子、质子或中子等复合粒子之中。这一令人惊奇的性质被称为禁闭。在夸克模型的早期，它曾引起极大的困惑，直到人们更好地理解了将夸克束缚在一起的力的作用后，它们真实的物理存在才被接受。

赋予夸克的电荷可以在正负电子湮灭实验中得到检验。当电子与正电子湮灭时，有几种可能的结果。一种是产生一个μ子和一个反μ子，如图12.7所示。

图12.7

416
粒子物理
Orsay
0
8
,3
5
10
15
20
Q (GeV)
25
30
35
40
CELLO
JADE
Frascati
Novosibirsk
SLAC-LBL
DASP
CLEO
DHHM
u+ d+ s + c + b
u + d + s + c
u + d + s
MARK J
PLUTO
TASSO
6
R
4
2
0
´
´
J/
˝
图12.12 通过截面比R测得的正负电子湮灭实验中产生的强子碎片的比例。Q为碰撞能量。

图12.12

（左图）。这种事件的截面由方程(12.33)给出。另一种情况是，可能会产生一个夸克和一个反夸克，如图12.7（右）所示。在低能情况下，可能产生的夸克-反夸克对有三种：u¯u对、d ¯d对或s¯s对。这些夸克并不能被直接观测到，因为一旦它们产生，强相互作用力就会立刻参与进来，实验所观测到的是从相互作用点射出的一簇强子。这个过程被称为强子化。这些强子往往被高度准直成粒子喷注，从正负电子撞击点射出。

图12.7

正负电子的湮灭是一个纯粹的电磁相互作用，其主要贡献来自图12.7（右）中具有两个顶点的费曼图。第一个顶点的耦合系数为e，第二个顶点的耦合系数为夸克电荷eq，因此产生每种夸克-反夸克对的振幅正比于e^2q。所以截面σ正比于e^4q^2，但在其他方面与μ子-反μ子对的产生完全相同。以奇异夸克为例，这给出了如下比值：

图12.7

σ(e+e−→s¯s)
σ(e+e−→µ+µ−) = e^4q^2
s
e^4
= 1
9 。
(12.41)
我们可以估算正负电子碰撞中产生的强子碎片的比例，即夸克产生的总截面与μ子产生的截面之比R：
R = σ(e+e−→强子)
σ(e+e−→µ+µ−)

∑ σ(e+e−→夸克反夸克)
σ(e+e−→µ+µ−)

∑
味
q^2 。
(12.42)
根据盖尔曼(Gell-Mann)的三种夸克味u、d和s，这个比值为
Ru,d,s = 4/9 + 1/9 + 1/9 = 2/3
(12.43)

QCD
417
在简单的夸克模型中。然而，在实验中，该比值被发现接近2，因此强子碎片的数量是预期的三倍。在更高的碰撞能量下，可以产生质量更大的夸克，并产生更多的强子碎片。当碰撞能量 Q 超过产生粲夸克和反粲夸克的阈值（约为 2mc ≃3.0 GeV）时，强子碎片的数量会增加。高于此阈值时，Ru,d,s,c = 4/9 + 1/9 + 1/9 + 4/9 = 10/9。在底夸克–反底夸克阈值 2mb ≃10 GeV 以上，数量会进一步增加。此时，Ru,d,s,c,b = 4/9 + 1/9 + 1/9 + 4/9 + 1/9 = 11/9。但实验表明，强子碎片的数量总是简单夸克模型预期的三倍。这些结果展示在图 12.12 中。

图 12.12

为了解释这些结果，人们假设每种味的夸克都以三种颜色出现：红 r、蓝 b 和绿 g，因此不同类型的夸克数量是原来的三倍。这个看似特别的提议，导致了被称为量子色动力学的理论，并且是理解夸克之间作用力的关键。

12.6 QCD

量子电动力学(QED)最终会发展成为弱力和强力的成功理论。1954年，杨振宁(Chen Ning Yang)和罗伯特·米尔斯(Robert Mills)设计了一种方法，将电磁学的规范不变性推广，以构建类似于 QED 但基于更大规范对称性的理论。电磁力由光子（一种无质量的自旋为1的玻色子）传递。在杨-米尔斯(Yang–Mills)理论中，相互作用由一个场矩阵生成，这些场构成了一组密切相关联的无质量自旋为1的玻色子。

在20世纪70年代初，物理学家们意识到有一个杨-米尔斯理论为解释夸克之间的力提供了完美的方式。这种力被称为色力，或者更正式地称为量子色动力学(QCD)。它将三个夸克束缚在一起，形成质子或任何其他类型的重子。“颜色”这个术语是通过类比红光、蓝光和绿光混合形成白光来使用的，这正是电视屏幕或计算机显示器上产生白光的方式。正如对于电荷相同的不同粒子（例如质子和正电子），电磁力可以是相同的，色力对于六种不同味的夸克也是相同的。

QCD与QED相似，但有一些非常重要的区别。QED中的相互作用取决于单一的电荷，而在色动力学中存在三种不同的荷：红、蓝和绿。将三个夸克（各带一种色荷）组合在一起，可以产生一个粒子，例如质子，它对色荷来说是中性的。换句话说，一个红色荷、一个蓝色荷和一个绿色荷的总和是没有净色荷的，因此有了颜色的类比。

每种色荷都有一个负的对应物，被称为反红、反蓝和反绿。这提供了另一种产生色中性粒子的方法。一个夸克和一个反夸克可以束缚在一起形成一个介子，前提是夸克携带三种色荷中的一种，而反夸克携带相应的反色荷，使得色荷相互抵消，总体上没有净色。例如，夸克可能携带红色荷，而反夸克携带反红色荷，即 r¯r。或者，夸克可能携带蓝色荷，而反夸克携带反蓝色荷，即 b¯b。

12.6.1 胶子

色力源于被称为胶子的杨-米尔斯粒子的交换，之所以这样命名，是因为它们提供了将夸克粘在一起的胶水。我们将胶子记作 G。

418
粒子物理学
b
b
r
r
gs
gs
rbˉ
rbˉ
rr+ bb– 2gg
ˉ
ˉ
ˉ
rr– bb
ˉ
ˉ
rgˉ
grˉ
bgˉ
brˉ
gbˉ
图12.13 左：展示由胶子交换引起夸克散射的费曼图。右：胶子八重态中胶子的颜色荷。

图12.13

图12.13（左）展示了一个QCD费曼图，表示两个夸克之间发生散射的相互作用。这里，带有箭头的线代表夸克。卷曲的线代表在两个夸克之间交换的胶子。耦合强度为gs，下标指的是强作用力。

图12.13

夸克之间交换的胶子共有八种。每个胶子携带两种荷，一个颜色荷和一个反颜色荷（这是因为胶子场是一个矩阵）。这八种QCD胶子一起组成一个颜色对称八重态，如图12.13（右）所示。八重态图展示了每种胶子的颜色荷和反颜色荷。例如，在图的左上角那个点代表的胶子携带一个红荷和一个反蓝荷。这个特定的胶子将参与诸如费曼图中所示的那种相互作用。在图的左侧，入射的红夸克发射出（红，反蓝）胶子，从而转变为一个蓝夸克。这一相互作用因为红荷转移到了胶子上而守恒红荷。它也守恒蓝荷，因为夸克上的蓝荷和胶子上的反蓝荷同时产生。然后，在右侧，（红，反蓝）胶子与一个蓝夸克相互作用。胶子上的反蓝荷抵消了夸克上的蓝荷，胶子上的红荷转移给了夸克。交换胶子的总体效果是在夸克之间传递能量和动量，并交换它们的颜色荷。如果蓝夸克发射一个（蓝，反红）胶子并被红夸克吸收，也会产生同样的效果；一个费曼图就代表了这两种过程。考虑到所有胶子类型，介子的颜色态并不像前面简单提示的那样是r¯r或b¯b。它是一个颜色中性、对称的叠加态：r¯r + b¯b + g¯g。同时，并不存在r¯r + b¯b + g¯g的胶子，因为它将不具有任何颜色耦合强度。

图12.13

光子是电中性的，因此它们自身感受不到电磁力，也不会与其他光子直接相互作用。而胶子则携带颜色荷。因此胶子自身能感受到色力，并与其他胶子相互作用。QCD拉格朗日量包含胶子自耦合的三次项gsG³和四次项g²sG⁴，其中gs是强作用耦合常数，所以一个胶子可以分裂成两个或三个胶子，两个或三个胶子也可以合并形成一个胶子。这极大地复杂化了色相互作用，并使得色力与电磁力截然不同。

QCD
419
图12.14 高阶QCD费曼图。

图12.14

图12.14展示了几个高阶QCD图。同样，实线代表夸克，卷曲线代表胶子。左侧的两个图与QED中类似图相似，将夸克替换为电子，胶子替换为光子，就会得到等效的QED图。其他三个QCD图涉及胶子与其他胶子的相互作用，因此没有QED中的对应图。例如，在顶部中间的图中，一个夸克发射一个胶子，这个胶子分解成一对胶子，然后这对胶子又重新组合成一个胶子，最后这个胶子被第二个夸克吸收。这些附加的图不仅使QCD计算比QED计算更为艰巨，而且还表明这种力的行为方式完全不同。

图12.14

u
dˉ
图12.15 左：两个夸克之间的色场线形成一条通量管。右：当两个夸克分离时，它们之间色场中的能量转化为新的夸克。

图12.15

420
粒子物理
色力实际上在极短距离处相当微弱，只有在较远距离才变得强大。这一点与电磁力截然不同。这是QCD的巨大成功之一，因为它似乎正确地描述了在对撞机实验中所观察到的强相互作用如何运作。在较远距离处，我们可以把两个夸克之间的力想象成众多胶子之间同时相互作用，并发生极其复杂的交换所得到的净结果。这团缠结的胶子群有效地构成了一个色流管，其行为有点像夸克之间的橡皮筋，如图12.15所示。这意味着两个夸克之间的色力与它们的距离无关，因为色场中的能量近似地随距离线性增加。这表明永远不会有足够的能量把夸克完全拉开。事实上，当距离接近一个强子的典型尺度——大约10−15 m时，色场中的能量就足以形成新的粒子，如图12.15（右）所示。这就是禁闭的实际表现。由于夸克分离时会发生夸克–反夸克对的产生，我们看不到单独的夸克。

图12.15

如前所述，电子与正电子的正面碰撞导致它们完全湮灭，释放出的能量可能产生一对夸克和反夸克，并带有大量动能。当夸克和反夸克彼此飞离时，它们之间色场中的能量转化为其他夸克和反夸克的簇射。所有这些夸克和反夸克迅速强子化，于是它们裸露的色荷隐藏在了色中性粒子之中，这些粒子就是探测器中所看到的粒子。这样的事件表现为从电子–正电子撞击点沿相反方向射出的两束狭窄的粒子喷注。

图12.16 左：显示电子–正电子湮灭事件的费曼图，产生了一对夸克–反夸克，且夸克放出了一个胶子。这将表现为一个三喷注事件。右：在CERN的OPAL探测器中看到的三喷注事件。

图12.16

QCD
421
有时会产生三束粒子喷注，如图12.16(右)所示，这正是QCD可以解释的。偶尔，在电子-正电子撞击中产生的夸克或反夸克在出现的瞬间会发射出一个胶子，如图12.16(左)的费曼图(Feynman diagram)所示。胶子的发射产生了第三束强子喷注。有时夸克和反夸克都会发射胶子，此时会观察到四束喷注。单个胶子发射事件的振幅包含一个额外的因子gs，因此单个胶子发射的速率正比于αs = gs²/(4πħ) 乘以夸克-反夸克对的产生速率，其中αs是相当于电磁精细结构常数的强力耦合常数。这为强子产生截面提供了一个正比于αs/π的二阶修正，从而给出

图12.16

[ R_{\text{QCD}} = \frac{\sigma(e^+e^- \to \text{hadrons})}{\sigma(e^+e^- \to \mu^+\mu^-)} = 3 \times \left(1 + \frac{\alpha_s}{\pi}\right) \sum_{\text{flavours}} q^2, \tag{12.44} ]
其中因子3来自对颜色的求和。当αs ≃ 0.15时，附加项给R的表达式带来5%的修正，这进一步改善了理论与实验之间的一致性。

通过分析喷注内所有粒子的分布，可以区分由夸克形成的喷注和由胶子形成的喷注。从喷注的角分布还可以确定胶子的自旋。这证实了胶子不是标量粒子。它们自旋为1，这正是它们作为杨-米尔斯力(Yang–Mills force)媒介粒子所必须具有的性质。

在SLAC以及后来加速器上进行的深度非弹性散射实验表明，强子的结构比最初认为的要复杂得多。盖尔曼(Gell-Mann)提出，质子的组成为duu。这三个夸克被称为价夸克(valence quarks)。质子内部还存在着不断出现和消失的夸克-反夸克对，它们也可能散射入射粒子，这些被称为海夸克(sea quarks)。此外，这些实验表明，通常质子只有大约一半的动量由其夸克组分携带，其余部分则由在质子内部飞来飞去并将夸克束缚在一起的胶子所携带。

12.6.2 格点QCD
世界上领先的加速器不断验证着QCD的预言，但有些QCD计算过于复杂而难以手动完成，因此物理学家必须求助于超级计算机。QCD在代表空间和时间的离散网格上进行模拟，这种方法被称为格点QCD(lattice QCD)。物理学家希望回答的一个问题是QCD与禁闭之间的关系。所有证据都表明QCD意味着禁闭，而格点QCD支持了这一观点，但尚缺乏决定性的证明。格点QCD的另一个目标是从第一性原理出发，预测由夸克构成的粒子的质量。这类似于计算原子中的能级，但要复杂得多。将计算得出的各种介子和重子的质量与粒子加速器中测得的值进行比较，符合程度非常好；通常，QCD的预测与实验结果的精度偏差优于4%，只有对最轻的介子——π介子(pions)的结果不那么令人信服。尽管这无法与量子电动力学预言的惊人精度或原子物理学中相应的结果相媲美，但仍然非常令人印象深刻。其精度

422
粒子物理
随着更大计算能力的可用以及执行这些计算的技术进一步完善，计算的精度将会提高。

12.6.3 重夸克与奇异强子
1974年，一个质量为3.1 GeV的新介子的发现同时由布鲁克海文国家实验室的丁肇中(Samuel Ting)领导的团队和SLAC的伯顿·里克特(Burton Richter)领导的团队宣布，前者将其命名为J，后者将其命名为Psi (Ψ)。自此，它被称为J/Ψ。这个新介子的重要性在于它是第四种夸克味道——粲夸克的首次出现。J/Ψ介子的组成为c¯c。仅仅三年后，费米实验室由利昂·莱德曼(Leon Lederman)领导的团队发现了宇普西龙介子(Υ)，这是包含第五种夸克——底夸克的第一个粒子。宇普西龙是最轻的、夸克组成为b¯b的介子。需要第六种夸克来完成第三代费米子，物理学家们多年来一直在寻找，但未获成功。

顶夸克最终于1995年在费米实验室被发现，距底夸克的发现几乎过去了二十年。这一发现是利用太伏质子加速器(Tevatron)——一台每束能量高达0.98 TeV的质子-反质子对撞机——通过以下过程实现的：
p + ¯p → t + ¯t + X0 , (12.45)
其中X0表示其他强子。顶夸克的质量为173 GeV，大约相当于一个金原子的质量，几乎是底夸克质量的40倍。顶夸克的寿命极短，约为4 × 10^{−25} s。这意味着与其他夸克不同，顶夸克在任何强子形成之前就已衰变。（底夸克和粲夸克的寿命约为10^{−12} s。）

在盖尔曼(Gell-Mann)夸克模型发表后的半个世纪里，已发现了数百种强子，它们都可以归类为夸克组成为q¯q的介子、夸克组成为qqq的重子或反重子¯q¯q¯q。然而，QCD并不排除存在具有其他无色夸克组成的奇异强子，例如二介子或四夸克态qq¯q¯q、五夸克态qqqq¯q，甚至组合q¯qG，其中G是胶子。在经过许多无果的寻找后，LHC于2014年证实了名为Z(4430)的强子共振态的存在，它似乎是由两个夸克和两个反夸克组成的二介子，质量为4430 MeV。次年，CERN宣布了五夸克态的证据。这些态被命名为Pc(4380)+和Pc(4450)+。

12.7 弱力
弱力首次在放射性β衰变中被观察到，如第11.3.4节所述。它发生在某些原子核中，当中子转变为质子并放出一个电子。当原子核发生α衰变时，α粒子以精确确定的能量发射。相比之下，β衰变中发射的电子具有宽广的能量范围。恩里科·费米(Enrico Fermi)意识到，还有另一个粒子与电子一同发射，并带走了β衰变中释放的部分能量和动量。我们现在知道这个粒子是电子反中微子(¯νe)。因此，中子的β衰变是
n → p + e^{−} + ¯νe . (12.46)
与电子一同发射的粒子被定义为反中微子的原因如下：轻子总是成对产生或湮灭。这一事实是

弱相互作用
423
通过引入在所有反应（包括弱相互作用）中都守恒的轻子数这一荷，这一过程被形式化。强子具有轻子数0，因此如果电子具有轻子数+1且轻子数守恒，那么在β衰变中释放的另一个轻子的轻子数必定为−1，因此是反中微子。中微子不带电荷；它们只通过弱相互作用发生作用。中微子通常可以穿过几光年厚的固体材料而不发生相互作用，这是一个令人震惊的事实。
入射
反中微子
γ射线
γ射线
正电子
湮灭
e⁻
e⁺
n
p
Cd
逆
β
衰变
中子俘获
液体闪烁体
加镉
图12.17 在莱因斯-科温实验中，检测到反中微子的信号是正电子湮灭紧随镉核的γ衰变而产生的符合事件。

图12.17

费米关于中微子的预测直到核裂变反应堆建成、提供了极其强大的粒子源之后才得到验证。1956年，弗雷德里克·莱因斯(Frederick Reines)和克莱德·科温(Clyde Cowan)探测到了美国萨凡纳河反应堆发射的反中微子。探测器包含300升氯化镉溶液。来自核反应堆的反中微子通过与溶液中的质子发生逆β衰变反应被探测到：
¯νₑ + p → n + e⁺ .
(12.47)
正电子迅速与电子湮灭，产生两个方向相反的0.511 MeV γ射线光子，中子则被镉核俘获，镉核具有很大的中子俘获截面：
n + ¹⁰⁸Cd → ¹⁰⁹Cd* → ¹⁰⁹Cd + γ .
(12.48)
¹⁰⁹Cd*核形成于激发态，并在几微秒内发生γ衰变。正电子湮灭紧随其后延迟符合的

424
粒子物理
镉原子核的伽马衰变就是探测到反中微子的信号，如图12.17所示。

图12.17

在中微子被确认之前，另一种轻子已经被发现。1937年，卡尔·安德森(Carl Anderson)和赛斯·内德迈耶(Seth Neddermeyer)在宇宙线研究中发现了μ子(µ⁻)，尽管它的身份在之后的十年里才被明确确定。μ子看起来像是电子的一个更重的复制品，这是一个完全出乎意料的发现。μ子的质量为105.7 MeV，是电子质量的207倍。μ子不稳定，平均寿命为2.2 × 10⁻⁶ s，其衰变方式如下：
µ⁻ → e⁻ + ¯νₑ + νµ 。
(12.49)
如此处所示，与μ子相关联的有第二种中微子，称为μ子中微子，记为νµ。μ子中微子不同于β衰变中放出的电子反中微子，这一点在1962年由莱德曼(Lederman)、梅尔文·施瓦茨(Melvin Schwartz)和杰克·斯坦伯格(Jack Steinberger)首次明确证明。

在20世纪70年代中期，马丁·佩尔(Martin Perl)发现了第三种带电轻子——τ子(τ⁻)。τ子的质量为1777 MeV，几乎是电子质量的3500倍，其寿命为2.9 × 10⁻¹³ s。它有许多衰变道。最常见的如下：
τ⁻ → π⁻ + π⁰ + ν_τ
(Br = 0.255) ,
τ⁻ → e⁻ + ¯νₑ + ν_τ
(Br = 0.178) ,
τ⁻ → µ⁻ + ¯νµ + ν_τ
(Br = 0.174) 。
(12.50)
第三种独立的中微子——τ子中微子ν_τ的存在，于2000年在费米实验室得到确认。

这些粒子及其衰变过程（大部分涉及中微子）的存在，需要一个详尽的弱相互作用理论。这一理论是逐步发展起来的，汇聚了多位物理学家的贡献。弱相互作用中宇称、电荷共轭和时间反演这些分立对称性令人惊讶的破坏，提供了一些重要的线索。

12.7.1 宇称破坏
在量子力学早期，人们认识到原子波函数在空间反演x → −x下可以分为偶函数或奇函数。空间反演用宇称算符P表示，它将波函数Ψ(x, t)变为Ψ′(x, t)，其中
Ψ′(x, t) = PΨ(x, t) = Ψ(−x, t) 。
(12.51)
P的本征值称为宇称。若Ψ(−x, t) = Ψ(x, t)，宇称为正；若Ψ(−x, t) = −Ψ(x, t)，宇称为负。⁷ 空间反演很重要，因为在物理学的多数领域它都是一种对称性。例如，若Ψ(x, t)是一个电子绕位于原点的原子核运动的波函数，则Ψ(−x, t)是一个相关联的波函数，如果它是定态则具有相同的能量，如果不是则演化方式相似。有时Ψ(x, t)和Ψ(−x, t)在物理上是不同的，但往往它们相等，或者只差一个符号；换句话说，波函数具有确定的宇称。

⁷ 这些宇称也分别称为偶宇称和奇宇称。

弱力
425
类似地，我们可以定义时间反演算符 (T)，满足
[
\Psi’(x, t) = T\Psi(x, t) = \Psi(x, -t) ,
\tag{12.52}
]
以及电荷共轭算符 (C)，它将粒子变换为反粒子，反之亦然，
[
\Psi’(x, t) = C\Psi(x, t) = \overline{\Psi}(x, t) ,
\tag{12.53}
]
其中 (\overline{\Psi}) 是 (\Psi) 的复共轭。
每个这种离散操作作用两次，就会恢复原来的波函数。例如，宇称算符作用两次给出
[
PP\Psi(x, t) = P\Psi(-x, t) = \Psi(x, t) .
\tag{12.54}
]
因此 (P) 的本征值为 (\pm 1)，同样 (T) 和 (C) 的本征值也必须是 (\pm 1)。在非常一般的假设下可以证明，如果物理可以用量子场论描述，那么它必须在同时施加这三种算符的作用下保持不变，因此 (PCT) 必然是理论的一个对称性。这就是所谓的 (PCT) 定理。它意味着如果 (\Psi(x, t)) 是一个物理态，那么 (PCT(\Psi(x, t)) = \overline{\Psi}(-x, -t)) 也是一个物理态。我们可能会认为，物理在这些变换分别单独施加时也必须保持不变，但实际情况并非那么简单。
图12.18 左：当 (^{60}\mathrm{Co}) 原子核发生β衰变时，电子优先沿与核自旋反平行的方向发射。右：宇称变换颠倒了 (^{60}\mathrm{Co}) 自旋与电子行进方向之间的关系。但这一图像是非物理的。沿平行于 (^{60}\mathrm{Co}) 自旋方向发射的电子要少得多，因此宇称对称性被破坏。

图12.18

如果空间反演是基础物理的真正对称性，那么对于每个观测到的过程，都会存在一个概率相等的镜像过程。量子力学中，宇称应该是守恒的。1956年，李政道(Tsung Dao Lee)和杨振宁(Chen Ning Yang)对这一假设提出了质疑。他们花了几周时间回顾过去的实验，得出结论：有许多实验证实了电磁相互作用和强相互作用的宇称守恒，但没有一个实验能说明弱相互作用中宇称是否守恒。他们提出了几个实验，其中

426
粒子物理学
这一点可以得到检验，吴健雄(Chien Shiung Wu)承担了其中的一个检验方案。她着手研究钴-60的β衰变，这是一种自旋值高达5的原子核。
钴-60原子核会发生以下β衰变
60
27Co →60
28 Ni + e−+ ¯νe .
(12.55)
吴将60Co样品冷却到0.01 K，并将其置于强磁场中以使60Co原子核的自旋轴对齐。每个原子核初始时都处于确定的宇称态。如果宇称守恒，那么电子发射的方向与原子核自旋轴之间应该没有任何关联。我们可以这样理解。空间反演是同时反转所有三个空间方向的操作。先进行x轴反演（x →−x），再进行y轴反演（y →−y），等效于绕z轴旋转180°。如果我们把一个60Co原子核放在原点，并将其自旋轴取为z轴，那么在上述旋转下自旋保持不变。在z方向反演（z →−z）下，自旋也保持不变。如果一个电子沿与核自旋相反的方向发射，其飞行方向在绕z轴旋转下也不会改变，但在z方向反演下会反转。如果宇称守恒，那么所有过程必须与它们的镜像过程以相同的速率发生，因此宇称守恒意味着沿平行和反平行于60Co核自旋方向发射的电子数必须相等。但吴发现的并不是这样。她证明电子优先沿与钴-60自旋相反的方向发射，如图12.18（左）所示，从而确立了弱相互作用中宇称对称性被破坏。

图12.18

在发现宇称破坏之后，人们曾假设宇称与电荷共轭的组合CP是守恒的。然而，1964年发现弱相互作用同样破坏CP守恒。与宇称的破坏不同，CP的破坏是一个非常微小的量子效应。如果存在三代或更多代基本费米子，CP的破坏就可以得到解释。（根据PCT定理，CP的破坏等价于时间反演对称性T的破坏。）如今，P和CP破坏已被纳入电磁力和弱力的统一理论中，该理论构成了标准模型的一大部分。
12.8
电弱力理论
量子电动力学（QED）将电磁力解释为带电粒子之间交换虚光子，而量子色动力学（QCD）则将强力归因于夸克、反夸克和胶子之间交换胶子。这自然会引出问题：对于弱力，是否可能存在一种类似的、规范不变的杨-米尔斯理论？
20世纪30年代，费米(Fermi)提出了一种早期的弱力理论，其中β衰变事件(12.46)源于一个单一的相互作用顶角，在该顶角处四个粒子以由费米耦合常数GF决定的强度耦合，如图12.19（左）所示，其中GF
¯h3 ≃1.17×10−5 GeV−2。如果这种相互作用是由于交换质量为MW的重W玻色子所致，如图12.19（中）所示，那么观测到的弱力的微弱性就可以得到解释。这个图中有两个顶角，其强度gw是弱耦合常数。对于能量满足E2 ≪M 2
W 的低能相互作用，这导致了关系式
GF
√
2 = g2
w¯h2
M 2
W . （因子
√
2源于GF的历史定义。）无量纲的弱相互作用精细结构常数对应量为αw =
g2
w
4π¯h，如果假设这个量

电弱力理论
427
p
p
p
udu
udd
n
W
W
n
n
GF
gw
gw
e–
e–
e–
图12.19 左：费米理论中的四粒子顶点。中：W玻色子交换。右：用夸克表示的β衰变。
强度与电磁精细结构常数相当，则αw ≃ α ≃ 1/137。
由此得到
M2
W = 4π¯h3αw
√
2
GF
≃
4π
√
2
137 × 1.17 × 10−5 GeV2 ,
(12.56)
这表明交换玻色子的质量必定在100 GeV的量级。当可用能量远小于100 GeV时，弱相互作用比电磁相互作用弱得多，例如在中子β衰变中，但在更高能量下它们变得相当。

用W玻色子交换代替费米的相互作用顶点具有一些理论上的优势，这些优势在W玻色子被实验发现之前就已被认识到。它暗示了电磁相互作用与弱相互作用的统一。然而，存在一个问题。在杨-米尔斯拉格朗日量中添加交换玻色子的质量项½M2
W W · W会破坏理论的规范不变性，并使其在数学上不自洽。最初，这被视为这种模型的一个严重障碍。1964年，几位理论物理学家独立找到了这个问题的解决方案：彼得·希格斯(Peter Higgs)；罗伯特·布劳特(Robert Brout)和弗朗索瓦·恩格勒(François Englert)；杰拉德·古拉尼克(Gerald Guralnik)、卡尔·哈根(Carl Hagen)和汤姆·基布尔(Tom Kibble)。它被称为希格斯机制(Higgs mechanism)，我们将在12.8.1节描述其工作原理。这是电磁与弱相互作用统一理论的关键，该理论以谢尔登·格拉肖(Sheldon Glashow)、史蒂文·温伯格(Steven Weinberg)和阿卜杜勒·萨拉姆(Abdus Salam)的名字命名为GWS理论，于20世纪60年代末发展起来。GWS电弱理论是一种杨-米尔斯规范理论，以一种特殊的方式与标量希格斯场以及夸克和轻子耦合。

根据GWS理论，弱力是通过交换三种有质量的自旋为1的玻色子产生的：W−、W+和Z玻色子。用夸克和轻子的语言，β衰变被解释为交换一个W−，如图12.19（右）所示。中子里的一个下夸克发射出一个虚W−粒子，从而转变为一个上夸克。这使得中子变成了质子。发射出的虚W−粒子然后立即衰变为从原子核中释放出的电子和电子反中微子。类似地，逆β衰变由W+交换来解释。

12.8.1 希格斯机制
我们将描述希格斯提出的希格斯机制的原始版本，这是一个基于电磁学的说明性模型。将该机制推广到物理上

428
粒子物理
图12.20 墨西哥帽势。

图12.20

电弱理论的重要情形在代数上更为复杂，但其原理是相同的。希格斯(Higgs)提出了拉格朗日密度
L = −1
4F · F + 1
2DΦ · DΦ + 1
2µ2|Φ|2 −1
4λ|Φ|4
(12.57)
以描述单位电荷的复标量场Φ与电磁4-矢势A的耦合，其中F为电磁场强。DΦ = ∂Φ −iAΦ是标量场的协变导数，而希格斯势为
U(|Φ|) = −1
2µ2|Φ|2 + 1
4λ|Φ|4 ,
(12.58)
其中λ和µ为正常数，|Φ|2 = ΦΦ。U被称为墨西哥帽势，如图12.20所示。由于U不依赖于Φ的相位，该势在规范变换下保持不变。项 −1

图12.20

4F ·F + 1
2DΦ·DΦ 也是规范不变的，其方式本质上与我们在第12.4.1节中讨论的QED拉格朗日密度相同。

为方便起见，我们将希格斯势平移常数 1
4λv4，其中 µ2 = λv2。这对场方程没有影响，但现在
U(|Φ|) = 1
4λ(|Φ|2 −v2)2 .
(12.59)
量子场论中的物理粒子是围绕真空位形的量子化激发，正如我们在第12.2节所讨论的。在希格斯模型中，量子场论的真空位于势U的最小值处。此前我们假设在真空态中Φ = 0，即场为零。然而，希格斯势的构造使得情况并非如此；任何满足|Φ| = v的场都使其最小化。量子场论必须具有唯一的真空态，但这里真空似乎是简并的，这对该理论至关重要。数学上，存在一个由|Φ| = v给出的可能真空态的圆，但这些真空态在物理上是不可区分的，因为它们只相差一个规范变换，该变换改变Φ的相位。我们假设在宇宙演化的极早期，系统经过随机量子涨落后产生了一个唯一的真空态。为简单起见，我们将选择这个真空态为Φ = v。（我们可以通过方便地选择规范固定来自由地做到这一点。）现在，即使Φ场未被激发且不存在Φ粒子时，整个虚空中也存在非零场Φ = v，这是由于Φ场的非线性自耦合所致。

电弱力理论
429
值得注意的是，这仅对标量场可能，因为存在非零背景矢量场将在空间定义一个特殊方向，从而破坏洛伦兹不变性。在真空中，电磁势必须为 A = 0。
在选择唯一的真空态时，系统似乎失去了希格斯势的原始对称性。这被称为自发对称性破缺(spontaneous symmetry breaking)。通常对称性被描述为隐藏而非破缺，因为理论保留了底层的规范对称性，但它以更复杂的非线性方式表现出来。连锁效应是电磁场的规范对称性自发破缺，光子变成有质量粒子。为了展示这一点，我们进行展开
Φ(x, t) = v + η(x, t) (12.60)
并代回拉格朗日量。项
1/2 DΦ · DΦ 包含部分
1/2 (−iAΦ) · (−iAΦ) = 1/2 A · A|Φ|^2。在真空 Φ = v 附近，这一部分的主导项是
1/2 v^2 A · A，这是场 A 的质量项，因此该理论现在描述一个有质量的矢量玻色子，其质量参数 M = v。
在用 Φ = v + η 重写拉格朗日量的其余部分后，涉及 η 的项为
Lη = 1/2 ∂η · ∂η − 1/4 λ((v + η)^2 − v^2)^2 = 1/2 ∂η · ∂η − λv^2 η^2 + . . . . (12.61)
η 是一个实动力学场，是 Φ 偏离真空 v 的偏差，通过量子化该场产生的粒子称为希格斯玻色子。η^2 项的系数是 λv^2，因此希格斯玻色子的质量参数为 mη = √(2λ)v。
无质量自旋为 1 的粒子有两个偏振态，而有质量的自旋为 1 的粒子（矢量玻色子）则有三个偏振态。额外的偏振态如何产生？Φ 场是复的，因此有两个自由度。一个是场 η，另一个是墨西哥帽势中连接简并真空的角变量。这第二个自由度成为矢量玻色子的纵向偏振。另一种观点是，在采用 Φ 为实的规范中，不能再对 A 施加规范条件迫使其纵向分量为零。因此，曾经的无质量光子获得了一个额外的偏振态，成为有质量矢量玻色子。
GWS理论(Glashow-Weinberg-Salam theory, 格拉肖-温伯格-萨拉姆理论)的拉格朗日量更加复杂。它始于四个无质量自旋为 1 的玻色子，它们传递电弱力。它还包含一个标量场 Φ，其自相互作用由希格斯势描述。在此情况下，场 Φ 是一个复二重态，因此有四个实自由度。希格斯势的对称性自发破缺，结果是四个自旋为 1 的玻色子中的三个变成有质量的 W+、W− 和 Z 玻色子，传递弱力。Φ 场的三个自由度成为这些粒子的纵向偏振。剩余的自由度，类似于场 η，独立于它们，经量子化产生一个自旋为 0 的标量粒子，即希格斯玻色子 H。第四个自旋为 1 的玻色子不与 Φ 场相互作用，保持无质量。这就是物理光子。原始的电弱力被分成了两种显然非常不同的力：强大且长程的电磁力和微弱且短程的弱力。
12.8.2
费米子质量
我们现在知道，弱相互作用最大程度地破坏宇称，这是因为，令人惊讶的是，W 玻色子只耦合到左手轻子和夸克以及右-

430
粒子物理
征的反轻子和反夸克。一个左手征的无质量粒子是指其自旋轴与动量方向相反的粒子。W玻色子不与右手征的轻子和夸克以及左手征的反轻子和反夸克耦合。

n
p
ˉ
e–
图12.21 左: 一个在60Co核中、自旋方向朝上的中子发生β衰变之前的状态。

图12.21

右: β衰变后，质子自旋方向朝下。β衰变中放出的反中微子总是右手征的，因此为了保持角动量守恒，它必须向上发射。而为了保持线动量守恒，电子必须向下发射。

现在我们可以理解在60Co中观测到的宇称破坏了。当中子发生β衰变时，60Co核失去一个单位的自旋。如果原始中子的自旋沿正z方向排列（由磁场实现），那么β衰变之后，产生的质子的自旋就沿负z方向排列。角动量是守恒的，因此反中微子和电子的总自旋必须为1，且方向与质子的自旋相反，所以反中微子和电子的自旋必须都沿正z方向排列。线动量也是守恒的，由于核在β衰变前后动量基本上为零，这意味着反中微子和电子必须沿相反方向发射。反中微子的质量极小，小于1 eV，因此它以极端相对论的速度离去。衰变中的中子放出的虚W玻色子只与右手征的反中微子耦合，所以反中微子的自旋轴必须与其动量矢量方向一致。因此，反中微子沿正z方向发射，而电子沿负z方向发射，如图12.21所示。

图12.21

宇称破坏给电弱理论带来了一系列后果，包括费米子质量的起源问题。费米子质量之所以是个问题，缘于下面的论证。考虑一个以速度v沿正

电弱力理论
431
方向，其自旋矢量沿相同方向排列。如果我们变换到一个以速度u沿z方向运动的参考系，且|u| > |v|，那么在新参考系中，电子将沿负z方向运动，但其自旋仍沿正z方向排列。我们仅仅通过改变参考系，就将一个右手电子变换成了左手电子。因此，像电子这样的大质量费米子，其场需要同时包含左手和右手部分，而狄拉克(Dirac)4分旋量ψ确实具备这一点，从而可以在拉格朗日密度中包含形如M₀ψψ的狄拉克质量项。然而，电弱力对左手和右手粒子的处理方式不同，在标准模型的拉格朗日量中，要包含一个与电弱规范对称性相容的费米子狄拉克质量项是不可能的。但大多数夸克和轻子确实具有质量。这一悖论通过以下方式得到解决：出发点是无质量的费米子，并让它们通过希格斯机制(Higgs mechanism)动力学地获得其静止质量。

回想一下，汤川相互作用(Yukawa interactions)将费米子、反费米子和标量耦合起来。在GWS模型(GWS model)中，费米子作为无质量粒子被加入到拉格朗日量中，并与希格斯场具有汤川耦合。只有左手费米子参与弱相互作用，因此左手费米子场被组合成二重态，与W和Z规范玻色子耦合。存在一个u和d夸克二重态，一个e和νₑ轻子二重态，另外两代也类似。右手场不与W和Z耦合，因此它们是单态，不携带任何弱相互作用荷。拉格朗日量中的质量项必须同时涉及左手和右手场，而将一个左手二重态与一个右手单态以规范不变的方式耦合起来的唯一方法，就是引入复二重态希格斯场Φ。有了希格斯场，就可以在拉格朗日量中写出如下形式的汤川项：
L_Yuk = g_f ψ_L Φ ψ_R (12.62)
左手费米子二重态ψ_L与二重态希格斯场Φ的乘积是规范不变的，右手费米子单态ψ_R也是如此。因此，该汤川项是规范不变的。

现在，希格斯机制登场了。Φ具有非零的真空值。如果我们围绕真空展开，将Φ = v + H代入汤川项，就得到两项：g_f v ψ ψ 和 g_f ψ ψ H。第一项是费米子的质量项，第二项是与希格斯玻色子H的耦合。在GWS模型中，汤川耦合常数g_f由以下要求决定：希格斯机制负责赋予每个费米子其全部的静止质量。质量本质上是g_f v。v由W和Z粒子的物理性质所知，因此测量每个费米子f的质量就决定了耦合常数g_f。不幸的是，迄今为止，尚无独立的对费米子质量的理解，能够用以预言这些耦合常数g_f。然而，既然已知g_f正比于费米子质量，那么希格斯玻色子H与标准模型中每个费米子之间的汤川耦合g_f ψ ψ H就正比于该费米子质量，因此对每种粒子都不同。希格斯粒子与重夸克（t和b）以及重 τ 子的耦合，远大于其与轻夸克和更轻轻子的耦合，因此希格斯玻色子优先衰变为较重的粒子。希格斯玻色子衰变道的分支比目前正在测量中。最新的结果似乎证实了GWS模型的预言。

432
粒子物理学
W
Z
e⁻
e⁻
e⁻
e⁻
图12.22 左：中微子与电子之间W玻色子的交换。右：中微子与电子之间Z玻色子的交换。

图12.22

12.8.3 发现W和Z玻色子以及希格斯玻色子
在20世纪70年代早期，从未观察到任何可以归因于电中性Z玻色子交换的效应，但由于Z玻色子与W玻色子耦合强度相同，这种效应非常微小且难以探测。这些后来被称为弱中性流效应的现象包括由图12.22（右）所示的Z玻色子交换产生的中微子散射过程，并于1974年在CERN的加尔加梅勒(Gargamelle)气泡室中首次被观测到。它们的发现对于GWS电弱理论获得认可至关重要。

图12.22

du
uu
W⁺
e⁺
W⁺
duu
p
duu
p
ˉˉ ˉ
ˉ ˉ
ˉ
图12.23 左：质子-反质子碰撞中W⁺玻色子的产生。右：W⁺玻色子衰变为一个正电子和一个中微子。

图12.23

uu
uu
Z
e⁺
e⁻
Z
uud
p
duu
p
ˉˉ ˉ
ˉ ˉ
ˉ
图12.24 左：质子-反质子碰撞中Z玻色子的产生。右：Z玻色子衰变为一个电子和一个正电子。

电弱力理论
433
在发现弱中性流之后，卡洛·鲁比亚(Carlo Rubbia)、彼得·麦金太尔(Peter McIntyre)和戴维·克莱因(David Cline)说服CERN将新的超级质子同步加速器(Super Proton Synchrotron, SPS)改造成质子-反质子对撞机，并建造两个名为UA1和UA2的新型探测器。目标是寻找W和Z玻色子。这些探测器于1981年记录到首次碰撞。图12.23（左）显示了在质子-反质子对撞机中产生W⁺玻色子的一种模式。然后W⁺衰变为一个带电轻子和一个未被探测到的中微子，如图12.23（右）所示。因此，W⁺的信号是探测到一个高能轻子，其能量等于W⁺静止质量的一半。图12.24（左）显示了产生Z玻色子的一种模式。Z玻色子有多种衰变模式。最具特色的是衰变为带电轻子-反轻子对，如图12.24（右）所示。Z玻色子的信号是在相反方向探测到一个高能轻子和一个高能反轻子，两者在Z玻色子静止系中的能量都等于Z质量的一半。W玻色子的发现于1983年1月宣布，Z玻色子的发现于同年晚些时候宣布。W的质量为80.4 GeV。Z的质量为91.2 GeV。

图12.23

图12.25 质子-质子碰撞中产生希格斯玻色子的两种方式。左：通过顶夸克圈的胶子聚变。右：W或Z玻色子交换。

图12.25

LHC于2008年投入使用时，其首要任务是通过寻找最后缺失的粒子——希格斯玻色子H来完成标准模型。如前所述，标准模型希格斯机制的作用是赋予W和Z玻色子以及基本费米子静止质量，由此可知，这些粒子与H之间的相互作用强度与它们的质量成正比。这对于H的产生和衰变都很重要。质子包含夸克和胶子亚组分，这提供了质子-质子碰撞中可能产生希格斯玻色子的多种途径。顶夸克的质量远大于其他夸克和轻子，因此它与H的耦合强度最大。图12.25（左）显示了如何通过顶夸克圈的胶子聚变产生H。这是在LHC上产生希格斯玻色子的最重要渠道。图12.25（右）显示了通过两个夸克之间的W玻色子交换产生H的过程。

图12.25

434
粒子物理学
2012年7月，CERN宣布大型强子对撞机(LHC)发现了质量为125 GeV的希格斯玻色子(Higgs boson)。目前人们正在深入研究H粒子的衰变，以检验它们是否符合基于标准模型粒子质量的预期。迄今为止，希格斯玻色子与W、Z粒子以及各种夸克和轻子的耦合与理论吻合良好。希格斯玻色子的自旋也已得到测量并被确认为零。任何与这些模式的偏离都将预示着超出标准模型的新物理。
12.8.4
夸克混合
在GWS模型的一个简单版本中，弱力独立地作用于每一代内部，GWS拉格朗日量的费米子部分由每一代的左手双重态和右手单态构成，如前所述。然而，如果仅此而已，那么第二代和第三代中的最轻夸克将完全稳定，无法转变为第一代夸克。这意味着，一旦在空间上分离，强相互作用过程中产生的K−(s¯u)介子将不会衰变。但实际上，由于s夸克通过W −介导衰变成u夸克，K−介子的寿命相当短。为了正确构建GWS模型，我们还必须考虑其他一些实验结果。尽管弱力与每个带电轻子的耦合强度相同，但在弱相互作用夸克顶点udW处的耦合比µνµW顶点处的耦合小5%。此外，测量到的K−(s¯u) → µ−¯νµ衰变率与π−(d¯u) → µ−¯νµ衰变率之比，仅为假定所有夸克弱耦合强度相同时预期值的二十分之一左右。
解决这些问题的办法是在理论中引入夸克混合。GWS拉格朗日量只能构建于左手夸克双重态（和右手单态）之上，因此我们必须将六种夸克味道组合成三个双重态。按惯例，这三个双重态中的上型夸克就是(u, c, t)。双重态中的下型夸克并非费米子表中的标准夸克(d, s, b)，而是它们的混合，记为(d′, s′, b′)。（若要守恒电荷，则只能混合带相同电荷的夸克。）
费米子表中的每种味道夸克都是一个质量本征态，这正是我们在测量介子质量时所看到的。然而，我们没有理由假设弱相互作用所见的夸克态与质量本征态相同。暂且忽略第三代夸克，夸克混合由一个角度参数化，即卡比博角(Cabibbo angle)θC。弱作用本征态(d′, s′)与(d, s)的关系为
[
\begin{pmatrix} d’ \ s’ \end{pmatrix}

\begin{pmatrix}
\cos \theta_C & \sin \theta_C \
-\sin \theta_C & \cos \theta_C
\end{pmatrix}
\begin{pmatrix} d \ s \end{pmatrix}
]
(12.63)
弱相互作用将上夸克u直接耦合到d′，将粲夸克c耦合到s′。因此，u夸克与s夸克的弱耦合正比于(g_w^2 \sin^2 \theta_C)，而u夸克与d夸克的弱耦合正比于(g_w^2 \cos^2 \theta_C)，它们的比值为(\tan^2 \theta_C)。为了解释观测到的K介子和π介子的衰变率以及其他弱相互作用率，要求(\tan^2 \theta_C \simeq 0.05)。当前卡比博角的最佳值为(\theta_C \simeq 0.23)。
这一方案于20世纪60年代提出，不仅解释了含有奇异夸克的介子衰变，还暗示了需要另一个c夸克来与s夸克配对。1974年11月，随着第四个夸克——粲夸克的发现，这一预言得到了证实。

电弱相互作用理论
435
1974年对于夸克存在性的确立起到了关键作用，并将粒子物理标准模型推向了前沿。

我们现在知道存在三代夸克。弱相互作用中味道的完全混合由卡比博-小林-益川(Cabibbo–Kobayashi–Maskawa, CKM)矩阵描述
[
\begin{pmatrix}
d’ \
s’ \
b’
\end{pmatrix}

\begin{pmatrix}
V_{ud} & V_{us} & V_{ub} \
V_{cd} & V_{cs} & V_{cb} \
V_{td} & V_{ts} & V_{tb}
\end{pmatrix}
\begin{pmatrix}
d \
s \
b
\end{pmatrix}.
\tag{12.64}
]
电荷为(q = \frac{2}{3})的夸克(u, c, t)在电弱相互作用中直接与电荷为(q = -\frac{1}{3})的夸克(d’, s’, b’)耦合，并通过CKM矩阵与(d, s, b)耦合。如果没有CKM矩阵，较重的夸克代就不能衰变到较轻的代。对CKM矩阵元的约束将其矩阵元约化为三个独立的旋转角和一个复相位。该复相位不为零，这导致了弱相互作用中CP对称性的破缺。卡比博的两代模型无法自然容纳CP破缺相位，因此包含三代夸克的理论具有某种必然性。然而，目前尚无更深层次的理解来解释这三个角度和复相位的具体数值。

12.8.5
有多少代？

一个引人注目的事实是，如果基本粒子是任意集合的，标准模型在数学上将是不自洽的。这些潜在的不自洽性被称为反常，它们源于弱相互作用对左手费米子和右手费米子的耦合不同。要使理论自洽，必须由不同基本粒子引起的反常之间相互抵消，而这些抵消意味着粒子所带电荷之间存在关系。结果表明，每一代费米子中的四个粒子之间，反常恰好相互抵消。这意味着对于完整的代，标准模型是自洽的。因此，当τ子(tauon)在1970年代中期被发现时，物理学家就有信心预言第三代中其他三个成员的存在，尽管要等二十年才观察到顶夸克，再等五年才观察到这一代的最后一个成员——τ子中微子(tauon neutrino)。因此，基本费米子至少有三代，但总共有多少代呢？值得注意的是，我们现在对这个问题有了一个明确的答案。

从1989年到2000年，欧洲核子研究中心(CERN)运行了大型正负电子对撞机(LEP)。电子和正电子束的能量被精确调节，以产生大量的Z玻色子，从而可以确定其衰变性质。Z玻色子有几种衰变方式。它可以衰变为夸克-反夸克对，其中夸克可以是五种最轻夸克中的任何一种，此时末态产物是强子。它可以衰变为三种带电轻子(l⁻)及其反粒子(l⁺)中的每一种。它也可以衰变为中微子-反中微子对，例如(Z \to \nu_e \bar{\nu}_e)。关键的是，假设中微子比Z玻色子轻得多，那么这种衰变可能的方式数目就等于代的数目。每一种衰变模式都对Z的衰变率有贡献。在LEP上，总共观测到了1700万次Z衰变。这使得物理学家能够确定中微子的种类数，从而确定代的数目。在Z玻色子衰变为中微子的过程中，中微子逃逸而未被探测到。尽管如此，部分

436
粒子物理学
30
2
3
4
20
10
平均测量值，
误差棒放大
10倍
Γz
σhad (nb)
0
86
88
90
Ecm(GeV)
92
94
图 12.26 实测Z玻色子衰变宽度ΓZ与计算所得对于两种、三种和四种中微子情形的总衰变宽度之间的比较。LEP的测量结果与三种中微子的预言衰变宽度相符。

图 12.26

衰变到中微子的宽度 Γ(Z → νl ν̄l) 可从总宽度公式推出：
ΓZ = Γ(Z →强子) + 3 Γ(Z → l⁺l⁻) + N(ν) Γ(Z → νl ν̄l) , (12.65)
其中 N(ν) 是中微子种类数。测量得到的Z玻色子总衰变宽度为 ΓZ = 2.490 ± 0.007 GeV。测得的衰变到强子的分宽度为 Γ(Z →强子) = 1.741 ± 0.006 GeV，衰变到每一类带电轻子的分宽度为 Γ(Z → l⁺l⁻) = 0.0838 ± 0.0003 GeV。这些测量值与标准模型的计算一致。计算给出的衰变到每种中微子的宽度为 Γ(Z → νl ν̄l) = 0.166 GeV。将上述数值代入方程 (12.65)，即得 N(ν) = 2.9840 ± 0.0082，这清楚地表明存在三种中微子，且仅有三种。标准模型只有在费米子构成完整世代时才自洽，因此这一结果说明基本费米子恰好有三代。

中微子振荡
437
12.9 中微子振荡
恒星由于其核心的聚变反应而发射出巨量的中微子。在20世纪60年代末，雷·戴维斯(Ray Davis)设计并建造了一个中微子探测器，它位于南达科他州霍姆斯特克金矿地下1.5公里处，用以研究太阳发射的中微子。平均每天探测到0.48个太阳中微子，而根据戴维斯的合作者约翰·巴考尔(John Bahcall)对太阳中微子通量的计算，预期的探测率大约是每天1.5个。最初，大多数物理学家对这一差异不以为然，因为探测器相对简陋，且中微子通量的计算依赖于难以检验的复杂恒星模型。在戴维斯开创性实验之后的几年里，人们逐渐认识到这种差异是真实存在的，并且可以用中微子相当令人惊讶的行为来解释。

近几十年来，恒星理论得到了日震学这一新科学的支持。太阳表面附近各层中的湍流会产生压力波，这些压力波导致太阳光谱吸收线产生多普勒频移。自2000年以来，位于日地L1拉格朗日点的SOHO（太阳和日球层观测站）空间探测器一直在持续监测这些波。正如地震产生的地震波可以用来探测地球的内部结构一样，太阳压力波也是有关太阳结构的宝贵信息来源。这就是为什么对它们的研究被称为日震学。对这些波的分析使天体物理学家能够精确地确定太阳的关键特征，如其密度分布、核心温度和核心成分。这些测量为我们将在第13章讨论的恒星模型提供了关键的证明。事实上，观测结果以大约0.5%的精度证实了巴考尔的“标准太阳模型”，这使得通过改进对太阳内部聚变反应的描述来解释中微子缺失变得毫无可能。

在太阳物理学取得这些进展的同时，全球范围内中微子探测器的建造也取得了重大进展。其中最大的是日本的超级神冈探测器，它装有5万吨超纯水，周围环绕着能够探测单个光子的光电倍增管。偶尔，一个中微子会与水中的一个电子发生散射。这一“踢”给了电子一个与入射中微子方向密切相关的相对论性速度。当电子在水中高速穿行时，它会发射出切伦科夫辐射 8，这些辐射被光电倍增管探测到，从而使探测器能够确定中微子来源的方向。超级神冈证实了霍姆斯特克实验探测到的中微子确实来自太阳。此外，人们还分析了由大气中的宇宙射线相互作用产生的中微子，并比较了从探测器上方到达的中微子数量与在地球另一端的大气中产生后穿行地球而来的中微子数量。

另一个复杂的中微子设施是位于加拿大安大略省的萨德伯里中微子观测站(SNO)。该探测器由1000吨重水组成，可以通过三种方式探测中微子。带电流通道通过以下与氘核的相互作用（由于交换

8 带电粒子在介质中以高于该介质中光速的速度穿行时会发出锥形的切伦科夫辐射。这是一种冲击波，类似于物体以高于音速的速度运动时产生的音爆。

438
粒子物理

交换虚W玻色子：
νe + 2H(p, n) → p + p + e⁻。 (12.66)
接下来是中性流通道，其中氘核通过交换虚Z玻色子而离解：
ν + 2H(p, n) → p + n + ν。 (12.67)
这种相互作用对全部三种中微子都有效，因此决定了中微子的总通量 Φ(νe) + Φ(νμ) + Φ(ντ)。所有三种中微子也可以与电子发生弹性散射，这被称为弹性散射通道：
ν + e⁻ → ν + e⁻。 (12.68)
电子中微子可以通过交换W玻色子或Z玻色子与电子散射，如图12.22所示，而μ子中微子和τ子中微子只能通过交换Z玻色子散射，因此电子中微子的散射率不同。由该通道确定的通量组合计算为 Φ(νe) + 0.15(Φ(νμ) + Φ(ντ))。

图12.22

SNO（萨德伯里中微子观测站，Sudbury Neutrino Observatory）给出的中微子通量值（单位为10⁻⁸ cm⁻²s⁻¹）如下：
Φ(νe) = 1.76 ± 0.01，
Φ(νe) + Φ(νμ) + Φ(ντ) = 5.09 ± 0.63， (12.69)
因此总中微子通量接近电子中微子通量的三倍。此外，在相同单位下，巴科尔(Bahcall)的太阳标准模型（Standard Solar Model）预测，由太阳核心产生、能量足以（> 2 MeV）离解氘核的电子中微子通量为
ΦBSSM(νe) = 5.05 ± 1.01。 (12.70)
这证实了霍姆斯特克中微子探测器（Homestake neutrino detector）的原始发现，并强烈表明：太阳内部产生的中微子最初全是电子中微子⁹，但当它们到达地球上的探测器时，已经以某种方式转变成了μ子中微子和τ子中微子。这一解释已得到各种其他中微子实验的加强，包括对核电站产生的中微子的研究、对宇宙射线撞击地球大气层产生的中微子的研究，以及利用粒子加速器产生的中微子束的实验。

如果三种中微子各自具有很小但不同的质量，而且弱相互作用本征态与质量本征态并不相同——正如我们在考虑夸克时所发现的那样——那么中微子种类之间的嬗变就可以理解。如果一个中微子通过带电流通道相互作用并产生一个电子，我们可以确定进入探测器的那个中微子是电子中微子。类似地，当一个原子核发生逆β衰变时，我们知道与正电子一起发射出来的中微子就是电子中微子。根据定义，当中微子耦合到

中微子振荡
439
与W玻色子相关联的是电子中微子，对于μ子中微子和τ子中微子情况类似。这些类型的中微子νe, νµ, ντ被称为弱本征态。当中微子发生相互作用时，我们可以确定它的弱本征态，但我们无法确定其质量本征态，因此我们没有理由认为弱本征态与质量本征态相同。根据量子力学，我们只能假设当一个电子中微子产生时，它处于三个质量本征态的叠加态。我们可以将其表示为
Ψ(νe) = Ue1Ψ(ν1) + Ue2Ψ(ν2) + Ue3Ψ(ν3) ,
(12.71)
其中ν1, ν2, ν3是三个质量本征态，Ue1, Ue2, Ue3是一个3×3矩阵的矩阵元，该矩阵类似于CKM矩阵。更一般地有


Ψ(νe)
Ψ(νµ)
Ψ(ντ)

=


Ue1
Ue2
Ue3
Uµ1
Uµ2
Uµ3
Uτ1
Uτ2
Uτ3




Ψ(ν1)
Ψ(ν2)
Ψ(ν3)

.
(12.72)
为简单起见，我们考虑一个两代模型。我们可以用一个角度θ来参数化质量本征态的混合，即

Ψ(νe)
Ψ(νµ)

cos θ
sin θ
−sin θ
cos θ

Ψ(ν1)
Ψ(ν2)

.
(12.73)
在时间t = 0时产生的一个电子中微子可以表示为一个量子态，其波函数为
Ψ(0) = Ψ(νe) = cos θ Ψ(ν1) + sin θ Ψ(ν2) .
(12.74)
中微子波函数的演化由含时自由薛定谔(Schrödinger)方程描述。在时间t且距源距离为z处，波函数将为
Ψ(z, t) = cos θ Ψ(ν1)eiφ1 + sin θ Ψ(ν2)eiφ2 ,
(12.75)
其中φi = 1/¯h(piz −Eit)，且E_i^2 − p_i^2 = m_i^2。这就是质量如何引入的，也是Ψ(νi)被称为质量本征态的原因。如果两个本征态的质量m1和m2不同，那么中微子波函数的两个分量的相对相位就会改变。
可以利用混合矩阵的逆将质量本征态重新分解为弱本征态，
Ψ(ν1)

cos θ Ψ(νe) −sin θ Ψ(νµ)
Ψ(ν2)

sin θ Ψ(νe) + cos θ Ψ(νµ) .
(12.76)
将这些表达式代入Ψ(z, t)，我们得到
Ψ(z, t)

cos θ(cos θ Ψ(νe) −sin θ Ψ(νµ))eiφ1
+ sin θ(sin θ Ψ(νe) + cos θ Ψ(νµ))eiφ2

(eiφ1 cos2 θ + eiφ2 sin2 θ)Ψ(νe) −(eiφ1 −eiφ2) sin θ cos θ Ψ(νµ)

eiφ1{(cos2 θ + ei∆φ sin2 θ)Ψ(νe) −(1 −ei∆φ) sin θ cos θ Ψ(νµ)}

ceΨ(νe) + cµΨ(νµ) ,
(12.77)
其中系数为ce = eiφ1(cos2 θ + ei∆φ sin2 θ)和cµ = −eiφ1(1 −ei∆φ) sin θ cos θ，我们定义了这两个质量本征态之间的相位差∆φ = φ2 −φ1 = 1/¯h((p2 −p1)z −(E2 −E1)t)。

440
粒子物理学

如果 ∆φ = 0，则 |cₑ| = 1 且 c_μ = 0，此时电子中微子将保持为电子中微子。然而，如果 ∆φ ≠ 0，则 c_μ ≠ 0，在初始为电子中微子的束流中探测到 μ子中微子的概率为
P_μ = |c_μ|²
= (1 − e^{i∆φ})(1 − e^{−i∆φ}) sin² θ cos² θ
= (2 − 2 cos ∆φ) sin² θ cos² θ
= sin²(∆φ/2) sin²(2θ) 。 (12.78)
∆φ 是时间和位置的函数，因此这一概率会振荡。因子 sin²(2θ) 给出混合的强度。通过在不同距离处测量来自电子中微子源的 P_μ，可以分离出 ∆φ 与 θ 的效应（见图 12.27）。最大混合要求 sin²(2θ) = 1，此时一束电子中微子将周期性地完全转变为 μ子中微子束，然后再变回来。（对于电子中微子和 μ子中微子，实验测得的 θ 值已接近满足这一条件。）

图 12.27

1.0
初始电子中微子的振荡概率
5000
0.8
0.6
概率
0.4
0.2
0.0 0
10000
15000
20 000
25 000
30 000
35 000
L/E (km/GeV)
图 12.27 从一束能量为 E（以 GeV 为单位）的电子中微子出发，黑线表示在距离 L km 处探测到该中微子仍为电子中微子的概率。蓝线和红线分别表示该中微子是 μ子中微子或 τ子中微子的概率。

图 12.27

三代中微子混合矩阵被称为 PMNS 矩阵（PMNS matrix），以布鲁诺·庞蒂科夫（Bruno Pontecorvo）、牧二郎（Ziro Maki）、中川昌美（Masami Nakagawa）和坂田昌一（Shoichi Sakata）的名字命名。与夸克的 CKM 矩阵一样，它可以简化为三个独立的角度和一个相位 δ。目前的最佳值

中微子振荡
441
混合角的数值为
sin²(2θ₁₂) = 0.87 ± 0.04 ,
sin²(2θ₂₃) > 0.92 ,
sin²(2θ₁₃) ≃ 0.10 ± 0.01 ,
(12.79)
其中下标对表示所涉及的中微子代。目前，相位δ的大小尚不清楚。如果它不为零，那么中微子振荡将违反CP守恒。

与夸克和带电轻子的质量相比，中微子的质量非常微小。它们可以通过涉及一个未观测到的中微子的过程中，所观测粒子的动量和能量来独立确定。目前，它们的精确值尚不明确，但肯定小于1 eV。（相比之下，电子的质量为511 keV。）尽管如此，在中微子振荡实验中，中微子的质量平方差已经被测定，精度优于5%。结果如下：
Δm²₂₁ = m²₂ - m²₁ ≃ (7.6 ± 0.2) × 10⁻⁵ eV² ,
|Δm²₃₂| = |m²₃ - m²₂| ≃ (2.3 ± 0.1) × 10⁻³ eV² ,
(12.80)
因此 |Δm²₃₁| ≃ |Δm²₃₂|。

这些结果的发现过程如下。对于一个具有确定能量且能量远大于其中微子质量的中微子，有 E₁ = E₂ = E_ν 以及 p_i = (E²_i - m²_i)^(1/2) ≃ E_ν - m²_i / (2E_ν)。因此，差值 p₂ - p₁ 与 Δm² = m²₂ - m²₁ 成正比，对于每种类型的中微子振荡，相位随距离z的变化为 Δφ = (1/ħ)((p₂ - p₁)z - (E₂ - E₁)t) ≃ -(Δm²)z / (2E_ν ħ)。对于一束能量为 E_ν = 1 GeV 的中微子，我们得到
|Δφ|/2 = (Δm²)z / (4 × 10⁹ × 1.97 × 10⁻⁷ eV⁻² m⁻¹) = 1.27 × 10⁻³ (Δm²) z eV⁻² m⁻¹ ,
(12.81)
这里我们使用了换算因子 ħ = 1.97 × 10⁻⁷ eV·m。在中微子振荡的相邻峰值之间，函数 sin²(Δφ/2) 的辐角变化了 π。令 |Δφ|/2 = π，并将 Δm²₂₁ = 7.6 × 10⁻⁵ eV² 的值代入方程 (12.81)，得到电子-μ子中微子振荡的波长 z = π / (1.27 × 7.6) × 10⁸ m ≃ 33,000 km，这与图12.27中观测到的振荡相符。Δm²₃₂ = 2.3 × 10⁻³ eV² 这个值产生的μ子-τ子中微子振荡的波长为 z = π / (1.27 × 2.3) × 10⁶ m ≃ 1100 km。

图12.27

目前，有大规模的实验努力来更精确地测量这些波长。这包括长基线测量，即在一个实验室（如J-PARC、CERN、费米实验室(Fermilab)）产生的中微子，在数百公里外的另一个实验室（如超级神冈探测器(Super-Kamiokande)、格兰萨索(Gran Sasso)、苏丹矿(Soudan Mine)）被探测到。接收实验室都设在地下，以限制宇宙射线产生的非中微子粒子的背景噪声。

442
粒子物理学
12.10
延伸阅读

关于费曼(Feynman)的量子理论方法，特别是光子与物质相互作用的概述，请参阅：
R.P. Feynman, QED: The Strange Theory of Matter and Light (QED：光和物质的奇异理论), London: Penguin, 1985.

关于粒子物理学，特别是夸克、电弱理论和希格斯机制的历史性介绍，请参阅：
N.J. Mee, Higgs Force: Cosmic Symmetry Shattered (希格斯力：破碎的宇宙对称性), London: Quantum Wave, 2012.
A. Watson, The Quantum Quark (量子夸克), Cambridge: CUP, 2004.

关于粒子物理学和量子场论的全面论述，请参阅：
M. Thomson, Modern Particle Physics (现代粒子物理学), Cambridge: CUP, 2013.
M.D. Schwartz, Quantum Field Theory and the Standard Model (量子场论与标准模型), Cambridge: CUP, 2014.
A. Zee, Quantum Field Theory in a Nutshell (简明量子场论), Princeton: PUP, 2003.

关于中微子物理学的最新综述，请参阅：
K. Zuber, Neutrino Physics (中微子物理学) (第二版), Boca Raton FL: CRC Press, 2012.
S. Boyd, Neutrino Physics Lecture Notes—Neutrino Oscillations: Theory and Experiment (中微子物理讲义——中微子振荡：理论与实验), Warwick University, 2015.

13_Stars

13
恒星

我们生活在一个拥有数千亿颗恒星的星系中，而这个宇宙中或许存在着万亿个星系。恒星虽然位于极其遥远的地方，但它们对我们存在的意义无论如何强调都不为过。构成我们身体的原子，是在前几代恒星中锻造出来的，而我们赖以为生的必需品——温暖、光和食物——都仰赖于距离我们最近的恒星，太阳。在本章中，我们将伸手摘星。

13.1
太阳

天文学家于18世纪首次确定了太阳系的尺度。根据埃德蒙·哈雷(Edmond Halley)的建议，人们在1761年从多个相距甚远的地点观测了金星凌日，从而得以测量由视差引起的金星位置的表观偏移。再结合一些简单的几何学，便得出了地球到太阳的距离，
d⊙ = 1.50 × 10¹¹ m 。
(13.1)
然后，根据观测到的日轮大小，便能轻易计算出太阳半径。其现代测量值为
R⊙ = 6.96 × 10⁸ m 。
(13.2)
有了日地距离 d⊙ 以及由卡文迪许实验测得的牛顿引力常数 G，再对地球轨道应用开普勒第三定律 (2.100)，便可确定太阳的质量。取 T 为一个地球年，可得
M⊙ = 1.99 × 10³⁰ kg 。
(13.3)
太阳的平均密度 ¯ρ⊙ 低得令人惊讶。根据刚才引用的数据，我们可以计算出
¯ρ⊙ = 3M⊙ / (4πR⊙³) = 1.41 × 10³ kg m⁻³ ，
(13.4)
这仅为水密度的1.4倍，但太阳中心的密度则要高得多。

太阳比任何其他恒星都近得多，我们对它的了解也相当详尽，因此，它是为其他恒星建模的一个良好起点。太阳似乎相当典型，其质量处在恒星可能的质量范围的中间位置，但大约85%的恒星质量都比太阳小。太阳质量 M⊙ 正是给其他恒星排序所用的标准。

The Physical World. Nicholas Manton and Nicholas Mee, Oxford University Press (2017).
© Nicholas Manton and Nicholas Mee. DOI 10.1093/acprof:oso/9780198795933.001.0001

444
恒星

太阳近似于一个完美的球体。它自转得相当缓慢，完成一整圈自转大约需要一个月的时间。太阳由一团翻滚的等离子体构成。该物质的任何脉动一定都非常平缓，否则太阳的光度就会发生变化。

太阳会受到共振振荡的影响，这种振荡可通过它们产生的谱线多普勒频移来监测。尽管这些振荡并未显著影响我们将要讨论的恒星模型，但它们为天文学家提供了一扇窥探太阳内部的窗口。对这些波动的分析使天文学家能够测量太阳内部的密度、温度和压力分布，并证实了远在所有这些信息可获得之前发展起来的恒星模型的有效性。

13.2
赫茨普龙-罗素图

图13.1 通过测量邻近恒星的位置在地球绕太阳运动时产生的微小偏移，可以确定到它们的距离。

图13.1

到邻近恒星的距离，可通过测量它们在地球绕太阳运动时在天空中位置的微小偏移来确定，如图13.1所示。在1989年至1993年间，欧洲空间局的喜帕恰斯(Hipparcos)卫星测定了近12万颗我们最近的恒星邻居的距离。这种精确的天体测量构成了宇宙距离阶梯的第一步，最终使天文学家能够推断出远至最遥远星系的天体的距离。这也支撑了我们对恒星天体物理学的理解，因为它提供了已知距离的多种恒星类型样本，从而可以确定它们的内禀光度。图13.2展示了对一颗恒星位置进行的一系列喜帕恰斯测量的结果。

图13.2

图13.1

455
赫罗图
50
50
0
0
–50
–50
–100
–100
–150
–150
–200
∆ cos [mas]
δ
α
∆ [mas]
δ
图13.2 依巴谷星表中某天体三年间在天空中的轨迹。每条直线标示了该恒星在特定历元的观测位置。曲线是根据所有测量数据拟合出的恒星运动模型。每个历元的推断位置用圆点表示。振荡运动的幅度反映的是恒星的视差，线性部分则代表恒星的自行。单位为毫角秒（mas）。

图13.2

恒星的视亮度（或称表观光度）是地球表面垂直于视线方向的单位面积上接收到的光能速率。辐射强度随距离的平方成反比衰减，因此若已知某恒星的距离d，即可利用其视光度I，通过公式
I =
L
4πd²
(13.5)
计算出该恒星的固有光度（即绝对光度）L。
恒星的第二个基本特征是其表面温度Tsurf，该温度可借助黑体辐射的维恩定律（10.109）¯hωₚₑₐₖ = 2.8214 Tsurf得出。该定律可转化为
Tsurf = 2.898 × 10⁶ / λₚₑₐₖ
(13.6)
其中Tsurf的单位为开尔文（K），λₚₑₐₖ 表示辐射峰值强度对应的波长，单位为纳米（nm）。例如，太阳辐射的峰值位于光谱的绿色波段，波长约为500 nm，对应的表面温度T_⊙_surf ≃5800 K。夜空中许多恒星辐射的峰值波长介于红光与蓝光之间，因此太阳在此方面颇具代表性。

446
恒星
参宿七
天津四
4,000
6,000
7,000
表面温度 (K)
10,000
30,000
老人星
不稳定带
太阳
巴纳德星
比邻星
牛郎星
天琴座RR型星
毕宿五
米拉
心宿二
参宿四
仙王座μ星
仙王座δ星
超巨星 (I)
巨星 (II, III)
次巨星 (IV)
天狼星
天狼星B
白矮星 (wd)
主序星 (V)
南河三B
OS
BO
AO
10⁵
10⁴
10³
10²
10⁻¹
10⁻²
10⁻³
10⁻⁴
10
1
FO
GO
光谱型
光度（与太阳光度之比）
KO
MO
色指数 (B-V)
–0.5
0.0
+0.3
+0.6
+0.8
+0.9
+2.0
轩辕十四
水委一
图13.3 赫罗图。以恒星的光度L（以太阳光度L⊙为单位）的对数作为纵轴，以其表面温度Tsurf（由发射辐射的峰值波长导出）的对数为横轴进行绘制。

图13.3

恒星的这两个特征——光度和表面温度——是解开诸多其他性质的关键。自1910年前后起，人们便开始将它们绘制在由埃希纳·赫茨普龙(Ejnar Herzsprung)和亨利·诺利斯·罗素(Henry Norris Russell)开创的赫罗图(HR diagram)上，如图13.3所示。图中纵轴为固有光度L的对数，横轴为表面温度Tsurf的对数。赫罗图有一个惯例上的特点，即沿水平轴向左温度递增。天体物理学家面临的一大挑战，就是解释赫罗图中呈现出的各类格局。

图13.3

赫罗图上并非所有区域都均匀地分布着恒星。绝大多数恒星占据着一条从右下斜贯至左上的对角线带上：右下角是温度较低、较为暗淡的恒星，左上角则是炽热明亮的恒星。这条带被称为主序带。太阳便位于主序带上，我们大部分近邻恒星，如天狼星和织女星亦然。我们在主序带上看到如此众多的恒星，原因在于这是恒星度过其大部分生命时光的区域。

恒星的诞生
447
赫罗图上还有少量位于主序之外的恒星。在图的右上角有一些非常明亮但相对较冷的恒星。这些恒星已膨胀到巨大的尺度，从而获得了极高的光度，但它们的外层温度较低。它们被称为红巨星(red giants)。在红巨星上方是尺度更大、光度更高的超巨星(supergiants)。巨星和超巨星虽然罕见，但由于极其明亮，在我们的夜空中占比很高。毕宿五(Aldebaran)、心宿二(Antares)和参宿四(Betelgeuse)等恒星就位于赫罗图的这一区域。超巨星的巨大尺度早在1920年就得到了阿尔伯特·迈克耳孙(Albert Michelson)和弗朗西斯·皮斯(Francis Pease)的证实，他们在加州威尔逊山天文台建造了一台干涉仪，并测量了参宿四的直径。更近期的测量表明，其直径约为太阳的1000倍，但这并不精确，因为参宿四的大小和形状都在变化，而且它没有清晰的边界。

在赫罗图的左下角，有一条由高温但非常暗弱的恒星组成的带。这些是白矮星(white dwarfs)。白矮星是耗尽了核燃料的恒星被高度压缩后的核心。它无法产生能量，因此在向太空辐射热量的过程中逐渐冷却。没有白矮星是肉眼可见的。最近的例子是 Sirius B（天狼星B），它是天狼星的伴星，其轨道曾在第2.10.1节中讨论过。

13.3 恒星的诞生
恒星通过主要由氢和氦组成的气体云的引力坍缩形成。随着云团坍缩，引力能释放出来，云团温度升高，由此产生的热压强抵抗进一步的坍缩。要使坍缩持续进行，部分释放的引力能必须辐射到太空中。但是，被称为原恒星(protostar)的天体是不透明的，因此辐射扩散到其表面需要相当长的时间。因此，这一坍缩阶段可能持续一千万年甚至更长。最终，原恒星的中心区域达到足够高的温度，核聚变反应开始，产生的热压强阻止了进一步的坍缩。原恒星变成了主序星，这一阶段可能持续数十亿年。

13.3.1 恒星的化学成分
恒星的化学组成最早由塞西莉亚·佩恩(Cecilia Payne)在20世纪20年代确定。借助光谱学，她发现恒星几乎完全由氢和氦组成，这在当时完全出乎意料。我们现在知道，恒星是由气体云凝聚而成的，这些气体云的质量大约四分之三是氢(¹H)，四分之一是氦-4(⁴He)。几乎所有这些氦都是在紧随大爆炸(Big Bang)之后的原初核合成中产生的。原初物质的密度不足以通过聚变反应产生除微量其他轻同位素之外的任何更重元素，如氘(²H)、氦-3(³He)和锂-7(⁷Li)。除了大爆炸后不久形成的第一代恒星外，所有恒星都还含有少量由前几代恒星合成的更重元素。这些重元素占形成太阳的物质质量的1.69%，这一比例虽小却很重要。

恒星或原恒星内部的温度远高于氢原子和氦原子能够存在的温度，因此恒星由解离的电子、质子和氦核以及少量的更重离子组成。这种高温电离物质被称为等离子体(plasma)。它可以被视为由电子和离子组成的理想气体。因此，适用的状态方程是理想气体状态方程(10.65)。无论是电子还是离子

448
恒星
对气体压强 (P) 也有贡献，而对于无相互作用的气体，分压是可加的¹，因此
[
P = \frac{(N_e + \sum_i N_i)}{V} T = \left( n_e + \sum_i n_i \right) T \tag{13.7}
]
其中 (N_e) 和 (N_i) 分别是恒星体积 (V) 中的电子和各种离子数目，而 (n_e = N_e/V) 和 (n_i = N_i/V) 是电子和离子的数密度。用质量密度 (\rho = n_e m_e + \sum_i n_i m_i) 来表达 (P) 更为方便。电子质量 (m_e) 与离子质量 (m_i) 相比可以忽略，因此在一个非常好的近似下 (\rho = \sum_i n_i m_i)。于是
[
P = \frac{n_e + \sum_i n_i}{\sum_i n_i m_i} \left( \sum_i n_i m_i \right) T = \frac{1}{\mu m_p} \rho T , \tag{13.8}
]
其中
[
\mu m_p = \frac{\sum_i n_i m_i}{n_e + \sum_i n_i} \tag{13.9}
]
是等离子体中粒子的平均原子质量，写成了质子质量的倍数。

显然，(\mu) 依赖于等离子体的成分。如果等离子体由氢构成，那么它包含相等数量的质子和电子，所以 (\mu = \frac{1}{2})。如果等离子体是纯 (^4\mathrm{He})，那么每个原子核对应两个电子，而每个核的质量在很好的近似下是 (4m_p)，所以 (\mu = \frac{4}{3})。因此，随着恒星核心中的氢转化为氦，(\mu) 会增加。太阳形成时，按质量计大约是四分之三的氢离子和四分之一的氦离子，每个氢离子对应一个电子，每个氦离子对应两个电子。质量比为 (\frac{3}{4}) 比 (\frac{1}{4}) 对应于数量比为 (\frac{3}{4}) 比 (\frac{1}{16})，所以最初
[
\mu_\text{primordial} \simeq \frac{(\frac{3}{4} \times 1 + \frac{1}{16} \times 4)}{(\frac{3}{4} + 2 \times \frac{1}{16} + \frac{3}{4} + \frac{1}{16})} = \frac{16}{27} \simeq 0.59 , \tag{13.10}
]
据估计，对于太阳核心目前的成分，(\mu_\odot \simeq 0.62)。

13.3.2 维里定理

我们将把一颗典型恒星模型化为一个成分均匀、处于热平衡状态的完美球形气体球。恒星演化缓慢，可以被当作准静态的来处理。这是合理的；我们知道太阳在数十亿年里一直非常稳定。在如此漫长的时间里，即使光度发生相对较小的变化，也会使地球上的生命灭绝。因此，我们假设恒星没有脉动，也忽略其自转。

令 (M) 为这个恒星模型的总质量，(R) 为其半径。质量并非均匀分布在恒星内，而是向中心聚集。我们定义径向质量函数 (m(r)) 为距中心 (r) 以内的质量。(m(r)) 的取值范围是 (0 \le m(r) \le M)，且 (m(0)=0)，(m(R)=M)。(m(r)) 与密度 (\rho(r)) 的关系为
[
\frac{dm}{dr} = 4\pi r^2 \rho . \tag{13.11}
]
球对称的假设意味着压强、温度和向外的能流 (P(r))、(T(r)) 和 (F(r)) 均与角度无关。(F(R))，即向外的能流……

¹ 这被称为道尔顿(Dalton)分压定律。

恒星的形成
449
表面处的通量，即为光度L。（为简洁起见，下文大部分地方我们将省略这些变量对r的显式依赖关系。）
dr
g(r)m(r)
P(r)
P(r+dr)
dA
r
m(r) = (r)drdA
图13.4 流体静力平衡。
整个星系中遍布着气体云，而这些就是新恒星形成的摇篮。两团气体云的碰撞，或来自超新星爆发的冲击波，都可能导致气体区域在引力作用下坍缩。随着气体收缩，引力能被释放出来，加热气体，而随着温度升高，向空间发射的热辐射也随之增加。
有一个非常简单的、称为维里定理(virial theorem)的关系式，它将恒星的引力能与其热能或内能联系了起来。在一颗稳定的恒星中，引力作用下的坍缩趋势被等离子体内施加的热压所平衡。
考虑恒星内部位于r和r+dr之间的一个等离子体小体积元dV = dr dA，其质量为ρ(r) dr dA，如图13.4所示。由于引力作用在这个质量元上的向下的力是g(r)ρ(r) dr dA，其中g(r) = Gm(r)/r²。由于热等离子体热压产生的向上的力是−dP/dr dr dA，其中−dP/dr dr是底面和顶面之间的压强差。令这些力相等，我们得到流体静力平衡方程：
dP/dr = −Gmρ/r²， (13.12)
这个方程可以假定在恒星内部处处成立。
恒星在半径r内的体积为V(r) = 4π/3 r³。在方程(13.12)左边乘以V(r) dr，右边乘以4π/3 r³ dr，得到：
V dP = −(4πG/3) mρ r dr。 (13.13)
球壳内的质量为dm = 4πr²ρ dr，因此消去dr，改用dm表示，得到：
3V dP = −(Gm/r) dm。 (13.14)

450
恒星
从恒星中心积分到表面，我们得到：
3 ∫_{P_cen}^{P_surf} V dP = −∫_{0}^{M} (Gm/r) dm， (13.15)
其中P_cen和P_surf分别是恒星中心和表面的压强。
对左边进行分部积分，给出：
∫_{P_cen}^{P_surf} V dP = [PV]{cen}^{surf} − ∫{0}^{V_surf} P dV
= −∫_{0}^{V_surf} P dV，
= −∫_{0}^{M} (P/ρ) dm， (13.16)
这里我们用到了恒星中心体积为零，以及表面压强为零的简单观测事实，并在最后一步代入了dV = (1/ρ) dm。将此结果用于方程(13.15)，即得到维里定理：
3 ∫_{0}^{M} (P/ρ) dm − ∫_{0}^{M} (Gm/r) dm = 0。 (13.17)
由于−Gm/r是半径r处的引力势，第二个积分是恒星的总引力势能，记作Ω。这是一个负值。|Ω| 是通过引力结合恒星质量所释放的能量大小。（或者，它也是使构成恒星的所有粒子远离其相互引力吸引所需的能量大小。）
如果我们假设理想气体定律在恒星内部成立，那么根据方程(10.54)，单位体积等离子体粒子的总热能是 (3/2)(ne + ∑i ni) T。单位体积的质量是∑_i ni mi，因此单位质量的热能为：
u = (3/2) * (ne + ∑_i ni) / (∑_i ni mi) * T， (13.18)
其中ne和ni分别是电子和离子的数密度。由方程(13.8)和(13.9)组合给出的理想气体定律为：
P/ρ = (ne + ∑_i ni) / (∑_i ni mi) * T， (13.19)
所以：
P/ρ = (2/3) u， (13.20)
这是一个在恒星内部处处成立的简单关系。从恒星中心积分到表面，我们得到：
3 ∫{0}^{M} (P/ρ) dm = 2 ∫_{0}^{M} u dm = 2U， (13.21)

恒星的诞生
451
其中U是恒星的总热能。位力定理(virial theorem)(13.17)现在简化为
2U + Ω = 0，
或
U = 1/2 |Ω|。
(13.22)
它将恒星的热能与引力能联系起来。

我们得到这一结果时假设了理想气体定律成立。如果等离子体粒子相对于粒子间距很小，并且粒子可以被视为自由的，以至于它们的能量仅由动能组成，且不存在由于粒子间相互作用而产生的电磁势能，那么这是一个很好的近似。在等离子体中，最大的粒子是原子核，其尺寸远小于原子，因此这些条件一直保持到压强达到极高的值。在恒星生命的大部分时间里，我们可以假设理想气体定律很好地描述了等离子体。(注意白矮星(white dwarf)非常致密，由电子简并压支撑，此时电子的费米子性质很重要，所以理想气体定律不成立，下面的讨论将不适用。)

在下一节中，我们将探讨位力定理对恒星形成的意义。我们熟悉日常的固体物体冷却时对其物理结构没有明显影响。恒星遵循理想气体定律，这意味着它们的行为相当不同。

13.3.3 恒星形成
当气体云或原恒星(protostar)在其自身引力下收缩时，其引力束缚能 Ω 变得更负，位力定理意味着原恒星的热能 U 必然增加。这意味着原恒星的温度将升高，导致辐射发射增加。因此，原恒星将失去能量，并且由于它是理想气体，原恒星内部的压强将下降，导致进一步收缩，并进一步释放引力束缚能，再次提高热能。所以随着原恒星失去能量，它会变热。这是引力系统的一个普遍特征，有时被称为负热容。

总能量必须守恒，因此方程(13.22)意味着恒星形成时释放的引力束缚能的一半加热恒星，成为恒星的热能，而另一半束缚能则辐射到太空中。事实上，气体云除非能以这种方式失去一半的束缚能，否则无法收缩形成恒星，但是，与热石头(或白矮星)不同，理想气体不能在辐射和冷却时不显著降低压强。幸运的是，原恒星和恒星通过辐射光子来损失能量是相当困难的，否则它们会迅速坍缩。由于恒星由带电粒子等离子体组成，它们是不透明的，因此光子不经过与电子和离子的无数次相互作用就无法离开恒星。

不透明度是衡量光子在相互作用前可以行进的距离的量度。光子的平均自由程为 ¯l = 1/(κρ)，其中 κ 是单位质量不透明度。在低温和极高温下不透明度都低。在高温下，比如恒星核心的温度，大多数光子具有非常高的能量，不容易被吸收，不透明度的主要原因是自由电子对光子的散射。太阳的中心密度约为 10^5 kg m−3，单位质量不透明度约为 0.1 m2 kg−1，因此光子在电子散射前行进的距离仅为 ¯l = 1/(κρ) ≃10^{-4} m。对于给定的等离子体成分，在恒星内部发现的温度和压强下

452
恒星
在恒星核心，不透明度作为一级近似是恒定的。当我们向外穿过恒星时，不透明度随着温度下降而增加，但关键的是，不透明度维持着等离子体和辐射的热平衡。在更低的温度下，例如红巨星外包层中可能出现的情况，原子形成，这急剧降低了不透明度，因为大多数光子没有足够的能量来电离原子，且可散射光子的离子和自由电子很少。

对于一颗收缩中的原恒星来说，要达到稳定密度并停止收缩，原恒星内部必须触发一个能量源。在人们首次建立恒星模型时，这个能量源还是一个谜。我们现在知道，原恒星会持续收缩，直到其核心达到足够高的温度以启动核聚变。释放的能量提供了热压力，阻止了进一步收缩。原恒星此时已成为一颗恒星。它的一半引力束缚能已辐射到太空中，另一半则构成了恒星的初始热能。只要核燃料继续燃烧，恒星就保持稳定，其引力束缚能也保持不变。同样，恒星的热能及其温度分布也保持固定。这意味着只要流体静力学平衡得以维持，从恒星表面辐射能量的速率必然等于其核心聚变产能的速率。

那么，一颗恒星形成需要多长时间呢？这就是恒星辐射掉其一半引力束缚能所需的时间。这被称为恒星的热时标。它可以估计为
τth ≃|Ω|
2L ≃GM 2
RL ,
(13.23)
其中 L 是恒星的光度，GM 2
R
是对束缚能的估计，精确到一个接近 1 的数值因子。太阳的光度为 L⊙= 3.846 × 10^26 W。如果我们把太阳的质量 M⊙和半径 R⊙代入方程(13.23)，我们会发现
τ⊙th ≃1.6 × 10^7 年。这是对一团气体云收缩形成一颗具有太阳质量恒星所需时间的大致估计。19 世纪的物理学家曾试图用这种方法来确定太阳的年龄，他们错误地认为太阳的光度完全由其引力收缩释放的能量提供。基于此，开尔文(Kelvin)和亥姆霍兹(Helmholtz)估计太阳的总寿命不会比热时标长太多，但这与地质学家和生物学家推导出的地球年龄相矛盾。物理学家被证明是错误的，而解决之道在于核聚变能的发现。

热时标也代表了太阳核心内产生的能量扩散到表面所需的时间。如果一个在太阳中心产生的光子在离开太阳前没有发生相互作用，它将在几秒钟内到达表面，但在太阳内部，光子在被散射、吸收和由等离子体中的电子及其他带电粒子重新发射后才逃逸到太空中，这个过程不断发生。

太阳也通过其中微子(ν)流损失能量，其光度为
Lν⊙= 0.023L⊙
(13.24)
这是由诸如日本超级神冈探测器(Super-Kamiokande)等中微子探测器测量得到的。中微子的平均自由程远大于恒星的半径，因此中微子辐射意味着核心能量的瞬时损失。中微子发射意味着热能

恒星结构
453
聚变反应的产能将低于正常情况，因为中微子能量未能被束缚在恒星内部，因此无法为支撑恒星的热压力做出贡献。为了维持流体静力平衡，核心内部的温度和压力必须高于原本所需的水平，这就要求核燃料燃烧得更快并释放更多能量。这在太阳中是一个相对较小的效应，但因中微子发射导致的能量损失，极大地提高了大质量恒星在后续阶段燃料燃烧的速率，从而戏剧性地缩短了这些阶段。

13.4 恒星结构
建立恒星模型是一个复杂的问题，涉及热力学、流体动力学和核物理。现在已有非常完善的计算机模型，能够精确描述各类恒星的结构和演化。基于计算机的计算扮演着非常重要的角色，但并非总能提供对底层物理的深刻洞察。幸运的是，通过研究简化模型可以收集到恒星结构的许多基本细节，因此我们将集中关注于此。随后，通过考虑通过数值计算获得的精确结果，可以进一步深化这一洞见。

我们将假设恒星是静态的，并处于热平衡状态，其核心内部存在能量源，且具有均匀的化学组成但非均匀的密度。这意味着忽略恒星随时间的任何演化，比如其核燃料的消耗。这些假设适用于刚从气体云中凝聚形成并在核心内启动聚变反应的年轻恒星。我们将看到，它们为理解主序星提供了一个出发点。在不了解恒星核心内部能量源的情况下，也能推断出关于恒星的许多信息。事实上，许多关于恒星结构的基本原理，是在聚变能量被理解之前，由爱丁顿(Eddington)研究得出的。

绝大多数恒星位于主序带上，该主序带在赫罗图(HR diagram)上形成一条对角线。由于图中绘制的是 $\log L$ 对 $\log T_{\text{surf}}$ 的关系，这意味着光度与表面温度之间存在如下关系

$$
L \propto T_{\text{surf}}^a,
$$
(13.25)

其中 a 是该直线的斜率。实际上，对最亮的恒星而言，主序带的斜率比平均亮度的恒星更大。这可以通过假设主序星由其核心的氢聚变反应提供能量来解释。我们将根据这一假设推导出描述主序带两部分斜率的光度-温度关系。

半径为 r 处单位质量的能量产生率，记作 $q(r)$，可近似表示为

$$
q = q_0 \rho^b T^n,
$$
(13.26)

其中指数 b 和 n 取决于聚变过程。大多数聚变反应涉及两个粒子的碰撞。此类反应的速率与密度的平方 $\rho^2$ 成正比，因此单位质量的能量产生率 q 与 $\rho$ 成正比，故而 b = 1。对于三粒子过程，碰撞速率与 $\rho^3$ 成正比，因此 q 与 $\rho^2$ 成正比，所以 b = 2。能量通量满足

$$
\frac{dF}{dr} = 4\pi r^2 \rho q.
$$
(13.27)

454
恒星
在核心内部，能量正在产生，因此 q > 0，穿过一个球壳的能量通量 F 随 r 增大而增加。核心边缘之外 q = 0，所以 F 保持恒定。

我们还需要一个方程来确定能量在恒星内部的传输方式。光子不断被等离子体中的电子和离子散射、吸收和发射，从而使辐射与等离子体达到热平衡。因此，辐射是各向同性的，具有黑体谱，热量只是由于从核心到恒星表面有一个非常缓慢的温度梯度而稳定地向表面扩散。就太阳而言，平均梯度仅为 T⊙cen / R⊙ = 1.6×10^7 / 7.0×10^8 K m⁻¹ ≃ 0.023 K m⁻¹。

爱丁顿(Eddington)通过考虑位于径向距离 r 和 r+dr 之间的一片物质吸收动量的速率，找到了温度梯度与能量通量之间的关系。单位面积的能量通量为 F / (4πr²)，因此单位面积的一片物质吸收的能量为 F κρ / (4πr²) dr，其中 κ 是单位质量的不透明度。

对于光子，p = E，因此吸收的动量等于吸收的能量。吸收的动量导致一个辐射压梯度，所以
Fκρ / (4πr²) = −dPrad / dr 。 (13.28)

在第十章中，我们已说明黑体辐射压由方程(10.115)给出，
Prad = (4/3) σ T⁴ ， (13.29)
其中 σ = π²/(60 ħ³) 是斯特藩–玻尔兹曼常数。这意味着
dPrad / dr = (16/3) σ T³ dT / dr 。 (13.30)

结合方程(13.28)和(13.30)，我们得到爱丁顿关系式
dT / dr = − (3 / (64π)) (κρ / (σ T³ r²)) F 。 (13.31)

光子的缓慢扩散是能量穿过恒星传输的主要机制。辐射压与等离子体不透明度的共同作用，是维持恒星内部温度梯度的原因。然而，抵抗引力坍缩支撑恒星的是热等离子体压（主要来自电子），而非辐射压。尽管如此，对于质量更大的恒星，辐射压变得越来越重要。质量显著高于太阳的恒星，会因辐射压将粒子从星体外层向外推入太空，而逐渐失去大部分外层包层。此外，质量极大的恒星因其产生的巨大辐射强度而不稳定。辐射压给稳定恒星的质量设定了一个上限，这个上限被认为约为 120 M⊙。

恒星结构
455
13.4.1 结构函数
利用方程(13.11)，将所有恒星变量用径向质量函数(m(r))而非径向位置(r)来表示会很方便，该方程可写为
[
\frac{dr}{dm} = \frac{1}{4\pi r^2 \rho}.
\tag{13.32}
]
利用此式可将流体静力学平衡方程(13.12)变换为
[
\frac{dP}{dm} = \frac{dP}{dr}\frac{dr}{dm} = -\frac{Gm}{4\pi r^4}.
\tag{13.33}
]
类似地，由方程(13.27)和(13.26)可得
[
\frac{dF}{dm} = \frac{dF}{dr}\frac{dr}{dm} = q_0 \rho^b T^n,
\tag{13.34}
]
由方程(13.31)可得
[
\frac{dT}{dm} = \frac{dT}{dr}\frac{dr}{dm} = -\frac{3}{16}\frac{\kappa F}{\sigma T^3 (4\pi r^2)^2}.
\tag{13.35}
]
加上理想气体定律(13.8)
[
P = \frac{1}{\mu m_p} \rho T,
\tag{13.36}
]
我们便得到了关于(r, \rho, P, F)和(T)的五个耦合非线性微分方程(13.32)–(13.36)。

通过对这些方程进行量纲分析，我们可以推断出主序星结构的许多信息。定义质量分数为
[
x(r) = \frac{m(r)}{M},
\tag{13.37}
]
这将有助于比较不同质量的恒星。我们可以将(r(m), P(m), \rho(m), T(m))和(F(m))替换为关于(x)的无量纲函数，如下所示：
[
r = f_1(x) R_*, \quad
P = f_2(x) P_*, \quad
\rho = f_3(x) \rho_*, \quad
T = f_4(x) T_*, \quad
F = f_5(x) F_*.
\tag{13.38}
]
对于任意一颗恒星，(R_*, P_*, \rho_*, T_*)和(F_*)都是有量纲常数。它们随恒星总质量(M)的不同而变化，被称为恒星变量。我们将在下面确定这些量与(M)之间的关系。(f_i(x))是无量纲的结构函数，编码了从恒星中心到表面的热力学变量分布，其中(x)从0变化到1。结构函数绘制在图13.5中。这些方程只需对一颗标准恒星（如太阳）求解，相同的结构函数将适用于所有满足我们假设的其他恒星，只需根据恒星质量进行缩放。由这个简单模型描述的恒星称为同系恒星(homologous)。该模型对主序星效果很好。

456
恒星
[
\begin{array}{c}
1 \
0.8 \
0.6 \
0.4 \
0.2 \
0 \
0 \quad 0.2 \quad 0.4 \quad 0.6 \quad 0.8 \quad 1 \
x
\end{array}
]
图13.5 热力学变量从恒星中心到表面的分布。(x = \frac{m}{M_*}, f_2 = \frac{P}{P_*}, f_3 = \frac{\rho}{\rho_*}, f_4 = \frac{T}{T_*})和(f_5 = \frac{F}{F_*})作为(f_1 = \frac{r}{R_*})的函数绘制。

例如，恒星中心的温度为(T_{\text{cen}} = f_4(0)T_*)，表面温度为(T_{\text{surf}} = f_4(1)T_*)。根据观测得到的表面温度，我们可以利用(f_4)计算出恒星内部任意点的温度。我们也知道表面温度如何随恒星质量变化，因此通过观测主序星的表面温度就能推算出它的质量，稍后我们将看到这一点。

即使没有明确求出结构函数，也能从这些方程中提取大量信息。首先，我们可以将结构方程中的变量分离。例如，方程(13.33)的左边可重写为
[
\frac{dP}{dm} = \frac{dP}{dx}\frac{dx}{dm} = \frac{df_2}{dx}\frac{P_*}{M},
\tag{13.39}
]
其中我们使用了方程(13.38)的第二式和方程(13.37)。与右边结合，并代入(m = Mx)和(r = f_1 R_)，可得
[
\frac{df_2}{dx}\frac{P_}{M} = -\frac{GMx}{4\pi f_1^4 R_*^4}.
\tag{13.40}
]
我们可以将其分成两部分。一部分是普适结构函数之间的关系，
[
\frac{df_2}{dx} = - \frac{x}{4\pi f_1^4},
\tag{13.41}
]

恒星结构
457
而另一个关系涉及恒星变量，
P∗= GM 2
R4∗
。
(13.42)
这两个子方程间的任何比例常数都可被吸收进结构函数中。

对其他结构方程按相同方式处理，得到
df1
dx =
1
4πf 2
1 f3
，
ρ∗= M
R3∗
，
(13.43)
f2 = f3f4
，
T∗= µmpP∗
ρ∗
，
(13.44)
df4
dx = −
3f5
16f 3
4 (4πf 2
1 )2
，
F∗= σ
κ
T 4
∗R4
∗
M
，
(13.45)
df5
dx = fb
3f n
4
，
F∗= q0ρb
∗T n
∗M 。
(13.46)
方程(13.41)以及(13.43)–(13.46)中左侧的方程构成了关于结构函数fi的封闭微分方程组，因此可数值求得一组唯一的解。

13.4.2
质量–光度关系

现在我们可以推导恒星变量之间的各种简单关系。恒星的关键特征是其质量M。由它几乎可以导出恒星的其他一切。将方程(13.42)和(13.43)中的P∗和ρ∗代入方程(13.44)，得到
T∗= µmp
GM 2
R4∗
R3
∗
M

= Gµmp
M
R∗
。
(13.47)
我们可以利用此关系替换方程(13.45)中的T∗R∗，得到
F∗= σ
κ(Gµmp)4M 3 。
(13.48)
因此，能量流F正比于M 3，而由于L = F(1)，这就得出了联系恒星光度与质量的重要结果，L ∝M3。例如，一颗10倍太阳质量的主序星的光度是太阳的1000倍。恒星可用的核燃料总量正比于其质量，因此这立即转化为对主序星寿命的估算，
τMS ∝M
L ∝
1
M2 。
(13.49)
这一关系很容易理解。质量越大的恒星核心温度越高，因而核反应进行得越快。它们以更高的速率燃烧核燃料，比低质量恒星更快地度过一生，这也是大质量恒星稀少的原因之一。稍后我们将估算太阳作为主序星的寿命。

458
恒星
星的年龄约为 10¹⁰ 年。我们可以预期，一颗质量为 10 倍太阳质量的恒星，其主序星
寿命仅为这个数值的百分之一，即大约 10⁸ 年。
同样，根据方程 (13.48)，我们看到主序星的光度
正比于 µ⁴。µ 是恒星组成的函数，如第
13.3.1 节所定义。它随着核聚变的进行而增加，这意味着恒星的光度
会随着核燃料的燃烧而增加。据信，太阳现在的光度比大约 46 亿年前它形成时
要高出约 30%。

13.4.3 密度-温度关系
如果我们对方程 (13.42) 进行立方运算，并用方程 (13.43) 替换 R³
*，我们得到
P ³

= G³M ⁶
R¹²
= G³M ²ρ⁴
。
(13.50)
现在我们可以用方程 (13.44) 替换 P，得到
ρ³
*T ³
µ³m³p
= G³M ²ρ⁴
*。
(13.51)
两边除以 ρ³
并重新整理，得到
ρ* =
1
(Gµmp)³
T ³
M² ，
(13.52)
这是一个 ρ* 和 T* 之间依赖于 M 的关系。利用结构函数，我们得到
恒星内部任意一点都成立的密度和温度之间的类似关系。它表明，对于给定的温度，质量更大的恒星其核心密度更低。
当恒星耗尽核燃料时，其核心会收缩，并可能达到一个
靠电子简并压来抵抗坍缩的密度。然而，这仅在极高密度下才会发生。关系式 (13.52) 意味着，质量更大的恒星
在达到电子简并压变得重要的密度之前，需要达到更高的温度。由于核聚变反应非常依赖于温度，
这意味着质量较大的恒星可能会经历几轮质量较小的恒星无法进行的核聚变。我们现在将更仔细地研究恒星中的核聚变反应
和核合成。

13.5 核合成
爱丁顿(Eddington)于 1920 年首次提出，氢核聚变成氦核可能
是提供能量使太阳和其他恒星发光的原因。氢原子的
原子核是单个质子，而氦原子的原子核由两个质子和两个
中子组成。爱丁顿意识到，如果一个氦核可以由四个质子锻造而成，
那么将释放出大约 26 MeV 的能量。这是四个质子的质量
（即 4 × 938.3 MeV = 3753 MeV）与氦核质量（即
3727 MeV）之间的差值。因此，质子质量的大约 0.7% 将转化为能量。
强核力的作用范围非常短。为了发生聚变反应，原子核
必须彼此接近到大约一飞米（10⁻¹⁵ 米）以内。然而，由于原子核
都带正电，它们需要克服一个很大的库仑势垒。在早期

核合成
459
20世纪许多物理学家认为，太阳中心1.6×10^7 K的温度不足以引发聚变反应。然而，正如我们在第11章所见，有两个因素使得聚变反应能在这些较低温度下进行。其一是热动能的麦克斯韦分布(Maxwell distribution)具有很长的尾部，因此总有一小部分原子核的能量远高于平均值。其二是量子隧穿(quantum tunnelling)使原子核即使能量不足以达到库仑势垒(Coulomb barrier)的顶端，也能穿过势垒。长尾部意味着氢聚变为氦更像是一阵缓慢的嘶嘶声，而非一次爆炸，但这足以维持热压强，支撑恒星对抗引力坍缩。由于热能不易从恒星逃逸，缓慢的嘶嘶声便已足够。一个有趣的事实是，人体单位质量的能量产生率比太阳还要高。

根据太阳的光度，我们可以计算出太阳的氢总质量 (M_{H\odot}) 被聚变反应消耗的速率为
[
\left| \frac{dM_{H\odot}}{dt} \right| = \frac{L_\odot + L_{\nu\odot}}{0.007c^2}
= \frac{1.023 \times 3.846 \times 10^{26}}{0.007 \times 9 \times 10^{16}} , \text{kg s}^{-1} = 6.25 \times 10^{11} , \text{kg s}^{-1},
\tag{13.53}
]
这里我们计入了方程(13.24)给出的中微子通量，并利用了氢聚变为氦时约有0.7%的质量转化为能量的事实。因子 (c^2) 是将以瓦特为单位的能量发射率转换为以 kg s^{-1} 为单位的质量消耗率所必需的。尽管太阳每秒损失 (6.25 \times 10^{11}) 千克氢，但这对其总质量 (M_\odot = 2 \times 10^{30}) 千克来说微不足道。氢燃烧只发生在太阳的核心，因此其大部分氢永远不会被燃烧。假设太阳的光度恒定，且在其主序寿命期间约有15%的氢转化为氦，我们可以估算太阳在主序上停留的时间为
[
\tau_\odot = 0.15 \times 0.75 \times \frac{M_\odot}{\left| \frac{dM_{H\odot}}{dt} \right|}
= \frac{2.25 \times 10^{29}}{6.25 \times 10^{11}} = 3.6 \times 10^{17} , \text{s} = 1.1 \times 10^{10} , \text{年},
\tag{13.54}
]
此处我们假设太阳初始时按质量计含有75%的氢。详细的模型给出的太阳主序寿命更接近于 (1.0 \times 10^{10}) 年，因此我们正在接近中点。

13.5.1 质子-质子链
低质量恒星中氢聚变为氦的过程被称为质子-质子链(proton–proton chain)。这一机制由汉斯·贝特(Hans Bethe)和查尔斯·克里奇菲尔德(Charles Critchfield)于1938年阐明。关键之处在于，虽然强力能将单个质子和单个中子结合成一个氘核，但它还不足以仅用两个质子或仅用两个中子就形成一个原子核。这意味着在走向氦核的第一步中，两个质子必须碰撞并隧穿库仑势垒，并且在撞击的精确瞬间，其中一个质子必须发生逆β衰变(inverse beta decay)。这个质子由此转化为一个中子，同时放出一个正电子和一个中微子。另一个质子和新形成的中子随后结合在一起，形成一个氘核，
[
^1\text{H} + ^1\text{H} \to ^2\text{H} + e^+ + \nu_e.
\tag{13.55}
]
正电子 (e^+) 迅速与等离子体中的一个电子湮灭，产生光子，而电子中微子 (\nu_e) 则逃逸出去。弱力的极端微弱性，即

460
恒星
负责贝塔衰变的这个关键第一步极其缓慢。在像太阳这样的恒星中，两个质子之间每 10^22 次碰撞才会产生一个氘核。通常，一个质子在发生这种反应之前，会在其他质子之间反弹大约一百亿年，因此这是决定氢转化为氦总速率的瓶颈步骤。
e+
e+
图 13.6 质子-质子链 (ppI)。

图 13.6

下一步几乎立即发生。在一秒内，氘核俘获另一个质子形成氦-3 核，结合能以光子形式释放，
²H + ¹H →³He + γ .
(13.56)
平均而言，氦-3 核需要再经过一百万年才能在太阳核心遇到另一个氦-3 核并发生反应
³He + ³He →⁴He + ¹H + ¹H
(13.57)
产生氦-4，同时两个质子被释放回等离子体中。总体而言，这些反应的结果是将四个质子转化为一个氦-4 核（见图 13.6）。（电中性得以维持，因为两个电子与第一步中发射的两个正电子湮灭。）释放的 26 MeV 能量大部分以光子形式存在，但部分被两个中微子带走。

图 13.6

核合成
461
这个过程通常被称为 ppI。聚变也通过以下称为 ppII 的替代路径进行，其中 ³He 核与 ⁴He 核融合：
³He + ⁴He
→
⁷Be + γ
⁷Be + e⁻
→
⁷Li + νe
⁷Li + ¹H
→
⁴He + ⁴He .
(13.58)
太阳中的质子-质子链过程 86% 是 ppI 反应，14% 是 ppII 反应。
这些质子-质子链过程释放能量的速率由第一步（13.55）决定，该步骤涉及两个质子的相遇。因此，它与密度的平方 ρ² 成正比，因此每单位质量的能量产生率 qpp 与 ρ 成正比。在第 11.6.1 节中，我们估算了质子-质子聚变速率对温度的依赖关系，并得出在 1.6 × 10⁷ K 温度区域（如太阳核心）的指数 n = 3.8。为了简化后面的一些公式，我们将其四舍五入为 n = 4，并将能量产生率近似为
qpp ∝ ρT⁴ .
(13.59)
13.5.2
CNO 循环
⁴He
¹H
¹²C
¹⁵N
¹H
¹H
¹³N
¹⁴N
质子
伽马射线
中微子
中子
正电子
¹³C
¹⁵O
¹H
图 13.7 CNO 循环。

图 13.7

462
恒星
太阳将氢转化为氦还存在另一种过程，约占其能量产出的5%。这被称为CNO循环或CNOF循环，因为它由碳、氮、氧和氟的原子核催化。催化核的电荷更大，意味着需要克服更大的库仑势垒(Coulomb barrier)，因此所需的温度比质子-质子链(proton–proton chain)更高。当核心温度超过约2 × 10⁷ K时，CNO循环成为主要的氢聚变过程，这出现在质量大于1.4 M⊙的主序星中。该循环的六个步骤可表示为

12C + 1H
→
13N + γ
13N
→
13C + e⁺ + νₑ
13C + 1H
→
14N + γ
14N + 1H
→
15O + γ
15O
→
15N + e⁺ + νₑ
15N + 1H
→
16O*
→
12C + 4He ,
(13.60)

如图13.7所示。在最后一步中，一个质子与一个氮-15核聚变，形成一个处于激发态的氧-16核，记为16O*，该激发态几乎立即分解为一个碳核和一个氦核。

图13.7

还存在第二种可能性，即CNOF循环，其中激发的氧核发射一个伽马射线光子并降至一个更稳定的低能态，如下面第三步所示。在这种情况下，从14N开始，循环采取如下形式：

14N + 1H
→
15O + γ
15O
→
15N + e⁺ + νₑ
15N + 1H
→
16O*
→
16O + γ
16O + 1H
→
17F + γ
17F
→
17O + e⁺ + νₑ
17O + 1H
→
14N + 4He .
(13.61)

这两个循环的结果都是四个质子转化为一个氦-4核，并释放出26 MeV的结合能，而碳、氮、氧和氟核则被循环利用。其中两个步骤受弱相互作用(weak interaction)控制，并包含中微子的发射。这些中微子离开恒星时不再发生进一步相互作用，并带走约1 MeV的能量，因此循环的每一轮给恒星留下约25 MeV的能量。

CNO循环在第一代恒星中是不可能发生的，因为大爆炸刚结束后还没有像碳这样重的核。

能量产生率q_CNO对温度非常敏感，通常用幂律近似表示为

q_CNO ∝ ρ Tⁿ ,
(13.62)

其中n的引述值在16到20之间。我们将采用我们在第11.6.1节中计算出的数值n = 18。精确的温度依赖性远不如这一事实重要：一旦达到临界温度，能量产生率随温度升高而极快地增加。这对于恒星聚变的所有后续阶段也同样成立。

核合成
463
13.5.3 质量–半径关系
假设主序星的能量产生来源于氢的聚变，我们可以推导出恒星半径与质量之间的关系。将方程(13.46)和(13.48)结合，得到
q0ρb
∗T n
∗M = σ
κ(Gµmp)4M3 .
(13.63)
对于氢聚变反应，b = 1，因此
ρ∗T n
∗∝M 2 ,
(13.64)
代入来自方程(13.44)的T∗后，我们得到
P n
∗
ρn−1
∗
∝M 2 .
(13.65)
再将来自方程(13.42)和(13.43)的P∗和ρ∗代入，得到
M2
R4∗
n M
R3∗
1−n
∝M 2 ,
(13.66)
化简指数后，
R∗∝M
n−1
n+3 .
(13.67)
对于通过质子–质子链燃烧氢的低质量恒星，能量产生率由方程(13.59)描述，因此n = 4，得到R∗∝M
3
7 。另一方面，对于通过CNO循环燃烧氢的大质量恒星，n = 18，得到R∗∝M
17
21 ≃M 0.81，因此更大质量主序星的半径几乎与它们的质量成正比。

13.5.4 质量–温度关系
从方程(13.47)我们看到T∗∝M
R∗。对于通过质子–质子链聚变氢的恒星，R∗∝M
3
7 ，因此
T∗∝M
4
7 ,
(13.68)
而对于通过CNO循环聚变氢的恒星，R∗∝M
17
21 ，因此
T∗∝M
4
21 ≃M 0.19 .
(13.69)
这些关系很重要，因为如前所述，利用维恩定律(13.6)测量恒星的表面温度是直接可行的。基于这一观测量，我们可以推断出恒星的质量，而这正是了解恒星其他性质的关键。

13.5.5 主序星的最小质量
我们可以利用质量–温度关系(13.68)来估算通过质子–质子链燃烧燃料的主序星的最小质量Mmin。太阳的核心温度

464
恒星
为1.6 × 10⁷ K，而质子–质子链能够发生的最低温度估计为4 × 10⁶ K，因此
Mmin
M⊙

Tmin
T⊙
7
4
≃
4
16
7
4
≃0.1 .
(13.70)
更精确的分析表明Mmin约为0.08 M⊙，大约是80 MJ，其中MJ是木星的质量。
低质量主序星被称为红矮星。质量更小的是非常暗弱的天体，称为褐矮星。褐矮星的中心温度太低，氢无法通过质子–质子链转化为氦，但仍可能存在其他聚变反应。
质量大于65 MJ的褐矮星会聚变锂，锂是在大爆炸中少量产生的。锂核可以吸收一个质子形成⁸Be，⁸Be不稳定，会立即分裂成两个⁴He核，
⁷Li + ¹H
→
⁸Be
→
⁴He + ⁴He + γ .
(13.71)
质量大于13 MJ的褐矮星可以维持氘的聚变反应，氘同样是在大爆炸中少量产生的，
²H + ¹H
→
³He + γ .
(13.72)
质量低于13 MJ的天体则完全不可能发生任何聚变反应。这被认为是恒星与行星之间的分界线。

13.5.6 温度–光度关系
斯特藩–玻尔兹曼定律表明，恒星的光度为
L = 4πR²σT⁴
surf ,
(13.73)
其中R是恒星半径，Tsurf是表面温度。R正比于方程(13.67)给出的R∗，因此
L ∝M
2(n−1)
n+3 T⁴
surf .
(13.74)
在13.4.2小节中我们已证明L ∝M³；因此，
L ∝L
2(n−1)
3(n+3) T⁴
surf .
(13.75)
重新整理幂次，这意味着
L
n+11
3(n+3) ∝T⁴
surf
或
L ∝T
12(n+3)
n+11
surf
.
(13.76)
对于由质子–质子链驱动的低质量主序星，其中n = 4，
L ∝T
28
5
surf = T⁵.⁶
surf .
(13.77)
对于处于CNO循环的大质量主序星，其中n = 18，
L ∝T
252
29
surf ≃T⁸.⁷
surf .
(13.78)
赫罗图（图13.3）是双对数图，因此这些关系意味着主序星下段的斜率应约为5.6，而上段的斜率应更陡，约为8.7。这与观测结果相当吻合。

图13.3

主序星之外的巨星
465
在构建主序星模型时，我们假设恒星具有均匀的组成，并且恒星核心产生的能量以热辐射的形式向外扩散。我们还假设了单位质量的 opacity (不透明度) 为常数。这些假设是相当适用的，尤其是在氢燃烧的早期阶段。但对于恒星后期的演化，它们就不那么适用了。随着时间的推移，核心的组成发生变化，因而不再与恒星包层的组成相匹配。convection (对流) 也可能变得重要起来。这将混合各种成分，并使恒星能够消耗更多的核燃料。它也会影响能量在恒星中的扩散。对流不容易建模，即使是通过数值方法。同样难以建模的是通过辐射压损失的质量数量，尽管预计该数量相当可观。在恒星生命的后期，恒星的辐射压会以 stellar wind (星风) 的形式将其外层粒子流驱逐到太空中，这种星风比目前观测到的太阳风要强得多。

13.6 主序星之外的巨星
当恒星耗尽了其核心的大部分核燃料时，它的能量产生就会衰减。此时的热压不足以平衡引力压，因此核心会收缩，直到热压得以恢复。核心的密度和温度不断升高，直到条件变得足够极端，从而开启一个新的核聚变反应阶段。

热辐射需要很长时间才能到达恒星的表面。在氢燃料耗尽之后，核心收缩发生的时间尺度，比我们在 13.3.3 节引入的热时标要短得多，因此恒星无法轻易释放出收缩所释放的能量。到目前为止，我们一直将恒星内部的 opacity (不透明度) 当作常数来处理，但它实际上是温度的函数。当从核心向外移动时，温度和压力会降低，而 opacity 则会上升。当新一轮的能量产生被触发时，热辐射会增加，并且由于它无法轻易逃逸，额外的辐射压会迫使包层膨胀。通过这种膨胀，包层的温度和压力下降，这增加了 opacity 并阻碍了热辐射的逃逸，从而导致包层进一步膨胀。这种正反馈效应的结果是恒星包层的巨大膨胀和冷却。最终，包层冷却到足以让氦原子和氢原子形成。这突然降低了 opacity，使得辐射能够从恒星中逃逸。此时恒星已经离开了主序星，转变为一颗 red giant (红巨星)。

许多红巨星对脉动不稳定，这导致了它们光度的变化。例如，Cepheid variables (造父变星) 会膨胀，直到其外包层冷却到足以形成中性氦原子。此时，opacity (不透明度) 急剧下降，被困在恒星内部的辐射逃逸出去。失去这些热量后，包层在引力作用下收缩，温度上升，氦原子被单次电离，包层的 opacity 再次急剧上升。收缩继续，直到有足够的能量被捕获以阻止收缩，然后膨胀阶段再次开始。这个周期的长短取决于恒星的质量，而由于质量也决定了恒星的光度，因此造父变星的内禀光度 L 与其周期之间存在一种关系，该关系可以与关系式 (13.5) 一起使用，以确定到该恒星的距离 d。正因为如此，造父变星已被证明是非常重要的 standard candles (标准烛光)，使天文学家能够计算出到最近星系的距离，我们将在 14.2 节中讨论这一点。

466
恒星
13.6.1
三阿尔法过程
红巨星已经耗尽了核心所有的氢，只能通过聚变氦来产生进一步的能量。然而，氦原子核非常稳定，这一点可以从核结合能曲线（第11章图11.7）中推断出来。这正是放射性重元素以阿尔法粒子形式释放它们的原因，也是恒星中合成它们时释放如此巨大能量的原因。它们的稳定性使得进一步的聚变反应极难实现。两个氦核结合形成4号元素铍被证明是不可能的，产生的⁸Be核会立即重新分裂成两个⁴He核。
1951年，埃德温·萨尔皮特(Edwin Salpeter)提出，碳(¹²C)或许可以在三个氦核近乎同时的碰撞中合成，但弗雷德·霍伊尔(Fred Hoyle)指出，这种三体碰撞事件发生的概率极低，因为中间的⁸Be核仅能存在10⁻¹⁶秒。他的计算表明，这一过程的产率远不足以解释宇宙中碳及更重元素的丰度。于是霍伊尔提出，恒星中碳的存在只能用¹²C核的一个激发态，即一个共振态的存在来解释，该共振态恰好具有合适的能量，能在三阿尔法反应中提升碳的产率。尽管对霍伊尔的推理深表怀疑，加州理工学院的一组核物理学家还是去寻找了这个共振态，并惊讶地在霍伊尔预言的能量位置上精确地发现了它。霍伊尔共振是¹²C核的第二激发态，位于基态之上7.65 MeV，仅比三个独立氦核的能量高出0.25 MeV。它的存在将恒星中碳的产率提高了大约10⁸倍。
碰撞氦核面临的库仑势垒是碰撞质子的四倍,因此三阿尔法过程仅在约10⁸ K的温度下发生。耗尽氢燃料的巨星核心必须收缩直至达到此温度，氦聚变才会开始。三阿尔法反应可以表示为
⁴He + ⁴He + ⁴He → ¹²C + γ .
(13.79)
此过程涉及三个核的碰撞，因此单位质量的能量产生率正比于ρ²，如第13.4节所述，且对温度极其敏感。三阿尔法反应率q₃α可近似为
q₃α ∝ ρ² T⁴⁰ .
(13.80)
在氦燃烧温度下，¹²C核还会经历核燃烧的下一步，有时会与另一个⁴He核聚变形成氧核¹⁶O。幸运的是，与¹²C核不同，¹⁶O核并不存在一个能提升其合成率的共振态。若存在，那么任何¹²C都会立刻转化为¹⁶O，宇宙中的碳含量将微乎其微。
氦燃烧产生的能量少于氢聚变形成氦的过程，因此恒星生命中的这一阶段相应更短。每合成一个¹²C核释放7.4 MeV能量，而形成该碳核所需的三个氦核，每个在其产生时释放26 MeV能量。总共，三个氦核最初产生时生成了3 × 26 = 78 MeV能量，是它们聚变成碳时释放能量的十倍。正因如此，氦聚变形成碳的持续时间，不足从氢锻造出氦所需时间的十分之一。在类太阳恒星中，氦燃烧阶段将持续约十亿年。

晚期演化
467
超巨星参宿四已经耗尽了核心的氢，进入了氦燃烧阶段。其质量约为太阳的二十倍，将会迅速燃烧氦。仅需几百万年，相当于二十倍的氦燃料就会被燃烧殆尽。

13.7 晚期演化
爱斯基摩星云
环状星云
项链星云
螺旋星云 (IC 418)
猫眼星云
沙漏星云
图13.8 行星状星云实例。

图13.8

最终，恒星的氦燃料耗尽。核心成为碳和氧的混合物。随着能量供应减少，核心收缩，温度再次上升。接下来发生的事情取决于恒星的质量。

13.7.1 白矮星
质量相对较小（M ≤ 1.5倍太阳质量）的恒星，其核心温度不足以引发新一轮核聚变。它们的密度将达到使核心内的电子成为简并电子气并阻止进一步压缩的程度，从而支撑核心免于进一步收缩。当这种情况发生时，恒星包层的外层可能弥散到太空中，形成行星状星云。（图13.8展示了几个实例。）这些天体由威廉·赫歇尔(William Herschel)在他发现天王星后不久命名，因为它们通过望远镜呈现出盘状外观。它们实际上是发光的气体云，与行星无关。在行星状星云内部，裸露的收缩核心保留了下来，以约10⁵ K的温度向太空辐射。这样的天体被称为白矮星。白矮星被认为拥有由碳和氧组成的核心，外层可能被氦和氢包裹。大约在一万年内，行星状星云弥散到背景星际气体中，留下微小的白矮星持续闪耀。

图13.8

468
恒星
我们可以基于白矮星由电子简并压支撑这一事实来估算其大小。我们在第10.9.2节中看到，对于体积V中的Nₑ个质量为mₑ的电子，电子简并压为
P = 2/5 (3π²)^(2/3) (ħ²/(2mₑ)) (Nₑ/V)^(5/3)。 (13.81)
这个压力表达式不仅适用于零温，也适用于远低于费米能量的所有温度。它对白矮星有效，因为电子密度以及因此费米能量非常高。
更方便的方式是用总体质量密度ρ = M/V来表示电子简并压，而密度主要来自核子。令N_N为体积V中的核子数。总质量近似为M = N_N m_p，其中m_p是质子质量。设ξ为平均每个核子对应的电子数。（对于氢，ξ = 1；对于氦、碳、氧及其它轻元素，ξ ≃ 0.5。）那么Nₑ = ξ N_N = ξ M / m_p，因此
Nₑ/V = ξ M/(m_p V) = ξρ/m_p。 (13.82)
所以，简并电子气的压力可以重新表示为
P = 2/5 (3π²)^(2/3) (ħ²/(2mₑ)) (ξρ/m_p)^(5/3)， (13.83)
或更简洁地写为
P = K₁ ρ^(5/3)， (13.84)
其中
K₁ = 2/5 (3π²)^(2/3) (ħ²/(2mₑ)) (ξ/m_p)^(5/3)。 (13.85)
通过联立方程(13.42)和(13.43)，可以得到恒星内部引力压强用密度表示的表达式：
P = GM^(2/3) ρ^(4/3)， (13.86)
我们已将压力和密度等同于表征恒星整体的恒星变量。在白矮星中，电子简并压与这种引力压强相平衡，因此
K₁ ρ^(5/3) = GM^(2/3) ρ^(4/3)， (13.87)
进而
ρ = G³ M² / K₁³。 (13.88)
由于ρ = M/V，白矮星的体积为
V = K₁³ / (G³ M)， (13.89)

晚期演化
469
与其质量成反比。这与主序星不同，主序星的半径随质量增加而增加，如我们在第13.5.3节所见。知道了它的体积，我们可以估算太阳质量M⊙的白矮星半径为
RWD = K1
G

3
4πM⊙
1
3
= 3π¯h2
5meG
ξ
mp
5
3
1
4M⊙
1
3
.
(13.90)
代入数字，包括 ξ = 0.5，我们预期白矮星的半径为几千千米。天文学家已经测定天狼星B (Sirius B) 的半径为 0.0084 R⊙ = 5800 km。相比之下，地球半径为 6400 km，所以天狼星B的质量几乎与太阳相当，却被压缩在比地球还小的体积内。
由于体积如此之小，白矮星与普通恒星相比非常暗淡。聚变反应已经停止，因此它们随着辐射而冷却，但由于它们靠电子简并压 (electron degeneracy pressure)（几乎与温度无关）而非热气压支撑，其大小保持不变。斯特藩-玻尔兹曼定律 (Stefan–Boltzmann law) (13.73) 表明，白矮星的光度与其温度的四次方成正比。HR图 (HR diagram) 是光度对温度的双对数图，因此随着时间的推移，随着冷却，白矮星将沿着HR图左下角附近一条斜率为4的路径逐渐移动。最初形成时，白矮星由非常热的碳和氧原子核液体构成，它们处于电子的海洋中。随着白矮星冷却，其碳-氧核心被认为会结晶成一种极其致密的类金刚石结构。
白矮星有一个稳定存在的最大质量，因此并非所有恒星都以白矮星结束其演化。随着白矮星质量的增加，其体积减小。这增大了电子态之间的动量间隙，并且由于电子受泡利不相容原理 (exclusion principle) 的限制，它们被迫进入更高的动量态。在质量足够高的白矮星中，大多数电子将达到相对论速度，这极大地改变了状态方程。
动量空间中的态密度仍由方程 (8.12) 给出。考虑到电子的两个自旋态，p 的密度为
eg(p) = V p2
π2¯h3 .
(13.91)
当电子高度相对论性时，其能量为 ε = p，因此 ε 的态密度为
g(ε) = V ε2
π2¯h3 .
(13.92)
将此密度积分到费米能量 εF，我们求得 εF 与体积 V 中的总电子数 Ne 之间有如下关系：
Ne =
V
π2¯h3
Z εF
0
ε2 dε =
V
3π2¯h3 ε3
F .
(13.93)
由此得出 εF =
3π2¯h3 Ne
V
1
3 ，电子的总能量为
E =
V
π2¯h3
Z εF
0
ε3 dε =
V
4π2¯h3 ε4
F = 3
4(3π2)
1
3 ¯hN
4
3
e V −1
3 ,
(13.94)

470
恒星
因此，对于相对论性简并电子气，压强为
P = −dE
dV = 1
4(3π2)
1
3 ¯h
Ne
V
4
3
.
(13.95)
将数密度代入关系式 (13.82)，Ne
V = ξρ
mp ，我们得到
P = 1
4(3π2)
1
3 ¯h
ξρ
mp
4
3
,
(13.96)
或者更简洁地写为
P = K2ρ
4
3 ,
(13.97)
其中 K2 = 1
4(3π2)
1
3 ¯h

ξ
mp
4
3 。
现在，如果我们令电子简并压和引力压强（如方程 (13.86) 所示）相等，可以得出
K2ρ
4
3 = GM
2
3 ρ
4
3 .
(13.98)
密度从这个方程中消去了，因此我们必须得出结论：当 M 太大时，电子简并压无法与引力压相抗衡。如果白矮星中的电子具有相对论性速度，那么它就不存在稳定的密度。
白矮星的最大质量被称为钱德拉塞卡极限(Chandrasekhar limit)，以首先计算它的天体物理学家苏布拉马尼扬·钱德拉塞卡(Subrahmanyan Chandrasekhar)命名。根据方程 (13.98)，我们可以估算出最大质量为
MCh =
K2
G
3
2
≃
¯h
G
3
2 ξ
mp
2
≃4 ξ2 M⊙.
(13.99)
钱德拉塞卡极限依赖于白矮星的组成成分。更精确的分析估计该极限为
MCh = 5.83 ξ2 M⊙.
(13.100)
对于由氦、碳或氧组成的白矮星，ξ = 0.5，所以 MCh = 1.46M⊙。
质量超过这个极限的白矮星必然会进一步坍缩。天文学家从未发现过质量超过理论钱德拉塞卡极限的白矮星。（在恒星生命的后期阶段，由于辐射压的作用，大量物质可能会损失，因此会演变成白矮星的恒星的质量上限并不确切知晓，可能在 6M⊙ 到 8M⊙ 之间。）
13.7.2
大质量恒星的引力坍缩
正如我们所见，当一轮核聚变的燃料耗尽时，恒星的核心便会收缩。对于质量足够大的恒星，温度将升高，直到触发下一阶段的聚变。在质量最大、超过约八个太阳质量的恒星中，核聚变有六个主要阶段：氢燃烧、氦燃烧、碳燃烧、氖燃烧、氧燃烧和硅燃烧，其中前一轮核反应的灰烬成为下一轮核反应的燃料。

晚期演化
471
核燃烧成为下一轮核反应的燃料。更重的元素具有更大的核电荷 (Z)，因此要发生聚变反应就必须克服更高的库仑势垒。随着 (Z) 的增加，核聚变所需的温度也随之升高。在新恒星形成的气体云中，大多数比氦更重的元素是在质量超过25倍太阳质量的恒星内部锻造而成的。1952年，人们在某颗恒星的光谱中探测到了 (Z = 43) 的锝元素（technetium）谱线，这给出了元素创生必定是一个持续过程的确凿证明。锝没有稳定同位素，其中寿命最长的同位素是 (^{98}\text{Tc})，半衰期仅为420万年。

稳定的
核素
(Z = N)
中子
数
(N)
质子数 (Z)
s过程
r过程
从稳定谷
偏离出去

图13.9　重核通过持续吸收中子以及随后的β衰变形成。在巨星的核心中，这一过程以慢中子过程（s-process）进行，产生靠近稳定谷的同位素；在超新星爆发中，这一过程以快中子过程（r-process）进行，产生远离稳定谷的富中子同位素。

核聚变所需的温度大致正比于发生聚变的原子核电荷的乘积，不过具体细节由核能级决定。氢聚变发生在大约 (1.6 \times 10^7,\text{K})，氦聚变约在 (1.0 \times 10^8,\text{K})，而碳聚变则发生在核心温度达到 (0.6 \text{–} 1.0 \times 10^9,\text{K}) 的巨星中。主要的碳聚变过程有：

[
\begin{aligned}
^{12}\text{C} + ^{12}\text{C} &\rightarrow , ^{20}\text{Ne} + ^4\text{He} \
^{12}\text{C} + ^{12}\text{C} &\rightarrow , ^{23}\text{Na} + ^1\text{H} \
^{12}\text{C} + ^{12}\text{C} &\rightarrow , ^{23}\text{Mg} + n .
\end{aligned}
\tag{13.101}
]

前两个过程释放能量。第三个过程是吸热的，但在这种极高的温度下仍会发生，而且它很重要，因为它产生了自由中子。这些中子很容易穿入周围所有的原子核，因为没有库仑势垒阻挡它们被吸收。新的同位素就这样被创造出来。一个原子核可以吸收若干个中子，直到变成一个中子过剩的不稳定核。这个不稳定的核将……

472
恒星
然后发生β衰变，其中一个中子将转化为质子。许多较轻元素的同位素就是这样形成的。这对于质子数Z为奇数的元素的合成尤其重要。该过程被称为慢过程或s过程（s-process），因为通常两次中子吸收之间的间隔长于所产生任何不稳定核的β衰变半衰期。因此，s过程中产生的新核将位于稳定谷（valley of stability）附近，如图13.9所示。
惰性氢
氢燃烧壳层
氦燃烧壳层
惰性碳
碳燃烧核心
惰性氦
图13.10 在其晚期阶段，一颗在其核心中聚变碳的巨星可能还包含一个聚变氦的壳层和一个聚变氢的壳层，如图所示。恒星内部各区域的相对大小未按比例绘制。

图13.10

随着核心温度稳步上升，条件可能变得适于在核心周围的壳层中进行物质燃烧。例如，取一颗在其核心中燃烧碳的恒星。包裹核心的是一个温度尚不足以发生聚变的碳壳层。这层惰性碳被一个燃烧氦的壳层所包围。随着这些氦的耗尽，燃烧壳层将逐渐向外移动，它所产生的碳灰将积聚在惰性碳壳层周围，从而增加其半径。在燃烧氦壳层之外，会有一个因温度过低而无法聚变的氦壳层。再往外，会有一个燃烧氢的壳层，随着它聚变并向下方添加氦而向外移动。在燃烧氢壳层之外，便是恒星的氢包层。这样一颗恒星的壳层结构示意图如图13.10所示。

图13.10

随着每一阶段核燃烧的耗尽，核熔炉的温度会升高，从而有可能发生范围越来越广的聚变反应。这些反应的分析变得日益复杂；原子核可能通过聚变反应逐步构建起来

晚期演化
473
并在高能伽马射线的作用下离解。在每一轮核燃烧过程中，每种同位素的浓度都趋向于核统计平衡状态。碳燃烧会产生一个由氧、氖和镁组成的核心。随后，在温度达到约 1.5 × 10⁹ K 时，经由以下反应发生氖燃烧：
20Ne + 4He →24Mg + γ .
(13.102)
紧接着是在 2.0×10⁹ K 时发生的氧燃烧，主要涉及以下反应：
16O + 16O →28Si + 4He
16O + 16O →31P + 1H .
(13.103)
大质量恒星核聚变的后期阶段产生的能量显著减少，且其中很大一部分能量以中微子和反中微子发射的形式损失掉，因此这些阶段持续的时间相应地更短。碳燃烧持续数百年，而氖燃烧仅需几年，氧燃烧则持续大约八个月到一年。硅燃烧的最后阶段发生在 3.5 × 10⁹ K 的温度下，仅持续数天，在此过程中，大部分核心转化为 ⁵⁶Ni。这几乎是恒星核反应的自然终点。

原子核 ⁵⁶Ni 是不稳定的。若有足够时间，它会经历两阶段的逆β衰变以减少其质子数 Z，以六天的半衰期衰变成 ⁵⁶Co，随后 ⁵⁶Co 再以 77 天的半衰期衰变成 ⁵⁶Fe。正如第 11 章所讨论的，铁原子核 ⁵⁶Fe 是所有原子核中最致密、因而也是最稳定的，所以在涉及铁核或其邻近核素的聚变反应中不再释放能量。一旦达到此阶段，恒星便无法通过核聚变产生更多能量，而没有持续的能量释放，阻止恒星引力坍缩的向外的压力便无法维持。

此时，最终的核心坍缩开始了。温度持续上升，直至约 10¹¹ K 时，热辐射由具有足够能量的伽马射线组成，足以将核心中的镍、铁及其他致密原子核分解为自由核子。核心达到核密度，在此密度下核物质抵抗进一步压缩，坍缩的核心发生反弹。此时已释放出如此巨大的引力结合能，以至于恒星在一次超新星爆发中将自己炸得粉碎，其亮度可能堪比一个包含 1000 亿颗恒星的整个星系。

随着超新星爆发，火球中的原子核被来自已被伽马辐射离解的原子核所产生的中子所包围。这些中子通过所谓的快过程，或 r 过程，构建出元素周期表中更重的元素，因为即使在衰变前，不稳定原子核也可能吸收大量中子。由此产生的富中子同位素远离稳定谷，如图 13.9 所示。

许多对我们而言意义重大的元素，例如金和铀，只能在超新星爆发中产生。这类元素有数百种天然存在的同位素。天体物理学家如今已理解每种同位素形成的详细核过程，并能定量地解释其宇宙丰度。主要的元素形成场所如图 13.11 所示。亦请回顾图 11.6，该图展示了太阳系中所有元素的丰度。

在一次超新星爆发之后，恒星的核心可能已转变为一个半径约 15 公里——大约相当于一个大城市的规模——的天体，但其

474
恒星
H
He
Na
Rb
Fr
Cs
K
Li
Mg
Sr
Ra
Ba
Ca
Y
Sc
Zr
Hf
La
Ce
Pr
Nd
Pm
Sm
Eu
Gd
Tb
Dy
Ho
Er
Tm
Yb
Lu
Ac
Th
Pa
U
Np
Pu
Am
Cm
Bk
Cf
Es
Fm
Md
No
Lr
Ti
Nb
Ta
V
大爆炸
超新星
小恒星
宇宙射线
大恒星
Mo
W
Cr
Tc
Re
Os
Mn
Ru
Fe
Ir
Rh
Co
Au
Pd
Ag
Cd
Hg
Pt
Ni
Cu
Zn
In
Tl
Ga
Sn
Pb
Ge
Sb
Bi
As
Te
Po
Se
I
At
Br
Xe
Rn
Kr
B
C
N
Ne
O
F
Al
Si
P
Ar
S
Cl
Be
图13.11 元素周期表，各元素根据其来源进行颜色编码。（元素Li、Be和B的主要来源是较重的核，如C、N和O，在宇宙射线撞击下分解的过程，该过程称为散裂(spallation)。）
原子核的密度。这个非凡的天体被称为中子星(neutron star)。如果坍缩核心的质量超过太阳质量的两到三倍，其坍缩就根本停不下来，结果就是一个黑洞(black hole)。

13.8 中子星
我们在13.7.1节中看到，超过一定质量的白矮星是不稳定的。质量更大的恒星会继续其引力坍缩，并最终以超新星的形式爆炸。在坍缩的最后几毫秒内，电子的费米能量变得非常高，以至于电子和质子通过弱力相互作用，发生逆贝塔衰变。电子和质子合并成中子，并放出中微子：
e⁻ + p → n + νₑ.
(13.104)
在极高的压力和温度下，中子集体具有的能量比质子低，因为它们之间没有静电相互作用。其结果是，恒星的核心转化成一个几乎完全由中子组成的天体。这就是超新星爆发将恒星外层猛烈地喷射到太空深处之后，所留下的异乎寻常的天体。形成的中子星，其密度可与原子核的密度相比拟。实际上，这颗恒星已将自己变成了一个巨大的原子核。仅仅一茶匙的中子星物质就重约二十亿吨。至少，这是一茶匙中子星物质的平均重量。中子星中心的密度比其外壳的密度要大得多。

与白矮星的最大质量类似，中子星也有一个最大质量，但由于这类天体的物理性质如此奇特，这个极限尚未被非常确切地了解。然而，它肯定在2–3M⊙范围内。质量超过这个值的中子星将不可避免地坍缩形成黑洞。目前，对于中子星J0348+0432，其最高且精确测定的质量为2.01 ± 0.04 M⊙。

中子星
475
外壳 0.3–0.5 km
内壳 1–2 km
内核 0–3 km
外核 ~ 9 km
图13.12 中子星的内部结构。外壳由类似白矮星物质的晶格组成，并由电子简并压力支撑。内壳由重原子核晶格和自由中子超流体构成。外核由中子超流体加上少量超导质子组成，并由中子简并压力支撑。内核的成分尚不确定，可能是某种夸克–胶子等离子体。

图13.12

我们或许会天真地认为，中子星在核密度下是由中子简并压力支撑的，因此其半径可以通过与白矮星相同的方法确定，只需在计算中将中子替换为电子。正如方程(13.90)所给出的，白矮星的半径R_WD与m_e成反比，这一论证将意味着中子星的半径为
R_NS ≃ (m_e / m_n) R_WD ,
(13.105)
这比白矮星的半径要小得多，因为m_n ≃ 1838 m_e。然而，按此计算得出的仅3 km的半径，将使中子星处于其施瓦西半径(Schwarzschild radius) 2GM之内，对于具有钱德拉塞卡质量的中子星，施瓦西半径约为4.5 km。具有此半径的中子星不可能存在，因为它会立即坍缩成黑洞。解决之道似乎是，当中子被压缩到超过核密度时，强力会在中子之间产生强排斥作用，正是这种排斥力支撑中子星抵抗引力坍缩。一般认为中子星的半径约为15 km，这大约是质量为2.5 M_⊙的中子星的施瓦西半径的两倍。

476

恒星

图13.12描绘了一颗中子星的结构。据信，这些奇异的天体拥有一个厚度仅几厘米的炽热等离子体大气层，包裹着由类似白矮星物质构成的外壳，其密度约为10⁹ kg m⁻³，由重核和简并电子海组成。向内深入，我们在中子滴落密度处抵达内壳。原子核内的中子比例和自由中子密度急剧增加，直至达到约1.7 × 10¹⁷ kg m⁻³的转换密度。我们现在进入了外核，它几乎完全由中子以及少量质子、电子和μ子组成。构成中子星中心内核的物质的物理结构尚无定论。已有多种猜测，包括致密堆积的奇异重子以及π介子和K介子的玻色-爱因斯坦凝聚体(Bose–Einstein condensates)。另一种可能性是它由某种夸克-胶子等离子体(quark–gluon plasma)构成。

图13.12

13.8.1 脉冲星

恒星坍缩时，其自转速率必定急剧增加。我们可以通过设想太阳坍缩成一颗半径15公里的恒星来估算新形成的中子星的角速度ω。如果没有质量损失，中子星的质量将为MNS = M⊙。太阳的角动量为
J⊙∝M⊙R²⊙ω⊙。
(13.106)

由于角动量守恒，中子星的角动量JNS等于J⊙，因此中子星的自转周期τNS将为
τNS = (RNS/R⊙)² τ⊙ = (15 / 7 × 10⁵)² (2.1 × 10⁶) s ≃10⁻³ s ，
(13.107)

我们在这里用到了太阳的自转周期为24.5天，即2.1 × 10⁶秒。这似乎是对新诞生中子星自转速率的一个合理估算。中子星的磁场强度极其巨大，大约是地球磁场的一万亿倍。与地球一样，磁极不一定与自转极重合，因此磁偶极子场围绕中子星旋转。这个随时间变化的磁场会产生一个电场，将电子和其他带电粒子从中子星的磁极向外加速，产生两束强烈的辐射，从两极射入太空。这些射束被称为脉冲星(pulsars)。它们像宇宙灯塔一样扫过天空，如图13.13所示。在地球上，当脉冲星的辐射束指向我们时，射电天文学家在每次自转时都会探测到一个无线电波脉冲，这种情况可能每秒发生多次。

旋转的磁场对中子星的自转起到了制动作用，它所产生的脉冲星将损失的自转能传递给周围的星云。中子星的角速度逐渐减小。蟹状星云(Crab Nebula)内的中子星大约形成于1000年前，现在每秒旋转约三十圈。据计算，蟹状星云中旋转中子星损失的自转能量与照亮该星云所需的能量相符。脉冲星的寿命是有限的。大约在一百万年后，中子星的自转周期将增加到大约一秒，届时将没有足够的能量来驱动脉冲星，它将从视野中消失。

超新星
477
图13.13 脉冲星是由快速旋转的中子星产生的辐射束。
处于双星系统中的中子星与普通恒星为伴时，可能会从伴星吸积物质。当老化的伴星抛射其外层物质，或伴星膨胀成为巨星时，就可能发生这种情况。此时，中子星周围可能会形成一个吸积盘。当物质从吸积盘内缘沿螺旋轨道落到中子星表面时，中子星会被加速旋转，从而使其沉寂已久的脉冲星复活。这被认为是毫秒脉冲星的起源，观测显示这类脉冲星的周期极短。目前已知旋转周期最短的脉冲星是PSR J1748-2446ad，其每秒自转高达716次，令人难以置信。

13.9 超新星
一颗突然出现的恒星，仿佛凭空诞生，被称为新星，即新出现的星。天文学家经常观测到这类事件，其观测历史已有数千年。新星会逐渐变暗，最终消失。20世纪30年代初，沃尔特·巴德(Walter Baade)和弗里茨·兹威基(Fritz Zwicky)辨认出一种亮度高得多的恒星爆发，并将其命名为超新星。他们在其他星系中识别出几个实例，并开始了系统性的搜索，以期发现更多。直到不久前，天文学家能研究的样本还很少。如今，每年都能发现并详细研究数百个超新星。近几十年来，自动搜寻项目的部署，如帕洛马瞬变工厂(Palomar Transient Factory, PTF)，以及业余天文爱好者团队的系统性搜寻，已大幅改变了样本数量。随着计算能力的提升，对超新星爆发的计算机模拟也在不断进步。因此，超新星物理学是一个飞速发展的领域。20世纪50年代，根据超新星展示的光谱线引入了一种宽泛的分类。随着可供分析的样本数量激增，分类系统已不断扩展，纳入了许多不符合标准模式的特殊案例。

我们现在知道，导致超新星爆发的主要机制有两种。
Ia型超新星由一颗接近钱德拉塞卡极限的白矮星发生失控的热核爆炸而产生。II型超新星由大质量恒星的核心坍缩而产生。

478
恒星
一颗耗尽了核燃料的恒星，如第13.7.2节所述。II型超新星的终极能量来源是引力束缚能的释放。

很大一部分恒星存在于双星或多星系统中。这类恒星之间的相互作用可能会变化多端且复杂，尤其是在大质量恒星演化的后期超巨星阶段。这些相互作用对超新星可能发生的环境有显著影响。越来越清楚的是，分类体系中的许多细分仅仅是由环境因素造成的。例如，一颗经历了核心坍缩的恒星，其包层可能富含氢，或富含氦，也可能因为与伴星的相互作用而完全失去了包层，而这当然会影响超新星光芒中出现的谱线。超新星的外观也会被爆发恒星周围区域中的任何物质所改变，比如恒星在更早的、较弱的喷发中可能抛射出的物质。

双星系统内的相互作用也被认为对Ia型超新星的起源至关重要，尽管对其精确机制仍有争论。双星系统中质量较大的恒星可能演化成白矮星，而稍后一些时候，它的伴星会膨胀成为红巨星。白矮星是一颗不再进行核聚变反应的死亡之星，但当它绕红巨星运行时，可能会从红巨星的外层吸积物质。这些物质被吸引到白矮星上，并被其强大的引力压缩，在其表面周围形成一个壳层。最终，达到临界密度，壳层在巨大的核聚变爆炸中爆发，这次爆炸可能在星系的另一端都能看到。我们将这样的事件视为新星；银河系中每年大约出现十颗。（另有大约30颗被认为因尘埃和气体云的遮挡而不可见。）随着白矮星持续从伴星吸引物质，导致新星的过程将会重复。爆发之间的间隔通常为几千年，但也可能短至一二十年。例如，恒星RS Ophiuchi在1898年、1933年、1958年、1967年、1985年和2006年都曾爆发。天体物理学家尚不确定在此过程中白矮星的质量是稳步增加，还是由于每次爆炸中的烧蚀而减少。

当恒星位于主序时，其内部的任何温度升高都会增加热压力，这就像一个调节温度和聚变速率的阀门。但这种机制无法在白矮星中发生。当白矮星的质量接近钱德拉塞卡极限(Chandrasekhar limit)时，其表面积吸物质壳层的爆燃可能会触发其核心的碳聚变。白矮星强大的引力挤压着核心。核心处于高度简并态，并由电子简并压支撑，这种压力本质上与温度无关，因此碳聚变释放的任何能量都会导致温度急剧上升，而这反过来又导致聚变速率急剧增加。由此产生的失控热核爆炸会将白矮星彻底摧毁，它作为一颗Ia型超新星点亮，其亮度可能高达先前新星的100,000倍。所有Ia型超新星被认为具有相似的内禀光度，自20世纪90年代以来，它们一直被用作标准烛光²来确定遥远星系的距离。自1998年以来，对遥远Ia型超新星爆发的研究已被用来证明宇宙的膨胀正在加速。然而，最近有人对一些疑虑
² 严格来说，它们是“可标准化的”。它们的内禀光度可能变化高达10倍，但其峰值内禀光度可以从描绘其光度随时间下降的光变曲线中推算出来。

超新星
479
这对此种距离测定方法的可靠性提出了质疑。一些被归类为Ia型的超新星，被认为是由两颗白矮星组成的双星系统合并所致，在这种情况下，每个双星系统的总质量和合并过程都会不同，由此产生的超新星光度也会有所变化。如果这种说法正确，将对在最遥远尺度上的距离测定产生影响。
1987年，天文学家目睹了自望远镜时代开启以来距离最近的一颗可见超新星。该天体是一颗II型超新星，被称为SN1987A。它位于一个被称为大麦哲伦云(Large Magellanic Cloud)的矮星系中，该星系受引力束缚，是我们的卫星星系，距离我们约168,000光年。即使在这么远的距离，这颗超新星在南半球的天空中仍显现为一颗中等亮度的恒星。一颗相对较近的超新星的出现，为天文学家提供了一个检验他们关于这些宇宙灾变想法的机会。几天之内，SN1987A的前身星就在摄影档案中被找到。这颗被命名为Sanduleak −69◦202的恒星是一颗蓝超巨星，因此该超新星是核心坍缩的结果，正如对II型超新星所预期的那样。尽管如此，它还是具有一些非典型特征。
核心坍缩会产生强烈的中微子和反中微子流。在核心内部不可思议的高压下，质子和电子通过逆贝塔衰变结合形成中子，并在此过程中释放出中微子，这在能量上是有利的：
p + e⁻ → n + νₑ .
(13.108)
核心内部的对流可能会将极端富中子的原子核带到压力稍低的区域，在那里它们迅速发生贝塔衰变并释放出反中微子：
n → p + e⁻ + ν̄ₑ .
(13.109)
然而，另一个过程甚至更为重要。坍缩核心中的伽马射线在等离子体中被离子散射时，具有足够的能量(> 1.02 MeV)来形成电子-正电子对。这些电子和正电子中的一部分随后湮灭，产生中微子-反中微子对（包含全部三种类型）：
e⁻ + e⁺ → ν + ν̄ .
(13.110)
在核心坍缩的几秒钟内，大约会创造出10⁵⁸个中微子和反中微子。在对超新星进行建模时，最初的爆发总是会停滞下来，而这股巨大的中微子爆发正是重新点燃超新星冲击波、将这颗垂死恒星撕碎所必需的。在某一瞬间，中微子会被困住并形成简并气体，填满所有可用的量子态，就像金属中的电子一样。
在SN1987A出现之前的两到三个小时，位于日本、美国和俄罗斯的中微子观测站仅在十秒钟内就总共探测到了24个反中微子。这是人类首次探测到来自太阳系外的中微子。据估计，银河系中大约每30年左右就应该发生一次超新星爆发，但其中大部分会被介于其间的尘埃云遮挡而无法看见。天文学家上次观测到银河系超新星是在1604年。下一次发生超新星时，当今更精密的中微子观测站应该能轻易捕捉到。仅超级神冈(Super-Kamiokande)探测器一个设备，预计就能观测到来自我们星系中超新星的一个包含约10,000个中微子和反中微子的脉冲。

480
恒星
1000
2000
35
36
37
38
log10(光度 [erg s–1])
39
40
41
44 Ti
55 Fe
56 Co
57 Co
60 Co
时间 [天]
3000
4000
5000
M(55Co) = 1.30 x 10–4 M
M(56Ni) =6.90 x 10–2 M
M(57Ni) =2.43 x 10–3 M
M(60Co) = 4.00 x 10–5 M
M(44Ti) =3.80 x 10–5 M
图13.14 SN1987A的光变曲线（点），与长寿命放射性核素44Ti、55Fe、56Co、57Co和60Co的联合辐射发射相匹配。

图13.14

SN1987A发出的光在其出现后的几个月里逐渐减弱。其光度的下降与我们的理论理解非常吻合，因为它与56Ni →56Co的衰变半衰期（6天）以及随后56Co →56Fe的衰变半衰期（77.3天）相匹配。图13.14将SN1987A光度的下降与超新星产生的各种同位素的放射性衰变预期结果进行了比较。在大约1000天之前，光变曲线与56Co的衰变相吻合。目前从这颗超新星遗迹接收到的大部分光，被认为来自钛同位素44Ti的衰变，其半衰期为60年。

图13.14

天体物理学家惊讶地发现，SN1987A的前身星是一颗蓝超巨星，质量为20M⊙，半径为40R⊙，而不是恒星演化理论所预期的半径约为1000R⊙的红超巨星。1990年，人们发现这颗超新星遗迹位于一个奇特的三环系统内，如图13.15所示。SN1987A的这些及其他不寻常的特征如今已经有了令人信服的解释。菲利普·波兹亚德洛夫斯基(Philipp Podsiadlowski)、托马斯·莫里斯(Thomas Morris)和娜塔莎·伊万诺娃(Natasha Ivanova)提出，这颗前身星起初是一个双星系统，包含质量分别约为15–20M⊙和5M⊙的两颗恒星，它们以至少十年的周期相互绕转。

图13.15

当质量较大的恒星进入红超巨星阶段时，它将伴星吞没在其外层包层中。弥散包层产生的摩擦导致两颗恒星螺旋式相互靠近，直到大约20,000年前，伴星与红超巨星的核心发生碰撞。这次碰撞将核心物质混合到红超巨星的包层中，与增加的质量一起，导致这颗恒星从红超巨星转变为蓝超巨星。关于这次并合的流体动力学计算机模型显示，当伴星

超新星
481
图13.15 左：哈勃太空望远镜(HST)拍摄的SN1987A图像，显示中心超新星周围的三个环。右：从不同角度展示三环系统三维结构的艺术家想象图。

图13.15

在红超巨星内部螺旋运动时，其包层被加速旋转，在膨胀的主星周围形成一个盘。同时，伴星的内旋加热了包层，并导致大约0.5M⊙的物质被抛射出去。这些物质的逃逸受到赤道面盘的阻碍，物质浓度最高的区域以相对于盘面±45°的角度离开。这在盘面上方和下方形成了外流环。并合之后，红超巨星内部的温度升高，它收缩成为一颗蓝超巨星，留下盘面变成一个数倍太阳质量的外流第三环。最终结果就是一个三环系统，正如图13.15中哈勃太空望远镜图像所示。

图13.15

1994年9月24日
1999年1月8日
2003年1月5日
2003年8月12日
2001年3月23日
2001年12月7日
1999年4月21日
1995年3月5日
1996年2月6日
2000年2月2日
2000年6月16日
2000年11月14日
2003年11月28日
1997年7月10日
1998年2月6日
图13.16 哈勃太空望远镜拍摄的SN1987A时序图像。爆炸产生的激波正在追上并激发稠密的中心环状物质，这些物质是在超新星爆炸前20,000年从该恒星抛射出来的。

图13.16

482
恒星
图13.16展示了SN1987A外观的演变。超新星爆炸中抛出的物质现已抵达由其前身星在2万年前抛射出的稠密内环，气团在冲击的激发下正变得明亮。天文学家们正密切关注着SN1987A是否留下了一颗中子星。到目前为止，尚未发现。

图13.16

13.9.1
伽马射线暴
1963年，《禁止核试验条约》签署。为监督条约遵守情况，美国在四年后发射了一系列卫星，用以探测作为核爆炸标志性特征的伽马射线。这些卫星立刻就开始偶尔探测到伽马射线闪光，即人们所说的伽马射线暴（GRB）。它们随即被纳入调查。

到1973年，情况已然明朗，这些伽马射线源自太空，相关研究也随之被军方解密。GRB通常仅持续数秒，因此揭示其奥秘被证明颇具挑战。成功与否取决于在卫星探测到伽马射线暴后，迅速部署望远镜研究其馀辉。自1996年意大利-荷兰合作的BeppoSAX卫星发射以来，这已成为可能。该卫星旨在非常快速且精确地定位GRB，从而使光学望远镜能迅速跟进观测。这些光学馀辉中的光谱吸收线呈现高度红移，它们是GRB事件的光线穿过遥远的居间星系时产生的。现已清楚，GRB是宇宙中最剧烈爆炸的产物。它们极为罕见，但威力如此强大，以至于我们能从数十亿光年之外的宇宙另一端探测到它们。

GRB被分为两类。大多数事件持续数秒，典型持续时间为20秒，被称为长GRB。另一类是短GRB，持续时间不足两秒。一次GRB中的能量是巨大的。伽马辐射的各向同性发射将需要一个不可行的能量源，其能量将远超即使是最亮的超新星。现在普遍认为，GRB是高度聚焦的辐射束。当一次灾变事件朝我们的方向发射出一束强烈的伽马辐射时，我们便看到了一次GRB。这两类GRB被认为源于两种不同类型的事件。

部分长GRB已被证认出对应于最亮的一类超新星，即极超新星（hypernovae），它们至少比普通超新星亮十倍。天体物理学家得出结论，长GRB是极质量恒星核心坍缩形成黑洞的结果。将整个恒星挤压成一个黑洞十分困难，因为以宇宙标准衡量，黑洞极其微小，直径仅数公里。坍缩中的恒星旋转得越来越快，尽管极点附近的大量低角动量物质容易形成黑洞，但赤道附近的高角动量物质则产生了一个快速旋转的吸积盘。粘滞过程使得该盘物质迅速被吸积到新形成的黑洞中，但部分物质在极点处被抛射出去。这些物质被压缩到超过核密度，并聚焦成两股以接近光速向外喷射的喷流。喷流中的电子被加速并发出同步辐射，产生两束极强的伽马射线。位于宇宙另一端、恰好直视这架伽马射线炮口的文明，将看到一道短暂的辐射痕迹，标志着一颗可能达40倍太阳质量（40M⊙）的巨星的死亡，以及一个黑洞的形成。

密度–温度图
483
在某些情况下，极向伽马射线束可能无法穿透坍缩中的恒星物质，因此并非所有极超新星都与伽马射线暴（GRB）相关。也有可能一些质量最大的恒星在坍缩形成黑洞时悄无声息，根本不产生超新星。它们会直接从视野中消失。
短伽马射线暴的研究甚至更加困难，因为它们持续时间极短且能量低得多。最近它们被与同样远在数十亿光年之外的暗淡可见光余辉联系起来。有非常有力的证据表明，这些事件源于两个致密天体的并合，这两个天体可能是两颗中子星，或者是一颗中子星和一个黑洞。

13.10 密度–温度图
在13.4.3节我们发现恒星满足方程(13.52)，这意味着
ρ(r) =
1
(Gµmp)3
T 3(r)
M2 .
(13.111)
这个方程将恒星内部每一点的密度与温度的立方联系起来。取对数可得 log ρ = 3 log T −2 log M + 常数，因此在 log ρ 对 log T 的图上，适用于质量为 M 的恒星的值将落在一条斜率为3的直线上，如图13.17所示。这就是恒星的质量轨迹。图中显示了等间距的代表性线条，对应的恒星质量分别为0.1M⊙、M⊙、10M⊙和100M⊙。（已知恒星演化过程中的质量损失非常重要，尤其是对于大质量恒星，但为简单起见，此图假设恒星质量保持不变。）

图13.17

本章的大部分内容都可以在此图中得以概括。左侧是白矮星区域，在那里电子简并压与引力压相平衡。在这个区域上方，我们达到临界密度，此时简并电子达到相对论性速度，白矮星变得不稳定而坍缩成中子星。在右下方的区域，恒星内部的辐射压大于热压。当辐射压占主导地位时，恒星是不稳定的。这限制了恒星的质量大约不超过120M⊙。恒星质量轨迹所在的斜带就位于这两个极端之间。
图上的弯曲白线显示了各轮核聚变所需的温度和密度。最左边的曲线代表氢聚变。低温端对应于通过质子-质子链进行的能量产生，并显示出方程(13.59)所给出的温度依赖关系，其指数 n = 4。高温端则陡峭得多，对应于通过CNO循环进行的聚变，其温度依赖关系由方程(13.62)给出，指数 n = 18。当原恒星在引力作用下收缩时，其核心的压强-温度条件沿着相应的质量轨迹上升，直到它们到达氢聚变线，能量产生随之开始。在此后的整个主序星寿命期间，核心停留在这一点。当我们从核心向外穿过包层时，恒星内部的密度和温度沿着质量轨迹回归到图像的左下方。
当恒星耗尽核心的氢燃料时，核心收缩并沿质量轨迹进一步向右上方移动。此时轨迹的走向和恒星的命运取决于它的质量。低质量轨迹，例如0.1M⊙的轨迹，会接近

484
恒星
10
8
1 M
1 M
10 M
100 M
MCh
Mmax
0.1 M
Mmin
0.1 M
6
4
2
太阳
0
6
7
8
log [T(K)]
log [ (g cm–3)]
9
10
图13.17 密度-温度图。左上方的深灰色三角形区域是电子简并压与引力压平衡的区域。在该区域的顶部，白矮星变得不稳定并坍缩形成中子星。右下方黑色区域中，恒星因辐射压而不稳定。稳定恒星存在于这两个极端之间的对角线带上。

图13.17

状态方程急剧硬化，方程(13.52)不再适用。这些轨迹弯曲进入白矮星区域，白矮星的恒星核心达到由电子简并压支撑的最大密度。然后它们在恒定密度下逐渐冷却，并向左水平移动。
随着一个太阳质量恒星的耗尽核心收缩，它沿着M⊙轨迹移动，直到与代表适合氦聚变条件的第二条弯曲白线相交。然后该核心停止收缩，直到氦燃料耗尽。当核心中氦在燃烧时，恒星外层某一壳层中的条件可能适合氢燃烧，此时质量轨迹与氢聚变线相交。当氦耗尽后，恒星再次沿着质量轨迹进入白矮星区域。

密度-温度图
485
红矮星
棕矮星
白矮星
白矮星
红巨星
红巨星
行星状星云
恒星摇篮
红矮星
棕矮星
恒星摇篮
II型超新星
超新星
类日恒星
黑洞
黑洞
超级壳层
原恒星
原恒星
原恒星
原恒星
II型超新星
IA型超新星
原恒星
原恒星
原恒星
蓝超巨星
蓝超巨星
蓝超巨星
蓝巨星
中子星
蓝超巨星
图13.18 恒星演化。

图13.18

更大质量恒星的核心在较低密度下就能达到核聚变所需的温度。在其核心的氢和氦耗尽后，这些恒星沿着其质量轨迹前进，直到触发新一轮的核聚变。这类恒星除了核心的聚变外，还可能在多个壳层中燃烧核燃料。这些恒星的核心最终会达到不稳定状态，发生超新星爆炸，留下中子星或黑洞。不同质量恒星的最终命运如图13.18所示。

图13.18

486
恒星
13.11
延伸阅读
关于恒星理论的入门介绍，参见
R.J. Tayler, 《恒星：结构与演化》(The Stars: Their Structure and Evolution) (第二版), 剑桥: CUP, 1994.
D. Prialnik, 《恒星结构与演化理论导论》(An Introduction to the Theory of Stellar Structure and Evolution) (第二版), 剑桥: CUP, 2010.
关于恒星和超新星中核合成的详尽论述，参见
D. Arnett, 《超新星与核合成：从大爆炸至今的物质史探究》(Supernovae and Nucleosynthesis: An Investigation of the History of Matter, from the Big Bang to the Present), 普林斯顿: PUP, 1996.
关于致密星（包括白矮星、中子星和黑洞）的全面综述，参见
M. Camenzind, 《天体物理学中的致密天体：白矮星、中子星与黑洞》(Compact Objects in Astrophysics: White Dwarfs, Neutron Stars and Black Holes), 柏林，海德堡: Springer, 2007.
关于超新星和伽马射线暴的阐述，参见
P. Podsiadlowski, 《行星、恒星与恒星系统中的超新星和伽马射线暴：第4卷，恒星结构与演化》(Supernovae and Gamma-Ray Bursts in Planets, Stars and Stellar Systems: Vol. 4, Stellar Structure and Evolution), T.D. Oswalt 和 M.A. Barstow 编, 第693-733页, 多德雷赫特: Springer, 2013.

14_Cosmology

14
宇宙学
14.1
爱因斯坦的宇宙
1917年，爱因斯坦(Einstein)开创了现代宇宙学时代，当时他研究了广义相对论对整个宇宙结构的影响。爱因斯坦的出发点是，我们在宇宙中并不占据特殊位置，且在最大尺度上，宇宙中充满了密度均匀的物质。他还假设宇宙是永恒的，并且在宇宙时间尺度上是不变的。他很快意识到，要找到一个符合这最后一个假设的模型，他需要修改广义相对论的场方程，增加一个额外的项。这一项具有Λgµν的形式，其中Λ被称为宇宙学常数，gµν是时空度规。与爱因斯坦张量一样，gµν是一个协变守恒的对称二阶张量。它是唯一可以在不破坏场方程(6.47)协变性的情况下添加的项。修改后的爱因斯坦方程为
Gµν −Λgµν = 8πGTµν 。
(14.1)
在牛顿引力的语境下，宇宙项在空间中任意两个物体之间引入了一个额外的力。这是一种与距离成正比的额外普适力。根据Λ的符号，这个力可能像引力一样是吸引的，也可能是排斥的。此外，由于这个力不像通常的引力那样随距离的平方衰减，即使它在短得多的长度尺度上完全无法探测，它也能在宇宙尺度上影响宇宙的结构。
爱因斯坦找到了他修改后方程的一个解，描述了一个静态的永恒宇宙。宇宙项在Λ为正时提供了一个排斥力，平衡了宇宙因其组成物质之间引力吸引而坍缩的趋势。然而，这个模型是不稳定的。任何密度略高于平均值的区域都会发生引力坍缩。任何密度略低于平均值的区域则会无限制地膨胀。爱因斯坦的静态宇宙并非我们所观测到的宇宙。相反，基本方程(14.1)的非静态解为我们提供了在最大宇宙尺度上描述宇宙的最佳模型。
14.2
距离–红移关系
就在一个世纪前，人们还认为银河系构成了整个宇宙，夜空中任何模糊的斑块，比如仙女座星云和大、小麦哲伦云，都被认为是银河系内的气体云。只有当能够更精确地确定天体的距离时，这种观点才可能受到挑战。现在我们知道，仙女座星云是一个与银河系颇为相似的星系，其距离约为银河系直径的25倍。
物理世界。尼古拉斯·曼顿(Nicholas Manton)和尼古拉斯·米(Nicholas Mee)，牛津大学出版社(2017)。
©尼古拉斯·曼顿和尼古拉斯·米。DOI 10.1093/acprof:oso/9780198795933.001.0001

488
宇宙学
在20世纪，人们付出了巨大的努力来构建通往最遥远星系的距离阶梯。太阳系外距离阶梯的第一步是使用视差。如果我们能测量由于地球绕太阳运行导致位置变化所引起的恒星视位置移动，那么通过简单的几何学就能计算出到该恒星的距离。如果视差移动为一角秒，那么到该天体的距离就称为1秒差距(1 pc)，这大约相当于3.26光年。最近的恒星，例如半人马座α星(α Centauri)和天狼星(Sirius)，距离我们只有几秒差距。在1989年至1993年间，依巴谷(Hipparcos)卫星使用这种方法测定了12万颗最近恒星的距离，如第13.2节所述。然后，我们可以利用标准烛光（即可以计算出其内禀光度 L 的天体）进入太空深处。这些标准烛光的内禀光度可以利用依巴谷星表中精确的距离测量值来校准。通过测量它们被观测到的亮度 I，然后使用公式(13.5)，就能得出更遥远天体的距离 d：
I = \frac{L}{4\pi d^2} .
要理解宇宙的大尺度结构，就必须测量宇宙学距离。这些距离以Mpc（兆秒差距）为单位来计算。亨丽爱塔·勒维特(Henrietta Leavitt)于1912年在哈佛大学天文台工作期间，发现了最重要的标准烛光。这些是非常明亮的恒星，被称为造父变星(Cepheid variables)，其光度以有规律的周期变化，并且这个周期与恒星峰值内禀光度相关。这意味着，通过测量周期长度，就可以确定恒星的内禀亮度，从而确定其距离。最近的造父变星是北极星(Polaris)，距离我们约120秒差距，但造父变星足够明亮，可以在最近的星系中被观测到，这意味着它们可以用来将距离阶梯扩展到我们的星系邻居。勒维特通过分析附近矮星系——小麦哲伦星云(Small Magellanic Cloud)中的造父变星，发现了关键的周光关系。该星系中所有的恒星与我们之间的距离基本相同，因此它们观测亮度的差异反映了其内禀光度的真实差异。
埃德温·哈勃(Edwin Hubble)利用勒维特的发现证实了宇宙远比先前认为的要大。他证明了我们的银河系只是众多星系中的一个，并继续估算了众多相对较近星系的距离。他还通过测量这些星系光谱线的多普勒(Doppler)频移，确定了它们朝向或远离我们运动的速率。假设 \Delta\lambda = \lambda_o - \lambda 是波长的移动量，其中 \lambda_o 是从遥远星系到达地球的光中某条光谱线的观测波长，而 \lambda 是地球上实验室中受激原子产生的同一光谱线的波长。那么，该星系的红移 z 定义为波长的相对移动量 \frac{\Delta\lambda}{\lambda} ，并且它与星系远离我们的速度 v 的关系为：
z \equiv \frac{\Delta\lambda}{\lambda} = \frac{v}{c} .
哈勃很快得出结论：星系的退行速率与其距离成正比，
v = H_0 d ,

弗里德曼–罗伯逊–沃尔克宇宙学 489

式中 (d) 是到星系的距离，(H_0) 是比例常数，现被称为哈勃常数。1929年，哈勃(Hubble)宣布了重大发现：整个宇宙正在膨胀。这一观测从此奠定了宇宙学的基石。

现代的哈勃常数值是 (H_0 = 68\ \text{km s}^{-1} \text{Mpc}^{-1})，这意味着一个距离我们 (1\ \text{Mpc} \simeq 3.26) 百万光年的天体，由于宇宙膨胀，正以 (68\ \text{km s}^{-1}) 的速度远离我们。(H_0) 的单位奇特，因为 (1\ \text{Mpc}) 和 (1\ \text{km}) 都是长度单位。更自然的理解是，(H_0) 具有时间倒数的单位，大约是 140 亿年的倒数。因此，哈勃常数是宇宙年龄的一种量度：因为如果让膨胀宇宙在时间上倒行，并保持 (H_0) 不变，那么所有星系将在约 140 亿年前汇聚在一起。

14.3 弗里德曼–罗伯逊–沃尔克宇宙学

宇宙学的标准模型即弗里德曼–罗伯逊–沃尔克宇宙学(Friedmann–Robertson–Walker cosmology)，或简称 FRW 宇宙学。它是爱因斯坦方程 (14.1) 的一个高度对称的解，以亚历山大·弗里德曼(Alexander Friedmann, 1922年首次推导出该解)以及霍华德·罗伯逊(Howard Robertson)和阿瑟·沃尔克(Arthur Walker)（二人在20世纪30年代进行了研究）的名字命名。与第6章考虑的史瓦西(Schwarzschild)度规或克尔(Kerr)度规不同，FRW 宇宙学是随时间演化的。它基于这样一个假设：在最大尺度上，空间是完美均匀且各向同性的。

均匀(homogeneity)意味着三维空间处处相同。由此，四维宇宙时空可以整齐地分割成一系列三维空间切片，它们由一个所有观测者都认同的时间坐标来参数化。这个时间称为宇宙时(cosmic time)。宇宙时类似于牛顿物理学中的时间，区别在于宇宙时空由于光速有限而具有洛伦兹度规。均匀性意味着在宇宙时的任一时刻，空间上所有点几何上都是等价的。这是哥白尼原理(Copernican principle)的现代版本，该原理认为地球并不处于像宇宙中心那样的特殊位置。类似地，我们现在认为银河系（或任何其他星系）在宇宙中也不占据特殊地位。（时空并不均匀，因为宇宙随时间演化。）

各向同性(isotropy)是指，从我们所在的位置（或任何其他位置）看，空间在所有方向上都一样。这意味着宇宙没有旋转，因为旋转轴会破坏各向同性，所以时空度规中不能包含时间和空间之间的交叉项。同时，度规的所有空间分量必须以相同的方式演化。

FRW 模型所基于的均匀性这个关键假设，看来已得到观测的证实。我们稍后会回到观测证据上来。各向同性的假设则被天文学家直接验证，他们观测到各个方向上的星系密度大致相等。

均匀性和各向同性共同作用，极大地限制了宇宙可能的几何形态，并使得物理描述大幅简化。它们意味着空间黎曼曲率张量必须取如下简单形式：

[
^{(3)}R^{ab}_{\ \ \ cd} = C (h^a_c h^b_d - h^b_c h^a_d),
\tag{14.5}
]

其中 (h_{ab}) 是三维度规张量。这个黎曼张量（导出过程见第5章）是常曲率空间最一般的形式。若 (C) 为正，宇宙是球形的，大小有限；若 (C=0)，宇宙是平坦的；若 (C) 为负，宇宙是双曲的。如果 (C) 为负或零，宇宙无限大。

490
宇宙学
将可能的三种空间几何与宇宙时坐标相结合，得到如下用极坐标表示的4维FRW度规：
dτ² = dt² − a²(t)[dχ² + f²(χ)(dϑ² + sin²ϑ dϕ²)] (14.6)
其中，球面空间几何对应f²(χ) = sin²χ，平坦几何对应f²(χ) = χ²，双曲几何对应f²(χ) = sinh²χ。唯一剩下的自由度是尺度因子a(t)，它是宇宙时t的函数。在球面宇宙中，a(t)是与时间相关的半径，空间曲率为K(t) = 1/a²(t)。在双曲情形下，K(t) = −1/a²(t)。即使在空间平坦的情况下，四维时空也是弯曲的。（在下文多数内容中，为简洁计，我们将用a表示a(t)。）

随着宇宙膨胀或收缩，每个星系g在各个时期都保持着相同的坐标标记(χ_g, ϑ_g, ϕ_g)。这些坐标被称为共动坐标(comoving coordinates)。均匀性假设意味着宇宙中的物质不能有任何局域运动。换言之，星系间的随机相对运动可以忽略不计。我们可以选择自身所在位置为χ = 0。相对于我们，χ是径向坐标，而ϑ、ϕ则是天球上的球极坐标。到另一个星系的距离同时取决于χ和a。

用空间笛卡尔坐标来表达FRW几何也是很自然的。所有点都是等价的，但在这些坐标中，我们可以将自己置于原点。此时的度规为：
dτ² = dt² − a²(t) [dx² + dy² + dz²] / [1 + (k/4)(x² + y² + z²)]² (14.7)
其中，曲率特征值k在球面几何、平坦几何或双曲几何情形下分别为+1、0或−1。这里我们使用了3-球面度规的表达式(5.74)，以及其平坦和双曲的类似形式。我们将集中讨论k = 0的平坦几何，因为这是最简单的情形，并且似乎具有最重要的物理意义。度规张量g_μν及其逆g^μν此时具有简单的形式：
g_μν = diag(1, −a², −a², −a²),
g^μν = diag(1, −1/a², −1/a², −1/a²). (14.8)

14.3.1 爱因斯坦方程与FRW度规
至此，我们仅仅从均匀性和各向同性的假设出发，推导出了宇宙可能的几何形式。我们需要证明这些几何形式与广义相对论一致，并满足爱因斯坦方程。这是一个直接且富有启发性的练习。我们暂时假设k = 0且Λ = 0。

度规(14.8)仅有的非零导数是g_{xx,t}、g_{yy,t}和g_{zz,t}，它们都等于−2ȧ a，其中点号表示对时间的导数。因此，非零的克里斯托费尔符号(Christoffel symbols)(5.50)全都具有一个时间指标和两个相同的空间指标。

弗里德曼-罗伯逊-沃尔克宇宙学
491
它们是：
Γ^t_{yy} = Γ^t_{zz} = Γ^t_{xx}
= ½ g^{tσ}(g_{xσ,x} + g_{σx,x} − g_{xx,σ}) = ½ g^{tt}(g_{xt,x} + g_{tx,x} − g_{xx,t})
= −½ g^{tt} g_{xx,t} = ȧ a , (14.9)

Γ^y_{ty} = Γ^y_{yt} = Γ^z_{tz} = Γ^z_{zt} = Γ^x_{tx} = Γ^x_{xt}
= ½ g^{xσ}(g_{xσ,t} + g_{σt,x} − g_{xt,σ})
= ½ g^{xx} g_{xx,t} = ½ (−1/a²)(−2ȧ a)
= ȧ/a . (14.10)

里奇张量(Ricci tensor)(5.41)为：
R_{μν} = Γ^ρ_{μν,ρ} − Γ^ρ_{ρν,μ} + Γ^α_{μν} Γ^ρ_{αρ} − Γ^α_{ρν} Γ^ρ_{αμ} , (14.11)
其仅有的非零分量为：
R_{tt}
= Γ^ρ_{tt,ρ} − Γ^ρ_{ρt,t} + Γ^α_{tt} Γ^ρ_{αρ} − Γ^α_{ρt} Γ^ρ_{αt}
= −Γ^ρ_{ρt,t} − Γ^α_{ρt} Γ^ρ_{αt}
= −Γ^x_{xt,t} − Γ^y_{yt,t} − Γ^z_{zt,t} − Γ^x_{xt} Γ^x_{xt} − Γ^y_{yt} Γ^y_{yt} − Γ^z_{zt} Γ^z_{zt}
= −3Γ^x_{xt,t} − 3(Γ^x_{xt})²
= −3(ä/a − ȧ²/a²) − 3(ȧ²/a²)
= −3ä/a , (14.12)

以及
R_{yy} = R_{zz} = R_{xx}
= Γ^ρ_{xx,ρ} − Γ^ρ_{ρx,x} + Γ^α_{xx} Γ^ρ_{αρ} − Γ^α_{ρx} Γ^ρ_{αx}
= Γ^t_{xx,t} + Γ^t_{xx} Γ^ρ_{tρ} − Γ^x_{tx} Γ^t_{xx} − Γ^t_{xx} Γ^x_{tx}
= Γ^t_{xx,t} + 3Γ^t_{xx} Γ^x_{tx} − 2Γ^x_{tx} Γ^t_{xx}
= Γ^t_{xx,t} + Γ^t_{xx} Γ^x_{tx} = (aä + ȧ²) + aȧ(ȧ/a)
= aä + 2ȧ² . (14.13)

里奇标量(Ricci scalar)则为：
R = g^{μν} R_{μν}
= R_{tt} − (1/a²)(R_{xx} + R_{yy} + R_{zz})
= −3ä/a − (3/a²)(aä + 2ȧ²)
= −6(ä/a + ȧ²/a²) . (14.14)

这给出以下爱因斯坦张量（Einstein tensor）(6.46)的分量：

G_tt = R_tt − ½ R g_tt = −3(ä/a) + 3(ä/a + ȧ²/a²) = 3ȧ²/a² ,

G_yy = G_zz = G_xx = R_xx − ½ R g_xx = aä + 2ȧ² + 3(ä/a + ȧ²/a²)(−a²)
= aä + 2ȧ² − 3aä − 3ȧ²
= −2aä − ȧ² . (14.15)

我们可以用理想流体（ideal fluid）的能量–动量张量（energy–momentum tensor）(6.28)来模拟宇宙的物质内容

T_μν = (ρ + P) v_μ v_ν − P g_μν , (14.16)

其中 ρ 是能量密度，P 是压强。均匀性意味着 ρ 和 P 只能是时间 t 的函数。能量密度表征了气体云、恒星和星系中的物质，也表征了宇宙中辐射的能量。物质相对于共动坐标（comoving coordinates）没有组织化运动，而无规运动的缺失意味着它施加的压强可以忽略不计。压强 P 主要来自辐射。因此，在共动参考系中，v_μ = (1, 0, 0, 0)，度规则如方程(14.8)所示，所以能量–动量张量具有简单形式 T_μν = diag(ρ, a²P, a²P, a²P)，爱因斯坦方程简化为

⎛
⎜
⎜
⎝
G_tt 0 0 0
0 G_xx 0 0
0 0 G_yy 0
0 0 0 G_zz
⎞
⎟
⎟
⎠ = 8πG
⎛
⎜
⎜
⎝
ρ 0 0 0
0 a²P 0 0
0 0 a²P 0
0 0 0 a²P
⎞
⎟
⎟
⎠ . (14.17)

存在一个关于 G_tt 的方程，

3 ȧ²/a² = 8πGρ , (14.18)

和另一个关于 G_xx 的方程，

−2 ä/a − ȧ²/a² = 8πGP . (14.19)

关于 G_yy 和 G_zz 的方程与关于 G_xx 的方程完全相同。爱因斯坦方程通常联系两个对称的秩2张量，因此它由关于度规张量十个分量的十个耦合方程组成，但 FRW 几何（FRW geometry）背后的对称性将爱因斯坦方程简化为仅有的两个方程，它们决定了标度因子（scale factor） a 如何随时间变化。

所有这些代数的回报是一个非常重要的结论。从方程(14.18)和(14.19)中消去 ȧ²/a²，给出

ä/a = − 4πG/3 (ρ + 3P) . (14.20)

基于非常合理的物理假设，即能量密度 ρ > 0 且压强 P ≥ 0，这意味着 ä < 0，即宇宙不可能是静态的；它必定是

弗里德曼-罗伯逊-沃克宇宙学
493
动态的。这正是爱因斯坦在其场方程中引入宇宙学常数 Λ 的原因。据伽莫夫(Gamow)在1960年所述，爱因斯坦将此称为他一生中最大的错误。如果爱因斯坦当初坚持自己不含宇宙学常数的原始场方程并推至其逻辑结论，他本可以预言宇宙的膨胀（或收缩），这或许会成为任何时代任何科学家所能做出的最伟大预言。

如果宇宙正在膨胀且 ä < 0，那么膨胀速率正在减小。这并不令人意外，因为引力是一种吸引作用。膨胀因物质和辐射的引力吸引而减速。

14.3.2 一般的 FRW 宇宙学解
一般的 FRW 宇宙学具有非零的宇宙学常数 Λ，并且可以是球面或双曲的，因此 k 不必为零，而可以是 ±1。方程 (14.18) 和 (14.19) 推广为
3 ˙a²
a² + 3 k
a² = 8πGρ + Λ , (14.21)
−2ä
a − ˙a²
a² − k
a² = 8πGP − Λ . (14.22)
FRW 模型是所有现代宇宙学研究的基础，归结起来就是这两个简单的方程。此外，还需要指定宇宙中物质和能量的类型，以确定 P 与 ρ 之间的关系。

在其历史的绝大部分时间里，宇宙的能量主要以物质静质量的形式被锁定——这些物质构成了恒星和星系。在这种物质主导的极限下，宇宙是一群无相互作用、缓慢运动的粒子集合，P = 0，能量-动量张量为 Tμν = diag(ρ, 0, 0, 0)。然而，在其最初几十万年中，宇宙的大部分能量以辐射或相对论性粒子的形式存在。在第10章中，我们曾指出，对于黑体辐射，ρ = E/V = 3P。这就是辐射主导宇宙中压强与能量密度之间的关系。

这些 FRW 方程最简单的解是静态解，即 a = a₀ 为常数。这就是爱因斯坦静态宇宙。如果它是物质主导的，且 P = 0，那么两个方程要求
Λ = k
a₀²
并且
Λ = 4πGρ . (14.23)
由于 ρ 为正，Λ 也为正，因此 k = 1。爱因斯坦静态宇宙因此是一个有限、球面的宇宙，具有宇宙学常数 ΛE = 4πGρ 和半径 a₀ = Λ^{-1/2}_E。

然而，静态宇宙并非观测所见的宇宙，因此我们需要 FRW 方程的含时解。对第一个方程求时间导数并乘以 a/˙a，我们得到
6ä
a − 6 ˙a²
a² − 6 k
a² = 8πGa ˙ρ
˙a , (14.24)
而将第一个和第二个方程相加则给出
−2ä
a + 2 ˙a²
a² + 2 k
a² = 8πG(ρ + P) . (14.25)

494
宇宙学
左端仅相差一个因子 −3，因此右端也相差相同的因子。于是有
a ˙ρ
˙a = −3(ρ + P) ,
(14.26)
可简化为
adρ
da = −3(ρ + P) .
(14.27)
这被称为连续方程，它是能量和动量守恒的结果。该方程对任意 Λ 和 k 值均成立。

现在假设 P 和 ρ 之间的关系为
P = wρ
(14.28)
其中 w 是常数。w = 0 描述无相互作用的物质，即压强为零的尘埃，而 w = 1/3 描述辐射。连续方程变为
adρ
da = −3(1 + w)ρ ,
(14.29)
这是一个（可分离的）微分方程，其解为
ρa3(1+w) = c ,
(14.30)
其中 c 为常数。对于尘埃，a 的幂次为 3；对于辐射，a 的幂次为 4。对于尘埃，ρa3 为常数正是质量守恒的体现：密度随宇宙体积的增大而减小。对于辐射，ρa4 为常数也不难理解。与物质一样，若宇宙体积增大，光子数密度会成比例地减小，但能量密度还会额外减小，因为波长为 λ 的光子的能量 ε 等于
ε = 2π¯h
λ
.
(14.31)
随着宇宙膨胀，如后文将看到的那样，由于红移，每个光子的波长随 a 增加，因此其能量减小。将此考虑在内，辐射的能量密度正比于 a−4。

将 ρ 代换为关于 a 的表达式，第一个 FRW 方程 (14.21) 简化为
˙a =
1
3ca−1−3w −k + Λa2
1
2
.
(14.32)
这个微分方程可以积分，必要时可进行数值积分。第二个 FRW 方程 (14.22) 会自动满足，因为我们已经求解了连续方程 (14.29)。FRW 方程可能的宇宙学解汇总于图 14.1 中。

在特殊情况下，解具有简单的闭合形式，例如，无宇宙学常数的平坦宇宙中的尘埃。我们将在第 14.6 节关于大爆炸的内容中推导其中一些解。FRW 方程也可以针对尘埃与辐射的混合物，以及具有奇异压强–密度关系的物质进行求解。

Friedmann–Robertson–Walker 宇宙学
495
增大
宇宙学常数
H0
无大爆炸
= 68 km/s/Mpc （现今）
静态
“滑行”宇宙
负宇宙学常数：
宇宙重新坍缩
无
宇宙学常数
尺度
参数
a
正宇宙学常数：
宇宙永远膨胀
200 亿年前
100 亿年前
现在
时间 t
图 14.1 平坦 FRW 宇宙学（取 w = 0 且宇宙学常数取一系列值）下，尺度参数 a(t) 的曲线图。负宇宙学常数下宇宙重新坍缩。无宇宙学常数时宇宙膨胀减速并渐进停止。正宇宙学常数下宇宙膨胀加速。在哈勃参数 H0 固定于其当前观测值的条件下，宇宙年龄随宇宙学常数增大而增加。

哈勃定律 (14.4) 是 FRW 宇宙学的一个自然特征，至少是一个近似结果。在 FRW 宇宙中，星系不可能存在任何本动，比如流向邻近星系团的运动。星系的速度纯粹源于宇宙的膨胀。如果到一个遥远星系的距离为 d = aχ，其中 a 是尺度参数，那么 d 随 a 增大，而 χ 是固定的，所以该星系远离我们的速率是 v = ˙aχ。如果我们定义
v
d = ˙a
a ≡H0(t) ,
(14.33)
那么，根据定义，方程 (14.4) 就满足了，并且我们已经将哈勃常数与尺度因子的变化率联系了起来。然而，正如我们所见，通常 ¨a < 0，所以哈勃“常数” H0(t) 实际上是一个依赖于时间的参数。仅对于相对近邻的星系，才适合做线性近似并将哈勃参数视为常数。

496
宇宙学
一个常数。宇宙膨胀减速的速率可以用一个称为减速参数的无量纲参数来表示，其定义为
q0 = −¨aa
˙a2 .
(14.34)
14.4
宇宙学红移
FRW宇宙学如何与哈勃关于遥远星系红移的观测联系起来？首先考虑一个辐射分立脉冲的源，例如一颗脉冲星(pulsar)，它每旋转一周就向我们方向发射一个射电脉冲。在其静止系中，脉冲的周期等于脉冲星的自转周期。然而，如果脉冲星正在远离我们，我们探测到脉冲的时间间隔就会大于脉冲星的自转周期，因为每一个后续脉冲都比前一个传播得更远。因此，观测到的脉冲序列频率降低，波长增加。换句话说，脉冲序列发生了红移。类似地，处于宇宙学距离上的脉冲星发出的每一个后续脉冲，由于宇宙的膨胀，都比前一个脉冲传播得更远，所以在这里探测到的脉冲间隔大于脉冲星的自转周期，即脉冲序列因宇宙膨胀而经历宇宙学红移。

在共动极坐标下，来自遥远星系中一颗脉冲星的光脉冲沿径向零曲线(null curve)传播到我们这里，
dτ 2 = 0 = dt2 −a2(t) dχ2 ,
(14.35)
从某个共动半径 χ 处出发，到达我们所在的 χ = 0 处。沿着这条曲线，|dχ| = dt/a(t)。脉冲在时刻 te 发出，在时刻 to 被观测到。每个脉冲实际传播的距离可以通过沿零曲线积分 a(t) |dχ| 得到，而这个距离显然随时间增加。但在FRW模型中，每个星系的共动坐标在宇宙的整个历史中保持不变，因此每个脉冲传播相同的共动距离
χ =
Z to
te
dt
a(t) .
(14.36)
下一个脉冲在短时间 δte 之后发出，并在短时间 δto 之后被观测到，它传播了相同的共动距离，所以
Z to+δto
te+δte
dt
a(t) = χ =
Z to
te
dt
a(t) ,
(14.37)
这两个积分之差为零。这两个积分在几乎整个区间上都重合，因此它们之间差异的唯一贡献来自靠近端点处。因此
Z to+δto
to
dt
a(t) −
Z te+δte
te
dt
a(t) = 0 .
(14.38)
由于尺度参数 a(t) 在脉冲间隔内变化可以忽略，这些剩余积分简化为其被积函数与积分区间的乘积，所以
δto
a(to) −δte
a(te) = 0 .
(14.39)

FRW宇宙学的牛顿解释
497
通过简单的重排，可得
δtₑ
δtₒ
= a(tₑ)
a(tₒ) = ωₒ
ωₑ
,
(14.40)
其中 ωₑ 和 ωₒ 分别代表以规则间隔 δtₑ 发射、以间隔 δtₒ 观测的一列脉冲的发射频率与观测频率。等价地，若 δtₑ 和 δtₒ 是发射光波与观测光波波峰之间的时间间隔，则 ωₑ 和 ωₒ 即为发射光与观测光的频率。
在膨胀的宇宙中，这对应于红移 z = ∆λ/λ，其中
1 + z = λₒ
λₑ
= ωₑ
ωₒ
= a(tₒ)
a(tₑ) ,
(14.41)
因此
z = a(tₒ) − a(tₑ)
a(tₑ)
.
(14.42)
于是，在 FRW 模型中，红移与宇宙的尺度因子 a(t) 之间存在简单的关系。人们常说，当光从遥远星系向我们传播时，宇宙的膨胀会拉伸光的波长。从某种意义上说这是对的，因为波长和频率的改变是空间扭曲的直接结果，但如果由此推断空间以某种方式物理地作用于光波，那将是错误的。一列离散的脉冲会经历完全相同的红移，在这种情况下，脉冲之间并没有任何东西可供空间去作用。一般来说，最稳妥的做法是将频率的变化归因于光的发射点与观测点之间度规的差异。这反映了两点上的共动发射者和观测者在时间和空间测量上的差别。

14.5 FRW宇宙学的牛顿解释

让我们考虑一个 Λ = 0 但 k 未固定的 FRW 宇宙学。将方程 (14.21) 乘以 a²/6，我们得到
1/2 ˙a² + 1/2 k = 4π/3 Gρ a² .
(14.43)
这有一个简单的牛顿解释。
想象一个在平坦牛顿空间中、密度均匀为 ρ、半径为 d = σa 的共动球。其质量为 M = 4/3 π ρ σ³ a³。只要半径很小，相对速度就是非相对论性的，因此物理过程可以用牛顿术语很好地描述。考虑这个共动球周围一个薄壳内一颗物质微粒的能量。由于宇宙被假定为各向同性，从而球对称，该微粒不会感受到球外物质的引力吸引。根据 6.7 节讨论的伯克霍夫定理(Birkhoff’s theorem)，该微粒仅受到球内物质的引力影响。¹ 因此，该微粒的单位质量引力能为
−GM/d = −4π/3 G ρ σ³ a³ / (σa) = −4π/3 G ρ σ² a² .
(14.44)
¹ 这在均匀宇宙中略显奇特，但对于这个物质球却是合理的。

498
宇宙学

由于该球体随动，颗粒相对中心的速度为σ ˙a，其单位质量的动能为1/2 σ² ˙a²，因此单位质量的总能量为
1/2 σ² ˙a² − 4π/3 Gρσ²a² 。 (14.45)
若将其设为常数−1/2 kσ²，即得方程(14.43)，这表明该方程仅仅代表能量守恒，且−1/2 kσ²就是该颗粒单位质量的总能量。

若k < 0，则颗粒动能与引力势能之和为正，该颗粒最终将逃逸至无穷远。（但此颗粒本身或定义其所用的共动球体并无特殊之处。球体半径在计算中消去，因此该结果适用于宇宙中的所有物质。）k < 0对应一个双曲宇宙，这样的宇宙将永远膨胀。若k > 0，颗粒的动能与势能之和为负，因此该颗粒与宇宙中其余物质一起被引力束缚。这对应一个球状宇宙，这样的宇宙最终将发生引力坍缩。最后，若k = 0，动能与势能恰好平衡，我们便得到平坦宇宙。这是最终重新收缩与永远膨胀之间的分界线。它出现于
4π/3 Gρσ²a² = 1/2 σ² ˙a² 。 (14.46)
因此临界密度为
ρ_crit = 3/(8πG) ˙a²/a² = 3H₀²/(8πG) , (14.47)
它仅依赖于当前的哈勃参数H₀。

为确定宇宙的最终命运，人们投入了大量精力去测量ρ。ρ通常以临界密度为单位表示为
Ω = ρ/ρ_crit 。 (14.48)
若Ω > 1，则k > 0，宇宙为球状并将最终收缩。若Ω = 1，则k = 0，宇宙为平坦。若Ω < 1，则k < 0，宇宙为双曲并将永远膨胀。近期分析表明Ω非常接近1，但前提是必须考虑宇宙学常数。这将在第14.9节讨论。

14.6 大爆炸

如果宇宙正在膨胀，那么过去星系以及所有星系际物质必定彼此靠近得多。当时宇宙的能量密度更大，温度更高。看来宇宙最初被压缩成一个点或一个非常小的区域，并由此一直膨胀至今。

宇宙的开端被赋予了一个引人注目的名称——大爆炸(Big Bang)。它有时被描绘成宇宙内部的一次爆炸，而这绝对是错误的。它暗示宇宙是一个预先存在的容器，物质从其中喷涌而出

大爆炸
499
形成恒星和星系涌现出来。这导致了一种误解，即大爆炸发生在某个特定的地点。事实上，如果说大爆炸发生在什么地方，那么它同时发生在每一个地方。这种观点是，根据FRW模型，宇宙的整体——空间、时间和物质——都始于大爆炸。

考虑一个正在被吹大的气球的类比会有所帮助，如图14.2所示。主要的区别在于，气球的表面是二维的，而空间是三维的。随着气球的膨胀，其表面上的每一个点都远离其他每一个点，两个点相距越远，它们彼此远离的速度就越快，就像真实宇宙中的星系一样。我们可以将膨胀反向进行，直到气球上的每一个点汇聚成一个单点，这个点就代表宇宙的起源。从这个角度来看，我们可以看到气球宇宙的每一个点都与它的起源等距，而且气球上的大爆炸是在各处同时发生的。

图14.2

图14.2 气球宇宙。

图14.2

14.6.1 宇宙的年龄

我们再次暂时假设Λ = k = 0。在一个物质主导的宇宙中，密度为ρ，压力为零，有ρa^3 = c。将ρ代入方程(14.18)，我们依次得到
˙a^2 ∝ a^{-1},
˙a ∝ a^{-1/2},
a^{3/2} ∝ t,
因此尺度因子按 a ∝ t^{2/3} 变化。这里，时间的原点是大爆炸的时刻，那时a = 0。这个解使我们能够估算宇宙的年龄。假设宇宙在其几乎整个历史中都是物质主导的，
H0(t) = ˙a
a =
2
3t−1
3
t
2
3
= 2
3t−1 .
取现在的哈勃参数为 H0 = 68 km s^{-1} Mpc^{-1}，这给出宇宙的年龄为 2/3 · 1/H0，大约100亿年，如图14.1中标有“无宇宙学常数”的曲线所示。

然而，现在有大量证据表明这个数值低了相当大的幅度。例如，已知最古老的恒星（通常存在于球状星团中）的年龄大于这个值。其解释是宇宙学常数

500
宇宙学

Λ 为正值，并且在当今时代，正是它而非物质密度为宇宙膨胀提供了主要贡献。这一结论是通过综合引力透镜、星系成团性、遥远超新星的亮度-红移关系，以及最重要的——宇宙微波背景的各向异性数据而得出的。根据这些观测得出的自大爆炸以来的当前最佳时间为 138 亿年。我们将在第 14.9 节回到这个主题。
宇宙学项与宇宙的标度因子 a(t) 无关。在时间上回溯，我们会到达一个物质形式的能量主导宇宙学项的时代。再往前回溯许多，在极早期宇宙中，能量的主导形式是辐射。这是因为在一个辐射主导的宇宙中，ρ = 3P，并且方程 (14.28) 和 (14.30) 意味着 ρ ∝ 1/a⁴，因此随着宇宙收缩，辐射的能量含量比物质的能量含量（ρ ∝ 1/a³）增长得更快。
将 ρ ∝ 1/a⁴ 代入方程 (14.18)，我们发现对于一个辐射主导的宇宙：
˙a² ∝ a⁻²，
˙a ∝ a⁻¹，
a² ∝ t。
(14.51)
我们得出结论：在极早期宇宙中，标度因子按照 a ∝ t¹/² 变化，其中 t = 0 同样代表大爆炸的时刻。这个结论并不会因非零的 Λ 或 k 而受到显著影响，因为只要存在任何正数量的物质或辐射，当标度参数 a 趋近于零时，项 8πGρ 将主导那些包含 Λ 和 k 的项。
对于大爆炸的真实性，有着极其有力的证据。首先，正如哈勃(Hubble)所发现的那样，遥远星系的运动表明宇宙正在膨胀，但还有独立的观测证据。过去宇宙的温度和密度要高得多。在其最初的两三分钟内，宇宙将是一个核熔炉，其中聚变反应产生了氘、氦以及痕量的其他非常轻的元素，如锂。（这些条件持续的时间不够长，不足以合成任何更重的原子核。所有更重的元素都是后来在恒星和超新星爆炸中产生的。）测量宇宙中氘、氦和其他轻元素的量是可能的，并且观测数据与大爆炸模型推导出的量高度吻合。特别是氘的量，对早期宇宙的条件非常敏感，这使得天体物理学家能够确定那个时代的能量密度，以及其中以物质形式存在的比例和以辐射形式存在的比例。这对当前宇宙物质密度的估算有影响，一个我们现在将要考虑的问题。

14.7
暗物质
确定宇宙中物质数量的方法有两种。一种是测量其引力效应，另一种是测量由发光天体发出的光的总量。所有天体都有引力吸引，但并非所有天体都会发射或散射光，因此我们预期第一种测量方法给出的结果会比第二种大，事实也确实如此。即便如此，宇宙中大部分物质既不发射也不散射光，这还是相当令人惊讶的。天文学家仅仅因为我们看不见它，就把这种不可见的物质称为暗物质。
有多种方法曾被用来估算构成宇宙的物质密度。例如，一个侧对我们的旋涡星系，其旋转速率可以通过其两侧边缘星光的

暗物质
501
当恒星远离我们运动时，其边缘光线会发生红移，而另一边缘的光线则发生蓝移。通过旋转速率，我们可以推算出引力束缚整个星系所需的总质量。这些测量结果清楚地表明，此类星系的旋转速率极高，如果仅由可见物质构成，它们早已分崩离析。

我们的银河系及许多类似星系周围，都伴随着约100个球状星团(globular clusters)。这些由多达百万颗恒星组成的致密星群，通过引力与星系相连，分布在球状光晕中。对球状星团速度分布的研究表明，宿主星系必然含有大量不可见物质，否则这些星团早已逃逸。其他研究通过分析星系团内星系的运动也得出了类似结论。还有一种完全不同的技术，即如第6.9节所述，利用星系团对更遥远星系的引力透镜效应(gravitational lensing effect)来估算其质量。这些研究一致表明，宇宙中存在大量暗物质。

这引出了一个重大问题：暗物质究竟是什么？目前已有诸多猜想。其中一类候选体是MACHOs(Massive Compact Halo Objects，大质量致密晕天体)。这类天体质量巨大但过于暗淡难以观测，包括燃尽恒星的残骸（如白矮星、中子星或黑洞），以及极暗的恒星（如褐矮星）。倘若星系中确实充斥着巨量MACHOs，那么有一种效应会暴露其存在。当MACHOs与背景恒星偶尔排成一线时，引力透镜效应会使该恒星的亮度骤然飙升。天文学家已对我们银河系光晕中的此类微引力透镜事件(microlensing events)展开系统搜索，结论是此类事件极为罕见，MACHOs无法构成暗物质的主要部分。另一种可能是，暗物质由尚未凝聚成恒星的暗气体云组成。这种可能性同样可以被排除。宇宙学家将此类普通物质称为重子物质(baryonic matter)，因其主要由质子和中子构成。观测到的氘丰度对重子物质密度施加了严格限制，因为氘的原初核合成(primordial nucleosynthesis)极度依赖于早期宇宙的密度。若暗物质由任何形式的量子物质构成，都将破坏观测结果与原初核合成模型之间的一致性。

这就将目光引向了质量谱系另一端的粒子。如今许多物理学家认为，暗物质由海量稳定粒子构成，它们仅与重子物质发生极弱相互作用——正因如此，它们既未与普通物质混合存在，也尚未在宇宙线中被识别。这些粒子被赋予了一个略显异想天开的名字：WIMPs(Weakly Interacting Massive Particles，弱相互作用大质量粒子)。此处的”弱相互作用”是个广义术语，并非特指标准模型中的弱力。WIMPs不参与电磁或强相互作用，否则早该被探测到；它们可能通过弱力、某种未知的更弱作用力，或仅通过引力发生相互作用。

中微子在早期宇宙中曾大量产生，且至今仍在由恒星和超新星不断制造。它们曾一度被认为是暗物质的候选者。然而我们现在知道，中微子的质量过小(mν < 1 eV)，不足以解释全部暗物质。由于质量微小，中微子以相对论性速度运动，被归类为热暗物质(hot dark matter)。

502
宇宙学
在14.10节中，我们将探讨早期宇宙中的星系形成。计算机模拟显示，像星系和星系团这样的复杂结构，只能在一个由冷暗物质(cold dark matter, CDM)主导的宇宙中形成。这有利于以非相对论速度运动的弱相互作用大质量粒子(WIMPs)，这类粒子的质量必定远大于中微子。
总而言之，人们相信暗物质由大量未知类型的稳定粒子组成，它们在极早期宇宙中产生。识别这种粒子是大型强子对撞机(Large Hadron Collider)研究的主要目标之一。同时，在中微子观测站和宇宙射线探测器中，追踪这些难以捉摸的粒子的尝试也在持续进行。人们已经提出了多种可能的残余粒子，其中许多可以在标准模型的扩展理论中找到。一个主要的候选粒子是由被称为超对称(supersymmetry)的理论所预言的最轻奇异粒子，这将在15.5.2节中讨论。

14.8 宇宙微波背景
关于大爆炸最确凿的证据，于1964年由阿诺·彭齐亚斯(Arno Penzias)和罗伯特·威尔逊(Robert Wilson)发现。当时，他们正在新泽西州为贝尔实验室建造一个非常灵敏的天线。他们的设备被背景噪声所困扰，他们起初认为这是设备故障所致。最终，普林斯顿大学的天体物理学家罗伯特·迪克(Robert Dicke)、吉姆·皮布尔斯(Jim Peebles)和大卫·威尔金森(David Wilkinson)给出了解释，他们当时正准备搜寻来自早期宇宙的微波。彭齐亚斯和威尔逊发现了宇宙微波背景(cosmic microwave background, CMB)。早在1946年，伽莫夫(Gamow)和他的团队就已经预言了它的存在。
那么，这些微波究竟从何而来？在太初核合成时期之后，不断膨胀的宇宙由一个炽热的带电粒子等离子体构成，其主要成分是氢核、氦核和自由电子。这个等离子体中充满了光子，它们在原子核和电子之间来回反弹和散射。由于辐射与物质处于热平衡状态，它具有黑体谱(10.111)，其温度等于宇宙的环境温度。
随着宇宙膨胀，能量密度下降，温度也随之降低。经过约38万年的膨胀，等离子体冷却至3100开尔文，这个温度足以让氢原子形成。宇宙学家将此称为”复合(recombination)”，尽管这实际上是原子首次形成的时代。在此之前，任何与质子结合形成原子的电子，都会很快被路过的光子再次撞击出去。然而，随着宇宙的膨胀，波长的红移意味着大多数光子此时已不具备足够的能量。部分原子仍处于激发态，但电离的比例可以忽略不计。正如氢气是透明的一样，当时的宇宙也变得透明了，但它仍然沐浴在温度为3100开尔文的黑体谱光子之中。
此后，这些光子在数十亿年间继续在宇宙中飞驰，宇宙也持续膨胀。这些就是导致彭齐亚斯和威尔逊能检测到的噪声的宇宙微波背景光子。每个光子最后一次与电子或其他带电粒子发生相互作用，是在大爆炸刚结束后不久，自那时起，宇宙的尺寸已膨胀了约1100倍，因此，如14.4节所讨论的，辐射被红移了大约1100倍（z ≈ 1100）。在早期宇宙中，从极其遥远距离发出的可见光，如今可被探测到的波长已处于微波波段。该辐射保留了其黑体谱特征，但现在对应的温度已大大降低。观测到的宇宙微波背景温度仅为2.7开尔文，约为其原始温度的1100分之一。现如今的宇宙每立方米大约包含4.1×10⁸个宇宙微波背景光子。

宇宙微波背景
503
每立方米约有109个CMB光子，其数目远远超过质子。CMB的能量密度远大于星光的平均能量密度。夜空之所以对我们显得如此黑暗，仅仅是因为CMB光子位于光谱的微波区域。

14.8.1 CMB的精确测量
1989年，美国国家航空航天局(NASA)发射了探测器COBE（宇宙背景探测器，Cosmic Background Explorer），用于绘制全天域的宇宙微波背景图。COBE表明，它在所有方向上均匀分布，并拥有迄今测量到的最完美的黑体谱。（当在大尺度上取平均时，星系的分布相当均匀，但其成团性远高于近乎完美均匀的CMB。）计算出的谱与COBE观测结果的比较如图14.3所示。整个天空的CMB具有几乎完美恒定的温度2.726 K。这是我们拥有的最佳证据，表明极早期宇宙中的空间极其均匀且温度一致，因此FRW模型的这一基本假设似乎非常合理。

图14.3

400
来自COBE的宇宙微波背景谱
COBE数据
黑体谱
350
300
250
200
150
强度 [MJy/sr]
100
50
2
0
4
6
8
10
12
频率 [1/cm]
14
16
18
20
22
图14.3 宇宙微波背景黑体谱。

图14.3

FRW宇宙学的共动坐标定义了CMB的静止参考系。测量地球相对于该背景的（本动）是可能的。事实上，我们现在知道，太阳系正以370 km s−1的速度朝几乎指向室女座星系团的方向运动。太阳以约250 km s−1的速度绕我们星系中心运行，方向几乎相反。将这些速度合成后，得到我们星系相对于微波背景的速度为627 ± 22 km s−1，方向介于长蛇座星系团和半人马座星系团之间。

504
宇宙学
宇宙微波背景辐射(CMB)在天空中任何微小的温度变化，都包含着关于极早期宇宙结构的关键信息。为了探寻这些变化，COBE的后继者是WMAP(威尔金森微波各向异性探测器，Wilkinson Microwave Anisotropy Probe)，它于2001年发射，极大地提高了测量的分辨率。图14.4展示了由WMAP生成的一幅覆盖整个天空的图，显示了宇宙微波背景比平均温度略低或略高的区域。蓝色对应低0.0002 K，红色对应高0.0002 K。这些极小的温度变化对应于宇宙大爆炸后仅38万年时宇宙密度的极微小变化。密度较高的区域被认为是随着宇宙演化，最终成长为星系团的种子。大量关于宇宙结构的信息都是从这些微小的温度差异或所谓的各向异性中梳理出来的。2008年，欧洲航天局发射了普朗克探测器，它以更高的分辨率研究了微波背景辐射。

图14.4

图14.4 根据WMAP收集的数据绘制的整个天空CMB微小变化图，已扣除地球在微波背景辐射中独特运动的影响。

图14.4

14.9
宇宙学常数
近几十年来宇宙学中最令人惊讶的发现是，爱因斯坦引入后又摒弃的宇宙学常数Λ其实并不为零。这最初是通过使用Ia型超新星进行的距离测量发现的，正如第13.9节所述，Ia型超新星是极好的标准烛光，而且极其明亮，因此可以在极远的距离上被观测到。在大的红移z ≃1处，Ia型超新星比预期的要暗。它们看起来比在没有宇宙学项的平坦FRW宇宙中应有的距离更远。这意味着宇宙在遥远的过去膨胀得更慢；换句话说，宇宙的膨胀正在加速，因此我们的宇宙具有一个正的宇宙学常数。非零宇宙学常数的影响如图14.1所示。

对宇宙学项的解释取决于它被加在爱因斯坦方程(14.1)的哪一边。在左边，它代表对爱因斯坦张量的修正。在右边，它可以被解释为对宇宙能量密度的额外贡献。

星系形成
505

它以某种方式构建在时空结构中。在一个Λ ≠ 0且无物质或辐射的宇宙中，爱因斯坦(Einstein)方程的形式为




Gtt
0
0
0
0
Gxx
0
0
0
0
Gyy
0
0
0
0
Gzz



=




Λ
0
0
0
0
−a2Λ
0
0
0
0
−a2Λ
0
0
0
0
−a2Λ



.
(14.52)

与方程(14.17)比较，那里存在能量-动量项，可以看出宇宙项模仿了能量密度为ρΛ =
1
8πGΛ且具有负压强P = −ρ的物质。这种负压强意味着在方程(14.28)中w = −1。
为了与暗物质相类比，观测到的宇宙项被命名为暗能量。它的起源和精确本质仍然是一个谜。不过，这个类比并不特别准确。暗物质之所以得名是因为它不发光，而不仅仅是因为其成分未知。暗能量也被称为真空能量，一个可能的来源是量子场真空态的能量，如第12章所述。
对宇宙微波背景各向异性的分析，使宇宙学家首次能够精确测量宇宙学参数，并确认Λ为正。我们现在知道宇宙的年龄为13.798 ± 0.037亿年。宇宙的能量密度也已被精确测定。它分为三个部分：
ΩB = ρB(t0)
ρcrit
,
ΩD = ρD(t0)
ρcrit
,
ΩΛ = ρΛ(t0)
ρcrit
,
(14.53)

分别对应于重子物质、暗物质和暗能量。这些组分在当前宇宙时t0的值为
ΩB = 0.047 ,
ΩD = 0.233 ,
ΩΛ = 0.72 ,
(14.54)

因此重子物质只占宇宙能量密度的不到5%，而暗物质几乎占到了四分之一。最引人注目的是，超过70%来自暗能量。光子和中微子也有贡献，但目前可以忽略不计，其值Ωγ ∼Ων ∼10−4。这就给出了重要结果
Ω= ΩB + ΩD + ΩΛ = 1 ,
(14.55)

这意味着宇宙的几何是平坦的：k = 0。
这些参数是FRW宇宙学的基本组成部分，我们已经到达了宇宙学史上一个非凡的时刻——它们的数值已被观测精确测定。FRW模型非常好地拟合了观测证据，提供了对整个宇宙的描述，但至今还没有一个基本理论解释为什么这些参数会取观测值，甚至暗物质是什么也不清楚。暗能量的起源仍然是一个彻底的谜。如果宇宙学和天体物理学以目前的速度继续发展，这些问题可能会在未来几十年内得到解答。

14.10
星系形成

宇宙的FRW模型建立在这样一个假设之上，即宇宙在最大尺度上是均匀的。CMB辐射为这一假设提供了非常好的证据……

506
宇宙学
是有效的，特别是在早期宇宙中。然而，眺望深空，在所有长度尺度上都存在结构；我们看到了星系、星系团和超星系团。我们需要解释这些结构的起源，以及它们如何从几乎完全均匀的初始状态演化而来。这是一个极其困难的非线性问题，只能通过大规模数值模拟来研究。

图14.5 左：当今时代Millennium-XXL模拟中的质量密度场。每张插图从前一张放大8倍；边长从4.1 Gpc变化到8.1 Mpc。所有这些图像都是模拟中厚度为8 Mpc的薄切片的投影。（1 Mpc = 3.26 ×10⁶光年。）右：与左侧质量密度场对应的预测星系分布。

图14.5

天体物理学家设计了模拟宇宙质量分布演化的软件，旨在检验详细的宇宙学理论。在这些模型中，早期宇宙的微小不均匀性通过引力成团作用增长，导致星系、超大质量黑洞和类星体的形成，以及它们随后的相互作用和演化。这些不均匀性的起源尚不完全清楚，不过一种可能性是它们源于早期宇宙中物质密度或几何的量子涨落。其中一项模拟是由一个名为Virgo联盟(Virgo Consortium)的合作组织建立的；它曾运行在世界上最快的超级计算机上，并生成了100 TB的数据。2010年，他们的Millennium-XXL模拟在膨胀宇宙中模拟了67203 ≃ 3 × 1011个大质量“粒子”在130亿年间的引力相互作用。每个粒子代表7×10⁹ M⊙的质量。根据CMB数据，模拟假设存在冷暗物质和暗能量，用宇宙学常数Λ表示。这一现在标准的表述被称为宇宙的ΛCDM模型。选定的结果展示在图14.5和图14.6中。观测到的宇宙大尺度特征得到了很好的解释。从这类模拟中清楚地看到，我们在宇宙中看到的复杂特征只能在一个含有大量冷暗物质的宇宙中形成。这与CMB和其他观测的分析相一致。

图14.6

图14.5

暴胀宇宙
507
目前，模拟的输出正被用作虚拟天文台，以进一步完善我们对早期宇宙的理解。天体物理学家们正在将这些数据与真实宇宙的观测结果进行比较，包括迄今由普朗克(Planck)卫星对宇宙微波背景(CMB)所作的最精确测量，以及通过引力透镜测量推断出的星系团数据。更大规模的观测数据很快将来自位于夏威夷的全景巡天望远镜和快速反应系统(PANSTARRS)。这台配备有14亿像素相机的望远镜将以极高的灵敏度绘制大片天区；每个月将用五个波长巡测六分之一的天空。

2 Mpc/h
图14.6 Millennium-XXL模拟中一个星系团的放大视图。

图14.6

14.11 暴胀宇宙
支持弗里德曼-罗伯逊-沃尔克(Friedmann-Robertson-Walker, FRW)宇宙学的证据都已齐备。然而，宇宙还存在几个它无法解释的奇特特征。如果宇宙像气球一样膨胀，那么它看起来就应该像气球的表面一样弯曲，但宇宙似乎是平坦的，k = 0。我们都熟悉这样一个事实：当我们环顾四周时，我们附近的大地看起来是平的，尽管我们知道它是球形的。这是因为地球非常大。类似地，如果宇宙在空间上是平坦的或非常接近平坦，那么它必然比我们所能看到的区域要大得多。为什么会这样呢？

当我们仰望夜空时，宇宙在各个方向看起来都一样。考虑到我们相对于室女座(Virgo)星系团的运动，天空一侧的CMB与另一侧的看起来完全相同。这种均匀性表明早期宇宙非常均匀且处于热平衡。尽管这些辐射用了138亿年才抵达我们，但根据传统的宇宙学，产生CMB的相对区域之间不可能有足够的时间来建立因果接触。那么为什么它们具有相同的温度呢？这对宇宙学家来说是一个严重的难题。为着手解决这一问题，我们必须研究粒子……

508
宇宙学
视界，也称为因果视界或宇宙学视界。这是我们可以期望看到的最远距离，相当于黑洞事件视界的宇宙学对应物。
14.11.1 粒子视界
在平坦的闵可夫斯基(Minkowski)时空中，可以看到宇宙的尽头，不存在视界。这是因为闵可夫斯基时空在过去无限延伸，因此有足够的时间让光线从即使最遥远的空间区域到达我们。相比之下，在膨胀的宇宙中，时间仅在过去有限的时期内延伸。既然如此，我们还能期望看到整个宇宙吗？
当趋近时间 t = 0 时，方程(14.21)中依赖于 k 的项变得可以忽略，球形和双曲型宇宙的膨胀速率与平坦宇宙的相当。因此，让我们考虑更简单的、空间平坦的 FRW 度量(14.7)，其中 k = 0。我们可以转换到一个新的共形时间坐标，使得
dt′ = dt / a(t)，
且
t′ = ∫ dt / a(t)。
(14.56)
采用这个新的时间坐标，度量取如下形式
dτ² = a²(t′)(dt′² − dx² − dy² − dz²)，
(14.57)
这是一个闵可夫斯基度量乘以一个与时间相关的共形因子 a²(t′)。这个新版本的度量是共形平坦的，光信号沿着径向线 r = ±t′ + const 传播。改变坐标不会改变时空的因果结构。零测地线保持为零，类时曲线保持类时，类空曲线保持类空，但变换后的度量在回答有关光信号传播和因果效应的问题时更为方便。我们当前位置的宇宙状态仅受到我们过去光锥内部和其上的事件的因果影响。
光信号在初始时刻 tᵢ 和稍后时刻 t 之间能够行进的最大共动距离为
rₕ(t) = t′ − t′ᵢ = ∫_{tᵢ}^{t} dt / a(t)。
(14.58)
rₕ(t) 被称为粒子视界的半径，而到视界的物理固有距离为 dₕ(t) = a(t) rₕ(t)。在闵可夫斯基时空中，时间坐标可以追溯到负无穷大，因此总是有足够的时间让光信号在任意两点之间通过，无论它们之间的距离如何，因而不存在视界。使用我们的新坐标，FRW 时空具有与闵可夫斯基时空相同的因果结构，所以如果 t′ 也追溯到负无穷大，那么 FRW 时空就没有视界。现在，原始的时间坐标 t 只能追溯到宇宙起源时刻 tᵢ = 0。将积分(14.58)的下限设为 tᵢ = 0，我们看到，若该积分收敛，则 rₕ 是有限的，即存在视界；而若该积分发散，则不存在视界。事实上，若
a(t) ∝ tⁿ
(14.59)
且 n < 1，该积分收敛。然而，我们在第 14.6.1 节中看到，在物质主导的宇宙中 a ∝ t^{2/3}，在辐射主导的宇宙中 a ∝ t^{1/2}。两种情况下积分都收敛，因此存在视界。有些空间区域过于遥远，以至于它们的光线或任何粒子

暴胀宇宙
509
共形时间
过去光锥
复合
大爆炸奇点
粒子视界
最后散射面
图14.7 左：展示FRW宇宙中粒子视界的共形图。CMB接收自过去光锥与最后散射（复合）面相交的点。右：宇宙的空间切片，显示两个因果不连通区域对在中心看到的CMB有贡献。
移动得更慢，自大爆炸以来才到达我们这里。因此我们必须接受，宇宙可能比我们所能看到的区域大得多，宇宙的大部分是不可见的。作为补偿，随着时间的推移，我们将能够观察到宇宙越来越大的区域。

图14.7（左）展示了FRW宇宙的共形图。宇宙的历史可以追溯到 a = 0 的奇点。通过结合方程(14.56)和尺度因子表达式 a ∝ t^{2/3}，我们可以确定物质主导宇宙中奇点发生的共形时间。这个表达式意味着 da ∝ t^{-1/3} dt ∝ a^{-1/2} dt，因此
dt′ = dt / a(t) ∝ a^{-1/2} da 。
(14.60)
因此
t′ ∝ a^{1/2}
并且
a ∝ t′^2 。
(14.61)
类似地，在辐射主导情形下 a ∝ t^{1/2}，这意味着 da ∝ t^{-1/2} dt ∝ a^{-1} dt，因此
dt′ = dt / a(t) ∝ da ，
(14.62)
因此
t′ ∝ a 。
(14.63)
在物质主导和辐射主导两种情形下，a = 0 对应于 t′ = 0。图14.7（左）中的每个点都处于其过去光锥的顶点，该光锥定义了它的整个因果过去。图14.7（右）表明，根据FRW模型，当我们观测微波背景时，我们正从大量区域接收光，这些区域在最后散射（复合）时刻发出辐射时绝不可能有过因果接触。然而，从CMB的光谱来看，这

510
宇宙学
发射发生在可见宇宙所有区域的同一宇宙时时刻，因此整个可见宇宙在此时具有完全相同的温度。

14.11.2 暴胀
正如我们刚才所见，FRW模型无法解释微波温度在整个天空的均匀性。1980年，艾伦·古斯(Alan Guth)提出了一个称为暴胀宇宙的模型，提供了一个可能的解决方案。古斯假设宇宙经历了一段短暂的高度加速膨胀时期。在这个暴胀纪元之前，整个可见宇宙存在于一个极微小的体积内，并被认为已达到热平衡。随后，宇宙的不同区域因暴胀膨胀而在因果上相互分离，但保留了相同的温度。

视界距离
视界退出
视界重返
热大爆炸
时间[对数a]
暴胀
粒子视界
图14.8 在极早期宇宙中存在因果联系的区域，在暴胀期间变得因果断开，但之后可能重新建立因果联系。对角线代表宇宙演化过程中一个代表性点到 cosmological horizon (宇宙学视界) 的距离。在图左侧，暴胀期间，视界距离缩小。在图右侧，常规膨胀期间，视界距离增大。水平线对应于距该代表性点的一个固定共动距离。在极早期宇宙，位于此共动距离的任何区域都在该点的视界之内。在暴胀期间，随着视界缩小，这个区域越过了视界。然后，在常规膨胀期间，随着视界扩大，该区域重新进入视界。

这在图14.8中示意性地展示。在宇宙的最初时刻，每个点的因果视界可能涵盖了宇宙的大部分。然后在暴胀期间，每个点的因果视界急剧缩小。为了符合观测证据，暴胀必须大约在宇宙起源后10⁻³⁶秒开始，并持续了相似的时间段，在此期间宇宙的大小至少翻倍了60次。当暴胀结束时，宇宙继续膨胀，但遵循传统FRW模型的稳定膨胀方式。每个点的因果视界随后增长，可观测的宇宙部分随之增加。最终，在早期宇宙中失去因果联系的区域可能会重新建立因果联系。到暴胀结束时，宇宙中任何初始的不均匀性都将被“暴胀”出视野，任何空间曲率也将被拉伸，直到宇宙与平坦宇宙无法区分。

共形时间
过去光锥
复合
再加热
大爆炸奇点
粒子视界
最后散射面
因果联系
图14.9 显示暴胀宇宙中粒子视界的共形图（与图14.7比较）。

使得古斯的想法在物理上可信的是，爱因斯坦方程存在具有这些暴胀性质的解。所需的条件是，在早期宇宙中一个非常短暂的时间段内，尺度因子满足ä > 0。从方程(14.20)我们看到，ä > 0要求ρ + 3P < 0，由于ρ > 0，这产生了条件 P < -1/3 ρ。因此，一个足够大的负压将产生一个膨胀加速的宇宙。

这可以在一个只包含正 cosmological constant (宇宙学常数) Λ 的宇宙中实现。在这样的宇宙中（k=0），FRW方程(14.21)和(14.22)为：
3 ȧ²/a² = Λ , (14.64)
2 ä/a + ȧ²/a² = Λ . (14.65)
这些方程中的第二个是第一个的必然结果，这一点很容易验证。

512
宇宙学
第一个方程可简化为
˙a =
r
Λ
3 a ,
(14.66)
其解为
a ∝exp
r
Λ
3 t
!
.
(14.67)
这个解被称为德西特空间(de Sitter space)，以威廉·德西特(Willem de Sitter)命名。正如暴胀所要求的，
¨a = Λ
3 a > 0。将方程(14.67)与方程(14.56)结合，我们得到
dt′ = dt
a(t) ∝da
a2
因而
t′ ∝−1
a .
(14.68)
因此 a(t′) ∝−1
t′ ，而 a = 0 处的奇点对应于共形时间 t′ = −∞。不存在视界。宇宙的起源被推回到了 −∞。
如图14.9中的共形图所示，这意味着与传统的FRW宇宙学相比，暴胀宇宙学中有充足的时间让宇宙的所有区域达到热平衡。这可以解释微波背景的均匀性。

大爆炸膨胀
暗能量加速膨胀
星系、行星等的形成
WMAP
暴胀
黑暗时代
余辉光图案
40万年
第一批恒星约4亿年
量子涨落
137亿年
图 14.10 宇宙的时间线。

图 14.10

暴胀提供了一种机制，原则上可以解释观测到的宇宙均匀性及其表观平坦性。此外，暴胀还附带为这样一个问题提供了可能的答案：

扩展阅读
513
即星系形成所必需的小的初始不均匀性是如何产生的。在暴胀之前，宇宙的能量密度中不可避免地会存在量子涨落。任何微小的初始高密度区域随后都会暴胀到某个尺度，在那里它们可能形成不均匀性的原始种子，星系和星系团将由此生长。人们已经投入了大量精力来设计能产生与我们宇宙相似的暴胀模型。
暴胀必须在宇宙最早的时期短暂开启以令宇宙暴胀，随后宇宙经历一个相变，暴胀在大约10^{-34}秒这一极短时间后被关闭。宇宙随后的膨胀由传统的FRW模型很好地描述。目前，这种情景只有通过假设新的量子场的存在才可能实现，而最终，恰当的场应该从自然力的统一理论中推导出来。人们正在持续努力从弦论中推导出合适的量子场。
我们目前对大爆炸至今的宇宙演化的理解如图14.10所示。宇宙学在近期取得了惊人的进展，尽管如此，仍有许多未解之谜。

图14.10

14.12
扩展阅读
E. Harrison, Cosmology: The Science of the Universe (2nd ed.), Cambridge: CUP, 2000.
M. Longair, The Cosmic Century: A History of Astrophysics and Cosmology, Cambridge:
CUP, 2006.
S. Weinberg, Cosmology, Oxford: OUP, 2008.
关于暴胀宇宙学的综述，参见
D. Baumann, TASI Lectures on Inflation, arXiv: 0907.5424v2 [hep-th], 2012.

15_Frontiers_of_Physics

15 物理学的前沿
尽管现代物理学取得了巨大成功，仍有一些问题有待解答。在本章中，我们将探讨这些开放性问题。它们分为几类。有宇宙中尚未解释的特征，如物质–反物质不对称性、暗物质的存在，以及更加神秘的暗能量。有与理论不完整性相关的问题，如标准模型未了结的线索，以及需要一种量子引力理论，能将其整合到所有力的理论中。还有需要解决的深刻哲学问题——粒子究竟是什么，空间和时间的基本性质又是什么？首先，我们将探讨如何诠释量子力学这一仍未解决的问题，以及量子力学是否代表了实在的终极理论，还是可能存在更深层次的理论。

15.1 量子力学的诠释
正如我们所见，量子力学提供了一套极其精确的方法，用于预测实验的概率性结果。没有任何实验或观察对量子力学有效这一事实提出过质疑。然而，当我们探究其形而上学含义时，量子力学暗示，宇宙与我们经典直觉可能认为的相比，非常不同，而且奇妙得多。
量子力学的标准诠释是1927年在哥本哈根，玻尔(Bohr)、海森堡(Heisenberg)和泡利(Pauli)的一次会议上敲定的。它包括不确定性原理、波粒二象性、波函数的概率性诠释，以及将本征值认定为可观测量的测量值。这套思想被称为哥本哈根诠释(Copenhagen interpretation)。标准量子力学的最后一个要素——波函数坍缩(wavefunction collapse)——由约翰·冯·诺依曼(John von Neumann)在其1932年出版的专著《量子力学的数学基础》(Mathematical Foundations of Quantum Mechanics)中添加，通常被认为是哥本哈根诠释不可分割的一部分。冯·诺依曼提出，量子力学由两个独立的过程组成。首先，在没有任何测量影响的情况下，量子系统按照含时薛定谔方程(time-dependent Schrödinger equation)进行确定性演化，在这一演化过程中，状态通常由任何给定可观测量的本征函数的叠加组成。其次，当该可观测量被测量时，以及测量后立即，系统的波函数就是对应于测量本征值的特定本征函数，正是测量行为将系统投影到这个本征函数上。这种投影被称为波函数坍缩。我们在之前所有关于量子力学的讨论中都遵循了哥本哈根诠释，例如在第12.9节中考虑中微子振荡时。
The Physical World. Nicholas Manton and Nicholas Mee, Oxford University Press (2017).
c⃝Nicholas Manton and Nicholas Mee. DOI 10.1093/acprof:oso/9780198795933.001.0001

量子力学的诠释
515
量子理论的某些先驱，尤其是爱因斯坦(Einstein)、薛定谔(Schrödinger)和德布罗意(de Broglie)，无法接受哥本哈根诠释(Copenhagen interpretation)，并投入了大量精力来寻找反驳论据和替代方案。我们可以用一个简单的例子来说明这些哲学分歧。一个放射性原子核，例如铀-238，可能存在数十亿年，然后突然衰变并发射出一个α粒子。但衰变时刻无法预测。我们只能给出原子核在一定时间内衰变的概率。同样的行为也发生在基本粒子中，比如μ子，其衰变半衰期约为一微秒。在爱因斯坦看来，我们无法确定衰变时刻，仅仅是由于我们对所有相关变量的无知。他深信，在这类过程的量子描述背后，必定存在着某种准经典的隐变量(hidden variables)，它们精确决定了粒子何时衰变。铀原子核是一个复杂的对象，我们或许可以想象其组成部分来回运动，直到达成一个相当不可能的构型，此时衰变发生。然而，被认为是无内部结构的基本粒子的μ子，也表现出相同的行为。根据爱因斯坦的观点，即使在这些情形下，也必定存在我们尚未意识到的隐变量，决定着衰变的时刻。如果这是真的，那么它将把量子力学约化为某种类似于经典统计力学的东西——对一个复杂系统”表面上随机”的动力学过程的概率性描述。

量子力学的哥本哈根诠释则以一种截然不同的方式描述粒子的衰变。根据这一观点，我们必须用一个以状态叠加(superposition)方式演化的波函数，来描述包含一个不稳定粒子（例如μ子）的系统。这种叠加既包含描述未衰变μ子的态，也包含描述μ子衰变后产物的态。该系统作为一组潜在可能性的集合而演化，直到进行一次测量，此时波函数坍缩(wavefunction collapses)，系统随后便处于μ子已衰变或未衰变的状态（视具体情况而定）。我们只能预测测量各种可能结果的概率。这里不存在隐藏的信息。

由玻尔(Bohr)、冯·诺依曼(von Neumann)等人所倡导的哥本哈根诠释，或许与观测结果一致，但它引发了诸多问题。根据量子力学，μ子是全同粒子，甚至在原则上也无法区分一个μ子和另一个μ子。因此，同样无法区分此刻的μ子和片刻之前的同一个μ子，但在某个不可预测的时刻，该μ子突然改变并衰变了。这是相当奇怪的，因为它似乎是一种没有原因的结果，并暗示我们可能不得不放弃决定论。同样奇特的是，物理学的终极理论竟然依赖于一个该理论本身未用数学描述的过程——波函数坍缩。此外，波函数坍缩被假设为瞬时发生，这至少与相对论的精神相悖。它还要求某种外部干预——测量——这就引出了一个问题：究竟什么才构成一次测量。

15.1.1 薛定谔的猫与维格纳的朋友
爱因斯坦对哥本哈根诠释感到非常不安，因为他觉得它否定了常识性实在的存在。玻尔曾论证说，我们对原子这么小的实体没有直接经验，因此不应预先判断它们可能的行为方式。爱因斯坦与薛定谔之间的一次通信往来，催生了旨在证明玻尔立场荒谬性的最著名尝试——薛定谔的猫思想实验

516
物理学前沿
薛定谔在1935年发表的这个思想实验旨在表明，量子力学的奇异观念不能被局限于微观世界，而是必然蔓延至宏观世界，得出与日常经验相悖的结果。

实验装置如下：一个放射性原子与一个装有猫的封闭钢箱中的仪器相连。该原子的半衰期为一小时，并由盖革计数器监测。如果原子发生放射性衰变，盖革计数器会触发一个开关，释放出毒气，将猫杀死。一小时后，原子有50%的概率已经衰变，50%的概率尚未衰变，但装有猫的箱子是封闭的，因此无法得知原子衰变是否已发生。根据量子力学的哥本哈根诠释，一小时后，原子必须被描述为“已衰变”和“未衰变”的叠加态，而且由于尚未进行任何测量，描述整个系统的唯一方式，就是假设整个装置和猫现在都处于态的叠加之中。在其中一种叠加态中，猫是活的；在另一种态中，猫是死的。这种态的叠加持续存在，直到我们通过打开箱子窥视内部来进行测量。在那一刻，波函数坍缩，展现出要么生要么死的猫。

我们或许可以接受一个原子存在于态的叠加中，因为原子的微观世界我们无法直接触及，但我们在日常生活中从未经历过叠加态，那么我们真的能接受一只猫可能存在于这种状态的可能性吗？我们见过活猫，也见过死猫，但从未见过两者的叠加。况且，如果我们放进去的是一个人而不是猫呢？

尤金·魏格纳(Eugene Wigner)是量子力学正统观点的支持者，甚至可说是其缔造者之一，因为冯·诺依曼在撰写其论文期间，魏格纳正是他的密切合作者。魏格纳构想了一个被称为“魏格纳的朋友悖论”的思想实验，其内容如下：魏格纳事务繁忙，于是他请一位朋友去检查某项实验的结果，这个实验可能涉及箱子里的猫，但更可能是关于大型强子对撞机(LHC)碰撞的记录。¹ 魏格纳的朋友注意到了一个有趣的结果，或许是一个罕见事件，比如前一天记录到的希格斯粒子的产生。她依程序将此结果报告给了魏格纳。问题是：描述希格斯粒子产生的波函数是何时坍缩的？是当LHC的ATLAS探测器记录下该事件时，还是当魏格纳的朋友查看结果时，又或者是当她向魏格纳报告此消息时？

根据哥本哈根诠释，波函数在前一天就坍缩了——当时存在一个确定的希格斯粒子，它与测量设备相互作用并随后衰变。然而，在魏格纳朋友的意识中，波函数的坍缩发生在她查看记录的那一刻。现在，魏格纳的朋友去告诉魏格纳她所看到的情况，只有到这时，魏格纳本人的波函数才坍缩。换言之，在那之前，魏格纳知道前一天的事件中可能存在一个希格斯粒子，但这只是量子叠加态的一部分，而在这个叠加态中，出现希格斯粒子的振幅非常小。魏格纳的波函数既没有在前一天坍缩，也没有在他朋友检查记录时坍缩。那时候（从魏格纳的观点来看），所发生的一切仅仅是在可能的希格斯信号与魏格纳朋友的意识之间建立了一种关联。直到她告诉他发生了什么，魏格纳的波函数才真正坍缩。

¹ 我们关于魏格纳朋友悖论的讨论在时代背景上略有出入。该悖论发表于1961年，远早于LHC的建造。

量子力学的诠释
517
如果我们相信客观外部实在，那么这些选项中只有一个可能是正确的，但究竟是哪一个呢？维格纳(Wigner)认为，像ATLAS这样的探测器，其所有组成部分都是由原子和其他遵循量子力学规则的粒子构成的，因此它们必须按照某种极其复杂的薛定谔方程(Schrödinger equation)以状态的叠加形式演化，仪器内部没有任何东西能够导致波函数坍缩(wavefunction collapse)。维格纳知道，当实验结果被报告给他时，波函数已经坍缩了。他可能会认为坍缩就发生在这一刻。但这意味着只有他能够使波函数坍缩。这实质上等于说维格纳是唯一有感知能力的存在，而他的朋友以及其他所有人都只是自动机器。这种相当灾难性的哲学立场被称为唯我论(solipsism)。维格纳自然否定了这种可能性。他认为，唯一合理的假设是，他的朋友也是一个有感知能力的存在，并且在向维格纳报告之前，她就已经有意识地意识到了实验结果。维格纳的结论是，可观测量的测量只能由像人类这样的有意识的存在来完成，正是意识与量子系统之间的这种相互作用导致了波函数坍缩。

这是否意味着我们人类才是终极测量装置，只有我们——而非猫——才能使波函数坍缩？这看起来像是一个颇具吸引力的提议。它意味着所有那些复杂的实验室测量设备及其内部的物理过程，比如像ATLAS这样对出射粒子做出响应的粒子探测器，以及存储碰撞事件长期记录的计算机，都愉快地遵循着一个复杂的多粒子薛定谔方程，没有任何波函数坍缩发生。坍缩只发生在我们观察的时候。然而，正是这最后一个阶段成为了真正的谜题。人类有什么不同，使得他们置身于物理学的其余部分之外，并遵循不同的法则呢？

维格纳将意识与波函数坍缩联系起来的做法相当奇特。“从事”物理学研究时最基本的要求就是相信外部客观实在。援引意识在波函数坍缩中的作用，有可能破坏这一原则。它暗示宇宙就像一个虚拟现实游戏，其细节会随着我们进一步探索而不断更新。当我们参观一个新地方，或者通过望远镜观察一个遥远的星系时，难道真的可以相信会发生一连串的波函数坍缩，仿佛大自然以某种方式合谋，在时间上回溯到大爆炸(Big Bang)来构建一个自洽的宇宙吗？在第一个人类变得有自我意识之前，世界真的存在于一个定义不清的叠加态之中吗？还是说，维格纳只是将两个我们尚未理解且颇为不同的难题——量子测量问题和意识的起源——混为一谈了呢？尽管我们对意识的理解还远不够透彻，但将不同程度的意识赋予从人类到类人猿、海豚、大象、猫等各种实体，似乎是合理的。佛教徒甚至会使我们相信，树木、变形虫、岩石和基本粒子也都有某种程度的意识。那么，这些实体中哪些能够使波函数坍缩呢？波函数坍缩必定是一个离散的过程，因为波函数要么坍缩，要么不坍缩。它真的能与像意识这样存在于连续谱上的性质相关联吗？

一个更简单的替代方案可能是一种纯力学的测量问题解决办法。不难想象，当一个波函数达到适当的复杂程度——可能由它所描述的粒子数量或质量大小决定——时，它就必须自发坍缩。这需要在……

薛定谔方程中新的非线性项。添加一个仅在比如 10^10 个粒子相互作用时才变得显著的小项，并不一定会削弱其巨大的预言成功。

518
物理学前沿
量子力学的问题。其中一个设想由罗杰·彭罗斯(Roger Penrose)勾勒出来，他提出当波函数所描述的总纠缠粒子质量接近普朗克质量(Planck mass)——大约为10⁻⁸ kg——时，波函数坍缩可能会被触发。这在原子尺度上非常大，但在人类尺度上却非常小。

15.1.2 多世界诠释
量子力学还有另一种诠释，由休·埃弗雷特三世(Hugh Everett III)于1957年提出，试图规避与波函数坍缩相关的问题。它被称为多世界诠释(many-worlds interpretation)。根据这种观点，波函数并不会坍缩。相反，每当粒子相互作用时，无论是否有人为干预，宇宙都会分裂。当我们进行一次测量，宇宙就分裂了。我们可能发现自己处于一个宇宙中，其中我们测得的值是λ₀，测量后的波函数是Ψ₀，因此如果重复测量，我们将再次得到值λ₀；在另一个宇宙中，测量值可能是λ₁，测量后的波函数是Ψ₁，依此类推。这样一来，单次测量可能会极大地增加宇宙的数量，但我们避免了令人不快的叠加态。例如，那只死与活的薛定谔猫(Schrödinger cats)存在于不同的宇宙中。在一个宇宙中，猫已被毒死；在另一个宇宙中，猫活着且健康。

多世界诠释的一个问题是，什么构成一次测量仍不清楚。测量不一定需要宏观仪器，所以几乎所有发生的事情都是一次测量。如果两个粒子碰撞，一个粒子就在测量另一个粒子的位置。因此，宇宙并不仅仅在罕见场合分裂；它时时刻刻都在发生。如此难以置信的不可观测宇宙的多重性，考验着我们的轻信。我们栖居于一个单一的宇宙吗？我们也许会这样认为，但其实不是——我们同时处于多个宇宙中，所有这些宇宙在某种意义上都存在。这与我们对周围世界的直觉产生了剧烈的冲突。我们体验的是一个单一的世界，比如我们支持的足球队刚刚输掉了比赛。但根据多世界诠释，另一个“我们”正处在一个我们球队赢了的宇宙中。我们怎样到达那里？为什么我们只体验到一个单一的、未分裂的宇宙？多世界诠释暗示，自大爆炸(Big Bang)以来的每一次相互作用，都已将宇宙分裂成无法分类的无穷多个宇宙，因为诸如动量和散射角等变量对于量子系统而言具有连续的可能取值。多世界诠释并未提供宇宙分裂的机制，它依然是一个没有定量结果、且带有大量多余包袱的想法。

这些其实是相当形而上学的思辨，纯靠内省很难得出任何确凿的结论。然而相当引人注目的是，近几十年来，量子测量问题的某些特征已在实验室中得到了检验。

15.1.3 EPR佯谬
一项由爱因斯坦(Einstein)、鲍里斯·波多尔斯基(Boris Podolsky)和内森·罗森(Nathan Rosen)于1935年发表的思想实验，被称为EPR佯谬(EPR paradox)，不过该佯谬最清晰的表述来自大卫·博姆(David Bohm)，我们将考虑这个版本。设想一个处于静止系的自旋为0的粒子X。粒子X衰变为两个自旋为½的粒子A和B，并沿相反的方向z和−z远去。（这些衰变产物可以是例如一个电子和一个正电子。）我们布置好仪器，测量粒子A在垂直于z的方向x上的自旋。这次测量确定了粒子A在x方向上是自旋向上还是自旋向下。我们知道衰变产物的总自旋必须为零，

量子力学的诠释
519
因此粒子B必定具有与粒子A相反的自旋。测量粒子A的自旋态将因而同时确定粒子B的自旋态。

这或许并不那么令人惊讶。我们熟悉这样的情形：我们获得关于一个物体的一条信息，同时也就揭示了关于第二个物体的一条信息。例如，我们可以将一个黑球和一个白球放入一个袋子，请某人从袋中取出一个球。如果他们取出白球，我们便知道黑球留在袋中。我们通过观察被取出的球获得了关于袋中球的信息。这里没有神秘之处；我们知道球在整个过程中保持了自身的同一性。袋中的球并未因我们的观察而受影响。

然而，当考虑量子粒子的自旋态时，情况大不相同，因为根据哥本哈根诠释，这些自旋态直到我们进行测量时才被定义。测量之前，粒子A和B被描述为纠缠的，它们必须由一个波函数φAB来描述，该波函数是两种可能自旋态的叠加，使得总自旋为零。采用φ↑Ax表示粒子A在x方向自旋向上的波函数这一记法，两个粒子的自旋态由以下波函数描述：

φAB = 1/√2 (φ↑Ax φ↓Bx − φ↓Ax φ↑Bx) . (15.1)

当我们进行测量时，波函数发生坍缩，叠加态之一——或者是φ↑Ax φ↓Bx，或者是φ↓Ax φ↑Bx——被投射出来。这影响了两个粒子的状态。同样重要的是，我们本可以将仪器安排为测量粒子A在y方向的自旋，或者任何其它方向。这意味着这些粒子并非经典的陀螺，其自旋矢量并非在它们由粒子X衰变而产生的那一刻就已确定；它们的自旋值在被测量之前并非确切定义。此外，我们进行测量时，粒子A与B之间的距离没有限制。这似乎意味着我们与粒子A的相互作用对粒子B有瞬时影响。如果我们测得粒子A的自旋向上，则波函数坍缩意味着紧接着之后，粒子B的自旋向下，但就在此前一瞬间，粒子B的自旋还处于叠加态中。我们无法利用这一事实来传递信息；然而，它似乎违背了相对论的精神。爱因斯坦(Einstein)将纠缠称为鬼魅般的超距作用(spooky action at a distance)。

约翰·贝尔(John Bell)证明，EPR思想实验意味着，如果量子力学是正确的，那么测量之间存在任何隐变量理论无法解释的关联。这些关联首次由阿兰·阿斯佩(Alain Aspect)领导的一系列实验所检验。这些实验以及随后所有改进实验都非常清晰地表明，量子力学反直觉的预言得到了遵守。

15.1.4 阿斯佩实验
1982年，由阿兰·阿斯佩领导的一个团队受EPR佯谬启发，进行了一系列实验来探究量子测量问题。他们的装置建在巴黎理论与应用光学研究所的地下室。这些实验测量的是纠缠光子的偏振态，而非像电子和正电子这类粒子的自旋态，但其含义是相同的。钙原子具有一个激发态，该状态下最外层的两个4s电子被提升，形成自旋为0、

520
物理学前沿
4p² ¹S₀态，这就是实验中使用的纠缠光子的来源。该激发态通过两步过程迅速衰变至基态，首先在光谱的绿色区域发射一个波长为551.3 nm的光子，随后在光谱的蓝色区域发射一个波长为422.7 nm的光子。这些光子沿相反方向发射，并且由于激发态和基态的自旋均为0，两光子具有相反的偏振。
源
{|x, x) +|y, y }
| (v1, v2)
符合计数
探测器
x
z
y
A
B
v2
v1
+1
–1
+1
–1
a
b
1

2
图15.1 阿兹佩(Aspect)实验所用装置的示意图。(图片经授权转载自Physics 8, 123, December 16, 2015。版权(2015)归美国物理学会所有。)

图15.1

在阿兹佩实验中，一束密度相对较低(约每立方米3×10¹⁶个原子)的准直钙原子束进入一个腔室，在那里原子被暴露于两束波长分别为406 nm和581 nm的极强激光束下，从而通过双光子同时吸收将原子激发到自旋为0的4p² ¹S₀态。(设计此技术是为了避免用于激发钙原子的光子与原子衰变产生的光子之间发生任何混淆。)如图15.1所示，对钙原子发射的光进行监测。左侧的滤光片选择标记为A的绿色光子，右侧的滤光片选择标记为B的蓝色光子。这些光子随后进入偏振分析器，这些分析器是由两个棱镜胶合在一起并在其公共面上涂有介电涂层的立方体。垂直偏振的光子入射到这个面上时直接透射，而水平偏振的光子则以90°反射。然后光子进入光电倍增管被探测。通过这种方式，可以确定任何穿过该装置的光子的偏振。每个偏振分析器都安装在一个平台上，允许其绕自身光轴旋转，从而可以改变两个分析器的相对取向。受激钙原子发射第二个光子的半衰期约为5 ns，因此电子学设备被设置为寻找在20 ns内光子A和B到达的符合事件。

图15.1

量子力学的解释
521
这足以收集真实符合事件，但又足够短，使得不同光子对之间重叠的概率非常低。测量到的符合计数率在每秒0–40次之间变化，具体取决于两个分析器之间的角度。
通过考虑一种通常称为偏振片(Polaroid)的薄塑料偏振器，我们可以深入了解阿斯佩(Aspect)装置内部发生的情况。偏振片包含针状晶体，全部沿同一方向排列。当随机偏振的光照射到偏振片上时，它会分解为两种正交偏振态，平行和垂直于晶体方向。相对于偏振片，它们被称为垂直(+)和水平(-)偏振。只有垂直偏振的光能透过，其强度为1/2 I₀，其中I₀为原始强度。在透射光路径上放置第二个偏振片，会将光再次投影为垂直和水平分量。如果两个偏振片的偏振方向之间的夹角为α，则透过第一个偏振片的光的电场E会分解为一个透过第二个偏振片的垂直分量E cos α，以及一个被消光的水平分量E sin α。透过两个偏振片的光强度为1/2 I₀ cos² α。这一观测结果称为马吕斯定律(Malus’ law)。如果两个偏振片相互垂直，则α = π/2，无光透过。量子力学的一个显著结果是，如果在两个垂直偏振片之间再放置一个偏振片，则会有一些光透过。如果第一个与第二个偏振片之间的夹角为α，第二个与第三个偏振片之间的夹角为π/2 − α，则透射光的强度为1/2 I₀ cos² α sin² α = 1/4 I₀ sin² 2α，当α = π/4时，其最大值为1/4 I₀。

现在我们可以考虑光子在阿斯佩装置中通过时发生的情况。当受激钙原子衰变时，它发射出一个绿色光子，几乎紧接着又发射出一个蓝色光子。根据量子力学的哥本哈根解释(Copenhagen interpretation)，这两个光子以总自旋为零的叠加态发射。当绿色光子与偏振分析器PA1相互作用时，它被投影为垂直或水平偏振（概率各为1/2）。这一波函数坍缩同时影响了蓝色光子，它瞬间投影到相对于PA1具有相同偏振、但相位相对于绿色光子移动了π的状态。然后蓝色光子遇到与PA1成角α的PA2。该光子现在经历第二次投影，变为相对于PA2的垂直或水平偏振。如果蓝色光子相对于PA1是垂直偏振，那么相对于PA2投影为垂直的概率是cos² α，投影为水平的概率是sin² α。对于检测到的每对光子，总共有四种可能的结果：(++)、(−−)、(+−)、(−+)，其中第一个符号表示绿色光子相对于PA1的偏振，第二个符号表示蓝色光子相对于PA2的偏振。每种结果的概率是两个投影概率的乘积：P++ = 1/2 cos² α , P−−= 1/2 cos² α , P+−= 1/2 sin² α , P−+ = 1/2 sin² α。这些结果可以用符合函数来概括
E(α)

P++ + P−−−P+−−P−+

1/2 cos² α + 1/2 cos² α − 1/2 sin² α − 1/2 sin² α

cos 2α ,
(15.2)
该函数随两个偏振分析器之间的夹角α变化。阿斯佩团队在角度α = 0, π/8 , π/6 , π/4 , π/3 , 3π/8 , π/2处测量了符合函数，结果符合

522
物理学前沿
如图15.2中曲线所示。这与量子力学的预言完美吻合。
量子力学
1
E( )
00
4
π
–1
隐变量
2
π
图15.2 曲线表示量子力学对E(α)的预言。直线表示文中描述的简单隐变量模型的预言。Aspect及其他量子纠缠实验的结果均落在曲线上，从而排除了定域隐变量理论。
我们预期另一种隐变量理论会给出什么结果呢？在这样一种理论中，光子的偏振在钙原子衰变时即已确定。我们将考虑一个简单的理论，其中这一信息存储在一个随机变量ϑ中，它代表光子偏振的方向。如果绿色光子发射时其偏振方向相对于PA1的角度为ϑ，那么蓝色光子相对于同一方向的偏振角则为ϑ + π。我们将假设，当该理论描述的光子通过一个偏振分析器时，它会根据哪个方向更近而投影到垂直或水平方向；即，当π/4 < ϑ < 3π/4 和 5π/4 < ϑ < 7π/4 时变为水平偏振，当3π/4 < ϑ < 5π/4 和 7π/4 < ϑ < π/4 时变为垂直偏振。关键在于，我们不认为蓝色光子会受到绿色光子投影的影响。根据这一理论，计算结果是直接的。绿色光子被PA1垂直投影的概率为1/2。若PA2的设置相对于PA1的角度为α，则蓝色光子被PA2垂直投影的概率为(1/π)×(π−2α)，而被水平投影的概率为(1/π)×2α。将所有四种可能的结果考虑在内，可得出符合函数如下：
E(α) = P++ + P−− − P+− − P−+
= 1/2 × 1/π [ (π − 2α) + (π − 2α) − 2α − 2α ]
= (π − 4α) / π。
(15.3)
该函数在图15.2中显示为一条直线。

量子力学的诠释
523
在阿斯佩(Aspect)实验中，偏振分析器相距13米。以光速从一个分析器向另一个分析器传输信号大约需要40纳秒。这比检测纠缠光子对所允许的最大时间窗口长一倍，因此该实验排除了光子之间通过某种未知的亚光速相互作用发生串通的可能性。该实验的一个变体称为延迟选择实验，其中每个偏振分析器的角度都有两个可供选择的设定，而具体选用哪个设定是在光子飞行途中决定的。这排除了衰变原子与偏振分析器之间任何隐藏的关联。自最初期的阿斯佩实验以来的几十年里，人们进一步努力设计量子纠缠实验，以堵住任何可能想到的、能用定域隐变量进行解释的剩余漏洞。这些改进包括确保探测器之间以及偏振分析器之间具有类空间隔。探测器效率也得到了大幅提升，以确保实验不会受到不公平采样的影响，并排除系统只能探测到表现出量子关联的非典型粒子子集的可能性。此外，还使用了量子随机数发生器来决定每次测量的取向，以确保结果不会受到系统内以往构型的任何记忆的影响。2015年，代尔夫特(Delft)大学的一个团队报告了首个无漏洞实验，该实验测量了两个电子的纠缠，每个电子分别被囚禁在金刚石晶格的一个空位中，且相距1.3公里。现在人们普遍认为，这些实验的结果排除了所有可能的定域隐变量理论。

一个似乎无法回避的事实是，量子力学的基础在于粒子之间的非定域性影响，而且正如阿斯佩实验所证明的那样，这些影响不受光速的限制。然而值得注意的是，没有任何信号可以通过这种方式传输。监测偏振分析器2（PA2）的物理学家可以将偏振片设定在任意角度，而对于每个进入PA2的蓝色光子，它总是有1/2的概率是垂直偏振的，有1/2的概率是水平偏振的。这完全没有提供任何关于PA1取向或绿色光子偏振的信息。只有当PA1和PA2的结果被汇集到一起并进行比较时，这些统计结果之间的关联才会显现出来。因此，尽管我们可能会对这些实验结果感到震惊，但它们并没有为因果性超光速相互作用提供证据。此外，如果PA1和PA2处的测量具有类空间隔，那么在某些参考系中，PA2处的测量将发生在PA1处的测量之前。在这些参考系中，结果会有相当不同的诠释，但这并不会产生任何不一致。现在我们将PA2处的测量解释为导致了波函数坍缩，而PA1处的测量则作用于由此产生的本征态。两次测量的结果完全相同，并且它们之间存在相同的关联。

量子纠缠已经成为一种新技术——量子密码学——的基础，并预示着如量子计算等进一步的创新，尽管还有相当大的技术障碍有待克服。
这些量子奥秘的核心在于波粒二象性的观念。在某些情形下，我们所关注的实体——无论是电子、光子还是中微子——表现得像波，而在另一些情形下它们又表现得像粒子。那么它们到底是什么？粒子常常被当作点状物来处理，但这不可能在字面上成立，因为点状的

粒子是高度奇异的。或许，对粒子更好的描述能够阐明围绕量子力学诠释的一些问题。

524
物理学前沿
15.2
点粒子问题
粒子的理想经典图像是它是一个几何点，在时空中描绘出一条世界线。这导致了微分运动方程，包括牛顿(Newton)运动定律和粒子在爱因斯坦(Einstein)弯曲时空中的测地线运动方程。这些方程都是被充分确立的。标准模型的基本粒子在大型强子对撞机(LHC)已探索的距离尺度上（小至约10⁻¹⁸ m）表现得如同点粒子。然而，粒子具有有限的质量并且通常带有非零的电荷，这意味着如果它真的是点粒子，那么它将具有无限的质量密度、无限的电荷密度和无限的静电能量。此外，考虑到点粒子所发出的辐射，似乎不可能精确而自洽地确定其经典运动。因此，我们必须将粒子的点状本质视为一种理想化，仅在粒子间距离远大于粒子大小的情形下成立。

在标准非相对论量子力学中，粒子的点状模型被保留下来。波函数的模平方 |ψ(x)|² 决定了在 x 处找到粒子的概率。ψ(x) 通常是平滑且弥散开的，但粒子本身并非如此。通常假设粒子本身保持点状，并且波函数可以任意窄地尖峰化，至少在某个初始时刻如此，这意味着位置不确定度可忽略。之后，波函数按照薛定谔(Schrödinger)方程演化，变得宽阔得多。这是由于不确定性原理。一个精确局域化的粒子具有很大的动量不确定度，因此（启发式地）粒子会迅速从初始位置向所有方向离去。于是位置概率密度也迅速扩散。

在量子力学中，点状模型必须再次被视为一种理想化，它只是近似成立的。在结合了量子力学与相对论的量子场论中，对于粒子能够有多小存在一个真正的限制，尽管这个限制并不非常精确。其思想是，如果一个粒子被过于高度地局域化，那么它有显著的概率具有大的动量，因而其动能远大于其静质量。这份能量可以重新表现为一个新粒子，或者粒子-反粒子对。当周围存在多于一个粒子时，我们就不再确切知道原始粒子在哪里。假设粒子被局域在距离 L 内。那么它的动量至少为 2π¯h
L 。相对论能量-动量关系是 E² = p² + m²，当 p 与 m 同数量级时，粒子数开始变得不确定。如果 2π¯h
L
与 m 同数量级，或者说，如果 L 与 2π¯h
m 同数量级，这种情况就会发生。因此，2π¯h
m 被称为质量为 m 的粒子的康普顿波长(Compton wavelength)，粒子不可能被有意义地局域在比这更小的半径内。质子的康普顿波长约为 1 fm（10⁻¹⁵ m），而电子的康普顿波长为质子的 1836 倍，数量级为 10⁻¹² m。这两个距离都远小于原子半径。

这些论证给出了粒子可以有多小的重要限制，但未能对粒子的内禀结构或精确大小提供任何深入理解。目前的认知是，电子在其康普顿波长尺度上没有内禀结构。事实上，实验尚未探测到电子小至约10⁻¹⁸ m尺度上的任何空间结构。类似地，单个夸克似乎没有亚结构。另一方面，质子由三个夸克构成。在简单模型中，夸克

点粒子问题
525
有一个空间波函数，它赋予质子的内禀尺寸几乎与其康普顿波长相同。

物理学家仍然没有令人信服的关于基本粒子终极结构的图像。依赖量子不确定性的论证，以及将它们视为由越来越小的亚单位组成的解释，并不完全令人满意。还有一种不同的方法，我们接下来将考虑，它进一步利用了场论的非线性性。像克莱因-戈登(Klein–Gordon)理论这样的线性场论，本质上是一种完全没有空间局域性的波的理论。量子理论有满足 E2 = p2 + m2 的态，仅从这一点就推断出存在质量为 m 的粒子。另一方面，非线性场论通常具有更加局域化的解，这些解甚至在量子化之前就具有粒子性。这些解被称为孤子(solitons)，它们不是点状的。它们提供了一种根本不同的基本粒子模型。

15.2.1 孤子
到目前为止，我们在场论中所考虑的激发就像沿着长绳或弹性介质传播的波。只有将波量子化之后，我们才能找到粒子态。孤子则不同。它们是原始经典场方程的类粒子解。一个恰当的孤子类比是默比乌斯带(Möbius strip)中的扭曲。孤子本质上是局域化的，光滑而非点状，其大小取决于理论的参数。它的经典能量被认定为它作为粒子的静止质量。当场论被量子化时，孤子的性质不会受到太大影响。

我们将首先考虑正弦-戈登(sine–Gordon)孤子。这是1维空间中的孤子，因此它并非真实的物理粒子。然而，它产生于一个数学上优雅的场论，该场论可以在经典和量子力学层面进行非常详细的分析。这个模型的名称是在戏仿克莱因-戈登。我们将讨论的第二种孤子是3维空间中的斯格明子(Skyrmion)。这是一个具有物理意义的质子或中子的实际模型，尽管人们并不认为它像这些粒子的QCD模型那样基本。

还有许多其他类型的孤子。一个例子是孤子磁单极子，具有非零磁荷。具有磁荷的粒子在麦克斯韦(Maxwell)理论中是不可能的，因为它们违反方程 ∇· B = 0，但在一些更复杂的杨-米尔斯(Yang–Mills)理论中发现了它们，这些理论中麦克斯韦方程与其他场的方程结合在一起。标准模型本身没有任何磁单极子，这很幸运，因为磁单极子从未被观察到过。孤子也存在于经典波动情境中，包括水波和光纤中的波，以及多体量子系统。例如，某些磁性材料中存在斯格明子的2维类似物。最近关于斯格明子的许多文献现在指的是这些对象，但它们不是基本粒子。

正弦-戈登(sine–Gordon)场论是克莱因-戈登场论在一维的版本，带有一个特定的相互作用项。该理论在2维时空中是洛伦兹不变的。它有一个拉格朗日量，描述一个实标量场 φ(x, t)，由此可以导出正弦-戈登场方程
∂2φ
∂t2 −∂2φ
∂x2 + sin φ = 0 .
(15.4)
（我们已固定时间和能量单位，将其化为最简形式。）sin φ 相互作用

526
物理学前沿
该项赋予了模型其名称。对于小的φ，若将其展开，sine-Gordon方程变为
∂²φ
∂t² −∂²φ
∂x² + φ −1
6φ³ + · · · = 0 。
(15.5)
φ项赋予场一个质量，而φ³项则产生相互作用，正如第12章所讨论的，这种相互作用可用费曼图(Feynman diagram)顶点来表示。
回想我们之前对希格斯机制(Higgs mechanism)的讨论，场论的真空不必唯一。在sine-Gordon理论中，真空可以建立在任意一个满足场方程的稳定、均匀场上。一个真空解是φ = 0，但对于任意正整数或负整数N，解φ = 2πN也是一个真空。
6
4tan⁻¹(e^{±x})
5
4
3
2
1
–4
–2
2
4
x
孤子解
反孤子解
图15.3 一维sine-Gordon理论中的孤子与反孤子解。
sine-Gordon方程有许多依赖时间的、类波的解，而且令人称奇的是，其中有无数个解可以用闭合形式写出。然而，我们感兴趣的正是孤子解。这是一种局域的静态解，在左边和右边的空间无穷远处趋向于不同的真空，并且具有有限能量。为找到它，我们注意到，如果一个静态场满足
dφ
dx = 2 sin 1
2φ ,
(15.6)
那么它就满足sine-Gordon方程，因为
d²φ
dx² = (cos 1
2φ) dφ
dx = 2 cos 1
2φ sin 1
2φ = sin φ 。
(15.7)
一阶方程(15.6)很容易求解，并且有一个解log tan 1
4φ = x，或等价地
φ(x) = 4 tan⁻¹(e^{x}) 。
(15.8)
这个孤子解示于图15.3中。

点粒子问题
527
孤子的场变量 φ 具有一个单位的卷绕数。当 x → −∞ 时，e^x → 0，我们可以选取 tan⁻¹(e^x) 的值使得 φ → 0。当 x → ∞ 时，e^x → ∞ 且 tan⁻¹(e^x) → ½π，因此 φ → 2π。孤子在空间线的两端都趋近于真空，但由于 φ 沿着线增加了 2π，它具有非平凡且不可移除的拓扑特性，我们称之为单位卷绕。因此，正弦–戈登孤子是拓扑孤子的一个例子。

通常，正弦–戈登场 φ 被视为一个角变量，在这种情况下，我们之前讨论的真空实际上是不可区分的。最终只有一个真空，因为将 φ 移动 2π 没有物理效应。然而，孤子仍然具有单位卷绕，就像一个完成一整圈运动的单摆，它不能连续形变为恒定的真空解。

正弦–戈登孤子显然具有光滑的特征和有限的宽度。它有几个变体。我们可以将孤子向左或向右平移（在求解方程 (15.6) 时利用任意的积分常数）。我们也可以将孤子加速到任何低于光速的速度 v。完整场方程 (15.4) 的一个解为
φ(x, t) = 4 tan⁻¹(e^{γ(x−vt)})， (15.9)
其中 γ = (1−v²)^{−1/2} 是通常的相对论性 gamma 因子。孤子的场能量和动量也可以计算出来。静态孤子的能量为 E = 8，当它运动时具有相对论能量 E = 8γ，动量为 p = 8γv。因此，该孤子被解释为一个静质量为 8 的粒子。

取相反符号的方程 dφ/dx = −2 sin(½φ) 同样意味着 d²φ/dx² = sin φ，其解为具有负单位卷绕数的反孤子，但能量与孤子相同。孤子和反孤子均展示在图 15.3 中。

正弦–戈登孤子是一种新型粒子，但在真空中 φ = 0 附近对波进行量子化时，该理论还会产生基本的标量粒子。由于线性化场的质量参数为 1，这个粒子的质量为 ħ（在我们的单位制下），如果 ħ 很小，这远轻于孤子的质量 8。两种质量都会获得进一步的量子修正，但如果 ħ 很小，这些修正也很小。孤子不仅更重，而且由于其卷绕，它具有拓扑稳定性，不能衰变为一组较轻的粒子。

关于正弦–戈登理论及其孤子，人们已知的远不止这些。我们可以构造具有多重卷绕的经典解，但它们都不是静态的。这些解对应于多个相互作用的孤子。孤子之间的力可以计算，孤子的经典散射和量子化散射也是可计算的。量子化的反孤子表现为孤子的反粒子，并且存在孤子与反孤子的束缚态，这些束缚态为无卷绕、质量为 ħ 的基本标量粒子提供了一种局域化的图像。

15.2.2 斯格明子
斯格明子是一种更真实的孤子，因为它出现在三维空间的理论中。该理论由托尼·斯格明(Tony Skyrme)在 1960 年左右提出，是对汤川(Yukawa)的 π 介子与核子理论的发展。基本场是三个标量 π 介子场，但不存在用于描述核子的显式狄拉克场。斯格明的想法是以一种非线性的方式组合 π 介子场，从而允许出现卷绕数和拓扑稳定的孤子。正如正弦–戈登场是一个取值于圆上的角场，斯格明场取……

528
物理学前沿
一个3维球面上的值。这是通过引入四个场σ, π₁, π₂, π₃并施加约束
σ² + π₁² + π₂² + π₃² = 1 (15.10)
来实现的。局域地，σ可以被消去，而物理场是π介子场π₁, π₂, π₃，它们与π介子粒子π⁻, π⁰, π⁺密切相关。真空解在时空中处处具有σ = 1，且π介子场为零。此外，还存在接近真空的波动解，其中π介子场处处幅度很小，σ接近于1。对这些拓扑平凡的波场进行量子化，就给出了一个相当真实的、包含强相互作用的、自旋为0的π介子粒子模型。如果愿意，还可以在理论中加入电磁和弱相互作用效应。

图15.4 斯格明子(Skyrmion)。

图15.4

该理论中最有趣的经典解是斯格明子，它是一个静态孤子。斯格明子在空间无穷远（所有方向）处趋近于真空，但在围绕某个中心点的区域内，场完全卷绕在由约束方程(15.10)定义的3-球面上。该解在图15.4中给出图示。箭头表示π介子场(π₁, π₂, π₃)的值，以矢量形式呈现。σ在无穷远处趋近于1，但在斯格明子中心处取值为-1。单位的卷绕数意味着，在这一理论框架内，斯格明子是绝对稳定的，不会衰变为π介子波。

图15.4

具有多重卷绕数的静态和动力学解也是可能的。卷绕数被等同于重子数B。这是斯格明(Skyrme)的伟大想法。重子数守恒是一条自然定律，但尚未以一种根本的方式被理解。在斯格明的模型中，它是一条拓扑守恒定律。

对标准模型的评判
529
斯凯尔姆理论(Skyrme theory)并不像正弦–戈登场论那样被透彻理解。对于低能现象，可以计算出近似的量子结果，这些结果非常有趣。但归根结底，若要为物理实在建模，在比斯凯尔姆子(Skyrmion)尺度更短的距离上，该理论看来必须被量子色动力学(QCD)取代。在经典层面上，重子数 $B=1$ 的斯凯尔姆子可以绕通过其中心的任意轴转动。由于拓扑原因，转动斯凯尔姆子的最低能量量子态具有自旋 $\frac{1}{2}$。这些态同样具有同位旋 $\frac{1}{2}$，因为$\pi$介子矢量的取向随斯凯尔姆子一起转动。因此，斯凯尔姆子有四个能量基本相等的基态量子态，每个态的重子数均为 $B=1$。其中两个态代表质子，自旋向上或向下；两个态代表中子，自旋向上或向下。具有自旋 $\frac{3}{2}$和同位旋 $\frac{3}{2}$的更高能量态则代表$\Delta$共振态 $\Delta^{++}$、$\Delta^+$、$\Delta^0$、$\Delta^-$。此外还有反斯凯尔姆子的态，其卷绕数相反，代表反重子。

令人瞩目的是，仅从一个含有三个标量场的场论出发，我们就得到了两类粒子——$\pi$介子和核子——而且，尽管核子具有自旋 $\frac{1}{2}$，我们并不需要一个基本的狄拉克方程(Dirac equation)。当相互作用产生拓扑孤子时，这种可能性正是量子场论的一个迷人之处。

与正弦–戈登场论一样，在斯凯尔姆理论中我们能够构造出远比具有单位重子数的静态孤子更多的解，但这需要数值计算的辅助。这些解包括具有多重重子数$B$的斯凯尔姆子束缚构型，它们已被用于原子核建模。其量子态既描述原子核的基态，也描述某些激发态。斯凯尔姆子的有限尺寸在此有重要影响。通常，原子核中的质子和中子被当作具有强排斥力的点粒子处理，排斥力使它们彼此至少保持 $1,\text{fm}$ 的距离。在斯凯尔姆理论中，排斥力自动出现，但斯凯尔姆子在相互靠近时会发生显著的形变。因此，斯凯尔姆理论给出的原子核图像，不同于图11.9中用硬质且相互接触的红球与黄球来代表质子和中子的熟悉描绘。

图11.9

总而言之，粒子的孤子模型是量子场论中较正统粒子模型颇具前景的替代方案。它们本质上依赖于非线性相互作用，而为了保持稳定，它们需要理论和场方程具有某种拓扑结构，这种结构单凭费曼图是难以识别的。孤子范式提供了一种统一的粒子内部结构模型，如图15.3和图15.4所示，同时也描述了粒子如何相互作用和散射。孤子模型确有其局限性。我们仅有一个使用斯凯尔姆子的质子和中子近似模型，而目前尚不存在成功的电子及其他轻子的孤子模型。就我们目前所知，轻子是完全无结构的。

图15.4

眼下，我们必须暂且放下对粒子有限尺寸的疑虑，回到我们已有的最好的粒子物理学理论——标准模型。

15.3 对标准模型的评判
所有与电磁、弱和强相互作用相关的现象，基本上涵盖了整个非引力物理学，竟然被标准模型这一单一自洽的理论所囊括，这确实相当了不起。而且，该理论能用于做出详细的定量预言，迄今为止进行的每一项实验都与这些预言一致，某些情况下甚至达到非凡的精度。然而，标准模型肯定不可能是粒子物理学的终极定论。

530
物理学前沿
标准模型包含若干自由参数，目前理论家无法计算这些参数，必须通过实验室测量作为理论的输入。它们分别是十二种基本费米子的静止质量，以及W、Z和希格斯玻色子的质量。此外，还有CKM矩阵的三个角度和一个相位，控制着弱相互作用中夸克味道的混合；类似地，PMNS矩阵的三个角度和一个相位控制着中微子味道的混合。最后，还有电磁相互作用和强相互作用的耦合强度。（弱相互作用的耦合通过W和Z质量之比与电磁相互作用的耦合相关联。）这十五个质量、八个混合参数和两个耦合强度，总计25个自由参数，理论无法给出解释。

至于标准模型为何呈现我们所见的这种形式，同样没有任何解释。
理论中的交换玻色子反映了相互作用背后的对称性。弱力的对称群被称为SU(2)，色力的对称群是SU(3)。正是这个SU(3)对称性决定了有八种胶子来传递这种力。但为什么是SU(2)和SU(3)，而不是其他对称群？关于标准模型的其他特征，也可以提出类似的问题：为什么存在三代物质粒子？为什么只有左手征粒子参与弱相互作用？为什么希格斯势恰好呈现我们所观察到的形式，恰好能够自发破缺电弱力的对称性？

我们如何才能构建一个比标准模型更好的理论来解决这些问题？至今无人知晓，但在接下来的几节中，我们将探讨一些可能指向答案的路径。

15.4 拓扑学与标准模型
宇宙中有若干重要特征难以解释。这包括大量暗物质的存在以及观测到的物质-反物质不对称性。我们在第14章讨论了暗物质的证据。现在我们来思考物质-反物质不对称性的含义。我们可以定义重子数B，令质子和中子的重子数B = 1，反质子和反中子的重子数B = −1。在通常的标准模型相互作用中重子数是守恒的，因此我们可能会预期宇宙应含有等量的物质和反物质。然而，如果宇宙中存在反物质占主导的区域，那么在物质主导区和反物质主导区的交界面处，就会发生物质-反物质湮灭，并伴随着伽马射线的发射。这会产生一个高能伽马辐射背景，但这样的背景并未被观测到。因此，我们可以确信整个可观测宇宙是由物质主导的。

1967年，安德烈·萨哈罗夫(Andrei Sakharov)列出了三个必要条件，如果一个初始B = 0的宇宙要演化成物质-反物质不对称的状态（正如我们现在所见的重子数B ≫ 0）。第一，宇宙必须处于热力学非平衡态，否则正逆反应将以相同速率进行，一切都将保持不变，B将保持为零。不难想象，在其最早期瞬间，一个急剧膨胀的宇宙会处于热平衡之外。第二，必须存在违反重子数守恒的相互作用。第三，必须破坏C和CP对称性，否则，对于每一个产生额外重子的过程，都会有一个等效过程产生额外的反重子。我们知道在

拓扑学与标准模型
531
在标准模型中，C 破坏与 P 破坏在弱相互作用中几乎达到最大程度。CP 也有破坏，但这是一种小得多的效应，可能不足以解释宇宙中观测到的物质–反物质不对称性。可能需要一种更强的 CP 破坏机制，涉及超出标准模型的新物理。

值得注意的是，重子数守恒的破坏也是标准模型的一个特征，尽管它依赖于一种拓扑非平凡的过程，而这一过程至今尚未在加速器实验中观测到。标准模型具有某种拓扑结构，这源于 SU(2) 和 SU(3) 对称群以及希格斯机制的运作方式。它没有任何稳定的孤立子(soliton)，但它确实有一个具有拓扑意义的、不稳定的静态解，称为 sphaleron。sphaleron 是一种平滑且局域化的场构型，坐落在场构型能量景观中的一个山口处。它是不稳定的，因为能量在某个特定方向（及其相反方向）上会降低，而在所有其他方向上则会升高。

仅考虑 SU(2) 规范场和希格斯场时，存在一条从真空出发、翻越 sphaleron 山口再沿另一侧下山回到真空的通道，但这条通道会显著改变费米子粒子的状态。有些费米子被创生，有些则被湮灭。这是因为规范场和希格斯场的拓扑结构与每个费米子的狄拉克海(Dirac sea)之间发生了相互作用。狄拉克海就像一个”无限酒店”。无限酒店的房间编号为 1, 2, 3, ……直至无穷，且所有房间都已住满。当又有一位客人要求入住时，经理请所有住客都搬到隔壁号码更大的房间。他们都可以这样做。这样便在 1 号房间制造了一个空位，可以容纳这位新客人。

类似地，通过 sphaleron 从真空到真空的通道在某些费米子的狄拉克海中制造了空穴，因为所有能级都被向下推了。狄拉克海中产生的这个空穴被观测为一个反粒子。反过来，当能级上升时，某个原本处于负能态的费米子最终进入正能态，如图 15.5 所示。这被观测为一个粒子。净效果是产生了一些粒子和一些反粒子。它们并非同一种类，事实上，对于每一代标准模型费米子，可以产生三个夸克和一个轻子。这总共产生了三个重子和三个轻子。重子数 B 和轻子数 L 各自改变了 3，但 B − L 是守恒的。同时，净电荷也没有变化。由于 CP 破坏，产生反重子和反轻子的逆过程速率可能略有不同。因此，随机过程可以有利于正物质的产生而非反物质。

这些过程确实需要真实的能量来创生费米子，但与临时产生一个 sphaleron 并翻越山口所需的能量相比，这点能量很小。sphaleron 的能量可以计算出来，大约为 9 TeV，相当于约一百个 W、Z 和希格斯粒子紧密聚集在一起的能量。这个能量刚好在大型强子对撞机(LHC)质子–质子对撞的可达范围内，但据信，在这个能量附近 sphaleron 的产生和衰变速率小到无法观测，因为这些对撞无法以相干的方式产生大量的 W、Z 和希格斯粒子。最近有观点提出，仅涉及两个夸克且能量高于 9 TeV 的对撞可能使 sphaleron 介导的过程更容易发生。物理学家相当确信，在早期宇宙极高温度的条件下，sphaleron 过程更为频繁，并且与某种形式的 CP 破坏一起，可能部分地造就了我们今天所观测到的物质–反物质不对称性。

532
物理学前沿
E
0
S
图 15.5 sphaleron 介导的大质量费米子产生。在 sphaleron S 的背景中，费米子具有零能态。

15.5 超越标准模型
在第 12.9 节我们讨论了中微子振荡，其中电子中微子、缪子中微子和陶子中微子会在数千公里的距离上互相转变。位于意大利格兰萨索 (Gran Sasso) 的中微子观测站一直在研究这样一种可能性：可能至少还存在一种额外的中微子，能与三种已知类型的中微子发生混合。这种粒子被称为惰性中微子 (sterile neutrino)，因为它不会通过弱力或标准模型描述的其他任何过程发生相互作用。这类短距离中微子振荡实验使用一个强电子中微子源，由铈同位素 ¹⁴⁴Ce 构成，放置在距 Borexino 液体闪烁体探测器几米的范围内，该探测器周围布置有光电倍增管。对光子到达时间进行精确计时，可以确定中微子在 Borexino 内部发生相互作用的位置。该实验旨在测量探测到的电子中微子数量随到中微子源距离的变化。这套实验系统规模太小，不足以发生明显的向缪子中微子或陶子中微子的振荡，因此，如果探测到的电子中微子数量出现短缺，就意味着存在与第四种中微子的混合。这种新中微子的质量随后可以从振荡的波长推导出来。

如果通过这种方式发现惰性中微子，将是一项重大突破，因为它将代表着超越标准模型物理的一个信号。这也很重要，因为惰性中微子可能在大爆炸之后立即大量形成，并且现在可能构成暗物质的一部分。

超越标准模型
533
15.5.1 大统一理论
标准模型由 GWS 模型和 QCD 组合而成，分别描述电弱力和色力，如第 12 章所述。GWS 模型将电磁力和弱力统一为一个单一理论，该理论依赖于希格斯机制在 100 GeV 能量区域打破部分规范对称性。几乎在标准模型刚建立起来，统一各种力的下一步就显得相当明确。1974 年，谢尔登·格拉肖(Sheldon Glashow)和霍华德·乔治(Howard Georgi)提出可能存在两个阶段的对称性破缺。在极高能量下，色力和电弱力将由一个单一的杨-米尔斯理论统一描述。这类理论被称为大统一理论或 GUT。在 GUT 能标——约为 10¹⁵ 到 10¹⁶ GeV 的区域——第一轮对称性破缺产生了分立的色力和电弱力。接着在低得多的能量（100 GeV）下发生标准模型的电弱对称性破缺。最简单、也是最早被提出的此类理论由一个称为 SU(5) 的对称群描述。

GUT 的交换玻色子包含在一个矩阵中。在 SU(5) 大统一理论中，这是一个 5×5 矩阵，有 24 个独立分量。其中 12 个是标准模型的交换玻色子（八个胶子加上 W⁺、W⁻、Z 和光子）。另外 12 个是新的，通常被称为 X 玻色子和 Y 玻色子。第一轮对称性破缺赋予 X 和 Y 玻色子一个非常大的、约在 GUT 能标量级的质量，而其他交换玻色子始终保持无质量（直到我们达到电弱破缺能标）。因此，该理论需要一组质量在 GUT 能标区域的希格斯玻色子矩阵。

类似地，物质粒子——轻子和夸克——组合成 GUT 多重态，这产生了一个有趣且可检验的预言，因为它意味着 GUT 力能够将反轻子转化为夸克，以及将夸克转化为反轻子，这在标准模型中是不可能的（除非可能通过 sphaleron 过程）。这样的相互作用将由 X 和 Y 玻色子以图 15.6 所示的方式传递。这些相互作用破坏重子数 B，但 B−L 守恒，其中 L 是轻子数。

图 15.6

d
u
Y
e⁺
ū
图 15.6 假想的 Y 玻色子可以传递导致质子衰变的过程。（Y 玻色子的电荷为 +1/3。）该过程的半衰期约为 M_Y⁴ 的量级，因此非常长。

图 15.6

如果这是正确的，那么质子 duu 可能会不稳定地衰变为
p → e⁺ + π⁰ . (15.11)

534
物理前沿
由于X和Y玻色子质量如此之大，这类相互作用将极为微弱，因此质子的半衰期会非常漫长。对于原始的SU(5)大统一理论，质子寿命估计在10³⁰年这个量级。

尽管标准模型的力和粒子在一些较简单的大统一理论（GUT）中似乎能以相当自然的方式结合在一起，但这些模型面临着严重的理论和实验问题。例如，质子衰变从未被观测到。超级神冈探测器（Super-Kamiokande）的结果给出了质子寿命的下限在10³⁴年量级，这排除了最简单的大统一理论，比如原始的SU(5)理论。大统一理论还预言了磁单极子的存在。这些东西也从未被观测到，而且它们的存在会给我们对宇宙学的理解带来问题。

构建大统一理论的动机是为了统一强力和电弱力。如果能够实现这一目标，那么通过建立强力和电弱力耦合常数之间的关系，可以移除标准模型中的一个未定参数，但这是以引入大量新粒子——交换玻色子、希格斯玻色子以及通常还有额外的费米子——为代价的，而这些粒子的质量并不能由理论确定，因此总体而言，未定参数的数目大大增加了。

更为严重的是一个理论问题，它与基于希格斯机制进行两轮对称性破缺的思想有关。我们知道，如果存在对应的未破缺规范对称性，自旋为1的粒子必须是无质量的。自旋为1/2的粒子，如果其左手和右手分量携带了未破缺规范对称性的不同荷，也必须是无质量的。这被称为手征不对称性。并不存在类似的原则来保证自旋为0的粒子的无质量性。因此，我们应该预期任何自旋为0的粒子都具有与理论的自然质量标度相当的质量。对于大统一理论，合适的标度在10¹⁵ GeV这个量级。因此，一个大统一理论竟能包含质量仅为125 GeV的标准模型希格斯玻色子，这实在是个谜。这就是所谓的层级问题（hierarchy problem）。

针对层级问题，人们已经提出了若干可能的解决方案。一种建议是，或许希格斯玻色子并非基本标量粒子，而是两个新的自旋为1/2粒子的束缚态。这类粒子被称为techniquarks（超夸克），而这类理论则被称为technicolor（超色理论）。该提议认为，超夸克通过一种类似于量子色动力学（QCD）的未知规范力相互作用，而希格斯玻色子则是一种超介子（technimeson），类似于π介子。然而，要构建不自相矛盾且不与现有实验结果明显冲突的超色理论，是一项艰巨的挑战，需要引入许多新粒子和未定参数。

解决层级问题最流行的方案是假设费米子和玻色子之间存在一种对称性。这种被称为超对称（supersymmetry）的对称性，只要理论中包含无质量的自旋为1/2粒子，就能保证存在无质量的自旋为0粒子。因此，在我们这样一个包含低质量自旋为1/2粒子的世界里，低质量希格斯玻色子的存在就成为了可能。接下来，我们来看看超对称及其带来的影响。

15.5.2
超对称
多年来，理论家们一直着迷于超对称量子场论的可能性，这种理论在其费米子场和玻色子场之间具有对称性。这些理论包含相等数量的玻色子和费米子波模，这意味着这些场的零点能可以相互抵消。我们在12.2.2节中看到，场的两个分量……

弦论
535
复标量场的每个模式的零点能都是 1/2 ħω，而在第 12.2.1 节中我们展示了，具有两个自旋态的狄拉克场包含能量为 -ħω 的负能激发。对于狄拉克场的这些模式，其零点能为 -1/2 ħω。因此，一个复标量场与一个狄拉克场的零点能之和为零。这是此类理论的一个吸引人的特征，它表明超对称(supersymmetry)可能为量子场论提供一个很好的起点，尤其是如果我们的最终目标是将引力纳入这样一个理论的话。

在超对称理论中，费米子和玻色子是成对出现的。例如，电子（费米子）必须有一个玻色子伙伴，而光子（玻色子）必须有一个费米子伙伴。已知的基本粒子无法这样配对，因此如果宇宙确实是超对称的，那么必然有大量新粒子等待我们去发现。假如超对称是一种完美无破缺的对称性，这些粒子对将具有相同的质量，那样的话伙伴粒子早就该被发现了。所以，如果超对称在粒子物理学中扮演任何角色，那么它必定像是电弱力那样是自发破缺的。标准模型最简单的超对称扩展被称为最小超对称标准模型(minimal supersymmetric Standard Model, MSSM)。

理论家们已经为超对称所预言的那些假想新粒子起了名字。电子的伙伴被称为标量电子(selectron)。一般而言，一个费米子的玻色性伙伴的名称是在该费米子名称前加上表示超对称的前缀“s”，因此中微子的伙伴称为标量中微子(sneutrino)，夸克的伙伴称为标量夸克(squarks)。光子的超对称伙伴是一个费米子。理论家称之为光子微子(photino)。一般来讲，玻色子的超对称伙伴都以后缀“ino”结尾，这便有了 W 微子(Winos)、Z 微子(Zinos)、胶微子(gluinos)和希格斯微子(Higgsinos)。

大型强子对撞机(LHC)正在寻找这些新粒子的迹象。如果超对称是宇宙的一个真实对称性，那么应该会有一大批奇妙的新粒子可供收获，而它们的发现将能解答宇宙学中最大的谜题之一。几乎所有基本粒子都是不稳定的，会迅速衰变成其他更轻的粒子。物质由少数几种稳定的粒子构成。超对称的一个非常重要的结果是，最轻的超对称伙伴粒子将是完全稳定的。这预计会是一个自旋为 1/2、不带电荷的粒子，被称为中性微子(neutralino)。（它是由光子微子、Z 微子和两种中性希格斯微子组合而成的四个粒子中最轻的一个。）这种粒子在宇宙诞生最初时刻曾被大量产生，并且由于它是稳定的，现在它会与过去一样丰富。这使得中性微子成为解释暗物质的另一个候选者。

这些试图将物理学推进到标准模型之外的尝试，没有一个特别具有说服力。如果我们通过一个理论包含的未定参数的数量来衡量其优雅程度，那么这些理论——大统一理论(GUTs)、人工色(technicolor)理论和超对称——每一个都需要在标准模型的参数之外至少再多引入 100 个参数。更为严重的是缺乏物理支持，甚至与观测证据完全不相容。四十年来，标准模型一直占据统治地位，赢得了一次又一次的成功。接下来会发生什么，多少是个谜。

15.6 弦论
对于基础物理学，除了我们一直在考虑的自下而上的进路之外，还有一种替代方案。我们不必从标准模型出发并围绕它构建一个更复杂的理论，而是可以寻找一条自上而下的途径通往标准模型。

536
物理学前沿（Frontiers of Physics）
模型。此类研究的最终目标是发现一个独特、自洽的宇宙理论，并证明它包含标准模型（Standard Model）作为其低能极限。弦理论（string theory）是这一终极理论的第一个严肃候选者。弦理论的目标是囊括构建宇宙的所有力和粒子。该理论的新特征在于，基本对象不是被视为零维点状实体的粒子，而是一维的弦。这个看似简单的想法具有非常深远的后果，带来了大量有趣的反响，并在近几十年来将理论家引向了许多非凡的方向。该理论不是假定存在众多不同的粒子，而是只有一种基本对象——弦——它可以以多种方式振动，每种振动模式代表一种不同类型的粒子。例如，一种模式可能是电子，另一种模式可能是夸克，第三种模式可能是光子。弦理论被证明远比任何人所能想象的更为丰富和令人惊讶，而该理论的完整含义还远未被理解。由于缺乏实验支持，它是否与现实世界有任何联系仍无定论。它依然是一种对自然终极理论的纯粹思辨性探索。在这篇非常简短的综述中，我们只能浅尝这一极其丰富理论的些许滋味。那么，弦理论究竟是关于什么的，它为何如此重要？

弦理论首次提供了建立自洽的引力量子理论的可能性。广义相对论建立在与量子力学根本不同的原理之上。然而，普遍认为，当作为量子场论考虑时，引力由一种被称为引力子（graviton）的无质量自旋为2的粒子所传递。引力子的自旋为2，因为它们是形成引力波的量子激发，而引力波具有两种不同的四极极化，每种极化在绕波矢k方向旋转180°下是对称的，这可以从图6.13和6.14中看出。物理学家们多年来努力构建一个自洽的引力量子理论，但未获成功。这个问题如此困难的原因似乎在于此类理论在极短长度尺度上的行为。在引力量子理论中，我们可以预期时空几何在极短距离下经历剧烈的虚涨落。这使得该理论极难定义。我们可以通过结合基本常数¯h、G和c来估计量子效应在引力中变得重要的尺度，从而得到一个具有长度量纲的基本量，即普朗克长度（Planck length），lP = √(¯hG/c^3) ≃1.6 × 10^-35 m。

图6.13

弦可以是开弦或闭弦。开弦是一条有两个端点的曲线，闭弦是一个圈。闭弦的基本振动模式看起来与无质量自旋为2的粒子完全相同。这就是引力子。它的存在意味着弦理论包含了一个引力理论。如果弦要解释引力，那么有理由预期它们的大小处于普朗克长度的量级范围。弦的基本振动模式对应于质量最低的粒子，而弦的谐波对应于质量更大的粒子；谐波越高，粒子的质量越大。对于普朗克长度的弦，这些谐波会产生质量是普朗克质量倍数的粒子，普朗克质量 mP = √(¯hc/G) ≃2.2 × 10^-8 kg。这等于10^19 GeV，该能量并未大大超出大统一理论（GUT）的尺度，但仍然约为大型强子对撞机（LHC）质子碰撞释放能量的10^15倍。弦的激发形成了一系列状态，其质量是普朗克质量的倍数。我们不会期望发现处于这些激发态的弦，除非在最极端的

极端情形，例如黑洞中心或大爆炸(Big Bang)刚发生后的极早期

弦理论
537
大爆炸，但它们对于理论的一致性至关重要。如果弦理论正确，那么日常物理中的所有现象都源于弦的最低振动模式，这些模式对应于无质量粒子。
图15.7 左：粒子物理学中的费曼(Feynman)图顶点。右：弦理论顶点。

图15.7

量子引力在极短距离下可能出现的问题，似乎在弦理论中得到了缓解。当弦在时空中运动时，它会扫出一个二维曲面，称为弦世界面。弦之间的相互作用，可以类比点粒子，用费曼图来表示。例如，图15.7展示了一个相互作用，其中两根闭弦结合形成一根闭弦。这有时被称为裤子图。粒子物理中的相互作用发生在点上，这些点对应于费曼图中粒子线交汇的顶点。这在极短长度尺度上会导致量子场论产生奇异的结果。相比之下，弦理论的费曼图处处光滑，这使得该理论的行为表现要好得多。当然，这只有在能够定义弦的量子理论时才成立，而这并非必然的结论。

图15.7

当试图构建弦的量子理论时，会出现一些复杂情况。尽管可以写下包含某种对称性的经典理论，但有时在理论的量子版本中，这种对称性会丢失。当这种情况发生时，就称之为一个反常。如果丢失的对称性是规范对称性或洛伦兹(Lorentz)不变性，而这对理论的一致性至关重要，那么我们必须得出结论，该理论的一致量子版本并不存在。几乎所有人们考虑的弦理论都是这种情况。（由于反常而丢失的对称性是洛伦兹不变性。）
只有在具有临界维度数的时空中，才有可能存在一致且无反常的弦量子理论。在称为玻色弦的最简单理论中，时空的临界维度数是26，但该理论是纯玻色性的，不包含任何自旋1/2粒子，因此不被认为是现实的物理学候选理论。在包含玻色子和费米子的超对称弦理论中，临界时空维度是十。这种被称为超弦的理论，拥有描述真实世界粒子和力所需的所有要素，但十维时空的要求意味着，如果要用它来解释四维时空中的真实物理，那么必然存在六个我们通常无法察觉的额外空间维度。爱因斯坦(Einstein)

物理前沿
向我们展示引力决定了时空的几何形状。弦论学家们相信，以类似的方式，弦场塑造了弦在其中运动的背景时空。这决定了隐藏维度的形状，而这些额外维度控制着非引力相互作用所采取的形式。这有望为基本物理学提供一个完整的几何化方案。

弦论并不仅仅是一种引力理论。开弦的最低量子化振动模式是一种无质量的自旋为1的粒子，我们会将其视为光子。如果色荷附着在弦的端点上，那么这个理论就变得更加有趣了。此时，代表光子的不再是单一的零能量模式，理论中包含了多种对应于弦上不同荷组合的无质量自旋为1的粒子。这些粒子我们会认为是胶子。在临界维度中，弦论自动地包含了像QCD那样的杨–米尔斯(Yang–Mills)作用力的对称性。更准确地说，它包含了一种大统一理论的超对称版本。²

与普朗克能量 (m_P) 相比，已知的全部物理学都被视为低能物理。如果弦要描述既有的物理学，那么它必须通过弦的零能量态来描述。超弦的完整零能量态集合，在普通的4维时空中进行解释时，对应于无质量的自旋为0、1/2、1、3/2和2的粒子。唯一一种无质量自旋为2的粒子是引力子，它赋予了我们引力。无质量自旋为3/2的粒子，最多可以有八种类型，被称为引力微子。其中一个引力微子是引力子的超对称伙伴，它的存在意味着超弦的低能极限包含了超引力，即量子引力的超对称版本。无质量自旋为1的粒子是某种大统一理论（GUT）的交换玻色子。超弦还包含了无质量自旋为1/2的粒子，这是描述GUT的费米子（进而包括标准模型的费米子）所必需的，以及无质量自旋为0的粒子，这对于理论中包含希格斯玻色子是必要的。因此，弦论包含了描述低能物理所需的所有要素。

那么理论所要求的额外维度呢？

15.6.1 紧致化
弦论学家假设，六个额外的空间维度是紧致化了的，这意味着它们被卷曲得比我们所熟悉的三个宏观空间维度要小得多。它们如此微小，以至于我们完全察觉不到它们的空间广延。通常假设它们的尺寸与普朗克长度相当，这实在太小了，无法在实验室中探测它们的结构。然而，这些维度以何种精确方式卷曲，对于低能物理至关重要。弦可以缠绕在隐藏的维度上，这会影响弦的能量以及不同弦态之间的对称性。这意味着隐藏维度应该决定在粒子加速器中观测到的粒子谱，以及非引力的相互作用力的本质。弦论学家面临的挑战在于，证明弦紧致化能产生一个与观测相符的粒子谱。

大多数紧致化方案的出发点都是假设低能物理中超对称性的存在。如果超对称性得以保留，那么六个额外的维度必须形成一种被称为卡拉比–丘流形(Calabi–Yau manifold)的超曲面或流形。理论家们探索了可能的卡拉比–丘几何，希望找到一个唯一的……

² 即使在超弦的临界维度中，也只有两种可能的无反常GUT，即SO(32)理论和E8×E8理论。

一系列解决方案，它们类似于已有的物理学。已发现的一些紧致化方案，几乎能产生最小超对称标准模型，具有正确的对称群和正确数量的费米子代，但不幸的是，这些解远非唯一。6维卡拉比-丘(Calabi–Yau)流形尚未被分类，因此没人知道究竟有多少种。肯定有数千种，甚至可能有无穷多种。弦理论家无法求解弦方程以确定正确的真空态，所以他们不知道大自然会如何在无数可能性中做出选择。是什么让某一种流形比其他选项更适合宇宙的诞生？没人知道。存在一整片可能性的景观。事实上，解释大自然如何选择合适真空的问题被称为景观问题(landscape problem)。这使理论家们能否将弦理论的预测与可在实验室检验的物理对应起来，变得扑朔迷离。

弦理论有一些可能被大型强子对撞机(LHC)证实的普适预言。超对称性在没有弦理论的情况下也可能存在，但如果在LHC上发现它，将会鼓励弦理论家们相信，他们在自然定律结构中寻求更大对称性的方向是正确的，而由于超对称性在弦理论中如此自然地契合，任何超对称的迹象都会被视为对他们努力的证明。大多数紧致化方案都会在电弱力和强力之外引入额外的力。LHC上的物理学家正在寻找能传递这些力的新玻色子粒子。同样，即使没有弦理论，粒子物理学中也可能存在超出标准模型描述的力。额外的空间维度也可能在没有弦理论的情况下存在。在缺乏一个独特的、令人信服的理论时，就需要实验结果来指导未来的理论工作。

15.7 进一步阅读

量子力学诠释中的基本问题可参考：
J. 巴戈特(J. Baggott)，《超越测量：现代物理学、哲学和量子力学的意义》(Beyond Measure: Modern Physics, Philosophy and the Meaning of Quantum Mechanics)，牛津：牛津大学出版社，2004年。
J.S. 贝尔(J.S. Bell)，《量子力学中的可言说与不可言说》(Speakable and Unspeakable in Quantum Mechanics)（第2版），剑桥：剑桥大学出版社，2004年。

孤子（包括斯格明子）的数学理论和物理应用，参见：
N. 曼顿(N. Manton) 和 P. 萨克利夫(P. Sutcliffe)，《拓扑孤子》(Topological Solitons)，剑桥：剑桥大学出版社，2004年。
T. 多索瓦(T. Dauxois) 和 M. 佩拉尔(M. Peyrard)，《孤子物理学》(Physics of Solitons)，剑桥：剑桥大学出版社，2006年。

弦理论的入门导论，参见：
B. 兹维巴赫(B. Zwiebach)，《弦理论初级教程》(A First Course in String Theory)，剑桥：剑桥大学出版社，2004年。

文章作者: 何榜文

文章链接: http://hebangwen.github.io/2026/05/02/misc/translation/output/book_with_images/

Preface

0_Introduction

1_Fundamental_Ideas

1.1.2 变分原理的适用范围

2_Motions_of_Bodies-Newton’s_Laws

移除这些项后，我们有S

∫ T−T[ 12m( X²T² + a²t²)−12ka(t² −T²)]dt

0 ,m(2) d2x(2)dt2+ ∂V∂x(2)

0 ,m(2) d2x(2)dt2+ V ′(x(2) −x(1))

单物体在三维空间中的运动43对于在初始点x₀和终点x₁之间、在时间t₀和t₁沿轨迹x(t)运动的物体，其作用量为S

∫ₜ₀ᵗ¹(½m dx/dt · dx/dt − V(x(t)))dt

α1 cos√At + β1 sin√Atx2(t)

α2 cos√Bt + β2 sin√Btx3(t)

为了证明 l 是常矢量，我们对方程 (2.64) 求导，应用莱布尼茨法则，然后利用运动方程 (2.63)，最后注意到任何矢量与自身的叉积为零：dl/dt

m dx/dt × dx/dt + m x × d²x/dt²

m dx/dt × dx/dt − 1/r V′(r) x × x

ddtm(1)x(1) + · · · + m(N)x(N)

Mtotddt m(1)Mtotx(1) + · · · + m(N)Mtotx(N)

⎛⎝ dϕ(3)dt⎞⎠²

⎛⎝ dϕ(1)dt⎞⎠²

⎛⎝ dϕ(2)dt⎞⎠²

m(1)(R + κr)² + κ m(2)r²

NX112m(k)dx(k)dt+ VCM·dx(k)dt+ VCM+ V (x(1), . . . , x(N))

3_Fields-Maxwell’s_Equations

ρ , (3.25)∇× E

−∂B∂t , (3.26)∇· B

0 , (3.27)∇× B

(x − x′) · (x − x′)≃r2 − 2x · x′(3.46)

1mp ,dpdt

98场——麦克斯韦方程组E的时间导数为零，因为dEdt

md²xdt² · dxdt + q∇Φ(x(t)) · dxdt

qE · dxdt + q∇Φ(x(t)) · dxdt

4_Special_Relativity

(t − u)² − (x − y) · (x − y)

(t − x1)eθt′ + x′1

(t + x1)e−θx′2

x2x′3

这一切的顶峰是，麦克斯韦(Maxwell)方程组具有洛伦兹协变的特性。四个麦克斯韦方程合并成为仅涉及场张量 F 及其对偶 eF 的两个方程。它们是∂· F

J ,(4.52)∂· eF

−2(E1E1 + E2E2 + E3E3 −B1B1 −B2B2 −B3B3)

−2(E · E −B · B) ,(4.60)F · eF

−4(E1B1 + E2B2 + E3B3)

5_Curved_Space

δr sin ϑ cos ϕ + r cos ϑ δϑ cos ϕ −r sin ϑ sin ϕ δϕ ,δx2

δr sin ϑ sin ϕ + r cos ϑ δϑ sin ϕ + r sin ϑ cos ϕ δϕ ,δx3

DUiDyj V i + UiDV iDyj

∂Ui∂yj V i −ΓkjiUkV i + Ui∂V i∂yj + UiΓijkV k

Γljiglk + Γljkgil ,(5.48)gjk,i

Γrrϑ,ϑ −Γrϑϑ,r + ΓrϑrΓrrϑ + ΓrϑϑΓϑrϑ −ΓrrrΓrϑϑ −ΓrrϑΓϑϑϑ

12gϕϕ(gϕϑ,ϕ + gϕϕ,ϑ −gϑϕ,ϕ)

121a2 sin2 ϑ(2a2 sin ϑ cos ϑ)

cos ϑsin ϑ(5.65)和Γϑϕϕ = 12gϑϑ(gϑϕ,ϕ + gϑϕ,ϕ −gϕϕ,ϑ) = −sin ϑ cos ϑ .(5.66)于是，略去为零的项，Rϑϕϑϕ

Γϑϕϕ,ϑ −ΓϑϕϕΓϕϑϕ

−cos2 ϑ + sin2 ϑ + sin ϑ cos ϑcos ϑsin ϑ

R sin χ sin ϑ cos ϕ ,x2 = R sin χ sin ϑ sin ϕ ,x3

152弯曲空间且由于这也是沿测地线的矢量，有进一步的协变导数：D2ηiDλ2

ddλdηidλ + Γijkηk dyjdλ+ Γijkdηkdλ + Γklmηm dyldλ dyjdλ

6_General_Relativity

12gβα(gβν,µα + gβµ,να −gνµ,βα) −12gβα(gβα,µν + gβµ,αν −gαµ,βν)

爱因斯坦方程的史瓦西解

6.7 爱因斯坦方程的史瓦西解

爱因斯坦方程的史瓦西解179由方程(6.14)，Rrtrt = Γrtt,r −Γrrt,t + ΓrrβΓβtt −ΓrtβΓβrt .(6.66)大多数项，如Γrtr,t和ΓrrϑΓϑtt，都为零，剩下Rrtrt

Γrtt,r + ΓrrrΓrtt −ΓrttΓtrt

−2GMZr3+ 2G2M2r4−GMr2Z GMZr2−GMZr2 GMr2Z

6.8 施瓦西时空中的粒子运动

Z δ(R√−g)δgµνδgµν d4y

Z √−g δRδgµν + Rδ√−gδgµνδgµν d4y

αZ √−g δLMδgµν + LMδ√−gδgµνδgµν d4y

Z 2Λδ√−gδgµνδgµν d4y

7_Quantum_Mechanics

\begin{pmatrix}0 & 0 \b & 0\end{pmatrix}\begin{pmatrix}0 & a \0 & 0\end{pmatrix}

7.3 薛定谔方程

∑k∑lck(t)cl(t)∫ ∞−∞φk(x) O φl(x) dx

∑k∑lck(t)cl(t)λl∫ ∞−∞φk(x)φl(x) dx

∑k∑lck(t)cl(t)λlδkl

∑kck(t)ck(t)λk

以下是方程(7.66)的一些例子。能量的期望值为⟨H⟩=∫ ∞−∞ψ(x, t) H ψ(x, t) dx ,(7.69)它等于∑∞ n=0 |an|²En，并且不随时间改变。位置x的期望值可以简化，因为算符x的作用就是简单地给波函数乘以x，所以⟨x⟩

∫ ∞−∞ψ(x, t) x ψ(x, t) dx

8_Quantum_Mechanics_in_Three_Dimensions

位置-动量对易关系可以通过作用在一个一般的波函数上来验证：[[x_i, p_j]\psi =x_i\left(-i\bar{h} \frac{\partial}{\partial x_j}\right)\psi -\left(-i\bar{h} \frac{\partial}{\partial x_j}\right)(x_i\psi)

移除这些项后，我们有
S

∫ T
−T
[ 1
2m
( X²
T² + a²t²
)
−1
2ka(t² −T²)
]
dt

0 ,
m(2) d2x(2)
dt2
+ ∂V
∂x(2)

0 ,
m(2) d2x(2)
dt2
+ V ′(x(2) −x(1))

单物体在三维空间中的运动
43
对于在初始点x₀和终点x₁之间、在时间t₀和t₁沿轨迹x(t)运动的物体，其作用量为
S

∫ₜ₀ᵗ¹
(½m dx/dt · dx/dt − V(x(t)))
dt

α1 cos
√
At + β1 sin
√
At
x2(t)

α2 cos
√
Bt + β2 sin
√
Bt
x3(t)

为了证明 l 是常矢量，我们对方程 (2.64) 求导，应用莱布尼茨法则，然后利用运动方程 (2.63)，最后注意到任何矢量与自身的叉积为零：
dl/dt

d
dt

m(1)x(1) + · · · + m(N)x(N)

Mtot
d
dt
m(1)
Mtot
x(1) + · · · + m(N)
Mtot
x(N)

⎛⎝ dϕ(3)
dt
⎞⎠²

⎛⎝ dϕ(1)
dt
⎞⎠²

⎛⎝ dϕ(2)
dt
⎞⎠²

m(1)
(R + κr)² + κ m(2)
r²

N
X
1
1
2m(k)
dx(k)
dt
+ VCM

·
dx(k)
dt
+ VCM

+ V (x(1), . . . , x(N))

ρ , (3.25)
∇× E

−∂B
∂t , (3.26)
∇· B

0 , (3.27)
∇× B

(x − x′) · (x − x′)
≃
r2 − 2x · x′
(3.46)

1
mp ,
dp
dt

98
场——麦克斯韦方程组
E的时间导数为零，因为
dE
dt

md²x
dt² · dx
dt + q∇Φ(x(t)) · dx
dt

qE · dx
dt + q∇Φ(x(t)) · dx
dt

(t − x1)eθ
t′ + x′
1

(t + x1)e−θ
x′
2

x2
x′
3

这一切的顶峰是，麦克斯韦(Maxwell)方程组具有洛伦兹协变的特性。四个麦克斯韦方程合并成为仅涉及场张量 F 及其对偶 eF 的两个方程。它们是
∂· F

J ,
(4.52)
∂· eF

−2(E · E −B · B) ,
(4.60)
F · e
F

δr sin ϑ cos ϕ + r cos ϑ δϑ cos ϕ −r sin ϑ sin ϕ δϕ ,
δx2

δr sin ϑ sin ϕ + r cos ϑ δϑ sin ϕ + r sin ϑ cos ϕ δϕ ,
δx3

DUi
Dyj V i + Ui
DV i
Dyj

∂Ui
∂yj V i −Γk
jiUkV i + Ui
∂V i
∂yj + UiΓi
jkV k

Γl
jiglk + Γl
jkgil ,
(5.48)
gjk,i

Γr
rϑ,ϑ −Γr
ϑϑ,r + Γr
ϑrΓr
rϑ + Γr
ϑϑΓϑ
rϑ −Γr
rrΓr
ϑϑ −Γr
rϑΓϑ
ϑϑ

1
2gϕϕ(gϕϑ,ϕ + gϕϕ,ϑ −gϑϕ,ϕ)

1
2

1
a2 sin2 ϑ

(2a2 sin ϑ cos ϑ)

cos ϑ
sin ϑ
(5.65)
和
Γϑ
ϕϕ = 1
2gϑϑ(gϑϕ,ϕ + gϑϕ,ϕ −gϕϕ,ϑ) = −sin ϑ cos ϑ .
(5.66)
于是，略去为零的项，
Rϑ
ϕϑϕ

Γϑ
ϕϕ,ϑ −Γϑ
ϕϕΓϕ
ϑϕ

−cos2 ϑ + sin2 ϑ + sin ϑ cos ϑ
cos ϑ
sin ϑ

R sin χ sin ϑ cos ϕ ,
x2 = R sin χ sin ϑ sin ϕ ,
x3

152
弯曲空间
且由于这也是沿测地线的矢量，有进一步的协变导数：
D2ηi
Dλ2

d
dλ
dηi
dλ + Γi
jkηk dyj
dλ

+ Γi
jk
dηk
dλ + Γk
lmηm dyl
dλ
dyj
dλ

1
2gβα(gβν,µα + gβµ,να −gνµ,βα) −1
2gβα(gβα,µν + gβµ,αν −gαµ,βν)

爱因斯坦方程的史瓦西解
179
由方程(6.14)，
Rr
trt = Γr
tt,r −Γr
rt,t + Γr
rβΓβ
tt −Γr
tβΓβ
rt .
(6.66)
大多数项，如Γr
tr,t和Γr
rϑΓϑ
tt，都为零，剩下
Rr
trt

Γr
tt,r + Γr
rrΓr
tt −Γr
ttΓt
rt

−2GMZ
r3
+ 2G2M2
r4
−
GM
r2Z
GMZ
r2

−
GMZ
r2
GM
r2Z

Z δ(R√−g)
δgµν

δgµν d4y

Z √−g δR
δgµν + Rδ√−g
δgµν

δgµν d4y

α
Z √−g δLM
δgµν + LM
δ√−g
δgµν

δgµν d4y

Z
2Λδ√−g
δgµν

δgµν d4y

\begin{pmatrix}
0 & 0 \
b & 0
\end{pmatrix}
\begin{pmatrix}
0 & a \
0 & 0
\end{pmatrix}

∑
k
∑
l
ck(t)cl(t)
∫ ∞
−∞
φk(x) O φl(x) dx

∑
k
∑
l
ck(t)cl(t)λl
∫ ∞
−∞
φk(x)φl(x) dx

∑
k
∑
l
ck(t)cl(t)λlδkl

∑
k
ck(t)ck(t)λk

以下是方程(7.66)的一些例子。能量的期望值为
⟨H⟩=
∫ ∞
−∞
ψ(x, t) H ψ(x, t) dx ,
(7.69)
它等于∑∞ n=0 |an|²En，并且不随时间改变。位置x的期望值可以简化，因为算符x的作用就是简单地给波函数乘以x，所以
⟨x⟩

∫ ∞
−∞
ψ(x, t) x ψ(x, t) dx

位置-动量对易关系可以通过作用在一个一般的波函数上来验证：
[
[x_i, p_j]\psi =
x_i
\left(
-i\bar{h} \frac{\partial}{\partial x_j}
\right)
\psi -
\left(
-i\bar{h} \frac{\partial}{\partial x_j}
\right)
(x_i\psi)

-i\bar{h}x_i \frac{\partial\psi}{\partial x_j}
+ i\bar{h}
\left(
\delta_{ij}\psi + x_i \frac{\partial\psi}{\partial x_j}
\right)

反键
能量
0
k
0

k
2a
π
反键
成键
成键
a
π
a
– π
a
π

费米子气体与玻色子气体在低温下
329
10.9.4
玻色–爱因斯坦函数
对于玻色子粒子，每个单粒子态的平均占据数可以用与费米子相似的方法计算。利用概率分布 (10.76)，其中 z = zB 来自方程 (10.78)，我们求得平均占据数为
n(ε)

1
zB
∞
X
n=0
n e
n(µ−ε)
T

1 − e
µ−ε
T
∞
X
n=0
ne
n(µ−ε)
T

0 + e
µ−ε
T
+ 2e
2(µ−ε)
T
+ 3e
3(µ−ε)
T
+ · · ·
−0
−e
2(µ−ε)
T
−2e
3(µ−ε)
T
−· · ·

∞
X
n=1
e
n(µ−ε)
T
.
(10.94)
对于 µ < ε，该几何级数求和为
n(ε) =
e
µ−ε
T
1 − e
µ−ε
T

nB(ε) 分母的形式意味着积分
Z ∞
0
xn−1
ex −1 dx
(10.96)
经常出现在玻色气体理论中，对不同 n。其值为
Z ∞
0
xn−1
ex −1 dx

Z ∞
0
xn−1(e−x + e−2x + e−3x + · · ·) dx

Z ∞
0
xn−1e−xdx +
Z ∞
0
x′
2
n−1
e−x′ 1
2dx′ +
Z ∞
0
x′′
3
n−1
e−x′′ 1
3dx′′ + · · ·

Z ∞
0
xn−1e−x dx

1 + 1
2n + 1
3n + · · ·

m3
2
1
2
V
π2¯h3
Z ∞
0
ε
1
2
e
ε
Tc −1
dε

mTc
2π¯h2
3
2
V 2
π
1
2
Z ∞
0
x
1
2
ex −1 dx

342
热力学
这是从N个位置中选择n个位置的方式数。由于N很大，我们记作
n = αN，其中α是缺陷的分数密度。那么
Ω=
N
αN

N!
(αN)!((1 −α)N)! .
(10.124)
利用近似 (10.60)，log X! = X log X −X，我们得到熵作为α的函数，
S = log Ω

−N{α log α + (1 −α) log(1 −α)} ,
(10.125)
用α表示，能量为E = αNε。
在固定N的情况下，对这些表达式关于α求导，得到
dS
dα

−N(log α + 1 −log(1 −α) −1) = N log
1
α −1

,
(10.126)
dE
dα

15.6 −
16.8
(238)
1
3 −0.7292 × 91
(238)
4
3 −23.3 (54)²
(238)² +
34
(238)
7
4

Z ∞
0
µ
2πT
3
2 exp

−E
T

σfus(E) v 4πv2 dv