正则表达式表示实数

基本介绍

$1.$ 任意实数都可以表示为小数的形式：对于有限小数，在其末尾增加无限个 $0$ ，将所有的实数都统一为无限小数。因此实数的表示即为无限小数的表示。

$2.$ 考虑 $\forall x\geq 0$ ，一定可以划分为整数部分 $\lfloor x \rfloor$ ，以及小数部分 $x-\lfloor x \rfloor$ ，整数部分显然，小数部分可以表示为 $\sum_{i=1}^{∞}a_{i}p^{-i}$ ，即对于前缀 $a_{1},a_{1}a_{2},....,a_{1}...a_{j}$ 有以下表示 $a_{1}/p,(a_{1}p+a_{2})/p^{2},....,(a_{1}p^{j-1}+...+a_{j})/p^{j}$ 。
分子部分是 $p$ 进制下 $a_{1}...a_{j}$ 的数值。
分母部分是正则表示式中 $\{1,...,p-1\}\{0,...,p-1\}^{*}∪\{\varepsilon\}$ 中长度至多为 $j$ 的单词数量之和（ $(p-1)\sum_{i=0}^{j-1}p^{i}+1=p^{j})$

$3$ .通过刚才的方法可以表示出 $[\frac{1}{p},1]$ ，为了得到 $\forall x\in[0,1]$ ，可以通过对 $x$ 乘一个 $p^{k}$ 使得 $\ p^{k}x \in[\frac{1}{p},1]$ ，对于指数 $k$ 很容易保存，这样就表示出了 $x\in [\frac{1}{p^{k+1}},\frac{1}{p^{k}}]$ ，这里 $x$ 可以用和 $[\frac{1}{p},1]$ 同样的方法处理，只是多了 $k$ 个前导零。因此我们需要关心的只有 $[\frac{1}{p},1]$ 这一部分的实数了。

$4.$ 另外对于 $x\in[\frac{1}{p},1]$ ，有可能存在超过一种表示。实际上在实数中， $1.999...$ 与 $2.000...$ 都表示 $\frac{2}{10}$ ，而在这里考虑的是 $[\frac{r}{p^{n}},\frac{r+1}{p^n}]$ 这样的区间。如果数 $x$ 在区间的端点上，那么它将会有两种不同的表示，否则就有唯一的表示。

前置知识：

1.语言和自动机
$\sum$ ：有限字符集
$\sum^{*}$ ：克林闭包
$\sum^{+}$ ：正闭包
$|w|$ ：字符串 $w$ 的长度
$\#Q$ ：有限集合 $Q$ 的基数
$DFA$ ：被 $\sum$ 标记的一个有向图 $(K,s,F,\sum,δ)$ ， $K$ 代表状态的有限集合， $s\in K$ 是一个初始状态， $F\subseteq K$ 是终止状态的集合， $δ：K×\sum\rightarrow K$ 是转移函数
$识别$ ：如果一个单词可以从初态出发不断转移最终到达终态，那么这个单词就被识别出来。
$语言$ ：克林闭包的一个子集
$正则语言$ ：如果一个语言中的单词都能够被识别出来，那么该语言被称为正则语言。
$L_{k}$ ： $\{ x\in \sum^{*},δ(k,x)\in F\}$ ，而一般所说的 $L$ 就是 $L_{s}$

2.整数的表示
基数序：基数序是用来比较两个单词的大小，对于两个单词 $x$ 和 $y$ ，如果（ $|x|<|y|）$ 或者（ $|x|=|y|$ 并且存在某个单词 $δ\leq \tau$ ,且有 $x=wδx^{'},y=w\tau y^{'}$ )，我们就认为 $x\leq y$ 。
代数系统：代数系统定义为一个三元组 $(L,\sum,<)$ ， $L$ 是一个无限长度的正则表达式，这个代数系统用以实现 $N$ 和 $L$ 的一一映射。
$rep_{S}(n)$ ：整数到单词的映射，代表 $n+1$ 大的单词。
$val_{S}(w)$ ：单词到整数的映射：如果 $w$ 是第 $n+1$ 大的单词，那么 $val_{S}(w)=n$ 。
正则表达式表示实数
如上图，易见 $rep_{S}(4)=ab$ ， $val_{S}(aba)=12$ 。
对于 $rep_{S}(k)$ 和 $val_{S}(k)$ ，可以通过贪心算法构造出来。
更一般地，对于 $\forall k \in K$ ，通过 $L_{k}$ 构造出来新的代数系统 $S_{k}=(L_{k},\sum,<)$ ，相应的函数则为 $rep_{S_{k}}$ 和 $val_{S_{k}}$ ，在不混淆的情形下，大写的 $S$ 可以被省略。
$u_{l}(k)$ ： $u_{l}(k)=\#(L_{k}∩\sum^{l})$ ，实际上就是所有从状态 $k$ 出发通过 $l$ 次转移正好被接收的单词的数量。
$v_{l}(k)$ ： $v_{l}(k)=\sum_{i=0}^{l}u_{l}(k)$ ，实际上就是所有从状态 $k$ 出发在 $l$ 次转移之内被接受的单词的数量。
特别地，对于 $u_{l}(s)$ 和 $v_{l}(s)$ 在不至引起混淆的情形下可以简写为 $u_{l}$ 和 $v_{l}$ 。

定理1：如果 $σw\in L_{k}$ ，并且满足 $σ\in \sum$ ， $w\in \sum^{+}$ ，那么 $val_{k}(σw)=val_{k.σ}(w)+v_{|w|}(k)-v_{|w|-1}(k.σ)+\sum_{σ^{'}<σ}u_{|w|}(k.σ^{'})$
证明：选取第一个字符 $c\in\sum$ ，若字符 $c=σ$ 为第一项，若字符 $c<σ$ 且长度为 $|w|+1$ 为第四项，若长度小于 $|w|+1$ 的为第二项，容斥掉 $c=σ$ 并且长度小于 $|w|+1$ 的重复的一部分。

定理2：如果 $σ\in \sum$ ，那么 $val_{k}(σ)=u_{0}(k)+\sum_{σ^{'}<σ}u_{0}(k.σ^{'})$
证明：比较显然。

通过定理1和定理2，可以得到对于 $w=w_{l}...w_{1}\in L_{k}$ ，可以得到以下的公式：
$val_{k}(w)=v_{l-1}(k)+\sum_{σ<w_{l}}u_{l-1}(k.σ)+...+\sum_{σ<w_{2}}u_{1}(k.w_{l}...w_{3}σ)-v_{0}(k.w_{l}...w_{2})+val_{k.w_{l}...w_{2}}(w_{1})$

推论1：把原式转化成一个更简的形式有：
$val_{k}(w)=\sum_{q\in K}\sum_{i=1}^{|w|-1}β_{q,i}(k,w)u_{i}(q)$
其中 $β_{q,i}(k,w)$ 是一个常数，它的大小不超过 $\#\sum+δ_{k,q}$

3.无穷单词
$\sum^{w}$ ：定义为无穷长度正则表达式的集合。

子串：对于单词 $w=w_{0}w_{1}...w_{|w|-1}$ ，如果 $0<l\leq r< |w|$ ，那么 $w[l,r]$ 就称为是 $w$ 的一个子串。

极限：
如果某个单词序列 $w_{n}\in \sum^{*}$ 满足 $\forall l \in N,\exist N \in N ,\forall n>N,w_{n}[0,l]=w[0,l]$ 。记为 $lim_{n\rightarrow∞}w_{n}=w$ 。
具体地说：对于任意长度的前缀，都满足存在一个自然数 $N$ ，并且这个序列存在 $n$ ，使得 $n\geq N$ 的 $w_{n}$ 都和 $w$ 相同，那么 $w_{n}\rightarrow w$ 。

另外一种定义极限的方法是定义两个串 $x$ 和 $y$ 的距离 $d(x,y)$ 。
$d(x,y)=2^{-n},n=inf\{j:x[j,j]\not = y[j,j],(x\not = y)$
$d(x,y)=∞,(x=y)$
然后对于所有的有限单词 $x$ 都定义为 $x\tau^{w},\tau\not \in \sum$ ，那么 $w_{n}$ 收敛于 $w$ 就对应为拓扑空间 $(\sum∪\{\tau\})^{w}$ 上 $w_{n}$ 的极限为 $w$ 。

如果 $L$ 是一个语言。
定义 $L_{∞}$ 是有无穷多个前缀在 $L$ 中的无穷单词的集合， $L_{∞}=\{w\in \sum^{w}|\exist^{w}n:w[0,n]\in L\}$ ，这里 $\exist^{w}$ 代表存在无穷多个 $n$ 。
定义 $\mathscr L_{∞}=\{w\in \sum^{w}|\exist(w_{n})_{n\in N}\in L^{N}:lim_{n\rightarrow∞}w_{n}=w\}$
注意到有 $L_{∞}\sub \mathscr L_{∞}$

一些问题

分别要解决以下问题：
$1.$ $L_{∞}$ 和 $\mathscr L_{∞}$ 的不可数性。
$2.$ 极限 $\lim_{n\rightarrow∞}\frac{val_{S}(w_{n})}{v_{|w_{n}|}}$ 的存在性。

$L_{∞}$ 和 $\mathscr L_{∞}$ 的不可数性

$1.1$ $\mathscr L_{∞}$ 的不可数性。
如果可以从 $s$ 到状态 $k$ ，那么说这个状态是 $accessible$ 的。如果可以从状态 $k$ 到 $F$ ，那么说这个状态是 $coaccessible$ 的。
定理3：集合 $\mathscr L_{∞}$ 是不可数的当且仅当 $DFA$ 上存在两个互异的环 $(p_{1},....p_{r},p_{1})$ 和 $(q_{1},...q_{t},q_{1})$ 满足以下的条件：
$1.$ $p_{1}=q_{1}$ ，
$2.$ $\{p_{1},....,p_{r},q_{1},...,q_{t}\}$ 存在一个 $accessible$ 的状态，
$3.$ $\{p_{1},....,p_{r},q_{1},...,q_{t}\}$ 存在一个 $coaccessible$ 的状态。
证明：
充分性：定义 $c$ 是 $accessible$ ， $d$ 是 $coaccessible$ ，显然存在 $w,w^{'}$ 使得 $s.w=c$ 并且 $d.w^{'}\in F$ ，并且定义 $y_{0},y_{1}$ 分别为 $(p_{1},p_{2}...p_{r},p_{1})$ , $(q_{1},q_{2}...q_{t},q_{1})$ 的路径，显然可以构造出一个序列 $wxy_{f(0)}y_{f(1)}....y_{f(i)}x^{'}w^{'}$ ，对于 $f\not =g$ ，有 $y_{f}\not=y_{g}$ ，本质上是一个实数的二进制表示，所以是不可数的。充分性得证。
必要性：假设任何一个状态转移的路径从 $s$ 开始到 $F$ 中某一个结束，最多只会属于一个环。换句话说，如果 $xyz\in L$ ，满足 $s.x$ 属于环 $(s.x,p_{2},...p_{r},s.x)$ ， $s.xy$ 属于环 $(s.xy,q_{2},...q{t})$ ，并且这两个环没有任何交集。
$L$ 可以写成以下的形式:
$\lambda_{1}\mu_{1}^{*}\lambda_{2}\mu_{2}^{*}...\lambda_{j}\mu_{j}^{*}\lambda_{j+1}$ ， $\lambda_{i},\mu_{i}\in \sum^{*}$ .
那么对于 $m\in\mathscr L_{∞}$ ，按照定义它应该有无穷多个公共前缀，那么这些前缀应该是以下的形式之一：
$\lambda_{1}\mu_{1}^{w},\lambda_{1}\mu_{1}^{n_{1}}\lambda_{2}\mu_{2}^{w},...,\lambda_{1}\mu_{1}^{n_{1}}\lambda_{2}\mu_{2}^{n_{2}}...\mu_{j-1}^{n_{j-1}}\lambda_{j}\mu_{j}^{w}$ ， $n_{1},....,n_{j-1}\in N$
这个序列是可数的，这和 $\mathscr L_{∞}$ 不可数是矛盾的，所以假设不成立。必要性得证。

$1.2$ $L_{∞}$ 的不可数性。
定理4：集合 $L_{∞}$ 是不可数的当且仅当 $DFA$ 上存在两个互异的环 $(p_{1},....p_{r},p_{1})$ 和 $(q_{1},...q_{t},q_{1})$ 满足以下的条件：
$1.$ $p_{1}=q_{1}$ ，
$2.$ $\{p_{1},....,p_{r},q_{1},...,q_{t}\}$ 存在一个 $accessible$ 的状态，
$3.$ 存在 $i\leq r,j\leq t$ 使得 $p_{i}$ 和 $q_{j}$ 都是终态。
证明和定理3是类似的，只是这里的条件有所加强，因为 $L_{∞}$ 要满足对任意长度的前缀都成立，因此终态必须要落在环上。另外特别的，当 $i=j=1$ 的时候，就只有一个终态。

基本假设

注意到 $u_{n}(q)$ 是一个常系数线性递归方程的解，所以 $u_{n}(q)$ 存在一个通解，使得 $u_{n}(q)=\sum_{i=1}^{r}P_{i}(n)\mu_{i}^{n}$ 。其中 $P_{i}$ 是一个多项式，而 $\mu_{i}$ 是一个复数。
这里先预先给出了一些假设。
假设 $\mu_{1}$ 是一个实数并且满足 $\mu_{1}>max_{i=2...r}\{|\mu_{i}|,1\}$ ，并且定义多项式 $P_{1}$ 的度数是 $d$ 。那么显然对于 $u_{n}(q)$ ，极限 $\lim_{n\rightarrow∞}\frac{u_{n}(q)}{n^d\mu_{1}^{n}}$ 存在。
（同时也观察到如果 $max_{i=1...r}|\mu_{i}|$ 是小于 $1$ 的话，那么 $u_{n}(q)$ 是趋于 $0$ 的，对于足够大的 $n$ ， $u_{n}(q)=0$ ，但此时 $\lim_{n\rightarrow∞}\frac{u_{n}(q)}{n^d\mu_{1}^n}$ ，一个典型的反例就是如果存在 $j>1$ ，使得 $|\mu_{1}|=....=|\mu_{j}|>max_{i=j+1,...,r}|\mu_{i}|$ ，有可能会出现振荡间断而不存在极限。）

假设：集合 $\mathscr L_{∞}$ 对于所有状态 $q$ 都是不可数的，当且满足以下的条件之一：
(1)： $\exist N_{q} \in \mathbb N:\forall n > N_{q}，u_{n}(q)=0$
(2)： $\exist \theta_{q}\geq 1,P_{q}(x)\in \mathbb R[x],b_{q}>0:\lim_{n\rightarrow∞}\frac{u_{n}(q)}{P_{q}(n)\theta_{q}^{n}}=b_{q}$
记号：由于讨论的是 $\mathscr L_{∞}$ ，对于 $q=s$ 的情形，必定不会出现 $(1)$ 这种情形，这里用 $\theta,P,a_{s}$ 分别指代 $\theta,P_{s},b_{s}$ 。
结论1：对于 $(2)$ 中的每个状态 $q$ ，要么 $\theta_{q}<\theta$ 或者 $\theta_{q}=\theta并且d(P_{q})\leq d(P)$ 。简单地说，就是 $u_{q}(n)$ 一定会被 $u_{s}(n)$ 所限制。
证明：假设存在 $\theta_{q}>1并且P_{q}(x)\in \mathbb R[x]$ 使得 $\lim_{n\rightarrow∞}\frac{u_{n}(q)}{P_{q}(n)\theta_{q}^{n}}=b_{q}$ ，并且 $\frac{P_{q}(n)\theta_{q}^{n}}{P(n)\theta^{n}}$ 是不收敛的。
因为存在常数 $i$ 使得 $u_{n}(s)>u_{n-i}(q)$ 。
所以 $\frac{u_{n}(s)}{P_{q}(n)\theta_{q}^{n}}\geq\frac{u_{n-i}(q)}{P_{q}(n-i)\theta_{q}^{n-i}} \frac{1}{\theta_{q}^{i}}\frac{P_{q}(n-i)}{P_{q}(n)}\rightarrow \frac{b_{q}}{\theta_{q}^{i}}>0$
然而 $\frac{u_{n}(s)}{P_{q}(n)\theta_{q}^{n}}=\frac{u_{n}(s)}{P(n)\theta^{n}}\frac{P(n)\theta^{n}}{P_{q}(n)\theta_{q}^{n}}$ 是趋于 $0$ 的
这两者是矛盾的，因此假设不成立。

结论2：对于每个 $q$ 极限 $\lim_{n\rightarrow∞}\frac{u_{n}(q)}{P(n)\theta^{n}}$ 都是存在的，并且把这个极限记为 $a_{q}$ 。
实际上， $\frac{u_{n}(q)}{P(n)\theta^{n}}=\frac{u_{n}(q)}{P_{q}(n)\theta_{q}^{n}}\frac{P_{q}(n)\theta_{q}^{n}}{P(n)\theta^{n}}$
前面一部分就是 $b_{q}$ ，后面一部分由上面证明要么就是分子低阶，极限就是 $0$ ，要么就是同阶， $a_{q}$ 就是 $b_{q}$ 乘上一个常数，这里不多赘述。

一些极限

根据前文， $\lim_{n\rightarrow∞}\frac{val_{S}(w_{n})}{v_{|w_{n}|}}=\lim_{n\rightarrow ∞}\frac{\sum_{i=0}^{n}\beta_{q,n-i}(w)u_{i}(q)}{v_{n}(s)}$
定理5：如果 $q$ 是 $M_{l}$ 的一个状态且有 $a_{q}>0$ ，那么有：
(1)： $\frac{\sum_{i=0}^{n}u_{i}(q)}{\sum_{i=0}^{n}u_{i}(s)}=\frac{a_{q}}{a_{s}}$
(2)： $\frac{u_{n}(q)}{\sum_{i=0}^{n}u_{i}(q)}=\frac{\theta-1}{\theta}$
(3)： $\lim_{n\rightarrow∞}\frac{\sum_{i=0}^{n}\beta_{q,n-i}u_{i}(q)}{u_{n}(q)}=\sum_{j=0}^{∞}\beta_{q,j}\theta^{-j}$
证明：
第一步： $a_{q}>0$ ：
记 $P$ 的度为 $r$ ，有 $P=\alpha n^{r}+Q(n)$ ，显然 $d(Q(n))<r$ 并且 $\alpha>0$ ，那么存在：
$\frac{u_{n}(q)}{\alpha n^{r}\theta^{n}}-\frac{u_{n}(q)}{P(n)\theta^{n}}=\frac{u_{n}(q)Q(n)}{P(n)\theta^{n}\alpha n^{r}}\rightarrow0$
因为有 $\frac{u_{n}(q)}{P(n)\theta^{n}}\rightarrow a_{q}$
改写为 $\lim_{n\rightarrow∞}\frac{u_{n}(q)}{n^{r}\theta^{n}}=a_{q}$
对状态 $p\in\{q,s\}$ ，一定存在 $(\alpha_{p,n})$ 收敛到 $1$ ，满足 $u_{n}(p)=\alpha_{p,n}a_{p}n^{r}\theta^{n}$ 。而且对于 $k>1$ ，一定存在 $K>1$ 使得，当 $n>K$ 一定有 $\alpha_{s,n},\alpha_{q,n}\in [1-\frac{1}{k},1+\frac{1}{k}]$
$(1),(2)$ 易证。
现在证明 $(3)$ ：
令 $z_{n}=\frac{\sum_{i=0}^{n}\beta_{q,n-i}u_{i}(q)}{u_{n}(q)}$ .
对于 $\epsilon>0$ ，我们给出 $z_{n}$ 的一个上界。
$z_{n}\leq\frac{\sum_{i=0}^{K}\beta_{q,n-i}u_{i}(q)}{u_{n}(q)}+\frac{a_{q}\sum_{i=K+1}^{n}\beta_{q,n-i}\alpha_{q,i}i^{r}\theta^{i}}{a_{q}\alpha_{q,n}n^{r}\theta^{n}}$
$\leq\frac{k+1}{k-1}\sum_{i=K+1}^{n}\beta_{q,n-i}(\frac{i}{n})^{r}\theta^{i-n}+\frac{\sum_{i=0}^{K}\beta_{q,n-i}u_{i}(q)}{u_{n}(q)}$
$\sum_{i=K+1}^{n}\beta_{q,n-i}(\frac{i}{n})^{r}\theta^{i-n}=\sum_{i=0}^{n-K-1}\beta_{q,i}(1-\frac{i}{n})^{r}\theta^{-i}=\sum_{i=0}^{n-K-1}\beta_{q,i}\theta^{-i}+\sum_{j=1}^{r}C_{r}^{j}n^{-j}\sum_{i=0}^{n-K-1}\beta_{q,i}(-i)^{j}\theta^{-i}$ 。
对于第二项：我们注意到级数 $\sum_{i=0}^{∞}\beta_{q,i}\theta^{-i}$ 是连续可微并且可以逐项微分。
所以有 $(\theta\frac{\theta}{d\theta})^{j}\sum_{i=0}^{∞}\beta_{q,i}\theta^{-i}=\sum_{i=0}^{∞}\beta_{q,i}(-i)^{j}\theta^{-i}$ ，显然左边式子是收敛的。
可以发现小于等于号右边全部收敛。
对于 $\epsilon>0$ ，我们给出 $z_{n}$ 的一个下界。
$z_{n}\geq(1-\frac{2}{k+1})\sum_{i=0}^{n-K-1}\beta_{q,i}(1-\frac{i}{n})^{r}\theta^{-i} \geq\sum_{i=0}^{n}\beta_{q,i}\theta^{-i}-\sum_{i=n-k}^{n}\beta_{q,i}\theta^{-i}+\xi_{n}-\frac{2}{k+1}\sum_{i=0}^{∞}\beta_{q,i}\theta^{-i}-\frac{2\xi_{n}}{k+1}$ ，
同样也是收敛的，结论得到证明。

定理6： $\lim_{n\rightarrow∞}{\frac{v_{n-1}(s)}{v_{n}(s)}}=\frac{1}{\theta}$
证明： $\frac{v_{n-1}(s)}{v_{n}(s)}=1-\frac{u_{n}(s)}{v_{n}(s)}\rightarrow1-\frac{\theta-1}{\theta}$

定理7： $\lim_{n\rightarrow∞}\frac{val_{S}(w_{n})}{v_{|w_{n}|}}=\frac{\theta-1}{\theta^2}\sum_{q\in K}\frac{a_{q}}{a_{s}}\sum_{j=0}^{∞}\beta_{q,j}\theta^{-j}$
证明： $\sum_{q\in Q}\frac{\sum_{i=0}^{|w_{n}|-1}\beta_{q,|w_{n}|-i-1}u_{i}(q)}{u_{|w_{n}|-1}(q)}\frac{u_{|w_{n}|-1}(q)}{\sum_{i=0}^{|w_{n}|-1}u_{i}(q)}\frac{\sum_{i=0}^{|w_{n}|-1}u_{i}(q)}{\sum_{i=0}^{|w_{n}|-1}u_{i}(s)}\frac{\sum_{i=0}^{|w_{n}|-1}u_{i}(s)}{\sum_{i=0}^{|w_{n}|}u_{i}(s)}$
应用定理5和定理6即可证明。

综上所述，证明了极限 $\lim_{n\rightarrow∞}\frac{val_{S}(w_{n})}{v_{|w_{n}|}}$ 的存在性。