ディジタル信号処理第07回-1 FFT

💡

離散フーリエ変換は計算量が多いからどうにかしたい！ → FFT（高速フーリエ変換）

0. 復習：離散フーリエ変換

離散フーリエ変換の定義

　離散時間信号 (ディジタル信号) を $x(n)$ とする。 $n$ は時刻のインデックス（整数）であり、 $0$ から $N-1$ までの値をとる（信号長は $N$ ）。次式に示す離散フーリエ変換（discrete Fourier transform; DFT）によって、信号の周波数表現 $X(k)$ が得られる。

\begin{align} X(k) = \sum\limits_{n = 0}^{N-1}x(n) e^{-j2\pi kn/N} \end{align}

$X(k)$ は複素数。 $k$ は周波数のインデックス（整数）であり、 $0$ から $N-1$ までの値をとる。この逆変換は逆離散フーリエ変換（inverse DFT; IDFT）と呼ばれ、次式で記述される。

\begin{align} x(n) = \frac{1}{N}\sum\limits_{k = 0}^{N-1}X(k) e^{j2\pi kn/N} \end{align}

この正変換・逆変換の式は

信号を複素正弦波 $e^{j2\pi kn/N}$  の和で表す
- 周波数 $k$ が正弦波の回転の速さ（すなわち周波数）を決める
- 時刻 $n$ が正弦波の進行位置（すなわち時刻）を決める

この複素正弦波の係数、すなわち大きさ（振幅）、時間遅れ（位相）を決めるのが $X(k)$ 
- そして、この係数を求めるのが離散フーリエ変換である

を表す。

💡

これらを把握すると「離散フーリエ変換の結果が何を表しているのか直感的に説明できる」「フーリエ変換のプログラムを使うときに結果を疑える」能力を身に着けられる

　数学を面白いと思える人向けにおまけの話。なぜ、正変換と逆変換で式の形が微妙に違うのか？具体的には以下の 2 つについて。

べき乗数について、正変換は負、逆変換は正

総和記号の前について、正変換は何もない (= 1)、逆変換だけ $1/N$

これは信号の展開表現（すなわち、なんらかの信号(基底)の和によって、所望の信号を表現すること）に関連する。この基底が正規直交基底であるとき係数は基底同士の内積で計算され、複素数の基底A, Bの内積は、A と B複素共役の積分で計算される。
　離散フーリエ変換では、フーリエ基底
$e^{j2\pi kn/N}$ を用いて信号を表現する。そのときの内積は、基底の複素共役、すなわち $e^{-j2\pi kn/N}$ を用いて計算される。これが、正変換において負が現れる理由。逆変換だけ $1/N$ が現れる理由は、フーリエ基底が直交だが正規直交ではないから。すなわち内積をとると $N$ が現れる（正規直交基底なら 1 になる）ため、その効果を打ち消すために、逆変換のほうに $N$ を押し付けて正規化している。

行列表現

離散フーリエ変換は行列で表すことができる。

\begin{align} \bm{x} &= [x(0), x(1), \ldots, x(N-1)]^\top \\ \bm{X} &= [X(0), X(1), \ldots, X(N-1)]^\top \end{align}

のように、離散時間信号と周波数表現を列ベクトルで表したとする。離散フーリエ変換は、変換行列 $\bm{W}$ を用いた線形変換で表すことができる。

\begin{align} \bm{X} = \bm{W}\bm{x} \end{align}

この変換行列 $\bm{W}$ の中身を見てみよう。ここで、複素正弦波を以下のように簡易化して表示する。

\begin{align} W_N^{x} \coloneqq e^{j2\pi x/N} \end{align}

この $W_N^{x}$ は複素平面における単位円上で $x$ の増加に応じて回転するため、回転子ともいう。この回転子を用いると、変換行列 $\bm{W}$ を以下のようにあらわすことができる。

\begin{align} \bm{W} = \displaystyle \left[\begin{array}{cccccccc}W_8^{-0\cdot0} & W_8^{-1\cdot0} & W_8^{-2\cdot0} & W_8^{-3\cdot0} & W_8^{-4\cdot0} & W_8^{-5\cdot0} & W_8^{-6\cdot0} & W_8^{-7\cdot0} \\ W_8^{-0\cdot1} & W_8^{-1\cdot1} & W_8^{-2\cdot1} & W_8^{-3\cdot1} & W_8^{-4\cdot1} & W_8^{-5\cdot1} & W_8^{-6\cdot1} & W_8^{-7\cdot1} \\ W_8^{-0\cdot2} & W_8^{-1\cdot2} & W_8^{-2\cdot2} & W_8^{-3\cdot2} & W_8^{-4\cdot2} & W_8^{-5\cdot2} & W_8^{-6\cdot2} & W_8^{-7\cdot2} \\ W_8^{-0\cdot3} & W_8^{-1\cdot3} & W_8^{-2\cdot3} & W_8^{-3\cdot3} & W_8^{-4\cdot3} & W_8^{-5\cdot3} & W_8^{-6\cdot3} & W_8^{-7\cdot3} \\ W_8^{-0\cdot4} & W_8^{-1\cdot4} & W_8^{-2\cdot4} & W_8^{-3\cdot4} & W_8^{-4\cdot4} & W_8^{-5\cdot4} & W_8^{-6\cdot4} & W_8^{-7\cdot4} \\ W_8^{-0\cdot5} & W_8^{-1\cdot5} & W_8^{-2\cdot5} & W_8^{-3\cdot5} & W_8^{-4\cdot5} & W_8^{-5\cdot5} & W_8^{-6\cdot5} & W_8^{-7\cdot5} \\ W_8^{-0\cdot6} & W_8^{-1\cdot6} & W_8^{-2\cdot6} & W_8^{-3\cdot6} & W_8^{-4\cdot6} & W_8^{-5\cdot6} & W_8^{-6\cdot6} & W_8^{-7\cdot6} \\ W_8^{-0\cdot7} & W_8^{-1\cdot7} & W_8^{-2\cdot7} & W_8^{-3\cdot7} & W_8^{-4\cdot7} & W_8^{-5\cdot7} & W_8^{-6\cdot7} & W_8^{-7\cdot7} \\\end{array}\right] \end{align}

$n$ 行 $k$ 列の要素は $W_{N}^{-kn}$ である。

1. 離散フーリエ変換は「重い」

爆発する計算量

行列 $\bm{W}$ のサイズは $N\times N$ である。すなわち、掛け算を $N^2$ 回実行しなければならない。下図は、様々な信号長 $N$ に対して Python で計算時間を計測した結果である。

2次関数のように計算時間が伸びており $N=16384$ で約 26 秒かかる。音楽信号の場合、48 kHz サンプリングを採用することが多いので、 $N=16384$ は約 0.333 秒に対応する。すなわち、0.3 秒の音楽をフーリエ変換するのに 26 秒かかることを示している。

💡

本講義の範囲外だが、離散フーリエ変換（に類するもの）は信号の符号化に用いられる。例えば、生の信号データを保存せずに、離散フーリエ変換を用いて圧縮されたデータを保存する。再生時に0.3 秒の YouTube 音声を復号して聴くために 26 秒かかっては、とてもやっていけない。

上図が示すように、離散フーリエ変換の計算は非常に重い。もちろん、計算機能力の増加でカバーできる部分はあるが、計算時間が 2 次関数になるものは避けたい…。

　これから紹介する高速フーリエ変換 (fast Fourier transform; FFT)は、新たなフーリエ変換ではなく、得られる結果は離散フーリエ変換と同じである。ただし、変換にかかる計算量を非常に小さくしたものである。

軽くするために回転子の性質を整理しよう

　回転子は、単位円を $N$ 分割してべき乗数だけ進むものと考えられる。今はべき乗数が負の方向に増えるので、反時計回りに進むと仮定する。この回転子におけるべき乗数の和は、2つの回転子の積に書き換えることもできる（ $W_{N}^{x+y} = W_{N}^{x}\cdot W_{N}^{y}$ ）。この回転子には次の 2 つの性質がある。