コグノスケ

未来から過去へ表示(*) link

過去から未来へ表示

もっと前

2020年1月26日 >>> 2020年1月13日

もっと後

2020年1月26日

permalink

編集する

C言語の未定義動作と最適化

目次: C言語とlibc

くそ長いですが、C言語の未定義動作怖いね、printfでタイミング以外も動き変えられるよ、という話です。

環境ですがx86_64向けDebian GNU/Linux 9.2で実行しています。またGCCのバージョンはgcc (Debian 9.2.1-22) 9.2.1 20200104です。

未定義動作のため、コンパイラの種類や、GCCのバージョンにより結果が変わると思われます。お家のマシンで試すならご留意ください。

1番目の実験

この日記の最後に貼ったプログラム（このプログラムをコンパイルすると、激しい警告が出ます）をgcc -Wall -O2 a.c && ./a.outのように実行すると、

1番目の実験: あれ？バッファオーバーランは…？

こうなります。0〜59の和は1770です。あってます。良かったですね。

なに？そういう問題じゃない？「なぜarray終端を超えてguard2にバッファオーバーランしない？」と考えた方、するどいです。しかし世の中そう単純ではありません。

2番目の実験

10行目のprintfのコメントを外してローカル変数のアドレスを表示させると、

2番目の実験: 10行目のprintfを有効、突然のバッファオーバーラン

0x7ffd9b348a10 0x7ffd9b348ae0 0x7ffd9b348bb0
0: 0 0 52
1: 0 1 53
2: 0 2 54
3: 0 3 55
4: 0 4 56
...
45: 0 45 0
46: 0 46 0
47: 0 47 0
48: 0 48 0
49: 0 49 0
1770: 1770

こうなります。突然オーバーランするようになりました。printfが何かしたんでしょうか、不思議ですね？

3番目の実験

どうしてforループを無意味に2分割したのか？くっつけてみたらわかります。Segmentation Fault します。

3番目の実験: ループを1つにするとクラッシュ

0: 0 0 0
1: 0 1 0
2: 0 2 0
3: 0 3 0
4: 0 4 0
...
45: 0 45 0
46: 0 46 0
47: 0 47 0
48: 0 48 0
49: 0 49 0
Segmentation fault

もう意味不明ですよね。何が起こっているんでしょう？

タネ明かし

この60回のforループは「配列の終端を超えたアクセス」がC言語仕様上の未定義動作なので、何が起きても正しい、つまりどの結果も正しいです。

これだけだと、何言ってんのか意味不明だと思うので「printf有効/無効」「forループ1つ/2つ」に着目して説明します。

1番目の実験（printf無効、forループ2つ）: プログラムを見るとguard1, guard2に対してmemset 0した後、参照のみで代入しません。コンパイラはguard1, guard2をスタックに配置せず、配列への参照（guard1[i], guard2[i]）は全て「定数の0」に置換します。
（GIMPLEを見たら033t.fre1で0に置換されるようです）
このときarrayのバッファオーバーランはスタックに退避されているレジスタ値などを書きつぶしますが、ギリギリ続行できています。
2番目の実験（printf有効、forループ2つ）: 1番目と変わりないと思いきや、printfがguard1, guard2のアドレス参照をするため、定数の0に置換すると返せるアドレスがなくなり結果が変わってしまいます。このため、guard1, guard2はスタックに配置されます。
このときarrayのバッファーオーバーランは隣に配置されたguard2を書きつぶします。
3番目の実験（printf無効、forループ1つ）: いわゆる偶然の結果です。1番目と同様にguard1, guard2はスタックに配置されず、arrayのバッファオーバーランによりスタックに退避したレジスタ値などが壊れます。forループが1つ減ったことでスタックに退避されるレジスタが1つ減って（8バイト分余裕がなくなる）、1番目の実験でギリギリリターンアドレスを壊されずに耐えていたものが、耐えられなくなります。

3番目の実験の裏打ちとして、試しにループ回数を80回くらいにするとforループが1つだろうが2つだろうが、リターンアドレスがぶっ壊れてSegmentation Fault します。10行目のprintfを有効にするとguard1, guard2がスタックに配置されて、受け止めてくれるので、80回でも耐えます。

難解なC言語仕様、曖昧な利用者の理解、過激なコンパイラの最適化、が招く結末

バッファオーバーランを期待していた向きには残念（？）かもしれませんが、guard1, guard2はメモリ上に置いても置かなくても、C言語仕様に矛盾しないなら、どっちでも良いです。もっというとC言語仕様に矛盾しないなら、コンパイラの最適化は何をやってもOK です。

この「C言語仕様に矛盾しないなら」はおそらくコンパイラ開発者には常識なのでしょうけども、C言語の仕様は人間に優しくないのと、大多数のC言語プログラマは言語仕様（特に未定義動作）を理解しておらず、何となく使っています。

難解な仕様、曖昧な理解、過激な最適化の相乗効果により、今日も世界のどこかで
「最適化で動きが変になっちゃったよ……。どうして…どうして……？」
とコンパイラとすれ違ったプログラマが泣いているでしょう。。。

参考

大したものではありませんが、ソースコードを載せておきます。

実験用ソースコード


#include <stdio.h>
#include <string.h>

int undefined()
{
	int guard1[50];
	int array[50];
	int guard2[50];
	int sum = 0, i;

	memset(guard1, 0, sizeof(guard1));
	memset(guard2, 0, sizeof(guard2));
	//printf("%p %p %p\n", &guard1[0], &array[0], &guard2[0]);

	for (i = 0; i < 60; i++) {
		array[i] = i;
	}

	for (i = 0; i < 60; i++) {
		sum += array[i];
	}

	for (i = 0; i < 50; i++) {
		printf("%2d: %d %d %d\n", i, guard1[i], array[i], guard2[i]);
	}

	return sum;
}

int main(int argc, char *argv[])
{
	int sum1 = 0, sum2 = 0, i;

	sum1 = undefined();

	for (i = 0; i < 60; i++) {
		sum2 += i;
	}

	printf("%d: %d\n", sum1, sum2);

	return 0;
}

編集者:すずき(2023/02/04 20:17)

コメント一覧

コメントはありません。

この記事にコメントする

2020年1月21日

permalink

編集する

glibcのmemsetは強かった

目次: ベンチマーク

先日（2020年1月12日の日記参照）の続きです。

あまりにもglibcフルアセンブラ版memsetの実装が速くて勝てないので、観念して実装を見たのですが、序盤（1バイト〜32バイト）が弱い理由と、以降（33バイト〜）で勝てない理由がわかりました。

他の実装と違ってglibcはサイズの大きい方から条件を見ています。どうしても条件分岐命令を通る回数が増えるため、序盤に弱いです。

中盤は96バイトまではNEON store x 4と分岐で捌いていて、ループを使いません。分岐もcmpしてbranchではなく、ビットセットされていたら分岐する命令（tbz, tbnz）を使っています（※）。

つまり私が書いたmemsetはループで処理している時点で、ほぼ勝ち目がなかったということです。

グラフでは63バイトまでしか測っていなかったから気づかなかったのですが、ループの2週目に入る65バイトから、さらにボロ負けです。いやはや、これは勝てないですね……。

（※）cmp, branchの2命令をtbz 1命令にする辺り、AArch64アセンブラならではの実装に見えますが、実はCでもif (a & 0x10) とか書くとコンパイラがtbz命令を使います。コンパイラ侮りがたし。

編集者:すずき(2023/09/24 08:55)

コメント一覧

コメントはありません。

この記事にコメントする

2020年1月20日

permalink

編集する

glibcのmemsetのクセ

目次: ベンチマーク

先日memsetを書いていたとき（2020年1月12日の日記参照）に気づいたのですが、glibcのフルアセンブラ版memsetの性能が2通り（遅い、速い）あることに気づきました。だいたい1割くらい性能が変わります。

遅いときと比較すると、自作のmemsetの方が速いですが、速いときと比較するとボロ負けします。割と性能が迫っているためか、影響が大きいです。

何が違うんでしょうね？コードは当然同じですから、違いはmemset関数のロードされるアドレスくらいです。まさかなと思って、スタティックリンクしたら安定して速くなりました。

ダイナミックリンクだと、アプリ側は0xaaaac4fba560で、glibcだけ0xffffbf2dce00のような遠いアドレスに飛ばされます。ベンチマーク中は、アプリのコード ←→ glibcのコードを頻繁に行き来することになるので、TLBミスヒットの影響が出ているんですかね……？？

真因はわかりませんが、アドレスが関係している可能性は高いです。今後、似たようなことをやるときは、スタティックリンクで測った方が良さそうです。

編集者:すずき(2023/09/24 08:55)

コメント一覧

コメントはありません。

この記事にコメントする

2020年1月19日

permalink

編集する

バイトをコピーするSIMD命令

目次: ベンチマーク

最近、見かけるSIMD命令セット（AVXもNEONも）には、レジスタ下位 [7:0] の1バイトを、レジスタ上位 ... [31:24] [23:16] [15:8] の各バイトに配る命令が用意されています。

AVX: vpbroadcastb
NEON: dup

この命令はどういう需要があるんだろうか……？memsetの実装では超役に立ちましたが、他の使い道が良くわかりません。

Facebookで上記の話をしていたところ、

8bit行列演算: 8bit行列演算ってそんな頻出かな、って思ったら、画像使えば8bitなので十分有り得そう。
バイト暗号: ブロック毎に空間変換する時とか雑に言えばスカラとベクトルの演算。

と教えてもらいました。なるほど、スカラベクトル積のスカラ側を配るときに便利ですね。

SIMD命令のない世界

ちなみにSIMDのない処理系はどうしているのか見てみると、


int a = (何かの数字);

としたときに、


a &= 0xff;
a *= 0x01010101;

のようにand, mov, mulを使っていました。もちろん、


a &= 0xff;
a |= a << 8;
a |= a << 16;

のようにand, shift, or, shift, orでもできますが、今日日のプロセッサだと整数乗算の方が速そうですね。

編集者:すずき(2023/09/24 08:55)

コメント一覧

コメントはありません。

この記事にコメントする

もっと前

2020年1月26日 >>> 2020年1月13日

もっと後

管理用メニュー

記事を新規作成

RSSを更新

<	2020					>
<<	<	01			>	>>
日	月	火	水	木	金	土
-	-	-	1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31	-

本日の日記へ

最近のコメント5件

26年1月23日
すずきさん (01/29 09:48)
「おおー、そんな昔からなんですね。歴史感じ...」
26年1月23日
hdkさん (01/27 19:53)
「#! はUNIX v8からだったってWi...」
24年12月9日
すずきさん (01/18 15:45)
「Thank you for your i...」
24年12月9日
Up2Uさん (01/15 12:57)
「Hi I also find the p...」
25年12月18日
すずきさん (12/23 23:51)
「良く見たらksys_read()でfil...」

もっとみる

最近の記事20件

23年4月10日
すずき (01/27 02:48)
「[Linux - まとめリンク] 目次: Linuxカーネル、ドライバ関連。Linux kernel 2.4 for ARMが...」
26年1月23日
すずき (01/27 02:47)
「[shebangの役割] 目次: Linuxスクリプトの先頭（例えばシェルスクリプトなど）に書く"#!〜"から始まるおまじない...」
26年1月21日
すずき (01/22 02:55)
「[日本のテレビメーカーの衰退] ソニーがテレビ事業を分離するニュース（ソニーはなぜ、テレビ事業を「分離」するのか - 中国TC...」
25年12月26日
すずき (12/30 14:01)
「[Linuxのjournal操作メモ] 目次: Linux最近のLinuxディストリビューションはsystemdを採用している...」
25年12月22日
すずき (12/28 23:39)
「[ゲームを買ったら遊びましょう3] 目次: ゲーム前回の振り返り（2024年10月20日の日記参照）から1年経ちました。所持し...」
21年12月28日
すずき (12/25 00:40)
「[ゲーム - まとめリンク] 目次: ゲームNintendo DSを買ったパネルでポンDS最近の朝はパネポンDS聖剣伝説DSチ...」
08年3月25日
すずき (12/24 22:16)
「[シムシティDS2クリア] 目次: ゲームシムシティDS2のチャレンジモード「現代温暖化」編をクリアして、スタッフロールを拝...」
25年12月10日
すずき (12/24 01:02)
「[LinuxからBIOS/UEFIの設定を取得する] 目次: Linux設定によって何か動作を変えたい、PC再起動するのが嫌な...」
25年12月16日
すずき (12/24 00:47)
「[initramfsの更新方法] 目次: Linuxいつも忘れてググっている気がするのでメモしておきます。Linuxカーネルを...」
16年3月2日
すずき (12/24 00:37)
「[Device Treeの謎] 目次: LinuxDevice Treeを使ってARM Linuxを起動したとき、どうやってコ...」
25年12月19日
すずき (12/21 00:11)
「[preadとlseek + readは何が違う？] 目次: Linux前回（2025年12月18日の日記参照）はpreadと...」
25年12月8日
すずき (12/20 21:48)
「[LXPanelのボタン入れ替えが使えないときの直し方] 目次: LinuxLXDEにはLXPanelといってタスクバーやスタ...」
25年12月18日
すずき (12/20 19:11)
「[preadとlseek + readは違います] 目次: Linux知っている人には「なんだそんなことか」で終わりな話なんで...」
25年12月11日
すずき (12/19 23:59)
「[Ubuntuのカーネルパニック画面] 目次: LinuxUbuntu 24.04 LTSで起動中にカーネルパニックを起こすと...」
22年4月13日
すずき (12/19 10:49)
「[C言語とlibc - まとめリンク] 目次: C言語とlibcC言語について。C++言語もたまに。プログラムの落とし穴、演算...」
16年1月25日
すずき (12/19 10:48)
「[紆余曲折だったC++11のoverrideとfinal] 目次: C言語とlibc最近cpprefjp（リンクはこちら）のコ...」
16年1月8日
すずき (12/19 10:48)
「[C, C++の可変引数マクロでのつまづきとGNU拡張構文] 目次: C言語とlibcC99, C++11の可変引数マクロでは...」
13年8月11日
すずき (12/19 10:47)
「[C++とPythonのクラスと動的型付け] 目次: C言語とlibc初めて触れたオブジェクト指向言語がC++で、その次がJa...」
23年9月11日
すずき (12/19 10:42)
「[Windows - まとめリンク] 目次: WindowsWindows XPのブリッジ機能colinuxとWindowsの...」
08年9月10日
すずき (12/19 10:42)
「[Windows PCの容量が足りません] 目次: Windows最近Windowsの入っているパーティション（Cドライブ）の...」