コグノスケ

未来から過去へ表示

過去から未来へ表示(*)

もっと前

2019年12月17日 >>> 2020年1月13日

もっと後

2019年12月17日

permalink

編集する

memsetのベンチマーク（AArch64, Cortex-A72編）

目次: ベンチマーク

（参考）コード一式はGitHubに置きました（GitHubへのリンク）

先日Ryzen 7 2700なx86_64マシンでmemsetの性能を計測（2019年12月14日の日記参照）しました。同様の計測をAArch64でもやってみました。環境はRK3399 Cotex-A72 1.8GHzです。メモリはおそらくLPDDR3-1600のはず、OSはDebian GNU/Linux 10.2 busterです。

リファレンスとするのは前回同様、システムにインストールされているglibc-2.28のmemset関数（アセンブラ版）です。大抵の場合、この関数が最速ですね。

ざっとglibc-2.28の実装を見たところ、x86_64向けは各種SIMD向けに最適化されたアセンブラコード（glibc/sysdeps/x86_64/multiarch/memset-avx2-unaligned-erms.Sなど）が使われて、aarch64向けは汎用的なアセンブラコード（glibc/sysdeps/aarch64/memset.S）が使われるようです。

まずは最適化オプションO3とO2の差から見てみようと思います。

gcc -O3 -fno-builtinの測定結果（Cortex-A72編）

gcc -O2 -fno-builtinの測定結果（Cortex-A72編）

やはりO3の最適化による速度向上はさすがとしか言えません。x86_64ではあまり振るわなかったmusl memset関数が非常に優秀で、libcのmemsetに並ぶ勢いです。

AArch64のNEONを使ったベクトル最適化

前回はベクトル最適化 -ftree-vectorizeオプションを使うとほぼO3の性能に追い付きましたが、AArch64ではどうなるでしょう？

gcc -O2 -ftree-vectorize -fno-builtinの測定結果（Cortex-A72編）

ベクトル最適化を有効にするとNEONの128bitストア命令が使われるようになります。

O2と比較すると確かに性能向上していますが、x86_64ほどの威力は発揮しません。

メモ: 技術系の話はFacebookから転記しておくことにした。大幅に加筆。

編集者:すずき(2023/09/24 08:54)

コメント一覧

コメントはありません。

この記事にコメントする

2020年1月6日

permalink

編集する

memsetのベンチマーク（AArch64, Cortex-A53編）

目次: ベンチマーク

（参考）コード一式はGitHubに置きました（GitHubへのリンク）

AArch64その2です。Cortex-A53でmemsetをやってみました。環境はRK3328 Cotex-A53 1.4GHzです。メモリはおそらくLPDDR3-1600です。

Cortex-A72と似ている点としては、

musl memset関数が非常に優秀
ベクトル化は性能向上に効くが、他も有効な要素がありそう

違う点としては、

アセンブラ実装とmusl memset関数の差が開く
O3の最適化がかなり効く（※）
glibc memset関数の不安定さが減る

こんなところでしょうか。A72のglibc memset関数はグラフが上がったり下がったりグチャグチャしていましたが、A53だと割と素直になっています。

gcc -O3 -fno-builtinの測定結果（Cortex-A53編）

gcc -O2 -ftree-vectorize -fno-builtinの測定結果（Cortex-A53編）

gcc -O2 -fno-builtinの測定結果（Cortex-A53編）

（※）A72では単純なmemset関数はmusl memset関数にほぼ勝てない（16〜22バイトのみ勝つ）が、A53では割と良い勝負（16〜22、32〜38、48〜52バイトで勝つ）をしている。

編集者:すずき(2023/09/24 08:54)

コメント一覧

コメントはありません。

この記事にコメントする

2020年1月11日

permalink

編集する

memsetに一番効く最適化

目次: ベンチマーク

Cortex-A72でのmemsetはO2に-ftree-vectorizeと -fpeel-loopsを足すと、O3の性能とほぼイコールになることがわかりました。

gcc -O2 -ftree-vectorize -fpeel-loops -fno-builtinの測定結果（Cortex-A72）

元の処理が非常に単純なループ処理のためか、ループ系の最適化がメチャクチャ効くっぽいです。

何が効くのか？

GCCのGIMPLEを出力させ（-fdump-tree-all）眺めてみると、

オリジナル: 1バイトごとにデータ処理するループが生成される。
ベクタライズ（161t.vect）: 16バイトごとにデータ処理するループと、1バイトごとに残りデータを処理するループに分割される。
アンローリング（164t.cunroll, 169t.loopdone）: 残りデータを処理するループが展開される。

編集者:すずき(2023/09/24 08:55)

コメント一覧

コメントはありません。

この記事にコメントする

2020年1月12日

permalink

編集する

ぼくの考えた最強のmemset

目次: ベンチマーク

NEON intrinsicを使って自分でmemsetを実装してみました。ざっくりした設計方針としては、

NEON store (128bit) x 2で32バイトずつ書く
端数25〜バイトはNEON store x 2
端数16〜バイトはNEON store + uint64 store

相手は汎用実装ですし、Cortex-A72に特化した実装なら楽勝だろう、などと考えて始めましたが、甘かった。glibcのフルアセンブラ版はかなり手ごわいです。

自作memsetの測定結果（Cortex-A72）

グラフの赤い線が、自作したmemsetの性能です。

最適化レベルO3のsimple memsetにはほぼ全域で勝てますが、サイズが小さいときのmuslは強い（サイズが小さい場合から判定しているから？）です。glibcのフルアセンブラもかなり強いです。測定によって勝ったり負けたりな程度です。

全然最強じゃなかった……

設計が甘すぎたことがわかったので、下記のように見直しました。

少ないバイト数の条件から判定
NEON store (128bit) x 2で32バイトずつ書く
端数バイトはNEON store（分岐を減らした）

序盤でmusl memsetに負けていたのは、バイト数の条件判定の順序が良くなかった（大きいサイズから判定していた）ためなので、1番目で対策しています。2番目と3番目の方針は良いとも悪いとも一概に言えませんが、RK3399だとこれが一番性能が出ました。

自作memset改善後の測定結果（Cortex-A72）

設計意図通りにmuslの序盤（特に高速な1〜8バイト付近）と、glibcフルアセンブラの序盤（1〜32バイト）には勝てたものの、glibcフルアセンブラ版は中盤以降が強く、33バイト以降は全く勝てません。

私の作ったmemsetは32バイトまでは専用処理で、33バイトからループで処理するようになるので、33バイトから性能がかなり落ちます。

おそらくglibcフルアセンブラ版も同様に16バイトから性能が落ちるので、ループ処理していると思うんですが、それ以降の巻き返しが凄くて、33バイト以降はまったく勝てないですね……。どうやってんだろうね、これ？

コンパイラが変なandとかsubを出力しているのを見つけたので、アセンブラでも実装してみましたが、性能はほぼ変わりませんでした。設計の根底が違うんでしょうね。

Cortex-A53だと全く勝ち目無し

RK3328（Cortex-A53）で測ってみると、muslには勝てますが、glibcフルアセンブラ版には勝ち目無しで、ほぼ全域に渡ってボコボコにされます。

自作memset改善後の測定結果（Cortex-A53）

基本設計が「余計なwriteをしてでも、とにかく速く終われ」なので、writeを正直に実行してしまうようなヘボいプロセッサになればなるほど勝ち目が薄いです。

編集者:すずき(2023/09/24 08:55)

コメント一覧

コメントはありません。

この記事にコメントする

もっと前

2019年12月17日 >>> 2020年1月13日

もっと後

管理用メニュー

記事を新規作成

RSSを更新

<	2019					>
<<	<	12			>	>>
日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31	-	-	-	-

本日の日記へ

最近のコメント5件

14年6月13日
2048player...さん (09/26 01:04)
「最後に、この式を出すのに紙4枚(A4)も...」
14年6月13日
2048playerさん (09/26 01:00)
「今のところ最も簡略化した式です。\n--...」
14年6月13日
2048playerさん (09/16 01:00)
「返信ありがとうございます。\nコメントが...」
14年6月13日
すずきさん (09/12 21:19)
「コメントありがとうございます。同じ結果に...」
14年6月13日
2048playerさん (09/08 17:30)
「私も2048の最高スコアを求めたのですが...」

もっとみる

こんてんつ

wiki

pukiwiki

Linux JM

Java API

Java 8

Java 7

Java 6

Java 2 SE 5.0
link

Java 2 SE 1.4.0
link

Java 2 SE 1.3
link

Java Media Framework 2.0

過去の日記

2002年

8月 9月
10月 11月 12月

2003年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2004年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2005年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2006年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2007年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2008年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2009年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2010年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2011年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2012年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2013年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2014年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2015年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2016年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2017年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2018年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2019年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2020年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2021年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2022年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2023年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月 11月 12月

2024年

1月 2月 3月
4月 5月 6月
7月 8月 9月
10月

過去日記について

生成ログ

その他の情報

アクセス統計

エージェントごと

ホストごと

履歴

サーバ一覧

マスタ(SAKURA)
link

ミラー(自宅)

サイトの情報

HTML 4.01 Strict
check passed

CSS3

合計: counter total
本日: counter today

link About www.katsuster.net
RDFファイル RSS 1.0

最終更新: 09/26 01:04

管理者: Katsuhiro Suzuki(katsuhiro( a t )katsuster.net)

This is Simple Diary 1.0 Copyright(C) Katsuhiro Suzuki 2006-2023.
Powered by PHP 8.3.8. using GD bundled (2.1.0 compatible)(png support.)

コグノスケ

2019年12月17日

memsetのベンチマーク（AArch64, Cortex-A72編）

AArch64のNEONを使ったベクトル最適化

コメント一覧

2020年1月6日

memsetのベンチマーク（AArch64, Cortex-A53編）

コメント一覧

2020年1月11日

memsetに一番効く最適化

何が効くのか？

コメント一覧

2020年1月12日

ぼくの考えた最強のmemset

全然最強じゃなかった……

Cortex-A53だと全く勝ち目無し

コメント一覧

管理用メニュー

最近のコメント5件

最近の記事3件

こんてんつ

過去の日記

その他の情報