Re: [eigen] Matrix multiplication much slower on MSVC than on g++/clang

Re: [eigen] Matrix multiplication much slower on MSVC than on g++/clang

[ Thread Index | Date Index | More lists.tuxfamily.org/eigen Archives ]

To: eigen <eigen@xxxxxxxxxxxxxxxxxxx>
Subject: Re: [eigen] Matrix multiplication much slower on MSVC than on g++/clang
From: Gael Guennebaud <gael.guennebaud@xxxxxxxxx>
Date: Fri, 9 Feb 2018 09:16:48 +0100
Dkim-signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=gmail.com; s=20161025; h=mime-version:in-reply-to:references:from:date:message-id:subject:to; bh=PWiYmPP283iyVyfiV4vK2kaJhPTwH0Q1+uYkRa+cec8=; b=YbYMWABPvr9HjpUK5L4kCnXPaH2E/z6RcbNJlrcFCAuZ9HI2DP/V1djZ/jFF6inhSH W8ByViDN24aFi5qXQyl4zCZrPzHoQ8iK+1roQYqFpXI/GP0TkuqBq13yOEptbxJBd1Wx Dz8j+KmJY1UT4Szo31N3YJ2ZsmBCPRIQze5EiEXHtbTgb4t7q75xc5mJSbvOMpFOSMp2 MAqCQCKO7biB11h+FsVMIKMzQrDbgjrbwknTR/T8blAlxDOF0LcYYbZU3S94FmpmOzMn beJCKZSUXjWk4BPlCt8xzVxaD9Jjra0wNUpfLmxN96HR7KT/t9s0KqobIpqk8CY/sYB7 Iwng==

On Thu, Feb 8, 2018 at 8:14 PM, Edward Lam <edward@xxxxxxxxxx> wrote:

That works! For detection, the documentation at https://msdn.microsoft.com/en-us/library/b0084kay.aspx suggests that perhaps this will work:

#if defined(_MSC_VER) && defined(__AVX2__)
#define __FMA__
#endif

To implement that we need to make sure that on all architectures AVX2 => FMA. This seems to be true for Intel's ones, but I'm not sure about AMD.

gael

For reference, recompiling the earlier test with the best options plus -D__FMA__ produces:

$ ./gemm_test # 325 fmadd instructions produced
1124 1215 1465
col major (checksum: 0) elapsed_ms: 962
row major (checksum: 0) elapsed_ms: 1021
--------
1730 1235 1758
col major (checksum: 0) elapsed_ms: 1798
row major (checksum: 0) elapsed_ms: 1805
--------
1116 1736 868
col major (checksum: 0) elapsed_ms: 712
row major (checksum: 0) elapsed_ms: 712
--------
1278 1323 788
col major (checksum: 0) elapsed_ms: 578
row major (checksum: 0) elapsed_ms: 584
--------

Compared to the same compiler options *without* -D__FMA__ :

$ ./gemm_test # 125 fmadd instructions produced
1124 1215 1465
col major (checksum: 0) elapsed_ms: 1245
row major (checksum: 0) elapsed_ms: 1160
--------
1730 1235 1758
col major (checksum: 0) elapsed_ms: 2071
row major (checksum: 0) elapsed_ms: 2066
--------
1116 1736 868
col major (checksum: 0) elapsed_ms: 905
row major (checksum: 0) elapsed_ms: 905
--------
1278 1323 788
col major (checksum: 0) elapsed_ms: 711
row major (checksum: 0) elapsed_ms: 720
--------

Cheers,
-Edward

Follow-Ups:
- Re: [eigen] Matrix multiplication much slower on MSVC than on g++/clang
  - From: Edward Lam

References:
- [eigen] Matrix multiplication much slower on MSVC than on g++/clang
  - From: Patrik Huber
- Re: [eigen] Matrix multiplication much slower on MSVC than on g++/clang
  - From: Gael Guennebaud
- Re: [eigen] Matrix multiplication much slower on MSVC than on g++/clang
  - From: Edward Lam
- Re: [eigen] Matrix multiplication much slower on MSVC than on g++/clang
  - From: Christoph Hertzberg
- Re: [eigen] Matrix multiplication much slower on MSVC than on g++/clang
  - From: Edward Lam

Messages sorted by: [ date | thread ]
Prev by Date: Re: [eigen] Matrix multiplication much slower on MSVC than on g++/clang
Next by Date: Re: [eigen] Matrix multiplication much slower on MSVC than on g++/clang
Previous by thread: Re: [eigen] Matrix multiplication much slower on MSVC than on g++/clang
Next by thread: Re: [eigen] Matrix multiplication much slower on MSVC than on g++/clang

Mail converted by MHonArc 2.6.19+

http://listengine.tuxfamily.org/