00001
00002
00003
00004
00005
00006
00007
00008
00009
00010
00011
00012
00013
00014
00015
00016
00017
00018
00019
00020
00021
00022
00023
00024
00025
00026
00027
00028
00029
00030
00031
00032 #ifndef SHARP_VECSUPPORT_H
00033 #define SHARP_VECSUPPORT_H
00034
00035 #include <math.h>
00036 #include "sharp_vecutil.h"
00037
00038 typedef double Ts;
00039
00040 #if (VLEN==1)
00041
00042 typedef double Tv;
00043
00044 #define vadd(a,b) ((a)+(b))
00045 #define vaddeq(a,b) ((a)+=(b))
00046 #define vsub(a,b) ((a)-(b))
00047 #define vsubeq(a,b) ((a)-=(b))
00048 #define vmul(a,b) ((a)*(b))
00049 #define vmuleq(a,b) ((a)*=(b))
00050 #define vfmaeq(a,b,c) ((a)+=(b)*(c))
00051 #define vfmseq(a,b,c) ((a)-=(b)*(c))
00052 #define vfmaaeq(a,b,c,d,e) ((a)+=(b)*(c)+(d)*(e))
00053 #define vfmaseq(a,b,c,d,e) ((a)+=(b)*(c)-(d)*(e))
00054 #define vneg(a) (-(a))
00055 #define vload(a) (a)
00056 #define vabs(a) fabs(a)
00057 #define vsqrt(a) sqrt(a)
00058 #define vlt(a,b) (((a)<(b))?1.:0.)
00059 #define vgt(a,b) (((a)>(b))?1.:0.)
00060 #define vge(a,b) (((a)>=(b))?1.:0.)
00061 #define vne(a,b) (((a)!=(b))?1.:0.)
00062 #define vand(a,b) ((((a)*(b))!=0.)?1.:0.)
00063 #define vor(a,b) ((((a)+(b))!=0.)?1.:0.)
00064
00065 static inline Tv vmin (Tv a, Tv b) { return (a<b) ? a : b; }
00066 static inline Tv vmax (Tv a, Tv b) { return (a>b) ? a : b; }
00067
00068 #define vanyTrue(a) ((a)!=0.)
00069 #define vallTrue(a) ((a)!=0.)
00070 #define vblend(m,a,b) (((m)!=0.) ? (a) : (b))
00071 #define vzero 0.
00072 #define vone 1.
00073
00074 #endif
00075
00076 #if (VLEN==2)
00077
00078 #include <emmintrin.h>
00079
00080 #if defined (__SSE3__)
00081 #include <pmmintrin.h>
00082 #endif
00083 #if defined (__SSE4_1__)
00084 #include <smmintrin.h>
00085 #endif
00086
00087 typedef __m128d Tv;
00088
00089 #define vadd(a,b) _mm_add_pd(a,b)
00090 #define vaddeq(a,b) a=_mm_add_pd(a,b)
00091 #define vsub(a,b) _mm_sub_pd(a,b)
00092 #define vsubeq(a,b) a=_mm_sub_pd(a,b)
00093 #define vmul(a,b) _mm_mul_pd(a,b)
00094 #define vmuleq(a,b) a=_mm_mul_pd(a,b)
00095 #define vfmaeq(a,b,c) a=_mm_add_pd(a,_mm_mul_pd(b,c))
00096 #define vfmseq(a,b,c) a=_mm_sub_pd(a,_mm_mul_pd(b,c))
00097 #define vfmaaeq(a,b,c,d,e) \
00098 a=_mm_add_pd(a,_mm_add_pd(_mm_mul_pd(b,c),_mm_mul_pd(d,e)))
00099 #define vfmaseq(a,b,c,d,e) \
00100 a=_mm_add_pd(a,_mm_sub_pd(_mm_mul_pd(b,c),_mm_mul_pd(d,e)))
00101 #define vneg(a) _mm_xor_pd(_mm_set1_pd(-0.),a)
00102 #define vload(a) _mm_set1_pd(a)
00103 #define vabs(a) _mm_andnot_pd(_mm_set1_pd(-0.),a)
00104 #define vsqrt(a) _mm_sqrt_pd(a)
00105 #define vlt(a,b) _mm_cmplt_pd(a,b)
00106 #define vgt(a,b) _mm_cmpgt_pd(a,b)
00107 #define vge(a,b) _mm_cmpge_pd(a,b)
00108 #define vne(a,b) _mm_cmpneq_pd(a,b)
00109 #define vand(a,b) _mm_and_pd(a,b)
00110 #define vor(a,b) _mm_or_pd(a,b)
00111 #define vmin(a,b) _mm_min_pd(a,b)
00112 #define vmax(a,b) _mm_max_pd(a,b);
00113 #define vanyTrue(a) (_mm_movemask_pd(a)!=0)
00114 #define vallTrue(a) (_mm_movemask_pd(a)==3)
00115 #if defined(__SSE4_1__)
00116 #define vblend(m,a,b) _mm_blendv_pd(b,a,m)
00117 #else
00118 static inline Tv vblend(Tv m, Tv a, Tv b)
00119 { return _mm_or_pd(_mm_and_pd(a,m),_mm_andnot_pd(m,b)); }
00120 #endif
00121 #define vzero _mm_setzero_pd()
00122 #define vone _mm_set1_pd(1.)
00123
00124 #endif
00125
00126 #if (VLEN==4)
00127
00128 #include <immintrin.h>
00129 #ifdef __FMA4__
00130 #include <x86intrin.h>
00131 #endif
00132
00133 typedef __m256d Tv;
00134
00135 #define vadd(a,b) _mm256_add_pd(a,b)
00136 #define vaddeq(a,b) a=_mm256_add_pd(a,b)
00137 #define vsub(a,b) _mm256_sub_pd(a,b)
00138 #define vsubeq(a,b) a=_mm256_sub_pd(a,b)
00139 #define vmul(a,b) _mm256_mul_pd(a,b)
00140 #define vmuleq(a,b) a=_mm256_mul_pd(a,b)
00141 #ifdef __FMA4__
00142 #define vfmaeq(a,b,c) a=_mm256_macc_pd(b,c,a)
00143 #define vfmseq(a,b,c) a=_mm256_nmacc_pd(b,c,a)
00144 #define vfmaaeq(a,b,c,d,e) a=_mm256_macc_pd(d,e,_mm256_macc_pd(b,c,a))
00145 #define vfmaseq(a,b,c,d,e) a=_mm256_nmacc_pd(d,e,_mm256_macc_pd(b,c,a))
00146 #else
00147 #define vfmaeq(a,b,c) a=_mm256_add_pd(a,_mm256_mul_pd(b,c))
00148 #define vfmseq(a,b,c) a=_mm256_sub_pd(a,_mm256_mul_pd(b,c))
00149 #define vfmaaeq(a,b,c,d,e) \
00150 a=_mm256_add_pd(a,_mm256_add_pd(_mm256_mul_pd(b,c),_mm256_mul_pd(d,e)))
00151 #define vfmaseq(a,b,c,d,e) \
00152 a=_mm256_add_pd(a,_mm256_sub_pd(_mm256_mul_pd(b,c),_mm256_mul_pd(d,e)))
00153 #endif
00154 #define vneg(a) _mm256_xor_pd(_mm256_set1_pd(-0.),a)
00155 #define vload(a) _mm256_set1_pd(a)
00156 #define vabs(a) _mm256_andnot_pd(_mm256_set1_pd(-0.),a)
00157 #define vsqrt(a) _mm256_sqrt_pd(a)
00158 #define vlt(a,b) _mm256_cmp_pd(a,b,_CMP_LT_OQ)
00159 #define vgt(a,b) _mm256_cmp_pd(a,b,_CMP_GT_OQ)
00160 #define vge(a,b) _mm256_cmp_pd(a,b,_CMP_GE_OQ)
00161 #define vne(a,b) _mm256_cmp_pd(a,b,_CMP_NEQ_OQ)
00162 #define vand(a,b) _mm256_and_pd(a,b)
00163 #define vor(a,b) _mm256_or_pd(a,b)
00164 #define vmin(a,b) _mm256_min_pd(a,b)
00165 #define vmax(a,b) _mm256_max_pd(a,b)
00166 #define vanyTrue(a) (_mm256_movemask_pd(a)!=0)
00167 #define vallTrue(a) (_mm256_movemask_pd(a)==15)
00168 #define vblend(m,a,b) _mm256_blendv_pd(b,a,m)
00169 #define vzero _mm256_setzero_pd()
00170 #define vone _mm256_set1_pd(1.)
00171
00172 #endif
00173
00174 #endif