/src/fftw3/dft/scalar/codelets/n1_12.c

Line	Count	Source
1		/*
2		* Copyright (c) 2003, 2007-14 Matteo Frigo
3		* Copyright (c) 2003, 2007-14 Massachusetts Institute of Technology
4		*
5		* This program is free software; you can redistribute it and/or modify
6		* it under the terms of the GNU General Public License as published by
7		* the Free Software Foundation; either version 2 of the License, or
8		* (at your option) any later version.
9		*
10		* This program is distributed in the hope that it will be useful,
11		* but WITHOUT ANY WARRANTY; without even the implied warranty of
12		* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
13		* GNU General Public License for more details.
14		*
15		* You should have received a copy of the GNU General Public License
16		* along with this program; if not, write to the Free Software
17		* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
18		*
19		*/
20
21		/* This file was automatically generated --- DO NOT EDIT */
22		/* Generated on Sat Nov 15 06:07:43 UTC 2025 */
23
24		#include "dft/codelet-dft.h"
25
26		#if defined(ARCH_PREFERS_FMA) \|\| defined(ISA_EXTENSION_PREFERS_FMA)
27
28		/* Generated by: ../../../genfft/gen_notw.native -fma -compact -variables 4 -pipeline-latency 4 -n 12 -name n1_12 -include dft/scalar/n.h */
29
30		/*
31		* This function contains 96 FP additions, 24 FP multiplications,
32		* (or, 72 additions, 0 multiplications, 24 fused multiply/add),
33		* 43 stack variables, 2 constants, and 48 memory accesses
34		*/
35		#include "dft/scalar/n.h"
36
37		static void n1_12(const R ri, const R ii, R ro, R io, stride is, stride os, INT v, INT ivs, INT ovs)
38		{
39		DK(KP866025403, +0.866025403784438646763723170752936183471402627);
40		DK(KP500000000, +0.500000000000000000000000000000000000000000000);
41		{
42		INT i;
43		for (i = v; i > 0; i = i - 1, ri = ri + ivs, ii = ii + ivs, ro = ro + ovs, io = io + ovs, MAKE_VOLATILE_STRIDE(48, is), MAKE_VOLATILE_STRIDE(48, os)) {
44		E T5, TR, TA, Ts, TS, Tz, Ta, TU, TD, Tx, TV, TC, Tg, T1d, TG;
45		E TJ, T1u, T1c, Tl, T1i, TL, TO, T1v, T1h;
46		{
47		E T1, T2, T3, T4;
48		T1 = ri[0];
49		T2 = ri[WS(is, 4)];
50		T3 = ri[WS(is, 8)];
51		T4 = T2 + T3;
52		T5 = T1 + T4;
53		TR = FNMS(KP500000000, T4, T1);
54		TA = T3 - T2;
55		}
56		{
57		E To, Tp, Tq, Tr;
58		To = ii[0];
59		Tp = ii[WS(is, 4)];
60		Tq = ii[WS(is, 8)];
61		Tr = Tp + Tq;
62		Ts = To + Tr;
63		TS = Tp - Tq;
64		Tz = FNMS(KP500000000, Tr, To);
65		}
66		{
67		E T6, T7, T8, T9;
68		T6 = ri[WS(is, 6)];
69		T7 = ri[WS(is, 10)];
70		T8 = ri[WS(is, 2)];
71		T9 = T7 + T8;
72		Ta = T6 + T9;
73		TU = FNMS(KP500000000, T9, T6);
74		TD = T8 - T7;
75		}
76		{
77		E Tt, Tu, Tv, Tw;
78		Tt = ii[WS(is, 6)];
79		Tu = ii[WS(is, 10)];
80		Tv = ii[WS(is, 2)];
81		Tw = Tu + Tv;
82		Tx = Tt + Tw;
83		TV = Tu - Tv;
84		TC = FNMS(KP500000000, Tw, Tt);
85		}
86		{
87		E Tc, Td, Te, Tf;
88		Tc = ri[WS(is, 3)];
89		Td = ri[WS(is, 7)];
90		Te = ri[WS(is, 11)];
91		Tf = Td + Te;
92		Tg = Tc + Tf;
93		T1d = Te - Td;
94		TG = FNMS(KP500000000, Tf, Tc);
95		}
96		{
97		E T1a, TH, TI, T1b;
98		T1a = ii[WS(is, 3)];
99		TH = ii[WS(is, 7)];
100		TI = ii[WS(is, 11)];
101		T1b = TH + TI;
102		TJ = TH - TI;
103		T1u = T1a + T1b;
104		T1c = FNMS(KP500000000, T1b, T1a);
105		}
106		{
107		E Th, Ti, Tj, Tk;
108		Th = ri[WS(is, 9)];
109		Ti = ri[WS(is, 1)];
110		Tj = ri[WS(is, 5)];
111		Tk = Ti + Tj;
112		Tl = Th + Tk;
113		T1i = Tj - Ti;
114		TL = FNMS(KP500000000, Tk, Th);
115		}
116		{
117		E T1f, TM, TN, T1g;
118		T1f = ii[WS(is, 9)];
119		TM = ii[WS(is, 1)];
120		TN = ii[WS(is, 5)];
121		T1g = TM + TN;
122		TO = TM - TN;
123		T1v = T1f + T1g;
124		T1h = FNMS(KP500000000, T1g, T1f);
125		}
126		{
127		E Tb, Tm, T1t, T1w;
128		Tb = T5 + Ta;
129		Tm = Tg + Tl;
130		ro[WS(os, 6)] = Tb - Tm;
131		ro[0] = Tb + Tm;
132		{
133		E T1x, T1y, Tn, Ty;
134		T1x = Ts + Tx;
135		T1y = T1u + T1v;
136		io[WS(os, 6)] = T1x - T1y;
137		io[0] = T1x + T1y;
138		Tn = Tg - Tl;
139		Ty = Ts - Tx;
140		io[WS(os, 3)] = Tn + Ty;
141		io[WS(os, 9)] = Ty - Tn;
142		}
143		T1t = T5 - Ta;
144		T1w = T1u - T1v;
145		ro[WS(os, 3)] = T1t - T1w;
146		ro[WS(os, 9)] = T1t + T1w;
147		{
148		E T11, T1l, T1k, T1m, T14, T18, T17, T19;
149		{
150		E TZ, T10, T1e, T1j;
151		TZ = FMA(KP866025403, TA, Tz);
152		T10 = FMA(KP866025403, TD, TC);
153		T11 = TZ - T10;
154		T1l = TZ + T10;
155		T1e = FMA(KP866025403, T1d, T1c);
156		T1j = FMA(KP866025403, T1i, T1h);
157		T1k = T1e - T1j;
158		T1m = T1e + T1j;
159		}
160		{
161		E T12, T13, T15, T16;
162		T12 = FMA(KP866025403, TJ, TG);
163		T13 = FMA(KP866025403, TO, TL);
164		T14 = T12 - T13;
165		T18 = T12 + T13;
166		T15 = FMA(KP866025403, TS, TR);
167		T16 = FMA(KP866025403, TV, TU);
168		T17 = T15 + T16;
169		T19 = T15 - T16;
170		}
171		io[WS(os, 1)] = T11 - T14;
172		ro[WS(os, 1)] = T19 + T1k;
173		io[WS(os, 7)] = T11 + T14;
174		ro[WS(os, 7)] = T19 - T1k;
175		ro[WS(os, 10)] = T17 - T18;
176		io[WS(os, 10)] = T1l - T1m;
177		ro[WS(os, 4)] = T17 + T18;
178		io[WS(os, 4)] = T1l + T1m;
179		}
180		{
181		E TF, T1r, T1q, T1s, TQ, TY, TX, T1n;
182		{
183		E TB, TE, T1o, T1p;
184		TB = FNMS(KP866025403, TA, Tz);
185		TE = FNMS(KP866025403, TD, TC);
186		TF = TB - TE;
187		T1r = TB + TE;
188		T1o = FNMS(KP866025403, T1d, T1c);
189		T1p = FNMS(KP866025403, T1i, T1h);
190		T1q = T1o - T1p;
191		T1s = T1o + T1p;
192		}
193		{
194		E TK, TP, TT, TW;
195		TK = FNMS(KP866025403, TJ, TG);
196		TP = FNMS(KP866025403, TO, TL);
197		TQ = TK - TP;
198		TY = TK + TP;
199		TT = FNMS(KP866025403, TS, TR);
200		TW = FNMS(KP866025403, TV, TU);
201		TX = TT + TW;
202		T1n = TT - TW;
203		}
204		io[WS(os, 5)] = TF - TQ;
205		ro[WS(os, 5)] = T1n + T1q;
206		io[WS(os, 11)] = TF + TQ;
207		ro[WS(os, 11)] = T1n - T1q;
208		ro[WS(os, 2)] = TX - TY;
209		io[WS(os, 2)] = T1r - T1s;
210		ro[WS(os, 8)] = TX + TY;
211		io[WS(os, 8)] = T1r + T1s;
212		}
213		}
214		}
215		}
216		}
217
218		static const kdft_desc desc = { 12, "n1_12", { 72, 0, 24, 0 }, &GENUS, 0, 0, 0, 0 };
219
220		void X(codelet_n1_12) (planner *p) { X(kdft_register) (p, n1_12, &desc);
221		}
222
223		#else
224
225		/* Generated by: ../../../genfft/gen_notw.native -compact -variables 4 -pipeline-latency 4 -n 12 -name n1_12 -include dft/scalar/n.h */
226
227		/*
228		* This function contains 96 FP additions, 16 FP multiplications,
229		* (or, 88 additions, 8 multiplications, 8 fused multiply/add),
230		* 43 stack variables, 2 constants, and 48 memory accesses
231		*/
232		#include "dft/scalar/n.h"
233
234		static void n1_12(const R ri, const R ii, R ro, R io, stride is, stride os, INT v, INT ivs, INT ovs)
235	191	{
236	191	DK(KP866025403, +0.866025403784438646763723170752936183471402627);
237	191	DK(KP500000000, +0.500000000000000000000000000000000000000000000);
238	191	{
239	191	INT i;
240	1.09k	for (i = v; i > 0; i = i - 1, ri = ri + ivs, ii = ii + ivs, ro = ro + ovs, io = io + ovs, MAKE_VOLATILE_STRIDE(48, is), MAKE_VOLATILE_STRIDE(48, os)) {
241	904	E T5, TR, TA, Ts, TS, Tz, Ta, TU, TD, Tx, TV, TC, Tg, T1a, TG;
242	904	E TJ, T1u, T1d, Tl, T1f, TL, TO, T1v, T1i;
243	904	{
244	904	E T1, T2, T3, T4;
245	904	T1 = ri[0];
246	904	T2 = ri[WS(is, 4)];
247	904	T3 = ri[WS(is, 8)];
248	904	T4 = T2 + T3;
249	904	T5 = T1 + T4;
250	904	TR = FNMS(KP500000000, T4, T1);
251	904	TA = KP866025403 * (T3 - T2);
252	904	}
253	904	{
254	904	E To, Tp, Tq, Tr;
255	904	To = ii[0];
256	904	Tp = ii[WS(is, 4)];
257	904	Tq = ii[WS(is, 8)];
258	904	Tr = Tp + Tq;
259	904	Ts = To + Tr;
260	904	TS = KP866025403 * (Tp - Tq);
261	904	Tz = FNMS(KP500000000, Tr, To);
262	904	}
263	904	{
264	904	E T6, T7, T8, T9;
265	904	T6 = ri[WS(is, 6)];
266	904	T7 = ri[WS(is, 10)];
267	904	T8 = ri[WS(is, 2)];
268	904	T9 = T7 + T8;
269	904	Ta = T6 + T9;
270	904	TU = FNMS(KP500000000, T9, T6);
271	904	TD = KP866025403 * (T8 - T7);
272	904	}
273	904	{
274	904	E Tt, Tu, Tv, Tw;
275	904	Tt = ii[WS(is, 6)];
276	904	Tu = ii[WS(is, 10)];
277	904	Tv = ii[WS(is, 2)];
278	904	Tw = Tu + Tv;
279	904	Tx = Tt + Tw;
280	904	TV = KP866025403 * (Tu - Tv);
281	904	TC = FNMS(KP500000000, Tw, Tt);
282	904	}
283	904	{
284	904	E Tc, Td, Te, Tf;
285	904	Tc = ri[WS(is, 3)];
286	904	Td = ri[WS(is, 7)];
287	904	Te = ri[WS(is, 11)];
288	904	Tf = Td + Te;
289	904	Tg = Tc + Tf;
290	904	T1a = KP866025403 * (Te - Td);
291	904	TG = FNMS(KP500000000, Tf, Tc);
292	904	}
293	904	{
294	904	E T1b, TH, TI, T1c;
295	904	T1b = ii[WS(is, 3)];
296	904	TH = ii[WS(is, 7)];
297	904	TI = ii[WS(is, 11)];
298	904	T1c = TH + TI;
299	904	TJ = KP866025403 * (TH - TI);
300	904	T1u = T1b + T1c;
301	904	T1d = FNMS(KP500000000, T1c, T1b);
302	904	}
303	904	{
304	904	E Th, Ti, Tj, Tk;
305	904	Th = ri[WS(is, 9)];
306	904	Ti = ri[WS(is, 1)];
307	904	Tj = ri[WS(is, 5)];
308	904	Tk = Ti + Tj;
309	904	Tl = Th + Tk;
310	904	T1f = KP866025403 * (Tj - Ti);
311	904	TL = FNMS(KP500000000, Tk, Th);
312	904	}
313	904	{
314	904	E T1g, TM, TN, T1h;
315	904	T1g = ii[WS(is, 9)];
316	904	TM = ii[WS(is, 1)];
317	904	TN = ii[WS(is, 5)];
318	904	T1h = TM + TN;
319	904	TO = KP866025403 * (TM - TN);
320	904	T1v = T1g + T1h;
321	904	T1i = FNMS(KP500000000, T1h, T1g);
322	904	}
323	904	{
324	904	E Tb, Tm, T1t, T1w;
325	904	Tb = T5 + Ta;
326	904	Tm = Tg + Tl;
327	904	ro[WS(os, 6)] = Tb - Tm;
328	904	ro[0] = Tb + Tm;
329	904	{
330	904	E T1x, T1y, Tn, Ty;
331	904	T1x = Ts + Tx;
332	904	T1y = T1u + T1v;
333	904	io[WS(os, 6)] = T1x - T1y;
334	904	io[0] = T1x + T1y;
335	904	Tn = Tg - Tl;
336	904	Ty = Ts - Tx;
337	904	io[WS(os, 3)] = Tn + Ty;
338	904	io[WS(os, 9)] = Ty - Tn;
339	904	}
340	904	T1t = T5 - Ta;
341	904	T1w = T1u - T1v;
342	904	ro[WS(os, 3)] = T1t - T1w;
343	904	ro[WS(os, 9)] = T1t + T1w;
344	904	{
345	904	E T11, T1l, T1k, T1m, T14, T18, T17, T19;
346	904	{
347	904	E TZ, T10, T1e, T1j;
348	904	TZ = TA + Tz;
349	904	T10 = TD + TC;
350	904	T11 = TZ - T10;
351	904	T1l = TZ + T10;
352	904	T1e = T1a + T1d;
353	904	T1j = T1f + T1i;
354	904	T1k = T1e - T1j;
355	904	T1m = T1e + T1j;
356	904	}
357	904	{
358	904	E T12, T13, T15, T16;
359	904	T12 = TG + TJ;
360	904	T13 = TL + TO;
361	904	T14 = T12 - T13;
362	904	T18 = T12 + T13;
363	904	T15 = TR + TS;
364	904	T16 = TU + TV;
365	904	T17 = T15 + T16;
366	904	T19 = T15 - T16;
367	904	}
368	904	io[WS(os, 1)] = T11 - T14;
369	904	ro[WS(os, 1)] = T19 + T1k;
370	904	io[WS(os, 7)] = T11 + T14;
371	904	ro[WS(os, 7)] = T19 - T1k;
372	904	ro[WS(os, 10)] = T17 - T18;
373	904	io[WS(os, 10)] = T1l - T1m;
374	904	ro[WS(os, 4)] = T17 + T18;
375	904	io[WS(os, 4)] = T1l + T1m;
376	904	}
377	904	{
378	904	E TF, T1r, T1q, T1s, TQ, TY, TX, T1n;
379	904	{
380	904	E TB, TE, T1o, T1p;
381	904	TB = Tz - TA;
382	904	TE = TC - TD;
383	904	TF = TB - TE;
384	904	T1r = TB + TE;
385	904	T1o = T1d - T1a;
386	904	T1p = T1i - T1f;
387	904	T1q = T1o - T1p;
388	904	T1s = T1o + T1p;
389	904	}
390	904	{
391	904	E TK, TP, TT, TW;
392	904	TK = TG - TJ;
393	904	TP = TL - TO;
394	904	TQ = TK - TP;
395	904	TY = TK + TP;
396	904	TT = TR - TS;
397	904	TW = TU - TV;
398	904	TX = TT + TW;
399	904	T1n = TT - TW;
400	904	}
401	904	io[WS(os, 5)] = TF - TQ;
402	904	ro[WS(os, 5)] = T1n + T1q;
403	904	io[WS(os, 11)] = TF + TQ;
404	904	ro[WS(os, 11)] = T1n - T1q;
405	904	ro[WS(os, 2)] = TX - TY;
406	904	io[WS(os, 2)] = T1r - T1s;
407	904	ro[WS(os, 8)] = TX + TY;
408	904	io[WS(os, 8)] = T1r + T1s;
409	904	}
410	904	}
411	904	}
412	191	}
413	191	}
414
415		static const kdft_desc desc = { 12, "n1_12", { 88, 8, 8, 0 }, &GENUS, 0, 0, 0, 0 };
416
417	1	void X(codelet_n1_12) (planner *p) { X(kdft_register) (p, n1_12, &desc);
418	1	}
419
420		#endif

Coverage Report

Created: 2025-11-15 06:12