]> CyberLeo.Net >> Repos - FreeBSD/FreeBSD.git/blob - contrib/llvm/lib/Target/AMDGPU/AMDGPUCallLowering.cpp
Merge llvm, clang, compiler-rt, libc++, libunwind, lld, lldb and openmp
[FreeBSD/FreeBSD.git] / contrib / llvm / lib / Target / AMDGPU / AMDGPUCallLowering.cpp
1 //===-- llvm/lib/Target/AMDGPU/AMDGPUCallLowering.cpp - Call lowering -----===//
2 //
3 // Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
4 // See https://llvm.org/LICENSE.txt for license information.
5 // SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
6 //
7 //===----------------------------------------------------------------------===//
8 ///
9 /// \file
10 /// This file implements the lowering of LLVM calls to machine code calls for
11 /// GlobalISel.
12 ///
13 //===----------------------------------------------------------------------===//
14
15 #include "AMDGPUCallLowering.h"
16 #include "AMDGPU.h"
17 #include "AMDGPUISelLowering.h"
18 #include "AMDGPUSubtarget.h"
19 #include "SIISelLowering.h"
20 #include "SIMachineFunctionInfo.h"
21 #include "SIRegisterInfo.h"
22 #include "MCTargetDesc/AMDGPUMCTargetDesc.h"
23 #include "llvm/CodeGen/Analysis.h"
24 #include "llvm/CodeGen/CallingConvLower.h"
25 #include "llvm/CodeGen/GlobalISel/MachineIRBuilder.h"
26 #include "llvm/CodeGen/MachineInstrBuilder.h"
27 #include "llvm/Support/LowLevelTypeImpl.h"
28
29 using namespace llvm;
30
31 namespace {
32
33 struct OutgoingArgHandler : public CallLowering::ValueHandler {
34   OutgoingArgHandler(MachineIRBuilder &MIRBuilder, MachineRegisterInfo &MRI,
35                      MachineInstrBuilder MIB, CCAssignFn *AssignFn)
36       : ValueHandler(MIRBuilder, MRI, AssignFn), MIB(MIB) {}
37
38   MachineInstrBuilder MIB;
39
40   Register getStackAddress(uint64_t Size, int64_t Offset,
41                            MachinePointerInfo &MPO) override {
42     llvm_unreachable("not implemented");
43   }
44
45   void assignValueToAddress(Register ValVReg, Register Addr, uint64_t Size,
46                             MachinePointerInfo &MPO, CCValAssign &VA) override {
47     llvm_unreachable("not implemented");
48   }
49
50   void assignValueToReg(Register ValVReg, Register PhysReg,
51                         CCValAssign &VA) override {
52     MIB.addUse(PhysReg);
53     MIRBuilder.buildCopy(PhysReg, ValVReg);
54   }
55
56   bool assignArg(unsigned ValNo, MVT ValVT, MVT LocVT,
57                  CCValAssign::LocInfo LocInfo,
58                  const CallLowering::ArgInfo &Info,
59                  CCState &State) override {
60     return AssignFn(ValNo, ValVT, LocVT, LocInfo, Info.Flags, State);
61   }
62 };
63
64 }
65
66 AMDGPUCallLowering::AMDGPUCallLowering(const AMDGPUTargetLowering &TLI)
67   : CallLowering(&TLI) {
68 }
69
70 bool AMDGPUCallLowering::lowerReturn(MachineIRBuilder &MIRBuilder,
71                                      const Value *Val,
72                                      ArrayRef<Register> VRegs) const {
73
74   MachineFunction &MF = MIRBuilder.getMF();
75   MachineRegisterInfo &MRI = MF.getRegInfo();
76   SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();
77   MFI->setIfReturnsVoid(!Val);
78
79   if (!Val) {
80     MIRBuilder.buildInstr(AMDGPU::S_ENDPGM).addImm(0);
81     return true;
82   }
83
84   Register VReg = VRegs[0];
85
86   const Function &F = MF.getFunction();
87   auto &DL = F.getParent()->getDataLayout();
88   if (!AMDGPU::isShader(F.getCallingConv()))
89     return false;
90
91
92   const AMDGPUTargetLowering &TLI = *getTLI<AMDGPUTargetLowering>();
93   SmallVector<EVT, 4> SplitVTs;
94   SmallVector<uint64_t, 4> Offsets;
95   ArgInfo OrigArg{VReg, Val->getType()};
96   setArgFlags(OrigArg, AttributeList::ReturnIndex, DL, F);
97   ComputeValueVTs(TLI, DL, OrigArg.Ty, SplitVTs, &Offsets, 0);
98
99   SmallVector<ArgInfo, 8> SplitArgs;
100   CCAssignFn *AssignFn = CCAssignFnForReturn(F.getCallingConv(), false);
101   for (unsigned i = 0, e = Offsets.size(); i != e; ++i) {
102     Type *SplitTy = SplitVTs[i].getTypeForEVT(F.getContext());
103     SplitArgs.push_back({VRegs[i], SplitTy, OrigArg.Flags, OrigArg.IsFixed});
104   }
105   auto RetInstr = MIRBuilder.buildInstrNoInsert(AMDGPU::SI_RETURN_TO_EPILOG);
106   OutgoingArgHandler Handler(MIRBuilder, MRI, RetInstr, AssignFn);
107   if (!handleAssignments(MIRBuilder, SplitArgs, Handler))
108     return false;
109   MIRBuilder.insertInstr(RetInstr);
110
111   return true;
112 }
113
114 Register AMDGPUCallLowering::lowerParameterPtr(MachineIRBuilder &MIRBuilder,
115                                                Type *ParamTy,
116                                                uint64_t Offset) const {
117
118   MachineFunction &MF = MIRBuilder.getMF();
119   const SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();
120   MachineRegisterInfo &MRI = MF.getRegInfo();
121   const Function &F = MF.getFunction();
122   const DataLayout &DL = F.getParent()->getDataLayout();
123   PointerType *PtrTy = PointerType::get(ParamTy, AMDGPUAS::CONSTANT_ADDRESS);
124   LLT PtrType = getLLTForType(*PtrTy, DL);
125   Register DstReg = MRI.createGenericVirtualRegister(PtrType);
126   Register KernArgSegmentPtr =
127     MFI->getPreloadedReg(AMDGPUFunctionArgInfo::KERNARG_SEGMENT_PTR);
128   Register KernArgSegmentVReg = MRI.getLiveInVirtReg(KernArgSegmentPtr);
129
130   Register OffsetReg = MRI.createGenericVirtualRegister(LLT::scalar(64));
131   MIRBuilder.buildConstant(OffsetReg, Offset);
132
133   MIRBuilder.buildGEP(DstReg, KernArgSegmentVReg, OffsetReg);
134
135   return DstReg;
136 }
137
138 void AMDGPUCallLowering::lowerParameter(MachineIRBuilder &MIRBuilder,
139                                         Type *ParamTy, uint64_t Offset,
140                                         unsigned Align,
141                                         Register DstReg) const {
142   MachineFunction &MF = MIRBuilder.getMF();
143   const Function &F = MF.getFunction();
144   const DataLayout &DL = F.getParent()->getDataLayout();
145   PointerType *PtrTy = PointerType::get(ParamTy, AMDGPUAS::CONSTANT_ADDRESS);
146   MachinePointerInfo PtrInfo(UndefValue::get(PtrTy));
147   unsigned TypeSize = DL.getTypeStoreSize(ParamTy);
148   Register PtrReg = lowerParameterPtr(MIRBuilder, ParamTy, Offset);
149
150   MachineMemOperand *MMO =
151       MF.getMachineMemOperand(PtrInfo, MachineMemOperand::MOLoad |
152                                        MachineMemOperand::MONonTemporal |
153                                        MachineMemOperand::MOInvariant,
154                                        TypeSize, Align);
155
156   MIRBuilder.buildLoad(DstReg, PtrReg, *MMO);
157 }
158
159 static Register findFirstFreeSGPR(CCState &CCInfo) {
160   unsigned NumSGPRs = AMDGPU::SGPR_32RegClass.getNumRegs();
161   for (unsigned Reg = 0; Reg < NumSGPRs; ++Reg) {
162     if (!CCInfo.isAllocated(AMDGPU::SGPR0 + Reg)) {
163       return AMDGPU::SGPR0 + Reg;
164     }
165   }
166   llvm_unreachable("Cannot allocate sgpr");
167 }
168
169 static void allocateSpecialEntryInputVGPRs(CCState &CCInfo,
170                                            MachineFunction &MF,
171                                            const SIRegisterInfo &TRI,
172                                            SIMachineFunctionInfo &Info) {
173   const LLT S32 = LLT::scalar(32);
174   MachineRegisterInfo &MRI = MF.getRegInfo();
175
176   if (Info.hasWorkItemIDX()) {
177     Register Reg = AMDGPU::VGPR0;
178     MRI.setType(MF.addLiveIn(Reg, &AMDGPU::VGPR_32RegClass), S32);
179
180     CCInfo.AllocateReg(Reg);
181     Info.setWorkItemIDX(ArgDescriptor::createRegister(Reg));
182   }
183
184   if (Info.hasWorkItemIDY()) {
185     Register Reg = AMDGPU::VGPR1;
186     MRI.setType(MF.addLiveIn(Reg, &AMDGPU::VGPR_32RegClass), S32);
187
188     CCInfo.AllocateReg(Reg);
189     Info.setWorkItemIDY(ArgDescriptor::createRegister(Reg));
190   }
191
192   if (Info.hasWorkItemIDZ()) {
193     Register Reg = AMDGPU::VGPR2;
194     MRI.setType(MF.addLiveIn(Reg, &AMDGPU::VGPR_32RegClass), S32);
195
196     CCInfo.AllocateReg(Reg);
197     Info.setWorkItemIDZ(ArgDescriptor::createRegister(Reg));
198   }
199 }
200
201 // Allocate special inputs passed in user SGPRs.
202 static void allocateHSAUserSGPRs(CCState &CCInfo,
203                                  MachineIRBuilder &MIRBuilder,
204                                  MachineFunction &MF,
205                                  const SIRegisterInfo &TRI,
206                                  SIMachineFunctionInfo &Info) {
207   // FIXME: How should these inputs interact with inreg / custom SGPR inputs?
208   if (Info.hasPrivateSegmentBuffer()) {
209     unsigned PrivateSegmentBufferReg = Info.addPrivateSegmentBuffer(TRI);
210     MF.addLiveIn(PrivateSegmentBufferReg, &AMDGPU::SGPR_128RegClass);
211     CCInfo.AllocateReg(PrivateSegmentBufferReg);
212   }
213
214   if (Info.hasDispatchPtr()) {
215     unsigned DispatchPtrReg = Info.addDispatchPtr(TRI);
216     MF.addLiveIn(DispatchPtrReg, &AMDGPU::SGPR_64RegClass);
217     CCInfo.AllocateReg(DispatchPtrReg);
218   }
219
220   if (Info.hasQueuePtr()) {
221     unsigned QueuePtrReg = Info.addQueuePtr(TRI);
222     MF.addLiveIn(QueuePtrReg, &AMDGPU::SGPR_64RegClass);
223     CCInfo.AllocateReg(QueuePtrReg);
224   }
225
226   if (Info.hasKernargSegmentPtr()) {
227     MachineRegisterInfo &MRI = MF.getRegInfo();
228     Register InputPtrReg = Info.addKernargSegmentPtr(TRI);
229     const LLT P4 = LLT::pointer(AMDGPUAS::CONSTANT_ADDRESS, 64);
230     Register VReg = MRI.createGenericVirtualRegister(P4);
231     MRI.addLiveIn(InputPtrReg, VReg);
232     MIRBuilder.getMBB().addLiveIn(InputPtrReg);
233     MIRBuilder.buildCopy(VReg, InputPtrReg);
234     CCInfo.AllocateReg(InputPtrReg);
235   }
236
237   if (Info.hasDispatchID()) {
238     unsigned DispatchIDReg = Info.addDispatchID(TRI);
239     MF.addLiveIn(DispatchIDReg, &AMDGPU::SGPR_64RegClass);
240     CCInfo.AllocateReg(DispatchIDReg);
241   }
242
243   if (Info.hasFlatScratchInit()) {
244     unsigned FlatScratchInitReg = Info.addFlatScratchInit(TRI);
245     MF.addLiveIn(FlatScratchInitReg, &AMDGPU::SGPR_64RegClass);
246     CCInfo.AllocateReg(FlatScratchInitReg);
247   }
248
249   // TODO: Add GridWorkGroupCount user SGPRs when used. For now with HSA we read
250   // these from the dispatch pointer.
251 }
252
253 static void allocateSystemSGPRs(CCState &CCInfo,
254                                 MachineFunction &MF,
255                                 SIMachineFunctionInfo &Info,
256                                 CallingConv::ID CallConv,
257                                 bool IsShader) {
258   const LLT S32 = LLT::scalar(32);
259   MachineRegisterInfo &MRI = MF.getRegInfo();
260
261   if (Info.hasWorkGroupIDX()) {
262     Register Reg = Info.addWorkGroupIDX();
263     MRI.setType(MF.addLiveIn(Reg, &AMDGPU::SReg_32_XM0RegClass), S32);
264     CCInfo.AllocateReg(Reg);
265   }
266
267   if (Info.hasWorkGroupIDY()) {
268     Register Reg = Info.addWorkGroupIDY();
269     MRI.setType(MF.addLiveIn(Reg, &AMDGPU::SReg_32_XM0RegClass), S32);
270     CCInfo.AllocateReg(Reg);
271   }
272
273   if (Info.hasWorkGroupIDZ()) {
274     unsigned Reg = Info.addWorkGroupIDZ();
275     MRI.setType(MF.addLiveIn(Reg, &AMDGPU::SReg_32_XM0RegClass), S32);
276     CCInfo.AllocateReg(Reg);
277   }
278
279   if (Info.hasWorkGroupInfo()) {
280     unsigned Reg = Info.addWorkGroupInfo();
281     MRI.setType(MF.addLiveIn(Reg, &AMDGPU::SReg_32_XM0RegClass), S32);
282     CCInfo.AllocateReg(Reg);
283   }
284
285   if (Info.hasPrivateSegmentWaveByteOffset()) {
286     // Scratch wave offset passed in system SGPR.
287     unsigned PrivateSegmentWaveByteOffsetReg;
288
289     if (IsShader) {
290       PrivateSegmentWaveByteOffsetReg =
291         Info.getPrivateSegmentWaveByteOffsetSystemSGPR();
292
293       // This is true if the scratch wave byte offset doesn't have a fixed
294       // location.
295       if (PrivateSegmentWaveByteOffsetReg == AMDGPU::NoRegister) {
296         PrivateSegmentWaveByteOffsetReg = findFirstFreeSGPR(CCInfo);
297         Info.setPrivateSegmentWaveByteOffset(PrivateSegmentWaveByteOffsetReg);
298       }
299     } else
300       PrivateSegmentWaveByteOffsetReg = Info.addPrivateSegmentWaveByteOffset();
301
302     MF.addLiveIn(PrivateSegmentWaveByteOffsetReg, &AMDGPU::SGPR_32RegClass);
303     CCInfo.AllocateReg(PrivateSegmentWaveByteOffsetReg);
304   }
305 }
306
307 bool AMDGPUCallLowering::lowerFormalArgumentsKernel(
308     MachineIRBuilder &MIRBuilder, const Function &F,
309     ArrayRef<ArrayRef<Register>> VRegs) const {
310   MachineFunction &MF = MIRBuilder.getMF();
311   const GCNSubtarget *Subtarget = &MF.getSubtarget<GCNSubtarget>();
312   MachineRegisterInfo &MRI = MF.getRegInfo();
313   SIMachineFunctionInfo *Info = MF.getInfo<SIMachineFunctionInfo>();
314   const SIRegisterInfo *TRI = MF.getSubtarget<GCNSubtarget>().getRegisterInfo();
315   const DataLayout &DL = F.getParent()->getDataLayout();
316
317   SmallVector<CCValAssign, 16> ArgLocs;
318   CCState CCInfo(F.getCallingConv(), F.isVarArg(), MF, ArgLocs, F.getContext());
319
320   allocateHSAUserSGPRs(CCInfo, MIRBuilder, MF, *TRI, *Info);
321
322   unsigned i = 0;
323   const unsigned KernArgBaseAlign = 16;
324   const unsigned BaseOffset = Subtarget->getExplicitKernelArgOffset(F);
325   uint64_t ExplicitArgOffset = 0;
326
327   // TODO: Align down to dword alignment and extract bits for extending loads.
328   for (auto &Arg : F.args()) {
329     Type *ArgTy = Arg.getType();
330     unsigned AllocSize = DL.getTypeAllocSize(ArgTy);
331     if (AllocSize == 0)
332       continue;
333
334     unsigned ABIAlign = DL.getABITypeAlignment(ArgTy);
335
336     uint64_t ArgOffset = alignTo(ExplicitArgOffset, ABIAlign) + BaseOffset;
337     ExplicitArgOffset = alignTo(ExplicitArgOffset, ABIAlign) + AllocSize;
338
339     ArrayRef<Register> OrigArgRegs = VRegs[i];
340     Register ArgReg =
341       OrigArgRegs.size() == 1
342       ? OrigArgRegs[0]
343       : MRI.createGenericVirtualRegister(getLLTForType(*ArgTy, DL));
344     unsigned Align = MinAlign(KernArgBaseAlign, ArgOffset);
345     ArgOffset = alignTo(ArgOffset, DL.getABITypeAlignment(ArgTy));
346     lowerParameter(MIRBuilder, ArgTy, ArgOffset, Align, ArgReg);
347     if (OrigArgRegs.size() > 1)
348       unpackRegs(OrigArgRegs, ArgReg, ArgTy, MIRBuilder);
349     ++i;
350   }
351
352   allocateSpecialEntryInputVGPRs(CCInfo, MF, *TRI, *Info);
353   allocateSystemSGPRs(CCInfo, MF, *Info, F.getCallingConv(), false);
354   return true;
355 }
356
357 bool AMDGPUCallLowering::lowerFormalArguments(
358     MachineIRBuilder &MIRBuilder, const Function &F,
359     ArrayRef<ArrayRef<Register>> VRegs) const {
360   // The infrastructure for normal calling convention lowering is essentially
361   // useless for kernels. We want to avoid any kind of legalization or argument
362   // splitting.
363   if (F.getCallingConv() == CallingConv::AMDGPU_KERNEL)
364     return lowerFormalArgumentsKernel(MIRBuilder, F, VRegs);
365
366   // AMDGPU_GS and AMDGP_HS are not supported yet.
367   if (F.getCallingConv() == CallingConv::AMDGPU_GS ||
368       F.getCallingConv() == CallingConv::AMDGPU_HS)
369     return false;
370
371   MachineFunction &MF = MIRBuilder.getMF();
372   MachineRegisterInfo &MRI = MF.getRegInfo();
373   SIMachineFunctionInfo *Info = MF.getInfo<SIMachineFunctionInfo>();
374   const SIRegisterInfo *TRI = MF.getSubtarget<GCNSubtarget>().getRegisterInfo();
375   const DataLayout &DL = F.getParent()->getDataLayout();
376
377   bool IsShader = AMDGPU::isShader(F.getCallingConv());
378
379   SmallVector<CCValAssign, 16> ArgLocs;
380   CCState CCInfo(F.getCallingConv(), F.isVarArg(), MF, ArgLocs, F.getContext());
381
382   if (Info->hasImplicitBufferPtr()) {
383     unsigned ImplicitBufferPtrReg = Info->addImplicitBufferPtr(*TRI);
384     MF.addLiveIn(ImplicitBufferPtrReg, &AMDGPU::SGPR_64RegClass);
385     CCInfo.AllocateReg(ImplicitBufferPtrReg);
386   }
387
388   unsigned NumArgs = F.arg_size();
389   Function::const_arg_iterator CurOrigArg = F.arg_begin();
390   const AMDGPUTargetLowering &TLI = *getTLI<AMDGPUTargetLowering>();
391   unsigned PSInputNum = 0;
392   BitVector Skipped(NumArgs);
393   for (unsigned i = 0; i != NumArgs; ++i, ++CurOrigArg) {
394     EVT ValEVT = TLI.getValueType(DL, CurOrigArg->getType());
395
396     // We can only hanlde simple value types at the moment.
397     ISD::ArgFlagsTy Flags;
398     assert(VRegs[i].size() == 1 && "Can't lower into more than one register");
399     ArgInfo OrigArg{VRegs[i][0], CurOrigArg->getType()};
400     setArgFlags(OrigArg, i + 1, DL, F);
401     Flags.setOrigAlign(DL.getABITypeAlignment(CurOrigArg->getType()));
402
403     if (F.getCallingConv() == CallingConv::AMDGPU_PS &&
404         !OrigArg.Flags.isInReg() && !OrigArg.Flags.isByVal() &&
405         PSInputNum <= 15) {
406       if (CurOrigArg->use_empty() && !Info->isPSInputAllocated(PSInputNum)) {
407         Skipped.set(i);
408         ++PSInputNum;
409         continue;
410       }
411
412       Info->markPSInputAllocated(PSInputNum);
413       if (!CurOrigArg->use_empty())
414         Info->markPSInputEnabled(PSInputNum);
415
416       ++PSInputNum;
417     }
418
419     CCAssignFn *AssignFn = CCAssignFnForCall(F.getCallingConv(),
420                                              /*IsVarArg=*/false);
421
422     if (ValEVT.isVector()) {
423       EVT ElemVT = ValEVT.getVectorElementType();
424       if (!ValEVT.isSimple())
425         return false;
426       MVT ValVT = ElemVT.getSimpleVT();
427       bool Res = AssignFn(i, ValVT, ValVT, CCValAssign::Full,
428                           OrigArg.Flags, CCInfo);
429       if (!Res)
430         return false;
431     } else {
432       MVT ValVT = ValEVT.getSimpleVT();
433       if (!ValEVT.isSimple())
434         return false;
435       bool Res =
436           AssignFn(i, ValVT, ValVT, CCValAssign::Full, OrigArg.Flags, CCInfo);
437
438       // Fail if we don't know how to handle this type.
439       if (Res)
440         return false;
441     }
442   }
443
444   Function::const_arg_iterator Arg = F.arg_begin();
445
446   if (F.getCallingConv() == CallingConv::AMDGPU_VS ||
447       F.getCallingConv() == CallingConv::AMDGPU_PS) {
448     for (unsigned i = 0, OrigArgIdx = 0;
449          OrigArgIdx != NumArgs && i != ArgLocs.size(); ++Arg, ++OrigArgIdx) {
450        if (Skipped.test(OrigArgIdx))
451           continue;
452        assert(VRegs[OrigArgIdx].size() == 1 &&
453               "Can't lower into more than 1 reg");
454        CCValAssign &VA = ArgLocs[i++];
455        MRI.addLiveIn(VA.getLocReg(), VRegs[OrigArgIdx][0]);
456        MIRBuilder.getMBB().addLiveIn(VA.getLocReg());
457        MIRBuilder.buildCopy(VRegs[OrigArgIdx][0], VA.getLocReg());
458     }
459
460     allocateSystemSGPRs(CCInfo, MF, *Info, F.getCallingConv(), IsShader);
461     return true;
462   }
463
464   return false;
465 }