대형 언어 모델 (Korean Wikipedia)

Black, Sidney; Biderman, Stella; Hallahan, Eric; 외. (2022년 5월 1일). 《GPT-NeoX-20B: An Open-Source Autoregressive Language Model》. Proceedings of BigScience Episode #5 -- Workshop on Challenges & Perspectives in Creating Large Language Models. 95–136쪽. 2022년 12월 19일에 확인함.

amazon.com

aws.amazon.com

“AlexaTM 20B is now available in Amazon SageMaker JumpStart | AWS Machine Learning Blog”. 《aws.amazon.com》. 2022년 11월 17일. 2023년 3월 13일에 확인함.

amazon.science

“20B-parameter Alexa model sets new marks in few-shot learning”. 《Amazon Science》 (영어). 2022년 8월 2일.

analyticsindiamag.com

Goled, Shraddha (2021년 5월 7일). “Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ”. 《Analytics India Magazine》.

anthropic.com

“Product”. 《Anthropic》 (영어). 2023년 3월 14일에 확인함.

arxiv.org

Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (2018년 10월 11일). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”. arXiv:1810.04805v2 [cs.CL].
Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; Thite, Anish; Nabeshima, Noa; Presser, Shawn; Leahy, Connor (2020년 12월 31일). “The Pile: An 800GB Dataset of Diverse Text for Language Modeling”. arXiv:2101.00027 [cs.CL].
Smith, Shaden; Patwary, Mostofa; Norick, Brandon; LeGresley, Patrick; Rajbhandari, Samyam; Casper, Jared; Liu, Zhun; Prabhumoye, Shrimai; Zerveas, George; Korthikanti, Vijay; Zhang, Elton; Child, Rewon; Aminabadi, Reza Yazdani; Bernauer, Julie; Song, Xia (2022년 2월 4일). “Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model”. arXiv:2201.11990.
Wang, Shuohuan; Sun, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu; Gong, Weibao; Feng, Shikun; Shang, Junyuan; Zhao, Yanbin; Pang, Chao; Liu, Jiaxiang; Chen, Xuyi; Lu, Yuxiang; Liu, Weixin; Wang, Xi; Bai, Yangfan; Chen, Qiuliang; Zhao, Li; Li, Shiyong; Sun, Peng; Yu, Dianhai; Ma, Yanjun; Tian, Hao; Wu, Hua; Wu, Tian; Zeng, Wei; Li, Ge; Gao, Wen; Wang, Haifeng (2021년 12월 23일). “ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation”. arXiv:2112.12731.
Askell, Amanda; Bai, Yuntao; Chen, Anna; 외. (2021년 12월 9일). “A General Language Assistant as a Laboratory for Alignment”. arXiv:2112.00861 [cs.CL].
Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; 외. (2022년 3월 29일). “Training Compute-Optimal Large Language Models”. arXiv:2203.15556 [cs.CL].
Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona; Li, Xian; Lin, Xi Victoria; Mihaylov, Todor; Ott, Myle; Shleifer, Sam; Shuster, Kurt; Simig, Daniel; Koura, Punit Singh; Sridhar, Anjali; Wang, Tianlu; Zettlemoyer, Luke (2022년 6월 21일). “OPT: Open Pre-trained Transformer Language Models”. arXiv:2205.01068 [cs.CL].
Lewkowycz, Aitor; Andreassen, Anders; Dohan, David; Dyer, Ethan; Michalewski, Henryk; Ramasesh, Vinay; Slone, Ambrose; Anil, Cem; Schlag, Imanol; Gutman-Solo, Theo; Wu, Yuhuai; Neyshabur, Behnam; Gur-Ari, Guy; Misra, Vedant (2022년 6월 30일). “Solving Quantitative Reasoning Problems with Language Models”. arXiv:2206.14858 [cs.CL].
Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Anthony; Saravia, Elvis; Poulton, Andrew; Kerkez, Viktor; Stojnic, Robert (2022년 11월 16일). “Galactica: A Large Language Model for Science”. arXiv:2211.09085 [cs.CL].
Soltan, Saleh; Ananthakrishnan, Shankar; FitzGerald, Jack; 외. (2022년 8월 3일). “AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model”. arXiv:2208.01448 [cs.CL].
Wu, Shijie; Irsoy, Ozan; Lu, Steven; Dabravolski, Vadim; Dredze, Mark; Gehrmann, Sebastian; Kambadur, Prabhanjan; Rosenberg, David; Mann, Gideon (2023년 3월 30일). “BloombergGPT: A Large Language Model for Finance”. arXiv:2303.17564.
Ren, Xiaozhe; Zhou, Pingyi; Meng, Xinfan; Huang, Xinjing; Wang, Yadao; Wang, Weichao; Li, Pengfei; Zhang, Xiaoda; Podolskiy, Alexander; Arshinov, Grigory; Bout, Andrey; Piontkovskaya, Irina; Wei, Jiansheng; Jiang, Xin; Su, Teng; Liu, Qun; Yao, Jun (2023년 3월 19일). “PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing”. arXiv:2303.10845.
Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; Stanley, Oliver; Nagyfi, Richárd; ES, Shahul; Suri, Sameer; Glushkov, David; Dantuluri, Arnav; Maguire, Andrew (2023년 4월 14일). “OpenAssistant Conversations -- Democratizing Large Language Model Alignment”. 《arXiv:2304.07327 [cs]》.

cerebras.net

Dey, Nolan (2023년 3월 28일). “Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models”. 《Cerebras》.

cnbc.com

Elias, Jennifer (2023년 5월 16일). “Google's newest A.I. model uses nearly five times more text data for training than its predecessor”. 《CNBC》. 2023년 5월 18일에 확인함.

deepmind.com

“Language modelling at scale: Gopher, ethical considerations, and retrieval”. 《www.deepmind.com》 (영어). 2023년 3월 20일에 확인함.
Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Sifre, Laurent (2022년 4월 12일). “An empirical analysis of compute-optimal large language model training”. 《Deepmind Blog》.

facebook.com

ai.facebook.com

“Democratizing access to large-scale language models with OPT-175B”. 《ai.facebook.com》 (영어).
“Introducing LLaMA: A foundational, 65-billion-parameter large language model”. 《Meta AI》. 2023년 2월 24일.

fastcompanyme.com

“Abu Dhabi-based TII launches its own version of ChatGPT”. 《tii.ae》.

forefront.ai

“GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront”. 《www.forefront.ai》 (영어). 2023년 3월 9일에 원본 문서에서 보존된 문서. 2023년 2월 28일에 확인함.

github.com

“BERT”. 2023년 3월 13일 – GitHub 경유.
“gpt-2”. 《GitHub》. 2023년 3월 13일에 확인함.
“GPT Neo”. 2023년 3월 15일 – GitHub 경유.
Khrushchev, Mikhail; Vasilev, Ruslan; Petrov, Alexey; Zinov, Nikolay (2022년 6월 22일), 《YaLM 100B》, 2023년 3월 18일에 확인함

googleblog.com

ai.googleblog.com

Dai, Andrew M; Du, Nan (2021년 12월 9일). “More Efficient In-Context Learning with GLaM”. 《ai.googleblog.com》 (영어). 2023년 3월 9일에 확인함.
Cheng, Heng-Tze; Thoppilan, Romal (2022년 1월 21일). “LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything”. 《ai.googleblog.com》 (영어). 2023년 3월 9일에 확인함.
Narang, Sharan; Chowdhery, Aakanksha (2022년 4월 4일). “Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance”. 《ai.googleblog.com》 (영어). 2023년 3월 9일에 확인함.

huggingface.co

“bigscience/bloom · Hugging Face”. 《huggingface.co》.

kdnuggets.com

“BERT, RoBERTa, DistilBERT, XLNet: Which one to use?”. ^{[깨진 링크(과거 내용 찾기)]}

lambdalabs.com

“OpenAI's GPT-3 Language Model: A Technical Overview”. 《lambdalabs.com》 (영어).

microsoft.com

Alvi, Ali; Kharya, Paresh (2021년 10월 11일). “Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World's Largest and Most Powerful Generative Language Model”. 《Microsoft Research》.

nature.com

Ananthaswamy, Anil (2023년 3월 8일). “In AI, is bigger always better?”. 《Nature》.

openai.com

“GPT-2: 1.5B Release”. 《OpenAI》 (영어). 2019년 11월 5일. 2019년 11월 14일에 원본 문서에서 보존된 문서. 2019년 11월 14일에 확인함.
“Better language models and their implications”. 《openai.com》.

cdn.openai.com

“GPT-4 Technical Report” (PDF). 《OpenAI》. 2023. 2023년 3월 14일에 원본 문서 (PDF)에서 보존된 문서. 2023년 3월 14일에 확인함.

techcrunch.com

Wiggers, Kyle (2022년 4월 28일). “The emerging types of language models and why they matter”. 《TechCrunch》.

venturebeat.com

Iyer, Abhishek (2021년 5월 15일). “GPT-3's free alternative GPT-Neo is something to be excited about”. 《VentureBeat》.

web.archive.org

“BERT, RoBERTa, DistilBERT, XLNet: Which one to use?”. ^{[깨진 링크(과거 내용 찾기)]}
“GPT-2: 1.5B Release”. 《OpenAI》 (영어). 2019년 11월 5일. 2019년 11월 14일에 원본 문서에서 보존된 문서. 2019년 11월 14일에 확인함.
“GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront”. 《www.forefront.ai》 (영어). 2023년 3월 9일에 원본 문서에서 보존된 문서. 2023년 2월 28일에 확인함.
“GPT-4 Technical Report” (PDF). 《OpenAI》. 2023. 2023년 3월 14일에 원본 문서 (PDF)에서 보존된 문서. 2023년 3월 14일에 확인함.