Обучение с подкреплением на основе отзывов людей (Russian Wikipedia)

Analysis of information sources in references of the Wikipedia article "Обучение с подкреплением на основе отзывов людей" in Russian language version.

refsWebsite

Global rank Russian rank

16web.archive.org

1^st place

5doi.org

2^nd place

3^rd place

2venturebeat.com

616^th place

628^th place

2technologyreview.com

1,943^rd place

3,801^st place

2deepmind.com

low place

1huggingface.co

low place

1acm.org

1,185^th place

1,832^nd place

1openreview.net

low place

1arstechnica.com

388^th place

538^th place

1neurips.cc

low place

1techcrunch.com

187^th place

479^th place

1forbes.com

54^th place

93^rd place

1openai.com

1,559^th place

1,840^th place

1nips.cc

low place

1alignmentforum.org

low place

acm.org (Global: 1,185^th place; Russian: 1,832^nd place)

dl.acm.org

MacGlashan, James (6 августа 2017). Interactive learning from policy-dependent human feedback. Proceedings of the 34th International Conference on Machine Learning - Volume 70 (англ.). JMLR.org: 2285–2294. Архивировано 4 марта 2023. Дата обращения: 16 марта 2023.

alignmentforum.org (Global: low place; Russian: low place)

Christiano, Paul. Thoughts on the impact of RLHF research (англ.). Дата обращения: 4 марта 2023. Архивировано 20 марта 2023 года.

arstechnica.com (Global: 388^th place; Russian: 538^th place)

Edwards, Benj. OpenAI invites everyone to test ChatGPT, a new AI-powered chatbot—with amusing results (амер. англ.). Ars Technica (1 декабря 2022). Дата обращения: 4 марта 2023. Архивировано 15 марта 2023 года.

deepmind.com (Global: low place; Russian: low place)

Building safer dialogue agents (англ.). www.deepmind.com. Дата обращения: 4 марта 2023. Архивировано 1 августа 2023 года.
Learning through human feedback (англ.). www.deepmind.com. Дата обращения: 4 марта 2023. Архивировано 19 марта 2023 года.

doi.org (Global: 2^nd place; Russian: 3^rd place)

Ziegler, Daniel M. (2019). Fine-Tuning Language Models from Human Preferences. arxiv.org (англ.). doi:10.48550/arXiv.1909.08593.
Warnell, Garrett (25 апреля 2018). Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces. Proceedings of the AAAI Conference on Artificial Intelligence (англ.). 32 (1). doi:10.1609/aaai.v32i1.11485.
Bai, Yuntao (2022). Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arxiv.org (англ.). doi:10.48550/arXiv.2204.05862.
Ouyang, Long (2022). Training language models to follow instructions with human feedback. arxiv.org (англ.). doi:10.48550/arXiv.2203.02155.
Glaese, Amelia (2022). Improving alignment of dialogue agents via targeted human judgements. arxiv.org (англ.). doi:10.48550/arXiv.2209.14375.

forbes.com (Global: 54^th place; Russian: 93^rd place)

Farseev, Aleks. Council Post: Is Bigger Better? Why The ChatGPT Vs. GPT-3 Vs. GPT-4 'Battle' Is Just A Family Chat (англ.). Forbes. Дата обращения: 4 марта 2023. Архивировано 19 марта 2023 года.

huggingface.co (Global: low place; Russian: low place)

von Werra, Leandro; Castricato, Louis; Havrilla, Alex; Lambert, Nathan. Illustrating Reinforcement Learning from Human Feedback (RLHF) (англ.). huggingface.co. Дата обращения: 4 марта 2023. Архивировано 16 марта 2023 года.

neurips.cc (Global: low place; Russian: low place)

proceedings.neurips.cc

Nisan, Stiennon (2020). Learning to summarize with human feedback. Advances in Neural Information Processing Systems (англ.). 33. Архивировано 23 декабря 2022. Дата обращения: 16 марта 2023.

nips.cc (Global: low place; Russian: low place)

papers.nips.cc

Christiano, Paul F (2017). Deep Reinforcement Learning from Human Preferences. Advances in Neural Information Processing Systems (англ.). 30. Curran Associates, Inc. Архивировано 19 марта 2023. Дата обращения: 4 марта 2023.

openai.com (Global: 1,559^th place; Russian: 1,840^th place)

Learning from human preferences (англ.). openai.com. Дата обращения: 4 марта 2023. Архивировано 18 июня 2023 года.

openreview.net (Global: low place; Russian: low place)

Ouyang, Long. Training language models to follow instructions with human feedback (англ.) (31 октября 2022). Дата обращения: 16 марта 2023. Архивировано 15 марта 2023 года.

techcrunch.com (Global: 187^th place; Russian: 479^th place)

Wiggers, Kyle. Can AI really be protected from text-based attacks? (англ.). TechCrunch (24 февраля 2023). Дата обращения: 4 марта 2023. Архивировано 16 марта 2023 года.

technologyreview.com (Global: 1,943^rd place; Russian: 3,801^st place)

Heikkilä, Melissa. How OpenAI is trying to make ChatGPT safer and less biased (англ.). MIT Technology Review. Дата обращения: 4 марта 2023. Архивировано 16 марта 2023 года.
Douglas Heaven, Will. ChatGPT is OpenAI’s latest fix for GPT-3. It’s slick but still spews nonsense (англ.). MIT Technology Review. Дата обращения: 4 марта 2023. Архивировано 14 марта 2023 года.

venturebeat.com (Global: 616^th place; Russian: 628^th place)

Abhishek, Gupta. Getting stakeholder engagement right in responsible AI (англ.). VentureBeat (5 февраля 2023). Дата обращения: 4 марта 2023. Архивировано 20 марта 2023 года.
Why DeepMind isn’t deploying its new AI chatbot — and what it means for responsible AI (англ.). VentureBeat (23 сентября 2022). Дата обращения: 4 марта 2023. Архивировано 9 февраля 2023 года.

web.archive.org (Global: 1^st place; Russian: 1^st place)

von Werra, Leandro; Castricato, Louis; Havrilla, Alex; Lambert, Nathan. Illustrating Reinforcement Learning from Human Feedback (RLHF) (англ.). huggingface.co. Дата обращения: 4 марта 2023. Архивировано 16 марта 2023 года.
MacGlashan, James (6 августа 2017). Interactive learning from policy-dependent human feedback. Proceedings of the 34th International Conference on Machine Learning - Volume 70 (англ.). JMLR.org: 2285–2294. Архивировано 4 марта 2023. Дата обращения: 16 марта 2023.
Ouyang, Long. Training language models to follow instructions with human feedback (англ.) (31 октября 2022). Дата обращения: 16 марта 2023. Архивировано 15 марта 2023 года.
Edwards, Benj. OpenAI invites everyone to test ChatGPT, a new AI-powered chatbot—with amusing results (амер. англ.). Ars Technica (1 декабря 2022). Дата обращения: 4 марта 2023. Архивировано 15 марта 2023 года.
Abhishek, Gupta. Getting stakeholder engagement right in responsible AI (англ.). VentureBeat (5 февраля 2023). Дата обращения: 4 марта 2023. Архивировано 20 марта 2023 года.
Nisan, Stiennon (2020). Learning to summarize with human feedback. Advances in Neural Information Processing Systems (англ.). 33. Архивировано 23 декабря 2022. Дата обращения: 16 марта 2023.
Wiggers, Kyle. Can AI really be protected from text-based attacks? (англ.). TechCrunch (24 февраля 2023). Дата обращения: 4 марта 2023. Архивировано 16 марта 2023 года.
Farseev, Aleks. Council Post: Is Bigger Better? Why The ChatGPT Vs. GPT-3 Vs. GPT-4 'Battle' Is Just A Family Chat (англ.). Forbes. Дата обращения: 4 марта 2023. Архивировано 19 марта 2023 года.
Heikkilä, Melissa. How OpenAI is trying to make ChatGPT safer and less biased (англ.). MIT Technology Review. Дата обращения: 4 марта 2023. Архивировано 16 марта 2023 года.
Douglas Heaven, Will. ChatGPT is OpenAI’s latest fix for GPT-3. It’s slick but still spews nonsense (англ.). MIT Technology Review. Дата обращения: 4 марта 2023. Архивировано 14 марта 2023 года.
Why DeepMind isn’t deploying its new AI chatbot — and what it means for responsible AI (англ.). VentureBeat (23 сентября 2022). Дата обращения: 4 марта 2023. Архивировано 9 февраля 2023 года.
Building safer dialogue agents (англ.). www.deepmind.com. Дата обращения: 4 марта 2023. Архивировано 1 августа 2023 года.
Learning from human preferences (англ.). openai.com. Дата обращения: 4 марта 2023. Архивировано 18 июня 2023 года.
Learning through human feedback (англ.). www.deepmind.com. Дата обращения: 4 марта 2023. Архивировано 19 марта 2023 года.
Christiano, Paul F (2017). Deep Reinforcement Learning from Human Preferences. Advances in Neural Information Processing Systems (англ.). 30. Curran Associates, Inc. Архивировано 19 марта 2023. Дата обращения: 4 марта 2023.
Christiano, Paul. Thoughts on the impact of RLHF research (англ.). Дата обращения: 4 марта 2023. Архивировано 20 марта 2023 года.

Обучение с подкреплением на основе отзывов людей (Russian Wikipedia)

acm.org (Global: 1,185th place; Russian: 1,832nd place)

dl.acm.org

alignmentforum.org (Global: low place; Russian: low place)

arstechnica.com (Global: 388th place; Russian: 538th place)

deepmind.com (Global: low place; Russian: low place)

doi.org (Global: 2nd place; Russian: 3rd place)

forbes.com (Global: 54th place; Russian: 93rd place)

huggingface.co (Global: low place; Russian: low place)

neurips.cc (Global: low place; Russian: low place)

proceedings.neurips.cc

nips.cc (Global: low place; Russian: low place)

papers.nips.cc

openai.com (Global: 1,559th place; Russian: 1,840th place)

openreview.net (Global: low place; Russian: low place)

techcrunch.com (Global: 187th place; Russian: 479th place)

technologyreview.com (Global: 1,943rd place; Russian: 3,801st place)

venturebeat.com (Global: 616th place; Russian: 628th place)

web.archive.org (Global: 1st place; Russian: 1st place)

acm.org (Global: 1,185^th place; Russian: 1,832^nd place)

arstechnica.com (Global: 388^th place; Russian: 538^th place)

doi.org (Global: 2^nd place; Russian: 3^rd place)

forbes.com (Global: 54^th place; Russian: 93^rd place)

openai.com (Global: 1,559^th place; Russian: 1,840^th place)

techcrunch.com (Global: 187^th place; Russian: 479^th place)

technologyreview.com (Global: 1,943^rd place; Russian: 3,801^st place)

venturebeat.com (Global: 616^th place; Russian: 628^th place)

web.archive.org (Global: 1^st place; Russian: 1^st place)