0°

一键让ChatGPT教出新模型!100美元炼出开源平替「白泽」

  炼ChatGPT需要高质量对话数据。

  在以前这可是稀缺资源,但自从有了ChatGPT,时代就变了。

  加州大学圣迭戈分校(UCSD)与中山大学、MSRA合作团队提出最新方法:

  使用少量“种子问题”,让ChatGPT自己跟自己聊天,并自动收集成高质量多轮对话数据集。

  团队不仅把使用此法收集的数据集开源,还进一步开发了对话模型白泽,模型权重和代码也一并开源。

  (供研究/非商业用途)

  白泽使用A100单卡训练,分为70亿、130亿和300亿参数三种尺寸,最大的也只需要36小时。

  开放时间不到一天,GitHub仓库就已暴涨200星。

  100美元搞出ChatGPT平替?

  具体来说,团队从美国知乎Quora,最大的编程问答社区StackOverflow等处收集到种子问题。

  然后让ChatGPT自我对话,收集了11万条多轮对话,使用OpenAI的API大约花费100美元。

  在此基础上使用LoRA(Low-Rank Adaption)方法微调Meta开源大模型LLaMA得到白泽。

  与同样基于LLaMA的斯坦福Alpaca相比,新方法收集的数据不再仅限于单轮对话,可以达到3-4轮。

  至于最后效果究竟如何,不妨就用Alpaca和ChatGPT来对比。

  先来看最基本的常识问答。

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论