欧美有码视频,欧美性xxxx在线播放,av电影在线地址,小早川怜子影音先锋在线观看

Open LLM Leaderboard
免費測試
Ai平臺模型

Open LLM Leaderboard

Open LLM Leaderboard 是最大的大模型和數據集社區 HuggingFace 推出的開源大模型排行榜單,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI語言模型評估框架)封裝。

標簽:

Open LLM Leaderboard 是最大的大模型和數據集社區 HuggingFace 推出的開源大模型排行榜單,基于 Eleuther AI Language Model Evaluation Harness(Eleuther AI語言模型評估框架)封裝。

由于社區在發布了大量的大型語言模型(LLM)和聊天機器人之后,往往伴隨著對其性能的夸大宣傳,很難過濾出開源社區取得的真正進展以及目前的最先進模型。因此,Hugging Face 使用 Eleuther AI語言模型評估框架對模型進行四個關鍵基準測試評估。這是一個統一的框架,用于在大量不同的評估任務上測試生成式語言模型。

Open LLM Leaderboard 的評估基準

  • AI2 推理挑戰(25-shot):一組小學科學問題
  • HellaSwag(10-shot):一個測試常識推理的任務,對人類來說很容易(大約95%),但對SOTA模型來說具有挑戰性。
  • MMLU(5-shot)- 用于測量文本模型的多任務準確性。測試涵蓋57個任務,包括基本數學、美國歷史、計算機科學、法律等等。
  • TruthfulQA(0-shot)- 用于測量模型復制在在線常見虛假信息中的傾向性。

相關網站

主站蜘蛛池模板: 麻江县| 贵溪市| 庆城县| 高陵县| 宜宾市| 郁南县| 平南县| 登封市| 永定县| 柳林县| 镇远县| 赤峰市| 焦作市| 延庆县| 忻城县| 锡林郭勒盟| 甘孜县| 颍上县| 漳浦县| 密云县| 赣榆县| 象州县| 思茅市| 华亭县| 宕昌县| 吉安市| 垫江县| 旬阳县| 鹿泉市| 海淀区| 兰西县| 天台县| 清远市| 鄢陵县| 灵石县| 工布江达县| 镇原县| 昆山市| 佛教| 珠海市| 颍上县|