大模型實時打《街霸》捉對PK,GPT-4居然不敵3.5,新型Benchmark
讓大模型直接操縱格斗游戲《街霸》里的角色,捉對PK,誰更能打?GitHub上一種你沒有見過的船新Benchmark火了。
讓大模型直接操縱格斗游戲《街霸》里的角色,捉對PK,誰更能打?GitHub上一種你沒有見過的船新Benchmark火了。
讓大模型直接操縱格斗游戲《街霸》里的角色,捉對PK,誰更能打?GitHub上一種你沒有見過的船新Benchmark火了。與llmsys大模型競技場中,兩個大模型分別輸出答案,再由人類評分不同——街霸Bench引入了兩個AI之間的交互,且由游戲引擎中確定的規則評判勝負。