摘要:文章针对医学领域大语言模型评测的不足,构建了4个医学评测任务,并选取8个中文开源大语言模型进行性能评估。结果表明,通用模型 Qwen2.5-7B-Instruct 表现最佳,而现有开源医学领域大语言模型的性能相对较差。(试读)...