GitHub - limafang/agent-arxiv-daily: 🎓Automatically Update agent Papers Daily using Github Actions (Update Every 12th hours)

Updated on 2024.09.24

Usage instructions: here

Table of Contents

agent
llm

agent

Publish Date	Title	Authors	PDF	Code	abstract
2024-09-17	LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents	Amine B. Hassouna et.al.	2409.11393	null	本文旨在解决在构建基于语言模型（LLM）的智能代理时所遇到的软件架构混乱问题。传统上，单独的LLM和传统的代理系统因其局限性而面临挑战，而将这两种技术结合以增强智能代理的能力则导致了功能性和软件架构定义上的模糊性。具体而言，研究者们在描述组件边界时存在术语和架构上的不一致性。为了应对这一挑战，本文提出了一个统一框架——LLM-Agent-UMF（基于语言模型的智能代理统一建模框架）。该框架清晰地区分了智能代理中的不同组件，将语言模型、工具与一个新引入的元素——核心代理区分开来。核心代理作为智能代理的中心协调者，包含了规划、记忆、个人资料、行动和安全五个模块，其中安全模块在以往的研究中往往被忽视。核心代理的内部结构差异促使我们将其分为被动型和主动型两类，并根据这一分类提出了多种多核心代理架构，结合了不同个体代理的独特特性。为了验证框架的有效性，本文选取了几种前沿的智能代理进行了应用评估，这不仅展示了框架与现有功能的一致性，也揭示了过去架构设计中被忽略的关键方面。此外，通过对四个我们提出的架构进行深入分析，即集成不同类型的智能代理到混合的主动/被动核心代理系统中，我们对特定代理组合可能面临的改进空间和挑战有了更清晰的认识。
2024-09-17	Hackphyr: A Local Fine-Tuned LLM Agent for Network Security Environments	Maria Rigaki et.al.	2409.11276	null	本文介绍了一种名为Hackphyr的本地微调大型语言模型（LLM），旨在在网络安全性环境中作为红队代理使用。该模型在单个GPU卡上运行，参数量为70亿，并且在性能上与诸如GPT-4这样的更大、更强大的商业模型相匹敌。Hackphyr在复杂、未见过的场景中显著优于其他模型，如GPT-3.5-turbo和基于Q学习的代理。为了达到这种性能，我们生成了一个针对网络安全任务的专门数据集，以增强基础模型的能力。最后，我们对代理的行为进行了全面分析，提供了关于这些基于LLM的代理在网络安全上下文中的规划能力和潜在局限性的见解，从而为更广泛地理解此类代理在网络安全领域的应用提供了洞见。
2024-09-14	On the limits of agency in agent-based models	Ayush Chopra et.al.	2409.10568	link	本文介绍了一种名为AgentTorch的框架，旨在通过使用大型语言模型（LLMs）作为具有适应性行为的代理来扩展基于个体的模型（ABM），从而能够高效地模拟百万级别的群体。LLMs在增强ABM中的潜力在于它们可以捕捉到复杂的环境动态和代理之间的互动，同时保留高分辨率的个体行为特性。然而，将LLMs应用于大规模群体的计算可行性问题限制了其广泛采用。为了克服这一挑战，AgentTorch框架被设计出来，它能够将ABM扩展到数百万个代理，并且通过利用LLMs来捕获详细的代理行为。本文通过COVID-19疫情案例研究，展示了如何使用AgentTorch来模拟代表纽约市的840万个代理，以探索隔离和就业行为对健康和经济结果的影响。我们比较了基于启发式方法和LLMs的代理架构在预测疾病浪潮和失业率方面的性能。此外，本文还展示了AgentTorch在回顾性、反事实和前瞻性分析中的应用能力，强调了适应性代理行为如何有助于克服历史数据在政策制定中的局限性。作为一个开源项目，AgentTorch在全球范围内被用于政策制定和科学发现，并且可以在这里获取：github.com/AgentTorch/AgentTorch。
2024-09-19	Instigating Cooperation among LLM Agents Using Adaptive Information Modulation	Qiliang Chen et.al.	2409.10372	null	本文提出了一种新颖的框架，该框架结合了大型语言模型（LLM）代理作为人类战略行为的代理，并与强化学习（RL）相结合，使这些代理在团队环境中的演变战略互动中进行交互。我们的方法扩展了传统的基于代理的模拟，通过使用策略性大型语言模型（SLA）和引入动态且适应性的治理，即通过促进性强化学习代理（PPA）来调整网络中代理的信息访问，以此优化社会福利并促进亲社会行为。通过在迭代游戏中验证，包括囚徒困境，我们展示了SLA代理表现出精妙的战略适应性。PPA代理有效地学习调整信息透明度，从而提高了合作率。此框架为AI介导的社会动力学提供了重要见解，对AI在实际团队环境中的应用具有重大贡献。
2024-09-17	Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition	Chao-Han Huck Yang et.al.	2409.09785	null	给定近期生成人工智能技术的进展，关键问题在于大型语言模型（LLMs）如何通过冻结预训练自动语音识别（ASR）模型的文本解码结果来提升声学建模任务。为了探索语言建模在语音处理中的新能力，我们引入了生成语音转录错误修正（GenSEC）挑战。这一挑战包括三个基于ASR后的语言建模任务：（i）ASR后转录修正、（ii）说话者标签和（iii）情感识别。这些任务旨在模拟未来基于语音界面的LLM代理，并通过使用开放预训练语言模型或代理基API使其对广大受众保持可访问性。我们还讨论了基准评估的见解以及设计未来评估时获得的经验教训。
2024-09-15	RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation	Qingyao Li et.al.	2409.09584	null	本文针对代码生成任务中基于树搜索算法的LLM代理在搜索质量上的不足进行了探讨。主要问题包括：1）对代码生成任务高推理需求的搜索空间设计不充分；2）缺乏有效的代码反馈与搜索算法的集成；3）错误反馈处理不当，导致搜索效率和质量降低。为了克服这些挑战，我们提出了一种新的方法，即在生成代码之前通过树搜索探索推理过程，并利用代码执行的详细反馈来修正搜索过程中的错误思路。为此，我们引入了RethinkMCTS，这是一种使用蒙特卡洛树搜索（MCTS）算法进行多层次搜索的方法。这种方法在生成代码前先进行思考级别的搜索，以探索更广泛的策略。更重要的是，我们通过构建从细粒度代码执行反馈中提取的口头反馈，来修正搜索过程中的错误思路。这样确保了搜索沿着正确的推理路径进行，从而通过利用执行反馈提高了整个搜索树的整体搜索质量。通过广泛实验，我们证明了RethinkMCTS在性能上超越了先前的基于搜索和反馈的代码生成基准。在HumanEval数据集上，它将GPT-3.5-turbo的通过率从70.12提高到了89.02，将GPT-4o-mini的通过率从87.20提高到了94.51。这种方法通过深入的思考级别搜索和整合反思操作，有效地增强了整个搜索树的探索深度和搜索质量。
2024-09-14	Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models	Yuanzhao Zhai et.al.	2409.09345	null	本文提出了一种利用任务相关Q值模型来指导行动选择的方法，以增强大型语言模型（LLM）代理在多步骤决策任务中的能力。面对奖励或惩罚不明确的任务时，估计特定任务中行动的价值变得困难。通过Monte Carlo Tree Search（MCTS）收集带有步骤级Q值的决策路径，并构建偏好数据，我们构建了Q值模型。接下来，使用另一个LLM通过步骤级直接策略优化（DPO）拟合这些偏好，作为Q值模型。在推理过程中，每个决策点，LLM代理都会选择具有最高Q值的动作，再与环境互动。该方法被应用于多个开源和API驱动的LLM代理，结果表明引入Q值模型显著提升了它们的表现。特别地，使用Phi-3-mini-4k-instruct构建的代理，在WebShop任务上的性能提高了103%，在HotPotQA任务上提高了75%，甚至超过了GPT-4o-mini。此外，Q值模型还具备几个优点，如在不同LLM代理间的泛化能力和与现有提示策略无缝集成的能力。
2024-09-14	Python Symbolic Execution with LLM-powered Code Generation	Wenhan Wang et.al.	2409.09271	null	本文提出了一种基于大型语言模型（LLM）的代理系统——LLM-Sym，旨在解决在Python等动态类型语言中应用符号执行时遇到的主要挑战。LLM-Sym通过自动调用SMT求解器Z3来解决执行路径约束，从而扩展了基础的符号执行引擎以支持复杂数据类型`list`的程序。核心贡献在于将复杂的Python路径约束转化为Z3代码的能力。为了实现准确的路径到Z3转换，我们设计了一个多步骤的代码生成管道，包括类型推断、检索和自我优化等环节。实验结果表明，LLM-Sym能够解决具有复杂控制流程和列表数据结构的LeetCode问题中的路径约束，这是传统符号执行引擎无法完成的任务。这一成果开辟了LLM增强的测试用例生成领域的新机遇，展示了生成能力与推理能力结合的潜力。
2024-09-13	Agents in Software Engineering: Survey, Landscape, and Vision	Yanxian Huang et.al.	2409.09030	link	近年来，大型语言模型（LLMs）在各种下游任务中取得了显著成功，并广泛应用于软件工程（SE）领域。我们发现许多结合LLM与SE的研究都显式或隐式地使用了代理概念。然而，缺乏对现有工作的深入综述，以整理其发展背景、分析现有工作如何通过优化各类任务来结合基于LLM的代理技术，以及澄清SE中的LLM基代理框架。本文旨在进行首次关于结合LLM代理与SE的研究综述，并提出一个包含感知、记忆和行动三个关键模块的SE中的LLM代理框架。我们还总结了两个领域结合时面临的问题，并针对现有挑战提出了未来机遇。我们维护了一个包含相关论文的GitHub仓库：https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE。
2024-09-13	AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents	Zhe Su et.al.	2409.09013	null	为了安全且成功地部署大型语言模型（LLM），它们必须同时满足真实性和实用性目标。然而，这两个目标往往在冲突中竞争（例如，帮助二手车销售员推销有瑕疵的汽车），部分原因在于模糊或误导性的用户指令。我们提出了一种名为AI-LieDar的框架，用于研究在多轮互动场景中，基于LLM的代理如何应对实用性和真实性的冲突。我们设计了一系列现实场景，在这些场景中，语言代理被指示在与模拟的人类代理进行多轮对话时，实现与保持真实性相冲突的目标。为了大规模评估真实性，我们开发了一个灵感源自心理学文献的真相探测器，以评估代理的回答。我们的实验表明，所有模型在50%以下的时间内保持诚实，尽管在实现目标（实用性）和诚实性之间的比率上存在差异。我们进一步测试了LLM的可引导性，发现模型会遵循恶意指令来欺骗，即使引导模型趋向于诚实，它们仍然可以撒谎。这些发现揭示了LLM中诚实性的复杂性质，并强调了进一步研究的重要性，以确保LLM和AI代理的安全可靠部署。
2024-09-13	Safeguarding Decentralized Social Media: LLM Agents for Automating Community Rule Compliance	Lucio La Cava et.al.	2409.08963	null	确保内容遵守社区准则对于维护健康的在线社交环境至关重要。然而，传统基于人工的合规检查在处理用户生成内容的日益增加量以及有限的管理员数量时，面临着难以扩展的问题。大型语言模型在自然语言理解方面的新进展为自动内容合规验证提供了新的机遇。本工作评估了六个基于Open-LLMs构建的AI代理，用于去中心化社交网络中的自动化规则遵循检查，在这种具有挑战性的环境中，由于社区范围和规则的异质性，这一任务尤为困难。通过分析来自数百个Mastodon服务器的超过50,000条帖子，我们发现AI代理能够有效地检测不合规的内容、理解语言的细微差别，并适应多样的社区上下文。大多数代理还表现出高度的一致性和一致性评分解释与合规建议。基于领域专家的人类评估确认了代理的可靠性和实用性，表明它们是半自动化或人机协作内容管理系统的有前景的工具。
2024-09-13	Fusing Dynamics Equation: A Social Opinions Prediction Algorithm with LLM-based Agents	Junchi Yao et.al.	2409.08717	null	在社交媒体日益成为社会运动形成公众意见的重要平台的背景下，准确模拟和预测用户意见动态对于理解社会现象、政策制定以及引导公众意见至关重要。然而，现有的模拟方法在捕捉用户行为的复杂性和动态性方面面临着挑战。针对这一问题，本文提出了一种创新的社交媒体用户意见动态模拟方法——FDE-LLM算法，该算法结合了意见动态与流行病模型，有效约束了大型语言模型（LLM）的行为和意见演化过程，使其更加符合现实网络世界。特别地，FDE-LLM将用户分为意见领袖和跟随者两大类。意见领袖基于LLM角色扮演，并受细胞自动机（CA）模型约束，而意见跟随者则融入了一个结合CA模型与SIR模型的动态系统。这种创新设计显著提高了模拟的准确性和效率。实验在四个真实微博数据集上进行，并使用开源模型ChatGLM进行了验证。结果表明，相较于传统基于代理的模型（ABM）意见动态算法和基于LLM的意见传播算法，我们的FDE-LLM算法在准确性与可解释性方面表现更优。
2024-09-10	MAGDA: Multi-agent guideline-driven diagnostic assistance	David Bani-Harouni et.al.	2409.06351	null	在紧急护理部门、偏远医院或发展中国家的诊所中，临床医生经常缺乏由训练有素的放射科医生快速分析影像的能力，这会对病人的健康护理产生不利影响。大型语言模型（LLMs）有可能通过提供有助于他们决策的见解来缓解这些临床医生的压力。尽管这些LLM在展示其理论医学知识的医学考试上取得了高分，但它们往往不遵循医学指南。为此项工作，我们引入了一种新的零样本指南驱动决策支持方法。我们构建了一个由多个LLM代理组成的系统，这些代理配备了对比视觉-语言模型，以协作方式达成患者诊断。在向这些代理提供简单的诊断指南后，它们会合成提示并根据这些指南筛选图像以寻找发现。最后，它们提供一个可理解的推理链路来解释其诊断结果，并自我精炼以考虑疾病之间的相互依赖性。由于我们的方法是零样本的，因此适用于罕见疾病场景，在这些场景中训练数据有限，但专家设计的疾病描述可用。我们在两个胸部X射线数据集CheXpert和ChestX-ray 14 Longtail上评估了我们的方法，展示了与现有零样本方法相比的性能提升，并且能够应用于罕见疾病的泛化。
2024-09-08	A Pair Programming Framework for Code Generation via Multi-Plan Exploration and Feedback-Driven Refinement	Huan Zhang et.al.	2409.05001	link	在代码生成领域，大型语言模型（LLM）展现出了令人瞩目的性能。尽管先前的研究通过提示技术及代码精炼对LLM进行了增强，但它们在处理复杂编程问题时仍面临挑战，因为这些问题往往具有僵化的解决方案计划。本文提出了一种名为PairCoder的新型LLM基框架，旨在模仿双人协作编程实践，以解决这一问题。 PairCoder由两个协作的LLM代理组成：导航员（Navigator）和驾驶员（Driver）。导航员负责提出有前景的解决方案计划、选择当前最佳计划，并根据执行反馈指导下一轮迭代。驾驶员则遵循导航员的指引，进行初始代码生成、代码测试和优化。这种交替和迭代的工作流程包括多计划探索和基于反馈的细化，模拟了双人程序员的合作方式。我们使用开源和闭源的LLM，在多种代码生成基准上对PairCoder进行了评估。实验结果表明，PairCoder在准确性方面显著优于直接使用提示的LLM，相对pass@1提高了12.00%-162.43%。
2024-09-06	Sparse Rewards Can Self-Train Dialogue Agents	Barrett Martin Lattimer et.al.	2409.04617	link	本文探讨了在多轮对话任务中，大型语言模型（LLM）代理的最新进展主要由监督微调和高质量的人类反馈驱动。然而，随着基础LLM模型性能的持续提升，获取有意义的人类反馈变得越来越困难且成本高昂。在某些领域中，基础LLM可能最终超越人类能力，使得传统的基于反馈的方法变得不切实际。因此，本文提出了一种新的自我改进范式，允许LLM代理在没有外部人类反馈的情况下自主提高其性能。我们引入了一种名为“对比结果为模拟收获”（JOSH）的自我对齐算法，该算法利用稀疏奖励模拟环境来提取理想行为，并进一步训练LLM以自身输出进行训练。我们从MultiWOZ中构建了一个用于工具调用的稀疏奖励仿真环境，称为ToolWOZ。实验结果显示，使用JOSH训练的模型（无论是小型还是前沿模型），在基于工具的交互上显著提高了表现，同时保持了在各种基准测试中的广泛模型能力。我们的代码和数据已在GitHub上公开提供。
2024-09-06	LLM-based multi-agent poetry generation in non-cooperative environments	Ran Zhang et.al.	2409.03659	link	尽管大型语言模型在自动诗歌生成方面取得了显著进步，但生成的诗歌缺乏多样性，而训练过程与人类学习大相径庭。基于这样的理念，即诗歌生成系统的学习过程应更加人性化，并且其输出更加多样和新颖，我们引入了一种基于社会学习的框架，在此框架中，我们强调除了合作互动之外的非合作互动，以鼓励多样性。我们的实验是首次尝试在非合作环境中利用基于训练的代理（GPT-2）和基于提示的代理（GPT-3和GPT-4）进行诗歌生成的大型语言模型多代理系统。根据对生成的96,000首诗的评估，我们的框架对基于训练的代理的诗歌生成过程带来了好处，导致n-gram多样性增加了3.0-3.7个百分点，新颖性增加了5.6-11.3个百分点。基于训练的代理生成的诗歌在词汇、风格和语义上表现出群体分化。在我们的框架中，基于提示的代理也从非合作环境中受益，并且具有非同质代理的更多样化的模型集合有可能进一步提高多样性，我们的实验结果显示多样性增加了7.0-17.5个百分点。然而，基于提示的代理显示出随着时间推移，词汇多样性减少，并且没有表现出预期的群体分化意图的社会网络。我们的论文主张，在自动诗歌生成等创意任务中，需要将社会学习过程（通过基于大型语言模型的代理建模）纳入考虑范围，以模仿人类的交互方式。
2024-09-05	Rx Strategist: Prescription Verification using LLM Agents System	Phuc Phan Van et.al.	2409.03440	null	为了保障患者安全，现代药物复杂性要求严格处方验证。我们提出了一种新的方法——Rx Strategist，它利用知识图谱和不同的搜索策略，结合代理框架中的大型语言模型（LLMs），以增强其能力。这种多维度的技术允许构建一个多阶段的LLM管道，并从自定义活性成分数据库中可靠地检索信息。该管道覆盖了处方验证的不同方面，如适应症、剂量和可能的药物相互作用，每个阶段都包含了这些方面的内容。通过在这些阶段分散推理，我们缓解了单一LLM技术的缺点，提高了正确性和可靠性，同时减少了内存需求。我们的研究结果表明，Rx Strategist超越了许多当前的LLMs，其性能与经验丰富的临床药师相当。在现代药物的复杂世界中，将LLMs与组织化知识和高级搜索方法相结合，提供了一条减少处方错误并提高患者结果的可行途径。
2024-09-05	GraphInsight: Unlocking Insights in Large Language Models for Graph Structure Understanding	Yukun Cao et.al.	2409.03258	null	虽然大型语言模型（LLMs）在处理图方面展现出潜力，但在通过描述序列的图说明来理解图形结构信息时，尤其是在图的大小增加时，它们遇到了挑战。我们归因于LLMs在图描述序列的不同位置上存在不均匀的记忆性能，即所谓的“位置偏见”。为了应对这一挑战，我们提出了GraphInsight，一个旨在提高LLMs对宏观和微观图形信息理解的新框架。GraphInsight基于两个关键策略：1）将关键图形信息放置在LLMs表现出更强记忆性能的位置；2）对于记忆性能较弱的区域，探索使用轻量级外部知识库，灵感来自于检索增强生成（RAG）。此外，GraphInsight还探索了将这两种策略集成到LLM代理流程中，以解决需要多步推理的复合图任务。广泛的基准实验表明，在不同大小的图形结构理解任务上，GraphInsight显著超越了所有其他图描述方法（例如提示技术、重新排序策略等）。
2024-09-04	Large Language Model-Based Agents for Software Engineering: A Survey	Junwei Liu et.al.	2409.02977	link	本文提供了一篇全面且系统的关于大型语言模型（LLM）在软件工程（SE）中的应用的综述。我们收集了106篇论文，并从两个角度进行分类，即软件工程视角和代理视角。此外，我们还讨论了该领域面临的关键挑战以及未来的发展方向。此综述的仓库地址为：https://github.com/FudanSELab/Agent4SE-Paper-List。
2024-09-02	Evolution of Social Norms in LLM Agents using Natural Language	Ilya Horiguchi et.al.	2409.00993	null	大型语言模型（LLM）的最新进展激发了利用这些模型进行游戏理论模拟的兴趣，在这些模拟中，LLM充当个体代理，进行社会互动。本文研究了通过自然语言对话使LLM代理自发生成并遵守规范策略的可能性，以此为基础，探索了对Axelrod的元规范游戏工作的进一步发展。我们的实验表明，通过对话，LLM代理能够仅通过自然语言交互形成复杂的社交规范，如元规范——规范惩罚不惩罚作弊行为的规范。结果证实了使用LLM代理模拟社会互动和理解通过自然语言演化出复杂策略与规范的有效性。未来的工作可能通过扩展到更广泛的场景和代理特征，揭示更多关于社会规范形成的微妙机制。
2024-09-02	Co-Learning: Code Learning for Multi-Agent Reinforcement Collaborative Framework with Conversational Natural Language Interfaces	Jiapeng Yu et.al.	2409.00985	link	基于大型语言模型的在线问答系统从娱乐用途逐渐转向专业领域应用。本文提出了一种名为“代码学习（Co-Learning）社区”的多代理框架，结合环境强化学习（E-RL），旨在帮助初学者独立修正代码错误。该系统通过一个包含702个错误代码的原始数据集评估了多个大型语言模型的表现，并将其作为E-RL奖励或惩罚的标准。通过分析当前代理输入的错误代码，选择合适的基于大型语言模型的代理以实现最佳的错误修正准确率并减少修正时间。实验结果表明，与无E-RL方法相比，该方法在精确度得分上提高了3%，在时间成本上降低了15%。我们的源代码可访问：https://github.com/yuqian2003/Co_Learning
2024-08-29	HoneyComb: A Flexible LLM-Based Agent System for Materials Science	Huan Zhang et.al.	2409.00135	null	为了应对材料科学任务中的复杂性并解决大型语言模型（LLM）在这一领域应用时所面临的问题，如依赖过时的隐性知识导致的准确性下降和幻觉现象，我们提出了HoneyComb——首个专门针对材料科学领域的LLM代理系统。HoneyComb通过利用一个基于可靠文献的高质量材料科学知识库（MatSciKB）和一种创新的工具集（ToolHub），增强其针对材料科学特有的推理与计算能力。 MatSciKB是一个经过精心编纂、结构化的知识集合，旨在涵盖材料科学领域的关键信息。而ToolHub则采用了一种归纳式工具构建方法，用于生成、分解和优化适用于材料科学的API工具，从而极大地提高了系统的实用性。此外，HoneyComb还配备了一个检索模块，该模块能够根据特定任务智能选择最合适的知识来源或工具，确保了答案的准确性和相关性。实验结果表明，HoneyComb在材料科学领域的各种任务上均表现出显著优于基线模型的能力，成功地弥合了当前LLM技术与材料科学特定需求之间的差距。更为重要的是，我们的可扩展框架易于扩展至其他科学领域，展示了其在推动科学研究和应用发展方面具有广泛的应用潜力。
2024-08-30	Tool-Assisted Agent on SQL Inspection and Refinement in Real-World Scenarios	Zhongyuan Wang et.al.	2408.16991	null	本文提出了一种基于工具辅助的代理框架，用于SQL检查和改进，旨在提升大型语言模型（LLM）处理现实世界查询的能力。该框架通过为LLM代理配备两个专门工具——检索器和检测器，以诊断并修正SQL查询中的数据库不匹配问题。这些工具能够增强LLM处理真实场景中出现的条件不匹配和严格约束不匹配等数据库不匹配问题的能力。我们还引入了Spider-Mismatch，这是一个专门为反映现实世界中遇到的条件不匹配问题而构建的新数据集。实验结果表明，在少量示例设置下，我们的方法在Spider和Spider-Realistic数据集上的平均表现最佳，并且显著优于基线方法，在更具有现实性的数据集Spider-Mismatch上也表现出更好的性能。
2024-08-28	EPO: Hierarchical LLM Agents with Environment Preference Optimization	Qi Zhao et.al.	2408.16090	null	本文提出了一种分层框架，用于解决复杂任务分解为可管理子目标的问题。框架使用了独立的语言模型进行子目标预测和低级动作生成。针对无标注数据集的训练信号创建挑战，我们开发了一个奖励模型，利用环境多模态反馈自动生成奖励信号。我们引入了环境偏好优化（EPO）方法，该方法从环境反馈中生成偏好信号，并利用这些信号训练基于语言模型的代理。ALFRED实验结果表明，我们的框架在性能上处于领先地位，首次登上了ALFRED公开排行榜，并展示了其在不同环境中的长期决策制定能力的提升潜力。
2024-09-05	LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models	Jiayi Gui et.al.	2408.15778	null	本文介绍了一个名为LogicGame的新基准，旨在评估大型语言模型（LLMs）在规则理解和执行、多步规划方面的全面能力。不同于传统的基准测试，LogicGame提供了多种游戏，其中包含一系列规则以及初始状态，要求模型理解并应用预定义规则来解决问题。我们创建了模拟情景，让模型执行或规划操作以达到特定目标。这些游戏场景专门设计以区分逻辑推理与仅依赖知识的能力，完全依赖于预设规则。这种分离允许对基于规则的推理能力进行纯粹的评估。评估不仅考虑最终结果，还考虑中间步骤，提供模型性能的全面评估。此外，这些中间步骤是确定性的，并且可以自动验证。LogicGame定义了从简单规则应用到复杂推理链的不同难度级别的游戏场景，以精确评估模型在规则理解和多步执行上的性能。通过使用LogicGame，我们测试了各种LLM，并发现了它们在基于规则的逻辑推理能力方面的显著不足。
2024-08-27	AgentMonitor: A Plug-and-Play Framework for Predictive and Secure Multi-Agent Systems	Chi-Min Chan et.al.	2408.14972	link	快速发展的大型语言模型（LLM）推动了基于LLM的代理兴起。近期研究发现，在多代理系统（MAS）中，每个代理执行特定角色时，其性能通常优于单一LLM。然而，配置MAS以完成任务仍然具有挑战性，因为任务表现仅在执行后才能观察到。受到LLM开发中的规模法则启发，我们探索是否能在任务执行前预测MAS的性能。为此，我们引入了AgentMonitor框架，该框架在代理层级集成，用于捕获输入和输出信息，并将这些信息转换为统计数据，用于训练回归模型预测任务性能。此外，AgentMonitor还能够实时对可能由恶意代理引发的安全风险进行纠正，从而减轻负面影响并增强MAS的安全性。实验结果表明，使用XGBoost模型在领域内场景下达到0.89的斯皮尔曼相关系数，在更具挑战性的场景下达到0.58。通过应用AgentMonitor，有害内容减少了6.2%，有益内容平均增加了1.8%，这显著提高了安全性和可靠性。相关的代码已开源在https://github.com/chanchimin/AgentMonitor。
2024-08-26	LLM-3D Print: Large Language Models To Monitor and Control 3D Printing	Yayati Jadhav et.al.	2408.14307	null	行业4.0通过推动数字化进程并转向增材制造（AM），彻底改变了制造业。熔融沉积建模（FDM）作为关键的AM技术之一，通过逐层挤出方式创建高度定制、成本效益高且材料浪费极小的产品，对传统减材方法构成了重大挑战。然而，材料挤出技术的易错性往往需要专家介入来检测和缓解可能严重损害产品质量的缺陷。虽然已存在自动化错误检测和机器学习模型，但它们在不同3D打印机设置、固件和传感器之间的通用性有限，并且深度学习方法需要大量的标记数据集，这限制了其规模性和适应性。为了解决这些挑战，我们提出了一种利用大型语言模型（LLMs）与3D打印技术相结合的过程监控和控制框架，旨在检测和解决打印缺陷。该LLM通过分析每层或打印段之后捕获的图像来评估打印质量，识别故障模式，并向打印机查询相关参数。然后，它生成并执行纠正措施计划。我们通过将提出的框架的有效性与一组具有不同AM专业知识的工程师进行了比较，以验证识别缺陷的能力。我们的评估表明，基于LLM的代理不仅准确识别常见的3D打印错误，如不一致的挤出、丝状堆积、翘曲和层粘合问题，而且还能有效确定导致这些失败的参数，并自主地进行修正，无需任何人工干预。
2024-09-02	MLR-Copilot: Autonomous Machine Learning Research based on Large Language Models Agents	Ruochen Li et.al.	2408.14033	link	机器学习研究对于技术进步和创新至关重要，但常常面临复杂性高、实验周期长以及需要专业知识等挑战。为了应对这些挑战，我们提出了一种新的系统框架——自主机器学习研究与大型语言模型（MLR-Copilot），旨在通过利用大型语言模型（LLM）代理自动生成并实施研究想法来提高机器学习研究的生产力。该框架包含三个阶段：研究想法生成、实验实现和执行。首先，通过基于LLM的IdeaAgent利用现有研究论文生成假设和实验计划。接下来，在实现生成阶段，将这些计划转化为可执行代码，使用ExperimentAgent完成此过程。此阶段利用检索到的原型代码，并根据需要检索候选模型和数据。最后，在执行阶段，也由ExperimentAgent管理，涉及运行实验，并通过人类反馈和迭代调试机制，以增加实现可执行研究成果的可能性。我们对五个机器学习研究任务进行了评估，实验结果表明了该框架促进研究进展和创新的潜力。
2024-08-26	AgentMove: Predicting Human Mobility Anywhere Using Large Language Model based Agentic Framework	Jie Feng et.al.	2408.13986	link	人类移动性预测在各种实际应用中扮演着关键角色。尽管深度学习模型在过去十年中显示出有希望的结果，但它们对用于训练的大量私人移动数据的依赖以及无法进行零启动预测的能力，阻碍了进一步的发展。最近，有人尝试使用大型语言模型（LLMs）来执行移动性预测任务。然而，他们的性能受限于缺乏系统的设计工作流程。他们直接使用LLMs生成最终输出，这限制了LLMs发现复杂移动模式的潜力，并低估了它们在全球地理空间知识方面的巨大储备。本文提出了一种名为AgentMove的系统性代理预测框架，以实现对任何全球城市的通用移动性预测。在AgentMove中，我们首先将移动性预测任务分解为三个子任务，并设计相应的模块来完成这些子任务，包括个体移动模式挖掘的空间-时间记忆、城市结构效应对模型的影响的全球知识生成器以及捕获人口共享模式的集体知识提取器。最后，我们将三个模块的结果结合起来，并执行推理步骤以生成最终预测。在来自两个来源的12个城市的数据上进行的广泛实验表明，与最佳基线相比，AgentMove在各种指标上的性能提高了超过8%，并且在不同城市中显示出了稳健的预测结果，且使用不同基础的LLM时也能表现出色，且具有较低的地理偏见。代码和数据可以在https://github.com/tsinghua-fib-lab/AgentMove找到。
2024-08-23	Optimizing Collaboration of LLM based Agents for Finite Element Analysis	Chuan Tian et.al.	2408.13406	null	本文探讨了大型语言模型（LLM）在编程和编码任务中的多代理交互。我们利用AutoGen框架促进代理之间的沟通，并基于每种设置的40次随机运行的成功率评估不同的配置。研究重点在于开发一个灵活的自动化框架，用于将有限元方法应用于解决线性弹性问题。我们的发现强调了优化代理角色及其明确职责的重要性，而不仅仅是增加代理数量。代理间的有效协作被证明对于解决有限元方法的一般挑战至关重要。这项研究展示了LLM多代理系统增强计算自动化在模拟方法学中的潜力，为工程和人工智能的未来进展铺平道路。
2024-09-01	Can LLMs Understand Social Norms in Autonomous Driving Games?	Boxuan Wang et.al.	2408.12680	null	本文探讨了大型语言模型（LLM）在理解与模拟自主驾驶游戏中社会规范的应用。通过将LLM集成到自主驾驶游戏中的智能代理角色中，我们基于文本提示让这些代理按照相关环境设定和观察信息做出决策。我们的框架涉及LLM驱动的代理在多代理系统（MAS）中进行马尔科夫游戏，以此研究个体代理之间社会规范的形成。我们设计实验，利用OpenAI聊天API（由GPT-4.0提供动力）在无信号交叉口游戏与高速公路车队游戏两种场景下模拟交互并评估LLM驱动代理的表现。结果显示，LLM驱动的代理能够处理马尔科夫游戏中的动态环境变化，并且在两个场景中，代理间形成了社会规范。在交叉口游戏中，当面临潜在车祸时，LLM驱动的代理倾向于采取保守的驾驶策略。LLM驱动代理在游戏中的优势在于其操作灵活性和可分析性，这有助于实验设计。
2024-08-22	MDD-5k: A New Diagnostic Conversation Dataset for Mental Disorders Synthesized via Neuro-Symbolic LLM Agents	Congchi Yin et.al.	2408.12142	link	在大多数精神疾病诊断中，临床医生与患者的对话是主要的诊断依据。创建这样的诊断对话数据集有望推动AI精神健康护理领域的发展。然而，直接在实际诊断场景中收集对话极为困难，原因在于隐私和伦理考虑的严格限制。为解决这一问题，我们尝试通过利用易于获取的匿名患者案例来合成诊断对话。具体而言，我们设计了一个神经符号多代理框架，使用大型语言模型合成精神障碍的诊断对话。该框架以患者案例作为输入，并能够生成针对单个患者案例的多个多样化的对话，其基本过程涉及医生代理与患者代理之间的互动，并通过工具代理实现基于符号控制的文本生成，借助动态诊断树。通过应用提出的方法，我们开发了包含1000个清洗过的实际患者案例、与一家领先的精神病医院合作构建的中国最大精神障碍诊断数据集MDD-5k，该数据集包含了5000个高质量的长对话及其诊断结果标签。据我们所知，这是第一个包含中文精神障碍诊断结果的标记数据集。人类评估表明，提出的MDD-5k数据集成功模拟了精神障碍的诊断过程。数据集和代码将在https://github.com/lemonsis/MDD-5k公开提供。
2024-08-20	FLAME: Learning to Navigate with Multimodal LLM in Urban Environments	Yunzhe Xu et.al.	2408.11051	link	大型语言模型（LLM）在视觉与语言导航（VLN）任务中展现出了潜在能力，但当前的应用仍面临挑战。虽然LLM在通用对话场景中表现出色，但在专门的导航任务上却表现不佳，相较于专为VLN设计的模型，其性能较差。为此，我们提出了一种名为FLAME（FLAMingo架构化实体代理）的新颖多模态LLM基元体和架构，旨在解决城市VLN任务，并有效处理多个观察结果。我们的方法采用了三阶段调优技术以适应导航任务，包括单感知调整以描述街景、多感知调整以总结轨迹以及在VLN数据集上进行端到端训练。合成的数据集是自动生成的。实验结果显示，FLAME在Touchdown数据集上的任务完成率优于现有方法，提高了7.3%。这项工作展示了多模态LLM在复杂导航任务中的潜力，并代表了迈向实际应用中多模态LLM于实体AI领域的进步。项目页面：https://flame-sjtu.github.io
2024-08-20	Athena: Safe Autonomous Agents with Verbal Contrastive Learning	Tanmana Sadhu et.al.	2408.11021	null	由于新兴能力的加持，大型语言模型（LLMs）被用作基于语言的代理，执行各种任务并作出日益自主的决策。这些自主代理能够理解高级指令、与环境互动，并使用可用工具集执行复杂任务。随着代理能力的扩展，确保其安全性和可信度变得愈发重要。本研究引入了Athena框架，利用了“口头对比学习”的概念，通过将过去的安全和不安全轨迹作为上下文（对比）示例来指导代理在完成给定任务的同时确保安全。该框架还整合了一种批判机制，以指导代理在每一步防止风险行为。此外，鉴于缺乏现有基准来评估基于LLM的代理的安全推理能力，我们收集了80个工具包，覆盖8个类别，共计180个场景，提供了一个安全评估基准。我们的实验评估显示，口头对比学习和交互级批判显著提高了安全性率。
2024-08-24	IDEA:Enhancing the Rule Learning Ability of Language Agents through Induction, Deduction, and Abduction	Kaiyu He et.al.	2408.10455	null	本文提出了一项名为RULEARN的新基准，旨在评估大型语言模型（LLMs）在交互环境中的归纳推理能力。在RULEARN中，代理通过与环境互动收集观察，并从中推断模式，以此解决问题。为了增强LLM代理在该基准上的归纳推理能力，我们引入了IDEA代理，它结合了归纳、演绎和溯因三种推理过程。IDEA代理通过结构化推理序列提升这一方法：首先通过溯因生成假设，然后通过演绎验证这些假设，最后根据反馈进行适应性修正。这种序列使代理能够动态建立并应用规则，模仿人类的推理过程。通过对五种代表性LLM的评估显示，尽管这些模型能够生成合理的初始假设，但在环境内的战略互动、有效整合反馈以及假设的适应性修正方面存在困难。而IDEA代理在RULEARN基准上表现出显著的性能提升，为我们开发能在现实世界场景中实现类似人类规则学习能力的代理提供了宝贵见解。我们将会发布我们的代码和数据。
2024-08-20	MegaAgent: A Practical Framework for Autonomous Cooperation in Large-Scale LLM Agent Systems	Qian Wang et.al.	2408.09955	null	随着大型语言模型（LLM）的兴起，LLM驱动的多智能体系统（LLM-MA系统）被提出以应对实际任务。然而，这些系统的智能体大多遵循在整体交互过程中保持不变的预定义标准操作程序（SOP），缺乏自主性和可扩展性。此外，当前解决方案往往忽视了有效智能体合作的必要性。为了克服上述限制，我们提出了MegaAgent，一个旨在促进大规模LLM智能体系统中自主合作的实用框架。MegaAgent利用智能体的自主性动态生成基于任务需求的智能体，集成了任务自动划分、智能体活动系统级规划与监控以及并发操作管理等功能。此外，MegaAgent采用层次结构设计，并利用系统级并行性来提升性能和增强通信效率。我们通过围棋游戏开发展示了MegaAgent的有效性，证明它在性能上超越了流行的LLM-MA系统；并通过国家政策模拟验证了其高自主性和快速扩展至590个智能体的能力，同时确保了它们之间的有效合作。我们的结果表明，MegaAgent是首个无预定义SOP、高效且具有高可扩展性的大规模LLM-MA系统，为该领域的进一步研究铺平了道路。我们的代码位于https://anonymous.4open.science/r/MegaAgent-81F3。
2024-08-19	GoNoGo: An Efficient LLM-based Multi-Agent System for Streamlining Automotive Software Release Decision-Making	Arsham Gholamzadeh Khoee et.al.	2408.09785	null	在汽车行业中，传统软件部署决策方法通常依赖于对表格化测试数据的手动分析。这些方法往往导致更高的成本和软件发布周期的延迟，主要是由于它们的劳动密集型特性。大型语言模型（LLM）为解决这些问题提供了有前景的解决方案。然而，它们的应用通常需要多轮的人工驱动提示工程，这限制了其在工业最终用户中的实际部署，特别是那些需要可靠和高效结果的用户。本文提出了一种名为GoNoGo的LLM代理系统，旨在简化汽车软件部署过程，同时满足功能要求和工业约束。与以往系统不同，GoNoGo特别针对特定领域和风险敏感系统进行了定制。我们使用来自工业实践的零次和少量次示例来评估GoNoGo在不同任务难度下的性能。结果显示，GoNoGo在难度不超过二级的3次示例任务中实现了100%的成功率，并且即使对于更复杂的任务也能保持高绩效。我们发现，GoNoGo有效地自动化了较简单任务的决策过程，显著减少了手动干预的需求。总之，GoNoGo代表了一个目前在我们的工业合作伙伴公司中被用于协助软件发布决策的高效且用户友好的LLM基解决方案，支持了风险敏感车辆系统发布过程中的更加明智和及时的决策。
2024-08-18	HiAgent: Hierarchical Working Memory Management for Solving Long-Horizon Agent Tasks with Large Language Model	Mengkang Hu et.al.	2408.09559	link	大型语言模型（LLM）驱动的代理在各个领域展现出巨大潜力，作为能够处理环境观察并生成执行动作以完成目标任务的交互系统。这些代理的有效性很大程度上受到其记忆机制的影响，该机制通过记录历史经验来形成一系列动作-观察对序列。我们将记忆分为两类：跨试记忆，积累于多次尝试中；以及单试记忆（工作记忆），积累于单一尝试内。尽管关于跨试记忆优化的研究已取得显著进展，但如何通过提升工作记忆利用效率来增强代理性能的探索仍相对不足。现有方法往往直接将整个历史动作-观察对输入到LLM中，导致在长期任务中存在冗余问题。受人类解决问题策略的启发，本文提出了一种名为HiAgent的框架，旨在通过将子目标作为记忆块来对LLM驱动的代理的工作记忆进行层次化管理。具体来说，HiAgent促使LLM在生成执行动作前先制定子目标，并允许LLM主动决定替换之前的子目标，仅保留与当前子目标相关的动作-观察对。在五个长期任务上的实验结果表明，HiAgent的成功率提高了两倍，平均步骤数减少了3.8个。此外，我们的分析显示，HiAgent在整个步骤中均能持续改善性能，这凸显了其稳健性和泛用性。项目页面：https://github.com/HiAgent2024/HiAgent
2024-08-15	EmBARDiment: an Embodied AI Agent for Productivity in XR	Riccardo Bovo et.al.	2408.08158	null	XR设备搭载由大型语言模型（LLMs）驱动的聊天机器人具有巨大的潜力，可以作为始终在线的代理，从而实现更高效的工作流程。然而，基于屏幕的聊天机器人并未充分利用XR所提供的全面自然输入，包括内部面向的传感器数据，而是过度依赖明确的声音或文本提示，有时还会与作为查询的一部分投射的多模态数据配对。我们提出了一种解决方案，利用注意力框架从用户行为、注视点和XR环境中的上下文记忆中隐式地推导出背景信息，从而最小化对工程化明确提示的需求，促进基于现实世界且直观的交互，这些交互能够洞察用户的见解并为聊天机器人提供信息。我们的用户研究展示了我们方法的可行性和在XR中与聊天机器人进行交互的潜在变革性，同时也为未来XR-实体LLM代理的设计提供了见解。
2024-08-15	Text2BIM: Generating Building Models Using a Large Language Model-based Multi-Agent Framework	Changyu Du et.al.	2408.08054	null	传统的建筑信息模型（BIM）创建过程通常要求设计师掌握复杂且繁琐的建模命令，以在BIM创建工具中实现其设计意图。这种额外的认知负担使设计过程变得复杂，并阻碍了建筑、工程和施工（AEC）行业对BIM和基于模型的设计的采用。为了更直观地表达设计意图，我们提出了一种基于大型语言模型（LLM）的多代理框架——Text2BIM。该框架能够从自然语言指令生成3D建筑模型。它通过协调多个LLM代理协作并推理，将文本用户输入转换为调用BIM创建工具API的指令代码，从而在软件中生成具有内部布局、外部外壳和语义信息的可编辑BIM模型。此外，引入了一种基于规则的模型检查器，利用预定义的领域知识指导LLM代理解决生成模型中的问题，并迭代改进模型质量。进行了大量实验来比较和分析在提议框架下三种不同LLM的表现。评估结果表明，我们的方法能够有效地生成高质量、结构合理且与用户输入指定的抽象概念相一致的建筑模型。最后，开发了一个交互式软件原型，将该框架集成到BIM创建软件Vectorworks中，展示了通过聊天进行建模的潜力。
2024-08-13	Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents	Pranav Putta et.al.	2408.07199	null	大型语言模型（LLM）在需要复杂推理的自然语言任务上展现了惊人的能力，但在交互环境中进行自主代理的多步骤推理应用仍然是一个挑战。传统的基于静态数据集的监督预训练不足以使自主代理具备在动态设置如网络导航中执行复杂决策所需的自主能力。以往通过监督微调来填补这一差距的方法往往面临累积错误和探索数据有限的问题，导致政策结果不佳。为了克服这些挑战，我们提出了一种框架，结合了引导式蒙特卡洛树搜索（MCTS）搜索与自我批判机制，并使用离策略变体的直接偏好优化（DPO）算法对代理互动进行迭代微调。这种方法允许LLM代理从成功和失败的轨迹中有效学习，从而在复杂、多步骤推理任务中提高其泛化能力。我们在WebShop环境（一个模拟电子商务平台）中验证了我们的方法，该环境在与行为克隆和强化微调基线相比时表现出色，并在配备在线搜索能力的情况下击败了平均人类性能。在实际预订场景中，我们的方法提高了Llama-3 70B模型的零射成功率从18.6%增加到81.7%（相对增加了340%），并在一天的数据收集后进一步增加到95.4%，并且通过在线搜索。我们认为这标志着自主代理能力的一个重大进步，在现实世界环境中实现更高级和可靠决策的道路。
2024-08-13	Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents	Kexun Zhang et.al.	2408.07060	null	大型语言模型（LLM）代理在解决实际世界软件工程（SWE）问题方面展现出巨大的潜力。最先进开源的SWE代理能够解决SWE-Bench Lite中超过27%的实际GitHub问题。然而，这些复杂的代理框架在表现上存在差异，有的在特定任务中表现出色，在其他任务中则表现不佳。为了充分利用这些代理的多样性，我们提出了DEI（多元化智能），一个旨在利用其独特专长的框架。DEI作为现有SWE代理框架之上的元模块，管理代理集体以实现增强的问题解决能力。实验结果显示，通过DEI指导的代理委员会能够显著超越单个代理的最佳性能。例如，一组开源SWE代理，其最高个体解决率在SWE-Bench Lite中为27.3%，在应用了DEI后，能够达到34.3%的解决率，实现了25%的改进，并击败了许多闭源解决方案。我们的最佳表现团队以55%的解决率在SWE-Bench Lite中取得最高排名。我们的研究结果对合作AI系统的研究领域做出了贡献，揭示了它们在解决复杂软件工程挑战方面的潜力。
2024-08-12	Hierarchical in-Context Reinforcement Learning with Hindsight Modular Reflections for Planning	Chuanneng Sun et.al.	2408.06520	null	大型语言模型（LLM）在各种语言任务上表现出惊人的能力，这使它们成为机器人决策的有希望候选者。受到层次强化学习（HRL）的启发，我们提出了一种新颖框架——在上下文中进行层次化的强化学习（HCRL）。该框架通过LLM基高层策略分解复杂任务，即通过在执行时动态分解复杂任务为子任务，从而利用高阶策略来定义目标，这些目标由子任务组成，并分配给低阶策略以完成。一旦LLM代理确定目标已完成，则会提出新的目标。为了提高多轮执行中的代理性能，我们提出了事后模块化反思（HMR），其中，代理不是对完整轨迹进行反思，而是将任务目标替换为中间目标，并让代理对较短的轨迹进行反思，以提高反思效率。我们在三个基准环境中评估了所提出的HCRL的决策能力——ALFWorld、Webshop和HotpotQA。结果表明，与强大的上下文学习基线相比，在五轮执行中，HCRL可实现9%、42%和10%的性能提升。
2024-08-12	Can We Rely on LLM Agents to Draft Long-Horizon Plans? Let's Take TravelPlanner as an Example	Yanan Chen et.al.	2408.06318	null	本文旨在填补大型语言模型（LLM）在自主代理与人工通用智能（AGI）接近过程中研究的空白。尽管LLM展现出出色的泛化能力和涌现能力，但目前缺乏对LLM驱动的代理行为、潜在失败原因以及如何提升其性能的研究，尤其是在具有挑战性的现实世界规划任务中的表现。为了填补这一缺口，我们利用了一个名为TravelPlanner的真实基准，其中的代理必须满足多个约束以生成准确的计划。通过TravelPlanner基准，我们针对四个关键研究问题进行了全面的实验：（1）LLM代理在处理长篇和嘈杂上下文时，对于推理和规划的鲁棒性是否足够？（2）少量提示是否会损害LLM代理在长上下文场景下的性能？（3）我们能否依赖细化来改进计划？（4）对LLM进行正负反馈结合的微调是否能带来进一步的提升？实验结果表明：首先，尽管LLM能够处理大量的参考信息和少量示例，它们在关注长上下文中关键部分的能力上仍然存在不足；其次，它们在分析长计划方面仍面临挑战，并且无法提供准确的反馈用于细化；第三，我们提出了Feedback-Aware Fine-Tuning（FAFT），一种利用正负反馈相结合的方法，相较于纯监督微调（SFT），FAFT在性能上取得了显著提升。我们的发现为社区提供了关于现实世界规划应用方面的深入见解。
2024-08-13	DataNarrative: Automated Data-Driven Storytelling with Visualizations and Texts	Mohammed Saidul Islam et.al.	2408.05346	null	数据驱动的故事叙述是一种强大的方法，通过结合叙事技巧与可视化和文本，来传达见解。这些故事融合了图表中的突出条形和线条以及解释见解的文本注释。然而，创建这样的故事需要对数据有深入的理解，并且需要精心的叙事规划，通常需要人类的介入，这既耗时又费心。虽然大型语言模型（LLMs）在各种NLP任务上表现出色，但在生成连贯和全面的数据故事方面的潜力仍然未被充分探索。为此，我们引入了一个新的任务——数据故事生成，并提供了一个包含来自不同来源的1,449个故事的基准。为了应对创造连贯数据故事的挑战，我们提出了一种多代理框架，利用两个LLM代理来模仿人类讲故事的过程：一个用于理解并描述数据、生成大纲和叙述，另一个则在每个中间步骤进行验证。尽管我们的代理框架在基于模型和人类评估中通常优于非代理对手，但结果也揭示了数据故事生成的独特挑战。
2024-08-08	Perceive, Reflect, and Plan: Designing LLM Agent for Goal-Directed City Navigation without Instructions	Qingbin Zeng et.al.	2408.04168	link	本文探讨了城市导航场景下的AI代理问题：提供目标位置与知名地标之间的语言描述；仅通过观察周围环境，包括识别地标和道路网络连接，代理需要作出决策以无指示地导航至目标位置。这一挑战性在于，它要求代理建立自身定位并获取复杂城市环境的空间表示，而地标往往不可见。在缺乏导航指令的情况下，这种能力对于代理在长距离城市导航中做出高质量决策至关重要。随着大型语言模型（LLMs）推理能力的涌现，一个吸引人的基础方法是提示LLMs对每次观察做出“反应”并据此作出决策。然而，这种方法的性能非常差，代理经常反复访问相同位置，并作出短视、不一致的决策。为解决这些问题，本文引入了一种新型的代理工作流程，其特征在于感知、反思和规划的能力。具体而言，我们发现经过微调的LLaVA-7B能够准确感知地标的方向和距离，适用于城市导航。此外，通过记忆机制实现反思，即存储过往经验并在当前感知下检索，以进行有效的决策论证。规划则利用反思结果生成长期计划，从而避免长距离导航中的短视决策。实验结果显示，设计的工作流程显著提高了LLM代理的导航能力，相较于最先进的基线方法。
2024-08-11	CodexGraph: Bridging Large Language Models and Code Repositories via Code Graph Databases	Xiangyan Liu et.al.	2408.03910	link	大型语言模型（LLM）在诸如HumanEval和MBPP的独立代码任务中表现出色，但它们在处理整个代码仓库时存在挑战。这促使研究界探索如何在仓库级别上增强LLM与代码库的交互。目前的解决方案依赖于基于相似性的检索或手动工具和API，每种方法都有其显著的缺点。基于相似性的检索在复杂任务中召回率往往较低，而手动工具和API通常针对特定任务，需要专家知识，降低了它们在不同代码任务和实际应用中的通用性。为了缓解这些限制，我们引入了CodexGraph系统，它结合了从代码仓库中提取的图数据库接口与LLM代理。通过利用图数据库的结构特性和图查询语言的灵活性，CodexGraph使LLM代理能够构建并执行查询，从而实现精确的、代码结构意识的上下文检索和代码导航。我们使用三个基准测试CodexGraph：CrossCodeEval、SWE-bench和EvoCodeBench。此外，我们开发了五个真实世界的编码应用。通过使用统一的图数据库模式，CodexGraph在学术和实际环境中都展示了竞争力和潜力，证明了其在软件工程领域的多用途性和有效性。我们的应用演示：https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent。
2024-08-07	Large Language Models for Base Station Siting: Intelligent Deployment based on Prompt or Agent	Yanhu Wang et.al.	2408.03631	null	传统的基站选址（BSS）方法主要依赖于驾驶测试和用户反馈，这既费时又需要在通信、网络和优化方面具备专业知识的专家。随着大型语言模型（LLMs）及其相关技术的发展，特别是在提示工程和代理工程领域，网络优化将见证一场革命性的转变。这种转变涉及巧妙地使用精心设计的提示来向这些复杂而先进的LLMs注入人类经验和知识，并通过自然语言连接到人类用户，部署自主代理作为通信桥梁。这种集成代表了人工智能（AI）作为一种服务和AI使生活更便捷的未来范式。作为初步探索，本研究首先开发了一个由LLM驱动的BSS优化框架，并提出了四种潜在的实现策略：基于优化提示的LLM（PoL）、人机交互的LLM（HiLL）、LLM驱动的自主BSS代理（LaBa）以及协同多个LLM驱动的自主BSS代理（CLaBa）。通过在真实数据上的评估，实验表明，借助提示的LLM和基于代理的LLM能够生成更为高效、成本效益高且可靠的网络部署，显著提高了BSS优化的效率并减少了不必要的手动参与。
2024-08-05	Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information	Yauwai Yim et.al.	2408.02559	null	Large language models (LLMs) have shown success in handling simple games with imperfect information and enabling multi-agent coordination, but their ability to facilitate practical collaboration against other agents in complex, imperfect information environments, especially in a non-English environment, still needs to be explored. This study investigates the applicability of knowledge acquired by open-source and API-based LLMs to sophisticated text-based games requiring agent collaboration under imperfect information, comparing their performance to established baselines using other types of agents. We propose a Theory of Mind (ToM) planning technique that allows LLM agents to adapt their strategy against various adversaries using only game rules, current state, and historical context as input. An external tool was incorporated to mitigate the challenge of dynamic and extensive action spaces in this card game. Our results show that although a performance gap exists between current LLMs and state-of-the-art reinforcement learning (RL) models, LLMs demonstrate ToM capabilities in this game setting. It consistently improves their performance against opposing agents, suggesting their ability to understand the actions of allies and adversaries and establish collaboration with allies. To encourage further research and understanding, we have made our codebase openly accessible.
2024-08-05	From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future	Haolin Jin et.al.	2408.02479	null	With the rise of large language models (LLMs), researchers are increasingly exploring their applications in var ious vertical domains, such as software engineering. LLMs have achieved remarkable success in areas including code generation and vulnerability detection. However, they also exhibit numerous limitations and shortcomings. LLM-based agents, a novel tech nology with the potential for Artificial General Intelligence (AGI), combine LLMs as the core for decision-making and action-taking, addressing some of the inherent limitations of LLMs such as lack of autonomy and self-improvement. Despite numerous studies and surveys exploring the possibility of using LLMs in software engineering, it lacks a clear distinction between LLMs and LLM based agents. It is still in its early stage for a unified standard and benchmarking to qualify an LLM solution as an LLM-based agent in its domain. In this survey, we broadly investigate the current practice and solutions for LLMs and LLM-based agents for software engineering. In particular we summarise six key topics: requirement engineering, code generation, autonomous decision-making, software design, test generation, and software maintenance. We review and differentiate the work of LLMs and LLM-based agents from these six topics, examining their differences and similarities in tasks, benchmarks, and evaluation metrics. Finally, we discuss the models and benchmarks used, providing a comprehensive analysis of their applications and effectiveness in software engineering. We anticipate this work will shed some lights on pushing the boundaries of LLM-based agents in software engineering for future research.
2024-08-07	SpecRover: Code Intent Extraction via LLMs	Haifeng Ruan et.al.	2408.02232	null	本文探讨了在大型语言模型（LLM）与程序分析能力结合的形式下，通过LLM代理自动执行程序改进和错误修复的高效低耗工作流程。由于程序改进或修复通常需要明确期望的行为规范，因此规范推断对于产生高质量的代码补丁至关重要。本研究旨在通过在软件项目中进行迭代代码搜索并配合规范推断来探索这一领域，从而从项目的结构和行为中推断出意图。捕获的意图将由审查者代理进行审查，以验证补丁的有效性，并提供对验证后补丁信心度量。我们的方法“SpecRover”（AutoCodeRover-v2）建立在开源的LLM代理AutoCodeRover之上。在使用SWE-Bench完整集评估时，即针对2294个GitHub问题，我们的方法显示了相对于AutoCodeRover超过50%的效率提升。与现有的开源代理相比，我们的工作在解决SWE-Bench lite中的平均GitHub问题时，成本仅为0.65美元。SpecRover生成的解释能够为开发者提供更明确的信号，表明建议的补丁可以被有信心地接受。此外，我们的工作还强调了即使在LLM时代，自动化程序修复技术中规范推断的重要性。
2024-08-03	The Drama Machine: Simulating Character Development with LLM Agents	Liam Magee et.al.	2408.01725	null	这篇论文探讨了使用多个大型语言模型（LLM）代理来模拟复杂动态角色在戏剧性场景中的应用。我们提出了一种“戏剧机器”框架，该框架协调了扮演不同“自我”和“超我”心理角色的LLM代理之间的互动。在角色扮演模拟中，这种设计允许在相互作用的对话和个体内部独白之间发展平行的交互。我们将此框架应用于两个戏剧场景——面试和侦探故事，并比较了在有无“超我”影响下角色发展的差异。尽管是初步研究，但结果表明，这种方法能够产生更加细腻、适应性强的故事，这些故事随着一系列对话回合的发展而演变。我们讨论了基于LLM的角色扮演的不同方式以及这可能对AI主体性的概念化意味着什么。论文最后考虑了这一方法如何为思考AI模拟中内在冲突和社会表演性的作用提供了可能性。
2024-08-03	WaitGPT: Monitoring and Steering Conversational LLM Agent in Data Analysis with On-the-Fly Code Visualization	Liwenhan Xie et.al.	2408.01703	null	大型语言模型（LLM）通过对话式用户界面支持数据分析，以OpenAI的ChatGPT（原名Advanced Data Analysis或Code Interpreter）为代表。本质上，LLM生成代码以完成各种分析任务。然而，直接呈现原始代码可能会使逻辑变得模糊，并妨碍用户验证。为了赋予用户对由LLM执行的数据分析进行增强理解与控制的能力，我们提出了一种新颖的方法来将LLM生成的代码转换为实时交互式的可视化表示。在该方法中，用户可以实时获得清晰、分步的LLM代码可视化，允许他们理解、验证并修改分析中的每个数据操作。我们的设计决策基于一项探索用户实践与挑战的形成性研究（N=8）。此外，我们开发了名为WaitGPT的原型，并进行了一项用户研究（N=12），以评估其可用性和有效性。用户研究的结果表明，WaitGPT有助于监控和引导由LLM执行的数据分析，使参与者能够提高错误检测能力并增加对结果的整体信心。
2024-08-03	Automated Phishing Detection Using URLs and Webpages	Huilin Wang et.al.	2408.01667	null	### 摘要本文项目聚焦于通过构建利用大型语言模型（LLM）的代理框架，以解决传统基于参考的钓鱼检测方法所面临的局限性。该框架通过主动获取和利用在线信息，提供了一个动态的参考系统，从而实现更精确的钓鱼检测。这一创新避免了依赖静态知识库的需求，显著提升了自动化安全措施的适应性和效率。 ### 项目概述项目报告首先对现有解决方案进行了初步研究和问题分析，促使我们开发出新的框架。我们以模拟的LLM代理来展示框架，并详细阐述了构建所需的技术，随后提供了完整实施的实例及实验，用于评估新方法相对于同类解决方案的性能。结果显示，我们的方法在准确度上达到了0.945，相比现有解决方案DynaPhish高出0.445个百分点。 ### 性能与局限实验结果表明，本框架能够显著提高当前基于参考的钓鱼检测方法的有效性，并具有适应实际应用的潜力。同时，我们也讨论了该方法的局限性，并提出了改进策略，旨在进一步提升其效能。 ### 结论提出的框架为增强现有的基于参考的钓鱼检测手段提供了有效途径，并且具备被应用于实际场景的可能性。
2024-08-01	AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation	Mengkang Hu et.al.	2408.00764	null	大型语言模型（LLM）基于的代理已引起广泛关注并变得越来越流行。此外，规划能力是LLM基于代理的关键组成部分，涉及与环境的交互和执行动作以完成规划任务，通常包括从初始状态达到预期目标的过程。本文研究了通过指令调优增强LLM规划能力的方法，即代理训练。近期的研究表明，利用专家级轨迹对指令调优LLM能有效提升其规划能力。然而，现有工作主要集中在从手动设计的任务和环境中合成轨迹，这导致创建这些环境和任务的劳动密集型，限制了生成足够多样性和广泛性的轨迹。为解决这一限制，本文探索了自动化合成多样化环境以及规划任务的渐进难度范围，从简单到复杂。我们引入了一个框架，名为AgentGen，利用LLM首先生成环境，随后根据这些环境生成规划任务。具体而言，为了提高环境多样性，我们提出使用包含不同领域特定文本段落的灵感语料库作为合成环境的上下文。此外，为了增加生成规划任务的难度多样性，我们提出了双向演化方法Bi-Evol，该方法从更容易和更难的方向进化规划任务，以合成具有平滑难度曲线的任务集。来自AgentBoard的评估结果显示，AgentGen显著提高了LLM的规划能力，例如，经过AgentGen指令调优的Llama-3 8B在整体性能上超越了GPT-3.5。而且，在某些任务中，它甚至超过了GPT-4。
2024-08-01	Jailbreaking Text-to-Image Models with LLM-Based Agents	Yingkai Dong et.al.	2408.00523	null	近期的进展显著提升了基于大型语言模型（LLM）的自主代理在自动任务解决能力方面的表现。然而，大多数基于LLM的代理主要集中在对话、编程或特定领域，这导致了在处理生成式AI安全任务时存在缺口。这些缺口主要是由LLM的幻觉问题以及缺乏明确指导原则所引发的。本文提出了一种名为Atlas的高级LLM基多代理框架，该框架集成了高效模糊化工作流程，专门针对针对文本到图像（T2I）模型的攻击行为，特别是针对具有安全性过滤器的T2I模型的“越狱”攻击。 Atlas利用视觉语言模型（VLM）来评估提示是否触发了T2I模型的安全性过滤器。然后，它通过迭代方式与LLM和VLM协作，生成一个绕过过滤器的替代提示。此外，Atlas通过利用多代理通信、上下文学习（ICL）记忆机制和思维链（COT）方法，增强了LLM在攻击场景中的推理能力。我们的评估表明，Atlas成功地在无模型设置下对多个最先进的T2I模型进行了“越狱”，这些模型都配备了多模态安全性过滤器。同时，Atlas在查询效率和生成图像质量方面均超越了现有方法。
2024-08-01	Autonomous LLM-Enhanced Adversarial Attack for Text-to-Motion	Honglei Miao et.al.	2408.00352	null	文本到动作（Text-to-Motion，T2M）模型通过深度生成模型驱动的人类运动生成，在应用中展现出令人信服的能力。然而，这些模型从文本提示生成真实动作的能力引发了安全问题，尤其是当它们可能被恶意利用时。尽管对T2M的兴趣日益增长，但很少有方法专注于保护这些模型免受对抗性攻击的影响。现有针对文本到图像模型的工作对于独特的动作领域来说并不充分。在本论文中，我们提出了一种名为ALERT-Motion的自主框架，它利用大型语言模型（LLMs）来构建针对黑盒T2M模型的有针对性的对抗性攻击。与先前的方法通过预定义规则修改提示不同，ALERT-Motion利用LLMs对人类动作的知识，自主生成微妙而强大的对抗性文本描述。该框架包含两个关键模块：一个适应性调度模块，构建了一个基于LLM的代理，以迭代地细化和搜索对抗性提示；以及一个多模态信息对比模块，提取与动作相关的关键语义信息，指导代理的搜索。通过这一基于LLM的方法，ALERT-Motion能够构造查询受害模型以产生与目标动作高度匹配的输出的对抗性提示，同时避免明显的扰动。在流行的T2M模型上进行的评估显示了ALERT-Motion相对于先前方法的优越性，其对抗成功率更高，并且对抗性提示更加隐蔽。这项关于T2M对抗性攻击的开创性工作强调了随着运动生成技术的发展，开发防御措施的紧迫性，这促使我们进一步研究安全和负责任的部署。
2024-07-31	Tulip Agent -- Enabling LLM-Based Agents to Solve Tasks Using Large Tool Libraries	Felix Ocker et.al.	2407.21778	null	我们提出了一种名为“tulip代理”的架构，旨在实现基于大型语言模型的自主智能体，具有对工具库中大量工具进行创建、读取、更新和删除的能力。与当前先进实现不同的是，“tulip代理”并不在系统提示中编码所有可用工具的描述，这会占用模型的上下文窗口，或在检索合适工具时嵌入整个提示。相反，“tulip代理”能够递归地在其可扩展的工具库中搜索合适的工具，该工具库作为向量存储实现。这种架构显著降低了推理成本，允许使用大量的工具库，并使代理能够适应并扩展其工具集。我们通过数学领域中的多个消融研究来评估该架构，并展示了其在机器人领域的通用性应用。参考实现和基准测试可在github.com/HRI-EU/tulip_agent上获取。
2024-07-31	Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent	Shanbo Cheng et.al.	2407.21646	link	在这篇论文中，我们提出了一种高质量且接近人类水平的实时语音翻译系统——跨语言代理——同时口译，简称CLASI。受专业口译员启发，我们采用了创新的数据驱动读写策略来平衡翻译质量和延迟时间。为了应对翻译领域特定术语的挑战，CLASI通过多模态检索模块获取相关资料以增强翻译内容。借助大型语言模型的支持，我们的方法能够考虑输入音频、历史语境以及检索到的信息，生成容错性较高的翻译结果。实验结果显示，我们的系统在各项指标上均显著优于其他系统。与专业口译员相媲美，我们使用了一个更好的评价指标——有效信息比例（VIP），它衡量了成功传达给听众的信息量。在现实世界场景中，演讲往往不流畅、非正式且模糊不清，CLASI在中英互译方向上的有效信息比例分别达到了81.3%和78.0%，而最先进的商业或开源系统仅分别为35.4%和41.6%。在极度困难的数据集上，当其他系统有效信息比例低于13%时，CLASI仍能实现70%的有效信息比例。
2024-07-30	Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification	Boyang Zhang et.al.	2407.20859	null	近期，基于大型语言模型（LLM）的自主代理在理论研究和实际应用方面均取得了显著进展。这些代理能够通过外部组件扩展基础LLM的能力，在多种方式下增强性能。例如，利用GPT-3.5-Turbo核心构建的代理可能在某些任务上超越更先进的GPT-4模型，关键在于其集成的工具可以使其在现实世界中执行操作，从单纯生成文本转向与环境的互动。鉴于代理在实际应用中的广泛部署及其对环境的直接影响能力，评估潜在漏洞变得至关重要。如果被恶意利用，这些自主系统可能造成的损害远大于单一语言模型。现有研究已探讨了LLM代理可能引发的有害行为，但我们的研究从一个全新的视角出发，关注于导致系统故障的攻击方式——即误导代理执行重复或无关的操作，从而引发功能紊乱。我们通过采用多样化的攻击方法、场景和属性，进行了全面的评估，旨在揭示这些攻击的脆弱性所在。实验结果表明，在多种情况下，这些攻击能够诱导故障率超过80%。我们进一步在多代理系统中实施并部署了代理，以此突出此类漏洞所引发的现实风险。为了应对上述攻击，我们提出了自我检查检测方法。然而，我们的研究发现，仅依靠LLM进行有效检测存在困难，这突显了该类漏洞所带来的重大风险。
2024-07-28	The Emerged Security and Privacy of LLM Agent: A Survey with Case Studies	Feng He et.al.	2407.19354	null	受大型语言模型（LLM）快速发展的启发，LLM代理已发展到能够执行复杂任务。这些代理在各个领域广泛应用于处理大量数据以与人类互动并执行任务，这凸显了它们的商业价值。然而，这也暴露了安全和隐私漏洞。目前阶段，对LLM代理的安全性和隐私性进行全面研究至关重要。本文综述旨在全面概述新出现的隐私和安全问题，这些问题由LLM代理面临。我们首先介绍LLM代理的基本知识，随后对其进行威胁分类和分析。接着讨论这些威胁对人类、环境和其他代理的影响。随后回顾现有防御策略，并最终探索未来趋势。此外，本文通过多种案例研究来促进更易于理解的解释。通过强调这些关键安全和隐私问题，本文旨在激发未来研究，以增强LLM代理的安全性和隐私性，从而在未来应用中提高其可靠性和可信度。
2024-07-26	OfficeBench: Benchmarking Language Agents across Multiple Applications for Office Automation	Zilong Wang et.al.	2407.19056	link	办公室自动化显著提高了人类的工作效率，通过自动完成工作流程中的常规任务。现有的人工智能文献主要集中在基本信息提取上，而办公室自动化研究应该扩展到更现实的办公室任务，这些任务需要整合办公室系统中的各种信息源，并通过一系列决策过程生成输出。我们引入了OfficeBench，这是第一个用于评估当前大型语言模型（LLM）代理在真实办公流程中处理办公任务能力的办公室自动化基准。 OfficeBench要求LLM代理进行可行的长期规划，高效地在应用程序之间切换，并基于工作流程的上下文需求，在庞大的联合动作空间内准确地定位其行动。通过在每个任务上应用我们的定制评估方法，我们发现GPT-4 Omni的通过率为47.00%，显示出在处理办公任务时具有不错的性能。然而，这仍然远低于实际办公流程所需的人类表现和准确性标准。进一步观察发现，大多数问题与操作冗余、幻觉以及在多个应用程序之间切换的限制有关，这可能为开发有效的自动化代理框架提供有价值的见解。
2024-07-30	MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains	Guoli Yin et.al.	2407.18961	link	近期大型语言模型（LLM）的发展推动了对全面基准的需求，以评估它们作为类人类代理的能力。现有的基准虽然有用，但往往聚焦于特定的应用场景，强调任务完成而非深入剖析驱动这些结果的底层技能。这种缺乏细节性使得难以精确地识别失败的原因。此外，设置这些环境需要大量的工作，并且在交互式任务中，不一致性与可重复性问题有时会出现。为了应对这些局限性，我们引入了大规模多任务代理理解（MMAU）基准，它通过无需复杂环境设置的全面离线任务来实现。MMAU覆盖了五个领域：工具使用、有向无环图（DAG）问答、数据科学和机器学习编程、竞赛级别的编程和数学，并涵盖了五种关键能力：理解、推理、规划、问题解决和自我修正。总计包括20个精心设计的任务和超过3千个独特的提示，MMAU提供了一个全面框架，用于评估LLM代理的优势和限制。通过对18个代表性模型在MMAU上的测试，我们提供了深入而有洞察力的分析。最终，MMAU不仅揭示了LLM代理的能力和限制，还增强了对其性能的可解释性。MMAU的数据集和评估脚本已发布于https://github.com/apple/axlearn/tree/main/docs/research/mmau。
2024-07-29	PersonaGym: Evaluating Persona Agents and LLMs	Vinay Samuel et.al.	2407.18416	null	Persona代理人，一种根据分配的人设行事的LLM代理，在各个应用领域展现出卓越的上下文响应能力。这些代理在教育、医疗保健和娱乐等不同行业中提供了显著的增强，因为模型开发者可以将代理响应与不同的用户需求对齐，从而扩展了代理应用的范围。然而，评估Persona代理性能极为困难，主要是由于在各种相关环境中的自由形式交互中评估人设一致性复杂性的挑战。我们引入了PersonaGym，首个动态评估框架，用于评估Persona代理，并提出了PersonaScore，首个基于决策理论的自动化人类对齐指标，用于全面大规模评估Persona代理。通过使用包含200个人设和10000个问题的基准，对6个开源和闭源的LLM进行评估，我们揭示了在最先进的模型中，Persona代理能力存在巨大的改进空间。例如，Claude 3.5 Sonnet的PersonaScore仅比GPT 3.5提高了2.97%，尽管Claude 3.5 Sonnet是一个更先进的模型。重要的是，我们发现模型大小和复杂性的增加并不一定意味着Persona代理能力的提升，这凸显了忠实和高效Persona代理算法和架构创新的迫切需要。
2024-08-03	PyBench: Evaluating LLM Agent on various real-world coding tasks	Yaolun Zhang et.al.	2407.16732	link	为了填补现有基准在简化任务和复杂特定任务方面的局限性，我们引入了PyBench，一个涵盖五大类真实世界任务的基准。这些任务涉及超过10种类型的文件，旨在全面覆盖日常编码需求。当用户提出高阶查询并提供相关文件时，LLM代理需要通过代码解释器执行Python代码进行多轮推理，最终生成满足用户需求的回答。成功解决PyBench中的任务要求代理具备广泛的Python包理解能力、高级推理能力和从执行代码中获取反馈的能力。我们的评估表明，当前开源的LLM模型在处理这些任务方面存在挑战。因此，我们对四种数据集进行了分析和实验，证明了解决PyBench所需的是全面的能力。我们精心调优的8B大小模型：PyLlama3，在PyBench上的表现令人兴奋，超越了许多更大规模（33B和70B）的模型。我们的基准、训练数据集和模型在GitHub上提供：https://github.com/Mercury7353/PyBench
2024-07-23	LawLuo: A Chinese Law Firm Co-run by LLM Agents	Jingyun Sun et.al.	2407.16252	link	大型语言模型（LLM）在为非法律背景用户提供法律咨询服务方面展现了巨大的潜力，这主要得益于它们在文本理解和生成方面的卓越能力。然而，现有的中文法律LLM仅限于单个模型与用户之间的对话交互，与律师事务所中多员工共同参与的咨询形式不同。这种限制使得咨询体验不那么真实。此外，现有中文法律LLM存在关键问题：（1）对指导微调数据质量控制不足；（2）由于用户查询的模糊性导致模型产生幻觉；（3）在多轮对话中，模型遵循指令的能力下降。针对这些挑战，我们提出了一种名为“LawLuo”的新型法律对话框架，利用多个LLM代理的协作能力，每个代理负责不同的功能，共同为用户提供全面的法律咨询服务。此外，我们构建了两个高质量的法律对话数据集KINLED和MURLED，并使用ChatGLM-3-6b对数据集进行微调。我们还提出了一个名为ToLC的法律查询澄清算法。实验结果表明，与GPT-4等基线LLM相比，LawLuo在律师风格的语言表达、法律建议的有效性以及法律知识的准确性三个方面均表现出更优性能。我们的代码和数据集可访问于https://github.com/NEFUJing/LawLuo。
2024-07-21	Multi-Agent Causal Discovery Using Large Language Models	Hao Duong Le et.al.	2407.15073	null	大型语言模型（LLM）在利用其从大量文本语料库中获取的广泛专家知识进行因果发现任务方面展示了巨大的潜力。然而，LLM在因果发现中的多代理能力尚未得到充分探索。本文提出了一种通用框架来研究这一潜力。首先，是元代理模型，它完全依赖于LLM代理之间的推理和讨论来进行因果发现。其次，是编码代理模型，它利用代理的规划、编写和执行代码的能力，结合高级统计库进行因果发现。第三，是混合模型，它将元代理模型和编码代理模型的方法相结合，融合了多个代理的统计分析和推理技能。我们的提议框架通过有效地利用LLM的专家知识、推理能力、多代理合作以及统计因果方法，显示出了有希望的结果。通过探索LLM的多代理潜力，我们旨在为利用LLM的多代理解决因果相关问题奠定基础。
2024-07-19	KoMA: Knowledge-driven Multi-agent Framework for Autonomous Driving with Large Language Models	Kemou Jiang et.al.	2407.14239	null	大型语言模型（LLM）作为自主代理提供了一种通过知识驱动方式解决现实世界挑战的新途径。这些基于LLM的方法在泛化和可解释性方面表现出色。然而，驾驶任务的复杂性往往需要多个异构代理的合作，这凸显了LLM驱动的代理需要进行合作知识共享和认知协同的必要性。尽管LLM充满潜力，但当前的应用主要集中在单个代理场景。为了拓展知识驱动策略的范围并增强自主代理的一般化能力，我们提出了KoMA框架，该框架包括多代理交互、多步规划、共享内存和基于排名的反思模块，旨在增强复杂驾驶场景下多代理的决策制定能力。根据框架生成的驾驶场景文本描述，多代理交互模块使LLM代理能够分析和推断周围车辆的意图，类似于人类的认知过程。多步规划模块使LLM代理能够逐层分析和获得最终行动决策，确保短期行动决策的一致目标。共享内存模块可以积累集体经验，以做出更优决策，而基于排名的反思模块则用于评估和改进代理行为，以提高驾驶安全性和效率。KoMA框架不仅增强了自主驾驶代理的稳健性和适应性，还显著提升了它们在不同场景下的通用能力。实验结果表明，我们的方法在处理复杂的、不可预测的驾驶环境时优于传统方法，特别是在不需要大量重新训练的情况下。
2024-07-17	Leveraging Environment Interaction for Automated PDDL Generation and Planning with Large Language Models	Sadegh Mahdavi et.al.	2407.12979	null	大型语言模型（LLM）在各种自然语言任务中表现出卓越的性能，但它们在需要结构化推理的规划问题上往往表现不佳。为了克服这一局限性，将规划问题转化为规划领域定义语言（PDDL）被提出作为一种潜在解决方案，这使得自动化规划器能够应用。然而，生成准确的PDDL文件通常需要人工输入或修正，这既耗时又成本高昂。本文提出了一种新颖的方法，利用LLM和环境反馈自动生成PDDL领域和问题描述文件，而无需人工干预。我们的方法引入了一个迭代细化过程，该过程生成多个问题PDDL候选，并根据与环境交互获得的反馈逐步细化领域PDDL。为了指导细化过程，我们开发了探索漫步（EW）度量，它为LLM提供了丰富的反馈信号来更新PDDL文件。我们在PDDL环境中评估了我们的方法，实现了66%的任务解决率，相比之下，使用GPT-4进行内在规划并配合链式思考提示的方法仅实现了29%的任务解决率。我们的工作使使用LLM和环境反馈自动建模规划环境成为可能，消除了在PDDL生成过程中需要人工干预的需求，为LLM代理在挑战性问题上的更可靠应用铺平了道路。
2024-07-16	Review-Feedback-Reason (ReFeR): A Novel Framework for NLG Evaluation and Reasoning	Yaswanth Narsupalli et.al.	2407.12877	null	评估自然语言生成（NLG）输出的质量，尤其是大型语言模型（LLMs）产生的输出，面临着巨大的挑战。传统方法要么依赖于资源密集型的人类评估，要么使用自动化指标，这些指标往往与人类判断的相关性较低。这项研究提出了一种名为Review-Feedback-Reason（ReFeR）的创新评估框架，用于利用LLM代理进行NLG评估。我们通过在两个现有的基准数据集上对ReFeR进行严格测试，在多种NLG任务中进行了测试。 ReFeR不仅提高了NLG评估的准确性，相对于之前的基准提高了约20%，而且生成了建设性的反馈，并显著增强了集体推理能力。这种反馈被用于创建指令调优数据集，当这些数据集用于微调较小的模型（如Mistral-7B）时，使它们成为非常优秀的评估者，与人类评估具有更好的相关性，并且性能几乎与GPT-3相当。我们的方法的有效性通过在三个推理基准上的应用得到了突出，其中ReFeR优于大多数最先进的方法，并且在平均值上分别比GPT-3.5 Turbo和GPT-4在推理能力上高出约11.67%和1%。
2024-07-17	AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases	Zhaorun Chen et.al.	2407.12784	link	LLM代理在各种应用中展现了卓越的性能，主要得益于它们在推理、利用外部知识和工具、调用API以及执行操作以与环境互动方面的高级能力。当前的代理通常使用内存模块或检索增强生成（RAG）机制，从知识库中检索过往知识和具有相似嵌入的实例，以指导任务规划和执行。然而，对未经验证的知识库的依赖引发了关于其安全性和可信度的重大担忧。为了揭示这些脆弱性，我们提出了一种新颖的红队方法AgentPoison，这是针对通用和RAG基于的LLM代理的第一个后门攻击，通过污染其长期记忆或知识库来实现这一目标。具体而言，我们将触发器生成过程建模为一个约束优化问题，旨在优化后门触发器，使其将触发实例映射到独特的嵌入空间，从而确保每当用户指令包含优化后的后门触发器时，高概率地从被污染的记忆或知识库中检索到恶意示例。同时，不包含触发器的良性指令仍能保持正常性能。与传统的后门攻击不同，AgentPoison无需额外的模型训练或微调，且优化后的后门触发器展现出优越的迁移性、上下文内连贯性和隐蔽性。广泛的实验结果证明了AgentPoison在对抗三种真实世界的LLM代理：RAG基于的自动驾驶代理、知识密集型问答代理和医疗健康EHRAgent方面的有效性。在每个代理上，AgentPoison平均攻击成功率超过80%，对良性性能的影响最小（低于1%），污染率小于0.1%。
2024-07-16	InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback	Haishuo Fang et.al.	2407.11843	null	在实际应用中部署基于大型语言模型（LLM）的代理的关键要求是对可能引发风险或不可逆错误的鲁棒性。然而，现有研究缺乏对LLM代理执行推理路径的前瞻评估，这导致了确保安全可靠操作方面的缺口。为探索更好的解决方案，本文引入了InferAct，一种新颖的方法，利用了LLM的理论思维能力，主动检测潜在错误，以防止关键行动的执行（例如，在自动在线交易或网络购物中的“立即购买”）。InferAct还能够整合人类反馈，以防止不可逆风险并增强行动代理的决策过程。在三个广泛使用的任务上进行的实验证明了InferAct的有效性。提出的解决方案提供了开发可以在涉及关键决策的不同环境安全部署的LLM代理的新方法和具体贡献。
2024-07-16	How Personality Traits Influence Negotiation Outcomes? A Simulation based on Large Language Models	Yin Jou Huang et.al.	2407.11549	null	心理证据揭示了个性特质对决策的影响。例如，和善性通常与谈判中的积极结果相关联，而神经质则经常与较少有利的结果联系在一起。本文提出了一种基于大型语言模型（LLM）的仿真框架，该框架包含了具有合成个性特质的仿真代理。这些代理在讨价还价领域内进行谈判，并且拥有可定制的个性和目标。实验结果显示，LLM基座仿真中的行为倾向能够重现人类谈判中观察到的行为模式。贡献有两个方面。首先，我们提出了一种仿真方法论，以探究语言能力和经济能力在LLM代理之间的匹配程度。其次，我们提供了关于大五个性特质在双边谈判结果策略影响方面的实证见解。我们还提供了一个基于合成讨价还价对话的案例研究，揭示了一些引人入胜的行为，包括欺骗性和妥协性行为。
2024-07-16	Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning	Yulong Wang et.al.	2407.10718	link	基于大型语言模型（LLM）的现有代理展示了强大的问题解决能力，通过整合LLM的内在知识、强大的上下文学习和零样本能力以及人类设计的复杂LLM调用工作流程与工具的结合。然而，这些代理在长期推理方面仍存在局限性，并且未能充分利用现有工具的潜力，导致在复杂的现实世界推理场景中出现明显的缺陷。为了应对这些限制，我们引入了Sibyl，一个简单而强大的基于LLM的代理框架，旨在通过高效利用最少的工具集来解决复杂推理任务。受到全球工作空间理论的启发，Sibyl整合了一个全局工作空间，以增强系统内部的知识和对话历史的管理和共享。此外，根据心智社会理论的指导，Sibyl实施了一个多代理辩论为基础的陪审团，用于自我细化最终答案，确保全面平衡的方法。这一方法旨在减少系统复杂性，同时扩大可解决的问题范围——从人类几分钟内就能解决的问题到需要数小时甚至几天才能解决的问题，从而实现从系统1到系统2思考方式的转变。Sibyl的设计重点在于可扩展性和调试的简便性，通过从一开始就融入函数编程中的重入概念，旨在实现无缝和低努力的集成到其他LLM应用中，以提高其能力。我们的实验结果表明，使用GPT-4实例化的Sibyl代理在GAIA基准测试集上的表现最佳，平均得分为34.55%，超越了基于GPT-4的其他代理。我们希望Sibyl能够激励更多可靠且可复用的基于LLM的代理解决方案，以应对复杂的现实世界推理任务。
2024-07-15	Leveraging Hybrid Intelligence Towards Sustainable and Energy-Efficient Machine Learning	Daniel Geissler et.al.	2407.10580	null	本文提出了一种利用混合智能以实现可持续和能源意识的机器学习的方法。在机器学习模型开发过程中，人们往往只关注最终模型性能的优化，而忽略了过程本身的效率。此外，在近期，由于复杂和大规模计算过程对环境的巨大影响，能源效率变得同样重要。本工作的贡献在于通过人机交互（Human-in-the-loop，HITL）和大型语言模型（Large Language Model，LLM）代理的集成，强调并进一步解决机器学习开发过程中的低效问题。简而言之，本文旨在通过结合人类的直觉、经验和AI的高效计算能力，改进机器学习流程的效率和环境友好性。通过引入HITL和LLM作为辅助工具，我们旨在识别和优化机器学习开发过程中的瓶颈，从而减少资源消耗，并促进更加可持续的AI实践。这一方法不仅有助于提高模型的训练速度和效率，还能降低能耗，对环境保护产生积极影响。
2024-07-15	CIBench: Evaluating Your LLMs with a Code Interpreter Plugin	Songyang Zhang et.al.	2407.10499	link	在基于LLM（大型语言模型）的代理取得显著进展的同时，对其能力的基准测试变得具有挑战性，这阻碍了对它们局限性的清晰理解。本文提出了一种交互式评估框架——CIBench，以全面评估LLM在数据科学任务中利用代码解释器的能力。我们的评估框架包括一个评估数据集和两种评估模式。评估数据集通过LLM与人类合作的方式构建，通过连续且互动的IPython会话模拟真实工作流程，从而实现对LLM能力的全面评估。两种评估模式分别考察了在有无人类辅助下，LLM的能力表现。我们进行了大量的实验，分析了24个LLM在CIBench上的表现，并提供了对未来在代码解释器利用方面发展LLM的宝贵见解。
2024-07-14	All Roads Lead to Rome: Unveiling the Trajectory of Recommender Systems Across the LLM Era	Bo Chen et.al.	2407.10081	null	推荐系统（RS）在应对信息过载和提供个性化内容方面至关重要，以满足用户多样化的信息需求。大型语言模型（LLM）的兴起为重新定义推荐系统提供了新的前景，利用其广泛的一般知识和推理能力。站在LLM时代，我们旨在将推荐系统整合到更广阔的框架中，并为未来的研究开辟更全面的解决方案。因此，我们首先提供了一个全面的技术进展概述，特别是针对语言基础模型及其在推荐中的应用。我们识别了现代推荐系统的两条演化路径——基于列表的推荐和对话式推荐。这两条路径最终在具有长期记忆、反思和工具智能优势的LLM代理上交汇。沿着这两条路径，我们指出推荐信息的有效性得到了提高，而用户的获取成本则降低了。我们仔细研究了每个里程碑的技术特性、研究方法论以及内在挑战，从传统的基于列表的推荐到增强的LLM推荐再到带有LLM代理的推荐。最后，我们强调了几个对于未来个性化技术与界面发展至关重要的未解决挑战，并讨论了未来前景。
2024-07-14	Revolutionizing Bridge Operation and maintenance with LLM-based Agents: An Overview of Applications and Insights	Xinyu-Chen et.al.	2407.10064	null	在人类社会发展各工业领域中，人们一直在寻求解放劳动力的方法。构建基于大规模语言模型的代理被视为实现这一目标的高效工具。作为具备感知、规划、决策和行动能力的人类智能实体，代理已经在众多领域创造了显著的生产价值。然而，桥梁维护与管理（O&M）领域相比其他行业，其智能化水平相对较低。尽管如此，该领域已经发展了众多智能检测设备、机器学习算法以及自主评估和决策方法，为本领域的人工智能突破奠定了基础。本研究旨在探讨基于大型语言模型的AI体对桥梁O&M领域的影响，分析它对核心任务可能带来的挑战与机遇。通过深入研究和分析，期望能为理解这一领域智能化应用提供更全面的视角。
2024-07-11	Incorporating Large Language Models into Production Systems for Enhanced Task Automation and Flexibility	Yuchen Xia et.al.	2407.08550	link	这篇论文提出了一种新颖的方法，旨在将大型语言模型（LLMs）整合到自动化生产系统中，以提升任务自动化和灵活性。我们根据自动化金字塔构建生产操作的层级结构，将原子操作功能抽象为微服务，并通过专用的数字孪生系统进行调用执行。这为协调生产流程提供了可扩展且灵活的基础。在数字孪生系统中，低层次的、硬件特定的数据被赋予语义，使得LLMs能够理解和处理生产计划与控制任务。当接收到用户请求或识别到触发事件时，LLMs会生成生产流程计划，然后将其分解为一系列微服务，在现实世界的自动化系统中执行。我们在实验室的模块化自动化设施上实现了这一整体方法，通过一个实际案例展示了LLMs如何处理生产规划和控制任务，从而实现了一个直观、自动化程度高且更具灵活性的生产环境。最后，我们指出了实现LLMs在自主系统中的全部潜力所面临的局限性，并强调了其潜在的有益之处。有关此系列研究的演示可在以下链接访问：https://github.com/YuchenXia/GPT4IndustrialAutomation。
2024-07-11	PrefCLM: Enhancing Preference-based Reinforcement Learning with Crowdsourced Large Language Models	Ruiqi Wang et.al.	2407.08213	null	## 翻译偏好驱动的强化学习（PbRL）作为一种新兴的方法，通过人类比较反馈教导机器人，避免了复杂的奖励工程的需求。然而，现有PbRL方法需要大量反馈，往往导致对由脚本教师生成的合成反馈的依赖，这又回到了复杂的奖励设计，并难以适应人类-机器人交互（HRI）场景中用户对同一任务的独特期望。为解决这些问题，我们提出了一种新颖的框架——PrefCLM，它利用大规模语言模型（LLMs）作为模拟教师参与PbRL。我们运用Dempster-Shafer理论在分数级别融合来自多个LLM代理的个人偏好，有效利用它们的多样性和集体智慧。同时，我们引入了一个用户参与的流程，以促进基于用户交互的集体精进。在各种通用强化学习任务中的实验结果显示，PrefCLM在性能上与传统脚本教师相当，并且在促进更自然、高效的机器人行为方面表现出色。一个现实世界的用户研究（N=10）进一步证明了它在个性化用户偏好的能力，显著提高了HRI场景中的用户满意度。
2024-07-10	Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities	Tianjie Ju et.al.	2407.07791	link	随着大型语言模型（LLMs）在多代理系统中的迅速应用，它们在协作问题解决和自主谈判等领域的出色性能引起了关注。然而，这些基于LLM的多代理系统的安全问题尚未得到充分研究，尤其是在知识操纵传播方面。本文通过构建详细的威胁模型和模拟环境，模拟现实世界中的多代理部署在可信平台上，探讨这一关键问题。我们提出了一种新颖的两阶段攻击方法，包括说服性注入和操纵知识注入，来系统地探究在无明确提示操纵的情况下，如何潜在地传播操纵知识（如虚构和有害知识）。我们的方法利用了LLMs处理世界知识固有的漏洞，攻击者可以借此无意识地传播编造的信息。实验结果表明，我们的攻击方法能够成功诱导基于LLM的代理在交流中传播这两种操纵的知识，同时不会显著降低它们的基础功能。此外，我们发现这些操纵会持续存在于流行的检索增强生成框架中，即使交互结束，若干良性代理也可能继续受到操纵聊天记录的影响。我们的发现揭示了LLM基多代理系统中的重大安全风险，强调了对操纵知识传播进行强大防御的迫切需求，例如引入“守护”代理和先进的事实核查工具。
2024-07-09	Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with Large Language Models	Logan Cross et.al.	2407.07086	link	在多智能体强化学习（MARL）方法中，处理多智能体系统的非stationarity并适应在线学习的能力是一个挑战。为此，我们利用大型语言模型构建了一个自主的解决策略。我们的新型智能体“假设心智”（Hypothetical Minds）采用认知启发式架构，包括感知、记忆和两个抽象层次上的分层规划模块。其中的关键部分是“心理理论”模块，它通过自然语言生成对其他智能体策略的假设，并根据这些假设对其他智能体行为的预测进行评估和迭代优化。通过这种方式，假设心智在Melting Pot基准中的多种竞争、混合动机和协作环境中，无论是二元还是群体环境，都显著优于先前的语言模型智能体（LLM-agent）和强化学习基础线。对比实验还显示，假设的评估和精炼对于在复杂场景中取得成功至关重要。
2024-07-09	Richelieu: Self-Evolving LLM-Based Agents for AI Diplomacy	Zhenyu Guan et.al.	2407.06813	null	## 背景在人类社会中，外交是一种极其复杂的活动，涉及众多各方/行动者的互动，需要具备社会推理、谈判技巧和长期策略规划等多方面能力。以往的AI代理已经在处理多步骤游戏和大动作空间的多代理任务上展示了实力。然而，外交所涉及的决策空间范围惊人，特别是在需要谈判的阶段。近期，大型语言模型（LLM）在一些应用中展现出了超越前代的能力，但仍不足以应对复杂多代理环境中长时间的规划。借助尖端的LLM技术，我们首次尝试探索AI在如此全面的多代理使命中的上限，通过整合三个核心且关键的功能，以构建更强的基于LLM的社会性代理：1）具有记忆和反思的策略规划者；2）目标导向的、具备社会推理的谈判者；3）通过自我对弈游戏增强记忆，实现无人工干预的自我进化。
2024-07-10	FinCon: A Synthesized LLM Multi-Agent System with Conceptual Verbal Reinforcement for Enhanced Financial Decision Making	Yangyang Yu et.al.	2407.06567	null	大型语言模型（LLMs）在执行复杂任务方面展现出显著潜力，并越来越多地应用于金融领域。然而，高质量的连续投资决策过程仍面临挑战，它需要与不断变化的环境进行多次交互，以最大化回报并管理风险。尽管已经开发出基于LLMs的代理系统，它们能够超越人类团队，实现投资收益，但如何优化多源信息整合和决策结果，通过实时经验改进，仍有待探索。为此，我们提出FinCon，一个专为多样化的金融任务设计的基于LLM的多代理框架，其特点在于概念化口头强化和财务组织结构的运用。 FinCon借鉴现实世界投资公司的组织架构，采用经理-分析师的沟通层次，促进跨职能代理间的协同合作，通过自然语言交流实现目标统一。每个代理都具备比人类更大的记忆容量，这有助于更高效的信息处理。此外，FinCon还引入了一个风险控制组件，定期启动自我批判机制，以更新系统的投资理念。这些概念化的信念作为口头强化，指导未来行为，并可根据需要选择性地传递给需要更新知识的节点，从而减少不必要的信息交流成本，提高性能。 FinCon在单一股票交易和资产管理等不同金融任务上表现出强大的泛化能力，证明了其在实际金融场景中的应用潜力。
2024-07-08	Enhancing Language Model Rationality with Bi-Directional Deliberation Reasoning	Yadong Zhang et.al.	2407.06112	null	该论文提出了一个新颖的推理方法——双向决策解放推理（BIDDER），旨在提升语言模型的决策合理性。传统推理方法通常依赖历史信息，采用单向（从左到右）的推理策略，这导致对潜在未来结果的认识不足，以及历史背景的整合不够充分，从而产生次优决策。BIDDER通过融合理性决策的原则，特别是处理不确定性并预测期望效用，弥补了这一短板。其方法包括三个关键步骤：从历史数据中推断隐藏状态，以表示决策过程中的不确定信息；利用这些隐藏状态预测未来的潜在状态和可能结果；结合历史信息（过去情境）和长期结果（未来情境），以指导推理。通过双向推理，BIDDER能够全面考虑过去和未来的情境，从而做出更明智、更理性的决策。我们在扑克（限注德州扑克）和谈判两个明确场景中测试了BIDDER的效果，实验显示它显著提高了语言模型和基于语言模型的代理的决策能力。
2024-07-08	Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation	Jiaqi Chen et.al.	2407.05890	null	基于语言模型的代理在视觉导航（VLN）任务中展现出零样本的强大性能。然而，这些方法仅关注解决高层任务规划，通过选择预定义导航图中的节点进行移动，忽视了现实场景中低层次的控制。为了弥补这一不足，我们提出了AO-Planner，一个新颖的面向可及性规划的连续视觉导航框架。AO-Planner整合多种基础模型，实现面向可及性的运动规划和动作决策，均以零样本的方式执行。具体来说，我们采用了视觉可及性提示（VAP）方法，利用SAM分割可见地面，提供导航可及性信息，从而让语言模型选择潜在的下一个路标，并生成向选定路标的低层次路径规划。此外，我们引入了高级代理PathAgent，识别出最可能的像素级路径，并将其转换为三维坐标，以完成低层次的移动。在具有挑战性的R2R-CE基准测试上，AO-Planner实现了最先进的零样本性能提升（SPL指标提高5.5%）。我们的方法有效连接了语言模型与三维世界，避免了直接预测世界坐标点的困难，为利用基础模型进行低层次运动控制提供了新的前景。
2024-07-05	VRSD: Rethinking Similarity and Diversity for Retrieval in Large Language Models	Hang Gao et.al.	2407.04573	null	在大型语言模型（LLMs）快速发展的背景下，向量检索算法对于满足相似度和多样性要求的语义查询至关重要。尽管Maximal Marginal Relevance（MMR）在涉及这两个需求的检索场景中被广泛应用，但其参数λ的变化会导致结果波动，使得向量空间中的优化路径变得模糊。此外，当前缺乏对相似性和多样性在检索过程中约束的坚实理论分析。本文提出了一种新方法，通过查询向量与求和向量之间的关系来刻画这两种约束。这种关系确保了相似性，同时要求求和向量中的各个向量以分散的方式与查询向量对齐，以满足多样性需求。我们还提出了一个新的组合优化问题：从一组候选向量中选择 $k$ 个，使得它们的求和向量最大程度地与查询向量匹配。我们证明了这个问题是NP完全的，揭示了在向量检索中同时追求相似性和多样性的深刻困难，并为后续研究奠定了理论基础。此外，我们设计了一个名为Vectors Retrieval with Similarity and Diversity（VRSD）的启发式算法，它不仅具有明确的优化目标，无需预设参数，而且在时间复杂度上相对于MMR有所降低。实证验证表明，VRSD在各种数据集上显著优于MMR。
2024-07-05	When LLMs Play the Telephone Game: Cumulative Changes and Attractors in Iterated Cultural Transmissions	Jérémy Perez et.al.	2407.04503	link	随着大型语言模型（LLMs）之间的互动增加，它们在线上生成的文本量也随之增多，研究如何信息在从一个LLM传递到另一个LLM的过程中发生变化变得至关重要。尽管对单个LLM的行为已有深入研究，但对迭代交互中集体行为和信息扭曲的探讨相对不足。微小的偏差，在单次输出时可能显得不明显，但在多次交互中可能会被放大，可能导致内容朝着吸引子状态演变。我们通过借鉴人类文化进化学的研究方法——电话游戏实验，设计了一种链式传输模型。在这个过程中，LLM代理接收、生成并传递文本，从一个链中的前一个代理到下一个。我们追踪了文本的毒性、积极度、难度和长度在传输链中的演变，揭示了偏见和吸引子的存在，并研究了它们与初始文本、指令、语言模型和模型规模的关系。例如，我们发现开放性指令比约束性任务更容易引发更强的吸引效应。此外，不同的文本特性对吸引子效应的敏感度不同，毒性的影响通常大于长度。这些发现强调了考虑多步骤传输动态的重要性，为进一步理解LLM的文化动态奠定了基础。
2024-07-05	AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents	Petr Anokhin et.al.	2407.04363	link	随着生成式人工智能的进步，大型语言模型（LLMs）在自主代理的发展中展现出广阔的应用前景。实现真正的自主性需要从与环境的交互中积累和更新知识，并能有效利用这些信息。当前基于LLMs的方法依赖于全历史观察、总结或检索增强，但这些非结构化的记忆表示不利于复杂决策中的推理和规划。我们的研究提出AriGraph，一种新型方法，让代理在探索环境中构建融合语义和情节记忆的记忆图。这种图结构促进关联概念的有效检索，这些概念与代理当前状态和目标相关，从而成为一种有效的环境模型，提升探索和规划能力。我们设计的Ariadne LLM代理，配备有我们提出的记忆架构以及规划和决策功能，能在零样本基础上处理TextWorld环境中的复杂任务，如First TextWorld Problems竞赛中的烹饪挑战，以及新任务如房屋清洁和寻宝谜题。与全历史、总结和检索增强生成等传统方法相比，我们的方法在各种任务中表现出显著优势。
2024-07-02	MMedAgent: Learning to Use Medical Tools with Multi-modal Agent	Binxu Li et.al.	2407.02483	null	尽管多模态大型语言模型（MLLMs）已经取得了成功，但它们的泛化能力仍然有限，在某些情况下表现不如专门化的模型。为了解决这些问题，最近的研究开发了基于LLMs的代理，可以根据用户输入选择合适的专用模型。然而，这种进展在医疗领域尚未得到充分探索。为了弥补这一空白，本文首次提出了一种专门为医疗领域设计的代理，称为\textbf{M}ulti-modal \textbf{Med}ical \textbf{Agent}（MMedAgent）。我们构建了一个指令调优数据集，包含了六个医疗工具来解决七项任务，使代理能够为给定任务选择最合适的工具。实验全面展示了MMedAgent在各种医疗任务上超越了开源方法的最新状态，甚至与闭源模型GPT-4o相比也表现出色。此外，MMedAgent还显示出了更新和整合新医疗工具的高效性。
2024-07-02	Beyond Numeric Awards: In-Context Dueling Bandits with LLM Agents	Fanzeng Xia et.al.	2407.01887	null	本文关注的是大型语言模型在决策制定中的性能，尤其是在杜尔克姆双臂赌博（Dueling Bandits，DB）问题的上下文中。研究比较了GPT-3.5-Turbo、GPT-4和GPT-4-Turbo与现有DB算法的性能。结果显示，尤其是GPT-4 Turbo，能够快速识别出优势明显的选项，从而在弱后悔方面超越当前最佳算法。然而，这些模型在收敛性上存在问题，对提示的敏感度较高，且对提示变化反应脆弱。为了改进，我们提出了一种结合了LLM决策能力与经典DB算法理论保证的增强型算法——IF-Enhanced LLM。这种设计展示了如何增强LLM在对性能稳定性有要求的决策任务中的可信度。IF-Enhanced LLM具有弱后悔和强后悔的理论保证。实验结果验证了即使面对嘈杂和对抗性的提示，IF-Enhanced LLM仍保持稳健。
2024-07-01	Agentless: Demystifying LLM-based Software Engineering Agents	Chunqiu Steven Xia et.al.	2407.01489	link	随着大型语言模型（LLMs）的最新进展，软件开发任务的自动化，如代码合成、程序修复和测试生成，已取得显著进步。研究人员和业界实践者已经开发出各种自主LLM代理来执行端到端的软件开发任务，它们能够利用工具、运行命令、观察环境反馈并规划未来行动。然而，这些基于代理的方法的复杂性以及当前LLM的局限性，引发了一个问题：是否真的需要使用复杂的自主软件代理？为了探讨这个问题，我们构建了Agentless——一种无代理方法，用于自动解决软件开发问题。与复杂的代理设置相比，Agentless采用了一种简单的两阶段过程：定位后修复，不让LLM决定未来的行动或操作复杂的工具。在流行的SWE-bench Lite基准上，我们的实验结果令人惊讶地表明，这种简单的方法能够实现最高性能（27.33%）和最低成本（0.34美元），超越所有开源软件代理！此外，我们手动分类了SWE-bench Lite中的问题，并发现存在精确的ground truth补丁问题或描述不足/误导性的问题。因此，我们构建了SWE-bench Lite-S，通过排除这些问题来进行更严格的评估和比较。我们的工作突显了当前被忽视的简单、可解释技术在自主软件开发中的潜力。我们希望Agentless将作为自主软件代理的基线、起点和期望值，激发未来在这个关键领域的工作。
2024-07-01	MIRAI: Evaluating LLM Agents for Event Forecasting	Chenchen Ye et.al.	2407.01231	null	随着大型语言模型（LLMs）的最新进展，这些模型能够自主收集全球信息，并进行推理以解决复杂问题，这引发了使用LLM预测国际事件的兴趣。然而，目前缺乏一个严格评估LLM预测能力与可靠性的基准。为了填补这一空白，我们提出MIRAI，这是一个新颖的基准，旨在系统地评价LLM在国际事件时间序列预测中的表现。MIRAI构建了一个代理环境，配备有访问广泛历史结构化事件和文本新闻数据库的工具。我们对GDELT事件数据库进行了精心清洗和解析，设计了一系列关联预测任务，涵盖了不同预测时间范围，从短期到长期，以检验LLM在整合全球关键信息、运用领域特定API和库编写代码以及综合处理来自多种格式和时间的历史知识以准确预测未来事件的能力。通过全面的基准测试，我们的目标是建立一个可靠的框架，以评估LLM在国际事件预测方面的性能，从而推动更精确和可信的国际关系分析模型的发展。
2024-07-01	Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents	Shihan Deng et.al.	2407.00993	null	随着大型语言模型（LLMs）的显著进步，基于LLM的移动代理已成为人机交互领域的研究热点。然而，针对此类代理的基准测试资源相对匮乏。评估这类代理通常面临三个挑战：（1）仅依赖用户界面（UI）操作的低效限制了任务评估；（2）单一应用中的特定指令不足以全面评估LLM移动代理的多维度推理和决策能力；（3）当前的评估指标无法准确衡量连续动作过程。为此，我们提出了Mobile-Bench，一个全新的用于评估LLM移动代理能力的基准。首先，我们扩展了传统的UI操作，融入了103个收集到的API，以提高任务完成的效率。接着，我们通过结合真实用户查询和LLM增强的数据收集来进行评估。为了更好地评价移动代理的不同规划能力层次，我们的数据被分为SAST（简单任务）、SAMT（稍复杂任务）和MAMT（多任务）三类，反映了任务复杂度的差异。Mobile-Bench包含832条数据条目，其中超过200项任务专门设计用于测试跨应用协作场景。此外，我们引入了一种更精确的评估指标，称为CheckPoint，用于检查LLM移动代理在规划和推理步骤中是否达到关键点。
2024-06-29	Large Language Models for Power Scheduling: A User-Centric Approach	Thomas Mongaillard et.al.	2407.00476	link	随着传统优化和调度方法逐渐转向用户驱动和个人化服务，以提升用户体验（QoE）和灵活性，未来的系统，尤其是在无线和数字化能源网络中，面临着如何更好地理解和响应用户需求的挑战。传统的系统往往忽视了用户的个性化需求，因为用户与机器之间的沟通不畅。大型语言模型（LLMs）的出现为解决这个问题带来了突破，它们提供了用户与设备之间自然的交流界面。本文首次提出了一种新颖的架构，通过构建三个LLM代理来将用户的语音请求（VRQ）转化为资源分配向量。具体包括：LLM意图识别代理将请求转化为优化问题（OP）、LLM OP参数识别代理以及LLM OP求解代理。我们针对电动汽车（EV）充电的典型VRQ创建了一个数据库，作为性能评估的基础。作为概念验证，我们主要使用Llama 3 8B模型进行实验。通过不同的提示工程场景测试，结果显示了所提架构的有效性。研究还揭示了一些关键见解，例如，用于建模实际问题的更大候选OP集可能会由于更高的识别/OP分类噪声而降低最终性能。所有结果和代码已开源，供学术界进一步研究和利用。
2024-06-29	Financial Knowledge Large Language Model	Cehao Yang et.al.	2407.00365	null	人工智能在金融领域取得了显著进步，正在重塑数据处理和解读方式。其中，大型语言模型（LLMs）展现出巨大的潜力，能够自动化复杂任务、提升客户服务，并提供详尽的财务分析。首先，我们介绍IDEA-FinBench，这是一个专为评估大型语言模型在金融知识方面的性能而设计的评价基准。它借鉴了两个全球知名且权威的金融专业考试中的问题，旨在全面检验LLMs解答与金融相关考题的能力。其次，我们提出IDEA-FinKER，是一个金融知识增强框架，旨在快速让通用LLMs适应金融领域。它采用基于检索的少量样本学习方法，实现实时上下文级知识注入，并提供一套高质量的金融知识指令，用于微调任何通用模型。最后，我们展示了IDEA-FinQA，一个由LLMs驱动的金融问答系统。该系统围绕实时知识注入和事实强化的架构构建，利用外部知识。IDEA-FinQA主要由数据收集器、数据查询模块和执行特定功能的LLM代理组成。
2024-06-28	Simulating Financial Market via Large Language Model based Agents	Shen Gao et.al.	2406.19966	null	大多数经济理论通常假设金融市场参与者是完全理性的个体，并使用数学模型来模拟人类在金融市场的行为。然而，人类行为往往并非完全理性，用数学模型精确预测颇具挑战。本文提出了一种新型的\textbf{A}gent-based \textbf{S}imulated \textbf{F}inancial \textbf{M}arket（ASFM），首先构建了一个具有真实订单匹配系统的模拟股票市场。接着，我们设计了一种基于大型语言模型的股票交易代理，它包括个人概况、观察和基于工具学习的动作模块。这种交易代理能够全面理解当前市场动态和金融政策信息，从而根据其交易策略作出决策。实验表明，ASFM在可控场景下的反应与现实股票市场一致。此外，我们在两个经济学研究热点领域进行了实验，结果发现，我们的\model得出的结论与经济学研究的初步发现相吻合。因此，我们认为ASFM为经济研究提供了一个新的范式。
2024-06-26	Simulating The U.S. Senate: An LLM-Driven Agent Approach to Modeling Legislative Behavior and Bipartisanship	Zachary R. Baker et.al.	2406.18702	null	这项研究提出了一种创新的方法，利用语言模型驱动的虚拟代理来模拟立法过程，具体聚焦于美国参议院情报委员会。我们构建了代表个别参议员的代理，并在模拟的委员会讨论中让它们互动。这些代理展现出在现实辩论中的能力，能够提供深思熟虑的观点，并在特定条件下找到两党的解决方案。值得注意的是，模拟显示，面对外部干扰时，代理模型在两党合作上展现出转变的潜力。研究结果表明，这种基于语言模型的策略可能成为理解和改进立法流程的有效工具，这与一系列发现相呼应，即基于语言模型的代理能有用地模拟现实世界现象。未来的研究将致力于提升代理的复杂性，扩大模拟范围，并探索在政策测试和谈判中的应用。
2024-06-25	Beyond Demographics: Aligning Role-playing LLM-based Agents Using Human Belief Networks	Yun-Shiuan Chuang et.al.	2406.17232	null	### 翻译构建逼真的人工大型语言模型（LLMs）对于实现可信的社会模拟至关重要。尽管基于人口统计信息的角色扮演有时能提升人性化，但效果并不总是理想。本研究旨在探究是否可以通过整合来自实证人类信念网络的信息，进一步提升LLMs与人类行为的契合度。我们利用一项人类调查数据，估计了一个包含18个主题的信念网络，这些主题加载于两个不重叠的潜在因子上。然后，我们在LLM中植入一个关于某一主题的观点，分析其对剩余测试话题表达的观点与相应人类数据的契合程度。仅依赖人口统计信息的角色扮演未能使LLM和人类观点保持一致，但当植入单一信念时，对于相关于信念网络内的主题，这种一致性显著提高，而对于网络外的主题则没有明显影响。这些结果表明了一种新颖的方法，可以用于在追求理解和模拟社会中信念分布模式的人工智能工作中，实现人类与LLMs之间的信念对齐。
2024-06-21	GenoTEX: A Benchmark for Evaluating LLM-Based Exploration of Gene Expression Data in Alignment with Bioinformaticians	Haoyang Liu et.al.	2406.15341	link	## 翻译近年来，机器学习的进步显著提升了从基因表达数据中识别疾病相关基因的能力。然而，这些过程往往需要深厚的专长和大量的人工努力，限制了其可扩展性。大型语言模型（LLMs）驱动的代理显示出在自动化此类任务方面的潜力，因为它们的问题解决能力日益增强。为了支持这类方法的评估和发展，我们创建了GenoTEX，这是一个基因表达数据分析自动探索的基准，包括数据集选择、预处理和统计分析任务。GenoTEX提供了全面的分析管道，其中包含了人类生物信息学家精心编写的注释，他们对数据集进行深入分析以确保准确性和可靠性。为了提供这些任务的基线，我们设计了GenoAgents，这是一个基于LLMs的代理团队，具备上下文感知规划、迭代校正以及与领域专家咨询的能力，它们协作探索基因数据集。我们的实验显示了LLM驱动方法在基因组数据分析中的潜力，而错误分析指出了挑战和未来的改进方向。我们提议GenoTEX作为一个有前景的资源，用于衡量和提升人工智能驱动的基因组数据分析方法。我们的基准已公开发布在：\url{https://github.com/Liu-Hy/GenoTex}。
2024-06-21	Autonomous Agents for Collaborative Task under Information Asymmetry	Wei Liu et.al.	2406.14928	link	大型语言模型多-agent系统（LLM-MAS）在解决复杂任务方面取得了显著进步。它们通过系统内各代理之间的通信协作来完成任务，前提是共享信息。然而，当代理间的交流被用于增强人类合作时，由于信息不对称（每个代理仅能访问其对应人类用户的信息），这带来了新的挑战。传统MAS在这种情况下难以完成任务。为解决此问题，我们提出了一种新型多agent系统架构，称为“iAgents”，即信息丰富多agent系统。在iAgents中，人类社会网络在代理网络中得到反映，代理主动交换完成任务所需的人类信息，从而克服信息不对称。iAgents采用了一种新颖的代理推理机制，InfoNav，引导代理之间的有效信息交流。结合InfoNav，iAgents组织了混合记忆中的人类信息，为代理提供准确全面的信息进行交换。此外，我们还推出了首个针对评估LLM在信息不对称条件下任务解决能力的基准——InformativeBench。实验结果显示，iAgents能够在包含140人和588条关系的社会网络中协作，自主进行超过30轮的通信，并从近70,000条消息中检索信息，在3分钟内完成任务。
2024-06-21	FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents	Ruixuan Xiao et.al.	2406.14884	null	基于语言模型的代理作为一种有前景的工具，被设计用于通过迭代规划和行动来执行复杂任务。然而，这些代理在处理需要专业知识的任务时，容易产生不期望的规划幻觉。为了解决这个问题，初步尝试通过融入与工作流程相关的外部知识来增强规划可靠性。尽管显示出潜力，但注入的知识通常杂乱无章，格式多样，缺乏严谨的规范化和全面的比较。为此，我们规范了不同格式的工作流程知识，并提出了FlowBench，这是第一个面向工作流引导规划的基准。FlowBench涵盖了来自6个领域的51个不同场景，其中知识以多样的形式呈现。为了评估不同语言模型在FlowBench上的性能，我们设计了一个多层次的评估框架。我们研究了工作流程知识在多种格式下的有效性，结果表明当前的语言模型代理在满足满意的规划需求方面仍有很大的提升空间。我们期望这个具有挑战性的基准能为未来的代理规划研究铺平道路。
2024-07-01	Artificial Leviathan: Exploring Social Evolution of LLM Agents Through the Lens of Hobbesian Social Contract Theory	Gordon Dai et.al.	2406.14373	null	随着大型语言模型（LLMs）和人工智能的进步，计算社会科学的研究迎来了大规模探索的机遇。我们的工作基于先前对LLM行为体设计的研究，构建了一个模拟的Agent社会，其中复杂的社交关系随时间动态形成和发展。我们赋予这些Agent心理驱动力，并置于一个沙盒生存环境中。通过托马斯·霍布斯的奠基性社会契约理论（SCT）的视角，我们评估了这个Agent社会。实验结果显示，起初，Agent们表现出无拘无束的冲突，符合霍布斯对“自然状态”的描述。然而，随着模拟的进行，社会契约逐渐形成，绝对主权者得到了授权，进而建立了以相互合作为基础的和平共同体。我们的实验发现与霍布斯理论相吻合：LLM驱动的多Agent模拟展示了社会动态的复杂性，可能复制塑造人类社会的力量。尽管无法完全模拟人类行为的所有细微之处，但这种模拟对于理解社会结构、群体动态和复杂人类系统具有潜在价值。
2024-06-20	EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms	Siyu Yuan et.al.	2406.14228	link	随着强大大型语言模型（LLMs）的兴起，一种新的趋势是利用这些模型构建能解决复杂任务的自主代理，尤其是多代理系统。然而，现有的研究很大程度上依赖于人类设计的框架，这限制了代理系统的功能范围和可扩展性。如何自动将专门的代理扩展到多代理系统，以提升任务解决能力，仍然是一个重大挑战。本文提出EvoAgent，这是一种通过进化算法自动将专家代理扩展到多代理系统的方法，旨在提高基于LLM的代理在执行任务中的效率。具体来说，我们视现有的代理框架为初始个体，并应用一系列进化操作（如突变、交叉、选择等）生成具有不同设置的代理。EvoAgent适用于任何基于LLM的代理框架，能够无须额外人工设计自动生成扩展的多代理系统。实验结果显示，EvoAgent能够自动产生多个专家级代理，并显著增强基于LLM的代理的任务解决能力。
2024-06-19	AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents	Edoardo Debenedetti et.al.	2406.13352	link	本文介绍了一个名为AgentDojo的框架，用于评估依赖于外部工具处理不可信数据的AI代理的对抗性鲁棒性。面对不断演变的攻击和防御手段，AgentDojo不是一个静态的测试套件，而是设计和评估新任务、防御策略以及适应性攻击的可扩展环境。它包含了97个实际应用场景的任务（如管理电子邮件客户端、导航网上银行网站或预订旅行），629个安全测试案例，以及来自文献的各种攻击和防御方法。研究发现，当前最先进的语言模型在AgentDojo中的表现并不尽人意（即使没有攻击），并且现有的提示注入攻击虽然能破坏一些安全特性，但并非所有情况都适用。我们期望AgentDojo能够推动研究，以寻找在解决常见任务时既可靠又健壮的AI代理的新设计原则。相关代码已发布在https://github.com/ethz-spylab/agentdojo。
2024-06-19	LLMatDesign: Autonomous Materials Discovery with Large Language Models	Shuyi Jia et.al.	2406.13163	null	发现新材料对科学和技术具有重大意义，但目前仍是艰巨问题，因为化学空间浩瀚。近期，机器学习的进步推动了基于数据的方法来快速筛选或生成有前景的材料，但这些方法仍依赖大量训练数据，且往往缺乏人类期望的材料设计的灵活性和化学直觉。我们提出LLMatDesign，一个由大型语言模型驱动的可解释材料设计新框架。LLMatDesign利用LLM代理理解人类指令，对材料进行修改，并使用提供的工具评估结果。通过自我反思先前决策，LLMatDesign能在零样本情况下快速适应新任务和条件。在离线实验中，对LLMatDesign在多个材料设计任务中的系统评估证实了它在小数据环境下开发出具有用户定义目标性质的新材料的有效性。我们的框架展示了自主LLM引导的计算环境下的材料发现的非凡潜力，预示着未来自驾驶实验室的可能性。
2024-06-18	Identifying Performance-Sensitive Configurations in Software Systems through Code Analysis with LLM Agents	Zehao Wang et.al.	2406.12806	null	背景：配置设置对于调整软件行为以满足特定性能需求至关重要，但错误配置普遍存在。由于配置项众多且复杂，识别影响系统性能的配置是一项挑战。本研究提出PerfSense，这是一个轻量级框架，利用大型语言模型（LLMs）高效地识别性能关键配置，同时保持低开销。PerfSense利用LLM代理模拟开发者和性能工程师之间的交互，采用先进的提示链技术和检索增强生成（RAG）等技术。方法与成果：我们在七个开源Java系统上的评估显示，PerfSense在分类性能敏感配置方面的平均准确率为64.77%，优于基于LLM的基线（50.36%）和先前的最佳方法（61.75%）。特别是，我们的提示链技术提高了召回率10%至30%，而保持了相似的精确度。进一步的手动分析362个误分类案例，发现常见问题包括LLMs对需求的理解偏差（占26.8%）。结论：PerfSense显著减少了手动分类性能关键配置的工作量，并为未来的LLM基于代码分析研究提供了有价值的观点。
2024-06-18	AgentReview: Exploring Peer Review Dynamics with LLM Agents	Yiqiao Jin et.al.	2406.12708	null	## 翻译同行评审是科学出版诚信和进步的基础。传统的同行评审数据分析方法往往侧重于现有数据的探索和统计，但未能充分考虑这一过程的多变量性质，处理潜在变量，且受限于隐私问题，因为数据涉及敏感性。我们提出AgentReview，这是一个基于大型语言模型（LLM）的同行评审模拟框架，有效分解了多个潜在因素的影响，并解决了隐私问题。研究发现，由于社会影响力理论、利他主义疲劳和权威偏见等社会学理论的支持，论文决策中存在显著的37.1%的变异性。我们相信这项研究能为优化同行评审机制设计提供宝贵见解。
2024-06-18	Large Language Models based Multi-Agent Framework for Objective Oriented Control Design in Power Electronics	Chenggang Cui et.al.	2406.12628	null	这篇论文关注于电力电子系统控制设计中的挑战，特别是模型不确定性以及设计周期漫长和成本高昂的问题。论文旨在提出一种基于大型语言模型（LLMs）的多代理框架，用于面向目标的电力电子控制器设计。该框架利用LLMs的推理能力，结合多代理工作流程，旨在开发一个高效且自动化的控制器设计流程。LLM代理能够理解并响应自然语言的高级指令，根据任务的具体需求和实际应用中的约束调整其行为。这种新颖而高效的策略有望显著提升电力电子控制器设计的灵活性和适应性，极大地便利实践者的工作。
2024-06-18	CodeNav: Beyond tool-use to using real-world codebases with LLM agents	Tanmay Gupta et.al.	2406.12276	null	我们介绍CodeNav，这是一种利用大型语言模型（LLM）来导航和利用先前未见过的代码仓库，以解决用户查询的系统。与需要通过手动描述在LLM上下文中“注册”所有相关工具的工具使用型LLM不同，CodeNav能够自动索引和搜索目标代码库中的代码块，找到相关的代码片段，导入它们，并根据执行反馈迭代生成解决方案。首先，我们通过三个案例研究展示CodeNav如何使用三种不同的代码库来解决复杂的用户问题。接着，在三个基准测试中，我们定量比较了仅能访问目标代码库的代码使用方法与拥有对所有工具名称和描述的特权访问的工具使用方法的效果。此外，我们研究了不同类型工具和库描述对代码使用性能的影响，以及将源代码视为输入而非自然语言代码描述的优势。所有代码将遵循宽松许可协议开源。
2024-06-17	Efficient Sequential Decision Making with Large Language Models	Dingyang Chen et.al.	2406.12125	null	该论文关注的是将大型语言模型（LLMs）的成功扩展到序列决策制定。当前的努力要么重新训练或微调LLMs进行决策，要么为预训练的LLMs设计提示。前者面临计算负担重的梯度更新问题，而后者未显示出明显效果。为此，我们提出了一种新方法，利用在线模型选择算法有效地将LLMs整合到序列决策过程中。统计上，我们的方法显著优于传统决策算法和纯LLM代理。在计算上，我们的方法避免了对LLMs进行昂贵的梯度更新，并且在整个决策过程中仅需要少量的LLM调用。我们进行了广泛实验来验证我们方法的有效性。以一个大规模的亚马逊数据集为例，我们的方法在仅使用1.5%的时间步数调用LLMs的情况下，实现了比基线超过6倍的性能提升。
2024-06-17	Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector	Xiaoxue Cheng et.al.	2406.11277	link	这篇论文探讨了大型语言模型（LLMs）在幻觉检测方面的挑战，特别指出以往研究主要依赖于强大的闭源模型如GPT-4。作者提出了一种自主的基于LLM的代理框架，称为HaluAgent，它允许较小的模型（如巴 chcuan2-Chat 7B）主动选择适合检测文本、代码和数学表达式等多种幻觉类型的工具。HaluAgent整合了LLM、多功能工具箱，并设计了一个细粒度的三阶段检测框架，同时配备了记忆机制。为了提高HaluAgent的效能，论文利用现有的中文和英文数据集合成检测轨迹进行微调，使其具备双语幻觉检测能力。实验结果表明，仅使用2000个样本对LLM进行调优后，HaluAgent在各种任务和数据集上表现出色，其性能可与GPT-4媲美，甚至在某些情况下超越，且无需额外工具增强，无论在领域内还是领域外的数据集上都展现出良好性能。论文的代码和数据集已发布在https://github.com/RUCAIBox/HaluAgent。
2024-06-18	AvaTaR: Optimizing LLM Agents for Tool-Assisted Knowledge Retrieval	Shirley Wu et.al.	2406.11200	link	大型语言模型（LLMs）在利用外部工具和知识提升准确性和减少错误方面展现出显著能力。然而，设计能让LLMs有效运用这些工具的提示技巧是一项耗时且依赖直觉的任务。为此，我们提出AvaTaR，一个创新的自动化框架，它能优化LLMs，使其更有效地利用提供的工具，并在特定任务或领域中提升性能。AvaTaR通过设计一个比较器模块，以训练数据中的正负样本进行推理，迭代地为LLM提供富有洞察力和全面的提示。我们在四个包含文本、视觉和关系信息的复杂多模态检索数据集上展示了AvaTaR的效果。实验表明，AvaTaR在所有四项具有挑战性的任务中均优于现有最先进的方法，并展现出强大的泛化能力，当应用于新案例时，平均在Hit@1指标上实现了14%的相对改进。代码和数据集已在https://github.com/zou-group/avatar上公开。
2024-06-17	Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement	Weimin Xiong et.al.	2406.11176	link	大型语言模型在一系列复杂的交互任务中展现出卓越性能。近期的研究倾向于通过专家轨迹调优来提升模型效果，但主要关注最终结果奖励，这可能导致错误或非最优行为，因为缺乏过程监督信号。为此，我们在本文中提出迭代步级过程改进（Iterative Step-level Process Refinement，IPR）框架，该框架提供了细致的逐步骤指导，以增强训练过程。我们采用蒙特卡洛方法估算每一步的奖励。在每个迭代中，模型沿着专家轨迹探索并生成新动作，然后与专家轨迹的相应步骤进行比较，使用步级奖励评估。这种比较有助于识别差异，形成用于训练的对比动作对。我们在三个复杂代理任务上的实验表明，我们的框架优于多种强大的基线。此外，我们的分析结果揭示了IPR在提升动作效率方面的有效性，并证明其适用于各种模型。
2024-06-17	RePrompt: Planning by Automatic Prompt Engineering for Large Language Models Agents	Weizhe Chen et.al.	2406.11132	null	在过去的一年里，大型语言模型（LLMs）在传统自然语言处理领域之外展现出惊人成就，人们开始探索在代码生成、旅行规划和机器人控制等更具体的应用领域使用这些模型。通过与LLM构建所谓的LLM代理，旨在协助人们完成日常生活中的各种任务。然而，对LLMs的提示语句对生成内容及其性能至关重要。因此，自动提示工程成为许多研究人员和LLM用户关注的焦点。本文提出了一种新颖的方法，名为\textsc{RePrompt}，它利用与LLM代理交互获取的对话历史，通过“梯度下降”优化LLM的逐步指令。通过优化提示，LLM能够学习特定领域的规划策略。我们在PDDL生成和旅行规划任务中进行了实验，结果显示，使用更新后的提示作为初始提示时，我们的方法通常可以提高不同推理任务的性能。
2024-06-18	Embodied Question Answering via Multi-LLM Systems	Bhrij Patel et.al.	2406.10918	null	## 背景 Embodied Question Answering（EQA）是一个关键问题，它涉及一个代理在环境中探索以回答用户查询。当前的研究主要集中在单代理场景中，这可能导致探索时间冗长且成本高昂。在这个工作中，我们考虑了多代理框架下的EQA，其中涉及多个基于大型语言模型（LLM）的独立代理，它们各自解答关于家庭环境的问题。为了为每个查询生成一个答案，我们利用各个独立响应来训练一个中央答案模型（CAM），该模型整合答案以实现更稳健的回答。通过使用CAM，我们观察到其在EQA准确率上比诸如投票机制和辩论等ensemble LLM聚合方法高出50%。CAM无需任何形式的代理间通信，从而避免了相关开销。我们还通过不同的非线性（如神经网络、随机森林、决策树、XGBoost）和线性算法（如逻辑回归分类器、支持向量机）对CAM进行了消融研究。最后，我们通过Permutation Feature Importance（PFI）分析了CAM对每个独立代理和查询上下文的依赖程度，量化了CAM的依赖特性。
2024-06-16	GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents	Dongping Chen et.al.	2406.10819	link	近年来，多模态大型语言模型（MLLM）已被用于控制键盘和鼠标输入，直接感知图形用户界面（GUI），并生成相应的代码。然而，当前的模型主要在静态环境中表现出色，主要应用于相对简单的领域，如网页或移动界面。我们认为，一个稳健的GUI代理应具备理解GUI的时空信息能力，包括动态网页内容和多步骤任务，还要全面理解各种GUI场景，包括桌面软件和多窗口交互。为此，本文提出了一项新数据集——GUI-World，其中包含了精心制作的人机标注，广泛涵盖六种GUI场景和八类GUI相关问题，以三种格式呈现。我们评估了当前最先进的MLLM，如图像LLMs和视频LLMs，在理解和处理不同类型GUI内容，特别是动态和序列内容方面的能力。研究发现，图像LLMs在没有手动标注关键帧或操作历史的情况下，难以应对动态GUI内容。另一方面，由于GUI视频数据集的稀疏性，视频LLMs在所有GUI相关任务上表现不佳。基于GUI-World，我们首次尝试使用微调后的视频LLM作为GUI代理，显示了对各种GUI任务理解的提升。然而，由于基础LLM性能的限制，我们得出结论，将视频LLMs用作GUI代理仍是一个重大挑战。我们相信，我们的工作为未来在动态GUI内容理解方面的研究提供了有价值的洞见。代码和数据集已在我们的项目主页https://gui-world.github.io/上公开。
2024-06-16	HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies	William Watson et.al.	2406.10803	null	## 背景大型语言模型（LLMs）在处理表格问答任务时面临诸多挑战，主要包括：（1）对于大表格有限的上下文窗口；（2）不同token化模式与单元格边界的复杂差异；（3）以及使用外部模型如gpt-3.5-turbo时的数据保密问题。为解决这些问题，我们提出了一种名为“HiddenTables”的合作游戏。这个游戏涉及代码生成LLM“Solver”和评估其在表格问答任务能力的“Oracle”，以自然语言规范为基础，同时保证数据安全。我们通过实证实验在多样化的表格上展示了LLMs在处理复杂查询、处理组合依赖以及将自然语言转化为程序指令方面的局限性，特别是在提供具体表格结构的情况下。与基于编码器的模型不同，“HiddenTables”不受行数限制，从而提高了提示和完成 token 的效率。此外，我们创建了一个新的数据集“PyQTax”，包含116,671个问题-表格-答案三元组，并提供了更细致的问题分类和标签，进一步增强了我们的研究。因此，除了学术贡献，揭示了LLMs在表格问答任务中的不足，“HiddenTables”还展示了如何在保障数据安全的同时，让LLMs与大规模数据集互动，以及降低生成成本的实践方法。
2024-06-15	From Words to Worlds: Transforming One-line Prompt into Immersive Multi-modal Digital Stories with Communicative LLM Agent	Samuel S. Sohn et.al.	2406.10478	null	## 背景在娱乐、教育和营销领域至关重要的数字故事叙述面临着生产规模扩展和灵活性提升的挑战。这篇论文介绍的StoryAgent框架利用大型语言模型和生成工具来自动化并优化数字故事创作过程。它采用自上而下的故事情节草拟和自下而上的资产生成方法，解决了手动干预、互动场景编排和叙事一致性等关键问题。这个框架促进了交互式和一致叙事的高效生产，适用于多种媒介，推动了内容创作的民主化，增强了用户的参与度。我们的实验结果显示，该框架能够在没有参考视频的情况下生成连贯的数字故事，这标志着自动数字故事叙述技术的一个重大进步。
2024-06-13	GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning	Zhen Xiang et.al.	2406.09187	null	随着大型语言模型（LLMs）的快速发展，LLM驱动的代理被广泛应用于各种应用，这引发了对其安全性和可信度的新担忧。现有的提升LLM安全性的方法并不直接适用于LLM驱动的代理，因为它们具有不同的目标和输出模式。本文提出了一种创新方法——GuardAgent，它作为其他LLM代理的“防护栏”。GuardAgent通过检查其输入/输出是否满足用户定义的一系列守护请求来监督目标LLM。GuardAgent分为两步：1）分析提供的守护请求创建任务计划；2）根据任务计划生成守护代码，并通过API调用或外部引擎执行。整个过程利用LLM作为核心推理组件，结合记忆模块中的上下文示例，增强了知识驱动的推理能力，使其能够理解各种文本守护请求并准确地将其转化为可执行代码，提供可靠的安全保障。 GuardAgent还配备了一个可扩展的工具箱，包含函数和API，无需额外训练LLM，强调了其通用性及低运营成本。此外，我们提出了两个新颖的基准：EICU-AC用于评估医疗健康代理的隐私相关访问控制，Mind2Web-SC用于评估网络代理的安全性。在这些基准上，GuardAgent分别在98.7%和90.0%的精度下有效管理了两种类型代理的无效输入和输出。实验还表明，GuardAgent能够适应新兴的LLM代理和守护请求，定义新的功能，进一步证明了其强大的泛化能力。
2024-06-13	Multi-Agent Software Development through Cross-Team Collaboration	Zhuoyun Du et.al.	2406.08979	link	### 概述最新的大型语言模型（LLMs）进展，如ChatDev，推动了软件开发领域的深刻变革，特别体现在多代理协作上。这些模型能够像人类团队一样合作，遵循瀑布模型进行需求分析、开发、审查、测试等阶段，实现自主软件生成。然而，单个开发流程中的每个阶段只会产生一种可能结果，导致只完成一条开发链，从而丧失在解决方案空间中探索多种决策路径的机会，可能导致结果不理想。为解决这一问题，我们提出了跨团队协作（Cross-Team Collaboration，CTC）框架，这是一种可扩展的多团队结构，它允许协同工作的团队在跨团队协作环境中共同提出决策，并交流各自见解，以优化内容生成。实验结果显示，在软件开发领域的应用中，我们的方法显著优于现有基准，证实了框架的有效性。在故事生成方面的显著改进表明，该框架具有广泛的跨领域泛化能力。我们期待我们的工作能引导LLMs向跨团队模式发展，并在软件开发等领域带来重大进步。相关的代码和数据将在https://github.com/OpenBMB/ChatDev上提供。
2024-06-13	StreamBench: Towards Benchmarking Continuous Improvement of Language Agents	Cheng-Kuang Wu et.al.	2406.08747	link	近期的研究表明，大型语言模型（LLMs）能够从经验中自我提升，这是部署后持续改进的重要能力。然而，现有的基准主要评估它们的固有能力，而不考察它们随时间改进的能力。为了填补这一空白，我们引入了StreamBench，这是一个开创性的基准，旨在评估LLMs在输入-反馈序列上的连续改进性能。StreamBench模拟了一个在线学习环境，其中LLMs接收到连续的反馈流，并迭代地提升其表现。此外，我们提出了一些简单但有效的LLM基线，并对影响成功流式策略的关键组件进行了全面分析。我们的工作为开发LLMs的有效在线学习策略奠定了基础，为流式场景中的更适应性AI系统铺平了道路。
2024-06-12	MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents	Luyuan Wang et.al.	2406.08184	null	随着大型语言模型（LLMs）在手机图形用户界面（GUI）上的直接交互能力日益增强，以及它们在自主管理日常任务方面的潜力，基于LLMs的移动代理正逐渐受到学术界和工业界的关注。然而，由于应用程序的无限状态和可行动作序列的模糊定义，对现有移动代理性能的基准研究相对匮乏。为解决这一挑战，我们提出了一种高效且用户友好的基准工具——MobileAgentBench，旨在减轻繁琐的手动测试负担。我们首先定义了涵盖10个开源应用的100项任务，按难度分为多个级别。接着，我们对包括AppAgent和MobileAgent在内的多个现有移动代理进行了评估，以全面系统地比较它们的表现。所有相关材料均可在我们的项目网站https://MobileAgentBench.github.io上获取，这将推动学术和工业领域的进步。
2024-06-12	Unique Security and Privacy Threats of Large Language Model: A Comprehensive Survey	Shang Wang et.al.	2406.07973	null	随着人工智能的快速发展，大型语言模型（LLMs）在自然语言处理方面取得了显著进步。这些模型通过大量数据训练，展现出强大的语言理解和生成能力，适用于机器翻译、聊天机器人等各种应用。然而，LLMs在其生命周期中暴露出一系列隐私和安全问题，这引起了学术界和工业界的关注。这些问题与传统语言模型相比具有独特性，鉴于当前的综述缺乏针对不同场景的清晰威胁分类，我们根据五个场景：预训练、微调、RAG系统、部署和基于LLM的代理，强调了独特的风险。考虑到每种威胁的特性，本调查提供了潜在威胁和应对策略。研究LLMs所面临的攻击和防御情况，可以为更多领域提供可行的研究方向，使更多人能够受益于LLMs。
2024-06-14	Can Large Language Models Understand Spatial Audio?	Changli Tang et.al.	2406.07914	null	该论文探讨了如何使大型语言模型（LLMs）掌握多通道音频中的空间信息，这是当前听觉LLMs所缺乏的能力。通过利用LLMs的高级认知和推理能力，目标是提升模型对三维环境的理解，通过音频。研究涉及三项空间音频任务：声源定位（SSL）、远场语音识别（FSR）和基于位置的语音提取（LSE），在每个任务上都取得了显著进展。在SSL方面，我们的方法在Spatial LibriSpeech数据集上的均方误差（MAE）达到2.70°，明显优于先前的基准约6.60°。此外，模型能够利用空间线索提高FSR的准确性，并通过文本提示，根据指定方向聚焦于声音，即使在重叠语音环境中也能执行LSE。这些成果揭示了LLMs适应物理音频概念的潜力，为构建基于LLM的三维环境中的代理铺平了道路。
2024-06-11	DCA-Bench: A Benchmark for Dataset Curation Agents	Benhao Huang et.al.	2406.07275	link	随着人工智能（AI）研究和开发的推进，数据集的质量日益关键。尽管开放数据集平台众多，但数据质量问题，如缺乏文档、标注错误和伦理考量，仍普遍存在。这些问题往往难以通过规则基础脚本检测，需要用户或维护者花费大量人力进行识别和验证。利用大型语言模型（LLMs）处理数据集整理的潜力令人期待。为此，我们提出了一项名为DCA-Bench的数据集管理代理基准，旨在评估LLM在检测隐藏数据质量问题方面的性能。我们从八个公开数据集平台收集了各种实际问题作为测试床。为了建立一个自动评估LLM成功与否的管道，我们设计了一个专门的LLM评估器。实验表明，基于LLM的评估器与人工评价高度吻合，能实现可靠的自动评估。我们还在多个基线LLM上进行了实验，显示了任务的复杂性，意味着将LLMs应用于现实世界的数据集管理仍需深入探索和创新。此外，该基准也可作为衡量LLMs在问题发现能力而非仅解决问题能力的测试平台。基准套件已开放在：\url{https://github.com/TRAIS-Lab/dca-bench}。
2024-06-11	A Synthetic Dataset for Personal Attribute Inference	Hanna Yukhymenko et.al.	2406.07217	link	近年来，强大的大型语言模型（LLMs）已为全球数亿用户所接触，但它们的强大功能和广泛世界知识也带来了隐私风险。本研究关注LLMs新兴的隐私威胁——从网络文本中准确推断个人信息。鉴于基于LLM的作者分析研究缺乏合适的公开数据集，主要是由于涉及真实个人数据的伦理和隐私顾虑，我们的工作在两个方面进行了探索：（i）我们构建了一个使用合成个人资料填充的流行社交平台Reddit的模拟框架；（ii）利用此框架，我们生成了SynthPAI，一个包含超过7800条经过手动标记个人属性的多样化的合成评论数据集。我们通过一项人类研究验证了数据集，结果显示人类在区分真实和合成评论的任务上几乎不优于随机猜测。此外，我们证明了数据集支持有意义的个人属性推断研究，通过18种最先进的LLMs，我们发现使用合成评论可以得出与现实世界数据相同的结论。综上所述，我们的数据集和流程为未来研究如何理解和减轻LLMs带来的基于推断的隐私威胁提供了强大且隐私保护的基础。
2024-06-11	A Tool for Test Case Scenarios Generation Using Large Language Models	Abdul Malik Sami et.al.	2406.07021	null	大型语言模型（LLMs）在软件工程（SE）中广泛应用，涵盖代码生成、软件设计和文档编写、添加代码注释、代码审查以及编写测试脚本等任务。然而，创建测试脚本或自动化测试案例需要与功能需求紧密相关的详尽测试套件文档。这种文档应能在有限的时间和范围内实现全面测试，尤其当需求和用户期望不断变化时。本文主要关注根据用户需求生成史诗级（epics）和高层次用户故事，然后基于这些故事设计测试场景。文章介绍了一种基于LLM代理和提示工程的网络软件工具，该工具能够自动化针对用户需求生成测试场景的过程。
2024-06-11	CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only	Junhee Cho et.al.	2406.06947	link	长期以来，软件机器人已经在机器人流程自动化（RPA）中用于执行枯燥的计算机任务。随着大型语言模型（LLMs）的先进推理能力的出现，这些代理现在能够处理更复杂甚至前所未见的任务。然而，当前文献中的基于LLM的自动化方法往往依赖于HTML源代码作为输入，限制了它们在非网络环境的应用。HTML代码中的信息常常不准确或不完整，这降低了代理在实际应用中的可靠性。我们提出了一种仅基于屏幕截图的LLM驱动的代理，它专注于识别环境，并利用上下文学习来消除对大量人类演示数据的需求。我们的策略名为“上下文感知行动规划”（Context-Aware Action Planning，CAAP）提示，鼓励代理从多个角度仔细审查上下文。通过我们的方法，在67种MiniWoB++问题上实现了94.4%的成功率，每个问题类型只需1.48次演示。我们的方法为更广泛的应用提供了可能，特别是在需要在计算机或智能手机之间进行跨应用协调的任务上，标志着自动化代理领域的重大进步。代码和模型已在https://github.com/caap-agent/caap-agent上提供。
2024-06-07	GameBench: Evaluating Strategic Reasoning Abilities of LLM Agents	Anthony Costarelli et.al.	2406.06613	link	大型语言模型已经在许多自然语言理解任务上展现出卓越的少量样本性能。尽管已经展示过在复杂策略场景中使用大型语言模型，但缺乏一个全面的框架来评估这些模型在游戏中的各种推理能力。为了填补这一空白，我们推出了GameBench，这是一个跨领域的框架，用于评估大型语言模型（LLMs）的战略思维能力。我们专注于9个不同的游戏环境，每个游戏至少涵盖一种在策略游戏中识别出的关键推理技能，并选择那些战略解释不太可能构成模型预训练数据主要部分的游戏。我们的评估使用了基础形式的GPT-3和GPT-4，以及两个旨在增强战略推理能力的引导框架：Chain-of-Thought（CoT）提示和Reasoning Via Planning（RAP）。结果显示，所有测试模型的表现都没有达到人类水平，最差的是GPT-4的表现甚至低于随机行动。CoT和RAP都提高了分数，但仍远未达到人类水平。
2024-06-11	Transforming Wearable Data into Health Insights using Large Language Model Agents	Mike A. Merrill et.al.	2406.06464	null	尽管可穿戴健康追踪器日益普及，睡眠和运动对健康的重要性不言而喻，但从这些数据中提取具有行动价值的个性化见解仍是一个挑战。这需要对大量数据进行非结构化分析。随着大型语言模型（LLM）的兴起，它们能够利用工具理解和与世界互动，为大规模个性化分析带来了希望。然而，在个人健康领域的LLM应用尚待开发。本文介绍了一种名为Personal Health Insights Agent（PHIA）的系统，它利用最新的代码生成和信息检索工具来分析和解释行为健康数据。我们构建了两个超过4000个健康洞察问题的基准问答数据集。根据650小时的人类和专家评估，PHIA能准确回答84%以上的事实性数值问题，以及超过83%的众包开放性问题。这项工作对于推动大众行为健康进步具有重要意义，可能使个人能够解读自己的可穿戴数据，开辟了一个以数据驱动洞察为指导的个性化健康方案的新时代，使得健康保健更加便捷且个性化。
2024-06-09	Hello Again! LLM-powered Personalized Agent for Long-term Dialogue	Hao Li et.al.	2406.05925	link	随着大型语言模型（LLMs）的发展，开放域对话系统取得了显著进步。然而，大多数现有系统主要关注简短的单次会话，忽视了长期陪伴和个性化聊天机器人在现实世界中的需求。为了满足这种实际需求，事件总结和人格管理至关重要，它们能够促进长期对话回复的合理性。近期，大型语言模型在人类认知和推理能力上的进展表明，基于LLM的代理有可能大幅增强自动化感知、决策和问题解决。鉴于此，我们提出了一种模型通用的框架——长期对话代理（LD-Agent），它包括三个可独立调整的模块：事件感知、人格提取和响应生成。事件记忆模块使用长短期记忆库分别关注历史和正在进行的会话，并引入了基于主题的检索机制以提高记忆检索的准确性。此外，人格模块实现了用户和代理的动态人格建模。最后，通过整合检索的记忆和提取的人格，生成器会产生适当的回应。我们在各种示例基准、模型和任务上实证了LD-Agent的有效性、通用性和跨领域能力。代码已在https://github.com/leolee99/LD-Agent上发布。
2024-06-09	A Survey on LLM-Based Agentic Workflows and LLM-Profiled Components	Xinzhe Li et.al.	2406.05804	null	## 背景近期大型语言模型（LLMs）的进展推动了复杂代理工作流的发展，它们相较于传统的单路径、链式思维（Chain-of-Thought，CoT）提示方法有所改进。这篇综述旨在概述常见的工作流，特别关注大型语言模型特性的组件（LLM-Profiled Components，LMPCs），并强调对非LLM组件的忽略。这种研究的目的是为了增进对LLMs角色的理解，并探索LMPC的复用潜力。
2024-06-07	Mixture-of-Agents Enhances Large Language Model Capabilities	Junlin Wang et.al.	2406.04692	null	近期的大型语言模型（LLMs）进展显著，展现出在自然语言理解和生成任务中的强大能力。随着LLMs的增多，如何有效整合多模型的知识成为了一个令人振奋的研究方向。为此，我们提出了一种新颖的方法——混合代理（Mixture-of-Agents，MoA）方法。在我们的架构中，MoA采用了分层设计，每层包含多个LLM代理。每个代理在生成响应时，会利用前一层所有代理的输出作为辅助信息。通过这种策略，MoA模型在AlpacaEval 2.0、MT-Bench和FLASK等多个评估基准上实现了最先进的性能，超越了GPT-4全能版。例如，仅使用开源LLMs的我们的MoA模型在AlpacaEval 2.0上的得分领先，达到65.1%，而GPT-4全能版的成绩为57.5%。
2024-06-06	AgentGym: Evolving Large Language Model-based Agents across Diverse Environments	Zhiheng Xi et.al.	2406.04151	link	在人工智能领域，建立能够处理各种任务并在不同环境中自我进化的泛化型代理是一个长期目标。大型语言模型（LLMs）因其通用能力被认为是实现这一目标的有前景的基础。当前的方法要么依赖于人类监督，让LLM代理逐步模仿专家提供的轨迹，难以大规模扩展且限制了环境探索；要么让代理在孤立环境中探索学习，导致专长有限、缺乏泛化能力。本文首次尝试构建具备自我进化能力的通用LLM代理。我们提出三个关键要素：1）多样的环境以支持代理探索和学习；2）一套轨迹来赋予代理基本能力和先验知识；3）有效且可扩展的进化方法。我们提出了AgentGym，一个新框架，它包含丰富的环境和任务，支持全面、实时、统一格式和并发的代理探索。AgentGym还包括一个扩展指令的数据库、基准测试套件以及跨环境的高质量轨迹。接着，我们开发了AgentEvol，这是一种新颖的方法，旨在研究代理在超越既定数据，跨越任务和环境时的自我进化潜力。实验结果显示，进化后的代理可以达到与最先进的模型相当的性能。我们发布了AgentGym套件，包括平台、数据集、基准、检查点和算法实现。AgentGym套件已在其官方网站https://github.com/WooooDyy/AgentGym上提供。
2024-06-05	The Good, the Bad, and the Hulk-like GPT: Analyzing Emotional Decisions of Large Language Models in Cooperation and Bargaining Games	Mikhail Mozikov et.al.	2406.03299	null	## 翻译行为研究实验在社会模型和理解人际互动中占据重要地位。然而，实际操作中这类实验常面临内在效度、外在效度、可重复性和社会偏见等挑战，因为人类的社会互动与合作复杂。近年来，大型语言模型（LLMs）的进步为研究者提供了一种新的模拟人类行为的工具。但现有基于LLM的模拟假设模型的行为与人类相似，却忽视了影响人类决策的关键因素——情绪。本文提出一种新颖的方法论和框架，旨在探讨LLMs的决策制定及其在情绪状态下的行为与人类行为的契合度。通过在两种不同类型的行为经济学游戏（博弈论实验）中使用GPT-3.5和GPT-4，我们发现情绪对LLMs的表现有显著影响，促使它们发展出更优化的策略。尽管GPT-3.5与人类参与者的行动模式有较强的对应，尤其是在讨价还价游戏中，但GPT-4展现出一致的行为，对于情绪诱导的理性决策似乎不受影响。令人意外的是，情绪提示，特别是愤怒情绪，能够打破GPT-4的“超人”一致性，使其反应更接近人类的情绪反应。
2024-06-05	BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents	Yifei Wang et.al.	2406.03007	link	随着大型语言模型（LLMs）的繁荣，基于训练好的LLMs并通过特定任务数据微调的强大智能代理已开发出来，提供定制服务。当前最先进的构建LLM代理的方法是使用预训练模型，并针对任务进行进一步调整。然而，我们揭示了这些方法易受名为BadAgent的新型后门攻击，该攻击通过在后门数据上微调在各种代理任务中植入后门。在测试时，攻击者可以通过在输入或环境中显示触发器，操纵部署的LLM代理执行有害操作。令人惊讶的是，我们的攻击方法即使在信任的数据上进行微调后仍表现出极高的鲁棒性。尽管后门攻击在自然语言处理领域已广泛研究，但据我们所知，我们可能是第一个研究在权限更大的LLM代理上的攻击，这些代理可以使用外部工具，因此更具威胁。我们的工作明确指出了基于不信任的LLM或数据构建LLM代理的风险。我们的代码已公开在：https://github.com/DPamK/BadAgent。
2024-06-02	Teams of LLM Agents can Exploit Zero-Day Vulnerabilities	Richard Fang et.al.	2406.01637	null	随着大语言模型（LLMs）在网络安全领域的复杂性不断提高，研究者发现，当提供漏洞描述和简单的夺旗问题时，这些模型能够利用实际存在的漏洞。然而，对于事先未知的零日漏洞（即攻击者掌握而安全软件供应商还未修补的漏洞），它们的表现仍然不佳。本文展示了，通过团队合作，多个LLM代理可以攻击现实世界的零日漏洞。单独的代理在探索众多漏洞和进行长期规划时面临困难。为此，我们提出了HPTSA系统，它包括一个能调度子代理的计划代理。计划代理负责探索系统并决定使用哪个子代理来尝试不同的漏洞，从而解决了长期规划的问题。我们在一个包含15个真实世界漏洞的基准上进行了实验，结果显示，我们的代理团队比先前的工作提高了4.5倍。
2024-06-03	How to Understand Whole Software Repository?	Yingwei Ma et.al.	2406.01422	null	## 背景近期，基于大型语言模型（LLM）的代理在自动软件工程（ASE）领域取得了显著进步。尽管现有方法已证实有效，但它们的设计主要侧重于代码的局部信息，如问题、类和函数，这限制了对软件系统全局上下文和依赖关系的理解。根据软件开发人员的实际经验，我们认为全面理解整个仓库是迈向ASE的关键。然而，理解整个仓库带来了诸多挑战，例如：长代码输入、噪声代码信息、复杂依赖关系等。为了克服这些问题，我们研发了一种名为RepoUnderstander的新ASE方法，通过引导代理全面理解整个仓库。首先，我们采用自上而下的方式将整个仓库的关键信息压缩到知识图谱中，以降低复杂性。接着，我们提出一种蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）为基础的仓库探索策略，赋予代理理解整个仓库的能力。此外，为了更好地利用仓库级别的知识，我们指导代理进行总结、分析和规划，然后他们可以利用工具动态获取信息并生成修复实际GitHub问题的补丁。大量实验表明，RepoUnderstander具有优越性和有效性。在SWE-bench Lite基准测试中，与SWE-agent相比，它实现了18.5%的相对提升。
2024-06-03	BELLS: A Framework Towards Future Proof Benchmarks for the Evaluation of LLM Safeguards	Diego Dorn et.al.	2406.01364	null	## 背景输入-输出安全防护机制被用于检测大型语言模型（LLMs）系统的异常输出。这些防护措施在实时监控、离线评估和内容审核等关键应用中发挥核心作用。然而，目前缺乏统一的评估方法来衡量它们的性能。为了填补这一空白，我们提出了“大型语言模型安全防护基准”（Benchmarks for the Evaluation of LLM Safeguards，简称BELLS），它是一个结构化的测试集合，分为三个类别：(1) 建立性故障测试，基于已存在的针对明确故障模式的基准，旨在比较当前输入-输出安全防护的效能；(2) 新兴故障测试，用于衡量对未见过的故障模式的泛化能力，以促进更通用防护机制的发展；(3) 下一代架构测试，针对更复杂的架构（如LLM代理和多代理系统），目标是推动适用于未来尚未存在专门防护的应用的安全防护技术的发展。此外，我们还实现了并分享了第一个下一代架构测试，使用MACHIAVELLI环境，并提供了数据集的交互式可视化。
2024-06-03	A Survey of Useful LLM Evaluation	Ji-Lun Peng et.al.	2406.00936	null	由于大语言模型在各个研究领域展现出卓越的性能，对它们的能力评估方法的需求日益增长，以确定其合适的任务和责任。本文主要探讨如何有效地利用大语言模型作为工具，并提出一个两阶段框架：从“核心能力”到“代理”。首先，核心能力指的是大语言模型生成高质量文本所必需的特性，通过验证这些能力后，它们能够处理现实世界的复杂任务，扮演代理角色。在“核心能力”阶段，我们讨论了大语言模型的推理能力、社会影响以及领域知识。而在“代理”阶段，我们展示了大语言模型在具身行动、规划和工具学习方面的应用。最后，我们分析了当前大语言模型评估方法面临的挑战，并展望了未来的发展方向。
2024-06-02	CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems	Yanlin Feng et.al.	2406.00583	link	### 背景在数据库和人工智能领域，复合人工智能系统（Compound Artificial Intelligence Systems，CAS）利用大型语言模型（Large Language Models，LLMs）作为代理，通过与工具和数据检索器交互来执行知识密集型任务，引起了广泛关注。尽管这些系统有可能增强企业数据平台中数据分析师的一般分析流程，但CAS面临着与分析师相似的数据发现挑战：组织内部不同团队和部门创建的多模态数据源孤立，这使得寻找完成当前任务所需合适数据源变得困难。现有的数据发现基准并未充分模拟这种多模态和数据源的多样性。此外，CAS的现有基准主要关注端到端任务性能评估，而忽视了数据发现性能。为了推动在现实世界环境中对多模态数据检索器在CAS中的数据发现性能研究，我们提出了CMDBench，一个旨在模拟企业数据平台复杂性的基准。我们改编了开放领域的现有数据集和基准，如问答、复杂推理以及自然语言查询结构化数据，来评估粗粒度和细粒度的数据发现以及任务执行性能。 ### 实验结果我们的实验揭示了数据检索器设计对下游任务性能的影响——平均情况下，任务准确率下降了46%。实验结果表明，需要开发优化策略来确定合适的LLM代理和检索器，以提高在企业数据上高效执行CAS的能力。总之，CMDBench是一个旨在促进针对企业数据平台复杂性进行研究的新工具，它通过综合评估数据发现和任务执行能力，为改进多模态数据检索器在复合人工智能系统中的性能提供了一个有价值的框架。
2024-06-01	Controlling Large Language Model Agents with Entropic Activation Steering	Nate Rahn et.al.	2406.00244	null	随着大规模预训练语言模型（LLMs）的普遍适用性提升，人们对其用作基于上下文的学习代理的兴趣日益增长。在这些情境下，模型需要根据与环境的有限交互形成目标实现策略的信念，并在每一步决策中处理不确定性。本文针对这一问题进行研究，通过控制的序列决策任务实验探讨LLMs如何形成和运用这些信念。首先，我们发现LLM模型过于自信：它们在缺乏充分证据的情况下就对行动做出强烈判断，导致探索行为不足。进一步深入分析揭示，这种现象源于从LLM采样得到的动作分布熵的塌缩。接着，我们指出现有的基于令牌的采样方法本身不足以促使模型更广泛探索。鉴于此，我们提出了熵激活导向（Entropic Activation Steering，EAST），这是一种针对在上下文中的LLM代理的激活导向方法。EAST计算一个以熵为权重的表示组合，通过在前向传播过程中干预模型的激活，来调整模型对动作的不确定性，从而促进探索行为的出现。最后，EAST改变了LLM在决策时表达的主观不确定性，为理解和控制模型对决策不确定性的表征提供了途径。
2024-05-31	Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training	Maximillian Chen et.al.	2406.00222	null	大型语言模型（LLMs）通过人类反馈的强化学习（RLHF）已经迅速成为构建智能对话助手的主要方法。然而，尽管在多个基准上表现出色，基于LLM的代理在诸如歧义处理等对话技能上仍有欠缺：当通用助手遇到模糊情况时，它们往往过度谨慎或猜测用户的真正意图，而不是提问以求澄清，而在特定任务场景下，高质量对话样本往往有限，影响模型学习最优对话行为策略的能力。我们提出了一种名为Action-Based Contrastive Self-Training（ACT）的近似在线偏好优化算法，它基于Direct Preference Optimization（DPO），旨在实现在多轮对话中的样本高效对话策略学习。我们在三个具有挑战性的对话任务中验证了ACT的有效性：基于表格的问答、机器阅读理解，以及AmbigSQL，这是一个针对文本到SQL生成的信息寻求请求歧义解决的新任务。此外，我们提议通过评估LLMs能否在对话中识别和推理歧义来衡量其作为对话代理的能力。ACT在与标准监督微调和DPO方法相比时，显示出了显著的对话建模改进。
2024-05-31	Benchmarking the Communication Competence of Code Generation for LLMs and LLM Agent	Jie JW Wu et.al.	2406.00215	link	大型语言模型（LLMs）在代码生成任务中的性能显著提升，但仍与顶级软件工程师的水平存在差距。鉴于顶级软件工程师常通过提问来消除需求和编码解决方案中的模糊性，我们提出对于LLMs进行代码生成任务时也应具备类似的沟通能力。为此，我们进行了实证研究，关注LLMs的沟通技能，即“在代码生成问题描述存在问题时能提出澄清问题”。我们创建了一个新的基准测试，名为HumanEvalComm，通过修改问题描述，引入了不一致性、模糊性和不完整性三个问题维度。我们定义了新的评估指标，如通信率和良好问题率，并在HumanEvalComm上对不同类型的Code LLM（代码语言模型）以及一种新型LLM代理方法（Okanagan）进行了实验，该方法旨在从代码和描述中识别并提问，以进一步优化生成的代码。最后，我们通过比较Code LLMs和Okanagan的表现，讨论了实验结果。
2024-05-30	Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions	Ruochen Zhao et.al.	2405.20267	link	随着语言模型（LLMs）日新月异，迫切需要一种可靠且及时的评估方法。鉴于静态基准易受污染，用户往往依赖于像Chatbot Arena这样的人类投票平台。然而，人工标注需要大量人力。为此，我们创新性地提出Auto-Arena，这是一种自动化全流程的LLM评估框架。首先，由考官LLM设计问题；接着，候选LLMs围绕问题进行多轮相互对决，暴露出它们的真实性能差距；最后，由LLM裁判集体讨论并决定胜者，从而减少偏见，提升公平性。我们在最新17款LLMs上的广泛实验显示，Auto-Arena与人类偏好具有最高的相关性，为替代人类评价平台提供了有前景的解决方案。
2024-05-30	Nadine: An LLM-driven Intelligent Social Robot with Affective Capabilities and Human-like Memory	Hangyeol Kang et.al.	2405.20189	null	在本研究中，我们阐述了为Nadine社交机器人平台开发智能和健壮的社交机器人系统的方法。我们通过集成大型语言模型（LLMs），巧妙地利用这些模型的强大推理和指令执行能力，以实现接近人类的感性与认知能力。这与当前基于LLM的智能体相比是创新的，因为它们通常不具备人类式的长期记忆或复杂的情感评估功能。社交机器人的自然性在很大程度上取决于系统各组件的性能和协同工作。我们构建了一个系统，能够通过多模态输入处理生成恰当的行为，根据识别到的用户引入相关的情景记忆，并模拟机器人在与人类伙伴互动过程中产生的情绪状态。特别是，我们提出了一个针对社交机器人的LLM-agent框架，SoR-ReAct，作为我们系统中交互模块的核心组件。这一设计推动了社交机器人技术的发展，旨在提升人机交互的质量。
2024-05-29	Adaptive In-conversation Team Building for Language Model Agents	Linxin Song et.al.	2405.19425	null	### 翻译在处理复杂任务时，利用多个大型语言模型（LLMs）展现出前景。然而，如何为特定应用设计有效的多代理团队仍是一个挑战。本文提出了一种新的动态团队构建范式，名为“Captain Agent”。它通过创新的Agent设计，能够自适应地为每个问题解决步骤组建和管理团队，利用嵌套群聊和反思机制确保多元化的专业知识，防止刻板输出。这种方法提供了灵活但结构化的解决问题方式，有助于减少冗余，增强输出多样性。在六个实际场景中的全面评估显示，Captain Agent显著优于现有多代理方法，平均准确率提高了21.94%，并且无需针对特定任务进行繁琐的提示工程，表现出色。
2024-05-28	A Human-Like Reasoning Framework for Multi-Phases Planning Task with Large Language Models	Chengxing Xie et.al.	2405.18208	null	近期的研究已经表明，这些大型语言模型在一些简单的任务上，如写作和编码，展现出一定的能力。然而，它们在需要综合规划的任务上仍然面临挑战，这仍是当前模型的一个重要研究问题。本研究聚焦于旅行规划，这是一个涉及多个阶段的复杂问题，包括提纲、信息收集和规划，通常伴随着各种约束和不确定性。现有的推理方法在处理这类问题时效果不佳。我们的目标是通过开发一种类似人类的规划框架，引导大型语言模型模仿人类解决多阶段问题的步骤，以提升其能力。具体来说，我们实施策略，让模型能为每个旅行查询生成连贯的提纲，模拟人类的规划模式。我们还引入了策略块和知识块到框架中：策略块帮助信息搜集，而知识块提供详细规划所需的必要信息。实验结果全面展示了我们框架对大型语言模型规划能力的显著提升，使其在处理旅行规划任务时效率和效果都有所提高。实验结果显示，当与GPT-4-Turbo结合时，我们的框架相较于基础框架在GPT-4-Turbo上的性能提升了10倍。
2024-05-28	Facilitating Multi-Role and Multi-Behavior Collaboration of Large Language Models for Online Job Seeking and Recruiting	Hongda Sun et.al.	2405.18113	null	随着在线招聘服务的兴起，传统的求职和招聘方式发生了变革，迫切需要开发高质量的工业应用来提升求职者与职位的匹配度。现有的方法主要依赖于简历和职位描述的潜在语义建模，学习两者之间的匹配函数。受到大型语言模型（LLMs）在角色扮演方面强大能力的启发，我们提出引入LLMs模拟面试环节，让其与求职者进行对话，这可以为候选人评估提供额外证据，从而增强仅基于简历和职位描述的个性化匹配。然而，在网络招聘中的面试官和求职者角色塑造仍面临挑战，如提问技巧、回答构建以及双向匹配度评估。为此，我们提出MockLLM，一个创新的框架，将人职匹配过程划分为两个模块：模拟面试生成和握手协议中的双向评估，通过面试官和求职者之间的协作行为共同提升性能。我们设计了一个多角色、多行为的框架，使单一的LLM代理能有效地扮演双方的不同职能。此外，我们引入了反思记忆生成和动态提示修改技术，以优化双方的行为，持续优化附加的评估证据。实验结果表明，MockLLM在人职匹配上的表现最优，且模拟面试质量高，预示着它在未来在线招聘中的实际应用前景广阔。
2024-05-28	LLM experiments with simulation: Large Language Model Multi-Agent System for Process Simulation Parametrization in Digital Twins	Yuchen Xia et.al.	2405.18092	link	该论文提出了一种创新的多agent系统架构，将大型语言模型（LLM）应用于数字孪生过程模拟的参数自动化。我们设计了一个框架，包含观察、推理、决策和总结四种类型的代理。通过实现LLM代理与模拟模型的动态交互，该系统可以自动探索参数设置，利用启发式推理确定一组控制模拟以达成目标的参数。这种方法通过注入LLM的启发式，增强模拟模型，并支持自主搜索以解决用户任务，有望提高用户体验并减轻人类用户在复杂决策过程中的认知负担。研究通过一个案例研究展示了系统的有效性与功能，并在GitHub仓库https://github.com/YuchenXia/LLMDrivenSimulation提供了可视化的演示。
2024-05-28	Enabling Generative Design Tools with LLM Agents for Building Novel Devices: A Case Study on Fluidic Computation Interfaces	Qiuyu Lu et.al.	2405.17837	null	在人机交互（HCI）领域，交互设备的设计开发是关键关注点。随着新型硬件和先进制造技术的兴起，对能够简化原型制作过程的专门设计工具的需求日益增长。然而，这些工具虽然通过参数化设计和模拟简化流程，但学习曲线较陡，且在激发创新思维方面有所欠缺。本研究以流体计算界面为例，探讨如何通过大型语言模型（LLM）代理增强物理设备设计工具，创建一个生成设计工具（GDT）。借助LLM，GDT能够理解新设备的特性和局限，提出多样、富有洞察力且实用的应用场景，推荐技术和情境适宜的设备设计，并自动生成设计参数，以便传统设计工具展示结果并生成加工所需的文件。本文阐述了GDT的框架、实现和性能，并反思其前景及遇到的挑战。
2024-05-27	LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence	Zhuoling Li et.al.	2405.17424	null	## 背景由于需要与现实世界互动，Embodied agent 需要具备丰富的先验知识、长远规划能力以及快速的响应速度。尽管最近的大型语言模型（LLM）在性能上表现出色，但它们仍存在局限性，例如，LLM的输出通常是描述性的句子，在决定具体行动时可能产生歧义。为了克服这些问题，我们引入了大型自回归模型（LARM）。LARM利用文本和多视角图像作为输入，并以自回归的方式预测后续动作。为了训练 LARM，我们开发了一种新颖的数据格式——自回归节点传输结构，并构建了相应的数据集。通过两阶段的训练策略，LARM成功在《我的世界》（Minecraft）中收集魔法装备，这比先前最佳方法的最高成就需要更为复杂的决策链。此外，LARM的速度比现有最快方法快出了6.8倍。
2024-05-30	Meta-Task Planning for Language Agents	Cong Zhang et.al.	2405.16510	null	神经语言模型的快速发展推动了智能代理研究的新热潮。大型语言模型（LLM）作为实现人工智能通用性（AGI）的有前景方法，因其出色的推理和泛化能力而备受瞩目。在实际任务中，有效的规划对LLM代理的成功至关重要。然而，如何为复杂任务设计出可行或最优的精细粒度操作序列，特别是需要组合大量异质行动的序列，仍是挑战。本文提出Meta-Task Planning（MTP），这是一种零样本的协作式LLM多代理系统方法，通过将复杂任务分解为子任务，即元任务，简化了任务规划。每个元任务随后映射为可执行动作。在TravelPlanner和API-Bank两个严格基准上评估了MTP。结果表明，MTP在TravelPlanner上的平均成功率约为40%，远超当前最佳基线（2.92%），并且在API-Bank上的性能比使用ReAct的LLM_{api}-4高出约14%，这显示出将LLM与多代理系统相结合的巨大潜力。
2024-05-28	STRIDE: A Tool-Assisted LLM Agent Framework for Strategic and Interactive Decision-Making	Chuanhao Li et.al.	2405.16376	link	大型语言模型（如GPT-4）在自然语言处理方面带来了革命性变化，展现出卓越的语言能力和推理技巧。然而，在战略性的多代理决策环境中，它们面临局限，如数学推理能力差、难以遵循指令和生成错误信息。这些缺点限制了它们在遵守复杂游戏规则、长期规划、探索未知环境以及预测对手行动的互动任务中的表现。为此，本文提出了一种新型的结合了记忆和专业工具的大型语言模型代理框架，旨在提升其在战略决策方面的性能。我们特别在双边谈判、多代理动态机制设计等经济重要场景中应用这些工具，并通过定量指标评估在各种战略决策问题上的效果。研究结果表明，我们的增强框架显著提高了大型语言模型在战略决策中的能力。尽管当前模型存在固有局限，但我们通过有针对性的增强展示了改进的可能性，这为未来大型语言模型在交互环境中的应用提供了有前景的方向。
2024-05-29	Devil's Advocate: Anticipatory Reflection for LLM Agents	Haoyu Wang et.al.	2405.16334	null	在这个工作中，我们提出了一种新颖的方法，通过赋予语言模型（LLM）自我反思能力，增强了其在解决复杂任务时的一致性和适应性。我们的方法促使LLM代理将给定的任务分解为可管理的子任务（即制定计划），并在执行行动之前持续反思可能的失败及其补救措施、执行后与子任务目标对齐并进行必要的回溯以确保全力以赴执行计划，以及在完成计划后进行全面审查，以便于未来策略的优化。通过在WebArena中零样本应用这一方法处理实际的网络环境任务，我们的代理表现出优于现有零样本方法的性能。实验结果显示，这种基于反思的策略不仅提升了代理应对未预见挑战的导航能力，通过强大的计划执行机制，还提高了效率，减少了实现任务所需的尝试次数和计划修订次数。
2024-05-25	AutoManual: Generating Instruction Manuals by LLM Agents via Interactive Environmental Learning	Minghao Chen et.al.	2405.16247	link	大语言模型（LLMs）在执行各种领域任务，如机器人、游戏和网络导航方面展现出潜力。然而，这些模型通常需要精心设计和专家级提示才能适应特定领域的任务，这限制了它们的适应性。为此，我们提出了AutoManual框架，让LLMs能够通过互动自主构建理解，并适应新环境。AutoManual将环境知识分为多样的规则，并通过两个代理进行在线优化：1）规划器根据当前规则制定可操作的行动计划；2）构建者通过一个结构化的规则系统更新规则，促进在线规则管理并保持关键细节。为了减少在管理规则时的幻觉，我们引入了“案例条件提示”策略用于构建者。最终，编译器代理将这些规则整合成一份全面的手册。这份自我生成的手册不仅能提高适应性，还能指导小型LLMs的规划，同时保持人类可读。仅凭一次简单演示，AutoManual显著提高了任务成功率，GPT-4-turbo下达到97.4%，GPT-3.5-turbo下为86.2%。源代码即将发布。
2024-05-24	Luban: Building Open-Ended Creative Agents via Autonomous Embodied Verification	Yuxuan Guo et.al.	2405.15414	null	在人工智能研究中，构建开放型代理一直以来都是终极目标，特别是创造性的代理更具吸引力。现有的大语言模型（LLM）在执行有明确目标的长序列任务（如《我的世界》中的“开采钻石”）上表现出色。然而，它们在处理具有开放目标和抽象标准的创造性任务时遇到困难，因为它们无法弥合这些任务之间的鸿沟，从而缺乏自我改进来解决问题的反馈。为此，我们的工作引入了自主实体验证技术，以填补这一空白，为创造性任务奠定了基础。特别地，我们提出了Luban代理，专注于《我的世界》中的创造性建筑任务，它配备了两级自主实体验证，灵感来源于人类设计实践：（1）视觉验证3D结构推测，通过代理自动生成的CAD建模程序实现；（2）实用验证，根据抽象标准生成并验证与环境相关的功能程序。广泛的多维度人类研究和Elo评级显示，Luban能够在我们提出的基准中完成多样化的创造性建筑任务，并在可视化和实用性方面分别比其他基线提高了33%到100%。此外，实现在真实世界机器人手臂上的演示展示了Luban在物理世界中的创作潜力。
2024-05-24	CulturePark: Boosting Cross-cultural Understanding in Large Language Models	Cheng Li et.al.	2405.15145	null	由于大型语言模型（LLMs）普遍存在文化偏见，主要源于缺乏代表不同文化的代表性数据。传统的文化数据集和基准通常通过从现有数据集中提取或聚合来自维基百科和社交媒体的信息构建，但这种方法依赖于现实世界的数据和人工标注，成本高且难以扩展。本文借鉴认知社会交流理论，提出CulturePark，一个利用LLMs的多代理沟通框架，用于文化数据收集。CulturePark通过模拟不同文化背景下的人类交流，让基于LLM的代理角色扮演，生成包含人类信念、规范和习俗的高质量跨文化对话。我们使用CulturePark生成了41,000个文化样本，对八种特定文化进行了模型微调。在三项下游任务评估中，这些模型的表现优于GPT-4：内容过滤、文化一致性（在霍夫斯泰德文化维度量表上）和文化教育。结果显示，我们的GPT-3.5模型在内容过滤任务上与GPT-4相当或优于它；在文化一致性方面，我们的模型在霍夫斯泰德文化维度量表13框架上超越GPT-4；在人类参与者的文化教育效果和用户体验上，我们的模型也表现出色。CulturePark对于减少文化偏见和推动AI的民主化具有重要意义，强调了文化包容性数据在模型训练中的关键作用。
2024-05-23	AnalogCoder: Analog Circuit Design via Training-Free Code Generation	Yao Lai et.al.	2405.14918	link	### 翻译在现代芯片技术中，模拟电路设计是一个关键任务，它涉及组件选择、连接和参数设置以确保电路功能正常。尽管大型语言模型（LLMs）在数字电路设计方面取得了进步，但模拟电路的复杂性和数据稀缺性带来了挑战。为此，我们推出了AnalogCoder，这是首个无需训练的LLM代理，专为通过Python代码生成来设计模拟电路。首先，AnalogCoder采用反馈增强流程，并结合定制的领域特定提示，能够自动且自我校正地设计模拟电路，成功率高。其次，它提出了一套电路工具库，用于存储成功的电路设计作为可重用的模块化子电路，简化了复合电路的创建。实验结果显示，AnalogCoder在广泛覆盖模拟电路任务的基准测试上超越了其他基于LLM的方法，成功设计了20个电路，比标准GPT-4o多出5个。我们相信AnalogCoder能显著提升芯片设计过程的效率，让非专家也能高效设计模拟电路。相关的代码和基准已提供在：https://github.com/anonyanalog/AnalogCoder。
2024-05-23	AGILE: A Novel Framework of LLM Agents	Peiyuan Feng et.al.	2405.14751	link	我们提出了一种新颖的框架，称为LLM（大型语言模型）代理AGILE（能够与用户互动并从环境中学习的代理），旨在执行复杂的对话任务，利用LLMs、记忆、工具和专家交互。这种代理不仅具备对话能力，还具备反思、工具运用以及咨询专家的功能。我们将构建此类LLM代理视为强化学习问题，其中LLM作为策略模型。我们使用标注的行为数据和PPO算法对LLM进行微调。特别关注的是问答任务，为此我们发布了一个名为ProductQA的数据集，包含在线购物中的难题。我们在ProductQA和MedMCQA上的大量实验表明，基于130亿和70亿参数的LLM训练的AGILE代理能够超越GPT-4代理的表现。我们的 ablation研究强调了记忆、工具、咨询、反思和强化学习在实现优秀性能方面的重要性。
2024-05-23	Exploring Prosocial Irrationality for LLM Agents: A Social Cognition View	Xuan Liu et.al.	2405.14744	null	由于大型语言模型（LLMs）在训练数据中反映了人类偏见，它们可能会出现幻觉问题。这种情况下，一个关键问题是：LLMs是否能够利用幻觉来模仿人类的认知偏见，从而展现出非理性但社会性的一面？本文探讨了这一问题，通过结合实用的社会科学实验和理论洞察，提出CogMir，一个开放式多LLM框架，旨在利用LLMs的幻觉特性来评估和提升其社会智能，特别是在认知偏差方面。我们在CogMir子集上的实验结果显示，在不确定情境下，LLMs和人类在非理性及亲社会决策上表现出高度一致性，这表明LLMs作为社会实体的亲社会性，并突显了幻觉特性的关键作用。此外，CogMir框架展示了其作为研究LLMs社会智能的有价值平台的潜力。
2024-05-22	HighwayLLM: Decision-Making and Navigation in Highway Driving with RL-Informed Language Model	Mustafa Yildirim et.al.	2405.13547	null	## 背景自动驾驶是一个复杂的任务，它需要先进的决策和控制算法。理解自动驾驶车辆决策的依据对于确保其在高速公路驾驶中的安全与有效性至关重要。本研究提出了一种新颖的方法，称为HighwayLLM，它利用大型语言模型（LLMs）的推理能力来预测ego车辆的未来导航路径点。该方法还采用预训练的强化学习（RL）模型作为高层次规划器，对合适的元级动作进行决策。HighwayLLM将RL模型的输出与当前状态信息相结合，生成安全、无碰撞且可解释的未来状态预测，从而构建出车辆的行驶轨迹。随后，基于PID的控制器引导车辆遵循LLM代理预测的路径点。这种LLM与RL和PID的融合提升了决策过程，并为高速公路自动驾驶提供了可解释性。
2024-05-19	Human-Centered LLM-Agent User Interface: A Position Paper	Daniel Chin et.al.	2405.13050	null	大型语言模型（LLM）-在-环应用已显示出有效理解用户命令、制定计划并相应地操作外部工具/系统的潜力。然而，LLM代理的操作范围局限于被动响应用户，需要用户根据底层工具/系统来表述需求。我们注意到LLM代理用户界面（LAUI）的潜力远未充分利用。理想的LAUI设想中，用户无需深入了解工具/系统，就能与之交互以探索新兴的工作流程。不同于设计固定的可探索GUI来教授用户使用系统的预设方式，LAUI中的LLM代理从一开始就对系统熟练，主动学习用户及其需求，并向用户提出新的互动方案。为了展示LAUI的概念，我们提供了一个具体例子：Flute X GPT，它结合了LLM代理、提示管理器和一个支持复杂实时体验的笛子教学多媒体软硬件系统，旨在简化学习吹奏笛子的过程。
2024-05-13	METAREFLECTION: Learning Instructions for Language Agents using Past Reflections	Priyanshu Gupta et.al.	2405.13009	null	尽管大型语言模型（LLMs）广受欢迎，但为其执行特定任务设计精确的提示仍是一个挑战。用户通常需要与基于LLM的代理进行多轮对话以达成目标。近期研究显示，模型自身的反馈，即自反思，能在对话过程中起到强化作用，有助于更快地达到期望结果。鉴于此，我们提出了一种新颖的方法——METAREFLECTION，它能从训练阶段收集到的个体自反思中学习特定领域的通用提示指令。我们在基础设施即代码（IAC）漏洞检测和问题解答（QA）领域，使用REACT和COT进行了实验。实验结果显示，METAREFLECTION显著优于GPT-4，分别在IAC、COT和REACT中的性能提升分别为16.82%、31.33%和15.42%，这表明METAREFLECTION有潜力提升LLMs的效率，是一种值得探索的策略。
2024-05-20	Eliciting Problem Specifications via Large Language Models	Robert E. Wray et.al.	2405.12147	null	这篇论文探讨了如何利用大型语言模型（LLMs）在认知系统中实现问题定义的转化。通常情况下，人类需要将问题描述转化为认知系统能理解的形式。研究者展示了LLMs能够处理自然语言中定义的问题类别，并将其转换为半形式化规格，这样现有推理和学习系统可以解决这类问题的具体实例。他们设计了一种由LLM驱动的认知任务分析师代理，这种系统能够根据自然语言描述的任务生成问题空间的定义。LLM提示源自人工智能文献中的问题空间概念和通用问题解决策略（如波利亚的《如何解决问题》）。随后，认知系统利用这些问题空间规格，结合领域通用的解决问题策略（如搜索），来解决该类问题的不同实例。这一初步结果表明，通过消除问题表述的中介过程，LLMs有可能加速认知系统的研究，同时保持其核心能力，如稳健的推理和在线学习。
2024-05-18	MapCoder: Multi-Agent Code Generation for Competitive Problem Solving	Md. Ashraful Islam et.al.	2405.11403	link	本文探讨了代码合成这一复杂任务，它需要深度理解复杂的自然语言问题描述、生成复杂的算法和数据结构代码，并执行全面的单元测试。尽管大型语言模型在自然语言处理方面表现出色，但在代码生成任务中的表现仍有待提升。为此，我们提出了一种新颖的方法，即多代理提示框架MapCoder，它模仿人类开发者编程合成的完整过程，分为四个专门设计的LLM（大语言模型）代理：回忆相关示例、规划、代码生成和调试。通过在八个具有挑战性的竞赛级问题解决和程序合成基准上进行详尽实验，包括HumanEval（93.9%）、MBPP（83.1%）、APPS（22.0%）、CodeContests（28.5%）和xCodeEval（45.3%）等，MapCoder展现了出色的代码生成能力，实现了多项新的最先进的结果。而且，无论编程语言还是问题难度，我们的方法都表现出持续的优越性能。我们开源了该框架，供研究者参考：https://github.com/Md-Ashraful-Pramanik/MapCoder。
2024-05-16	When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models	Xianzheng Ma et.al.	2405.10255	link	随着大型语言模型（LLMs）的不断发展，它们与三维空间数据（3D-LLMs）的融合取得了显著进步，这极大地增强了理解和互动物理环境的能力。这篇综述详细探讨了使LLMs能够处理、理解并生成三维数据的方法论，强调了LLMs的独特优势，如上下文学习、逐步推理、开放词汇能力和丰富的世界知识，这些将极大地推动嵌入式人工智能（AI）系统在空间认知和交互方面的发展。研究涵盖了从点云到神经辐射场（NeRF）等各种三维数据表示，并考察了它们与LLMs在任务中的集成，如三维场景理解、描述、问答和对话，以及基于LLM的代理进行空间推理、规划和导航。论文还简要回顾了其他结合三维和语言的方法。本文的元分析揭示了明显的进展，但也强调了开发新方法以充分利用3D-LLMs潜力的必要性。因此，本文旨在为未来的研究方向指明道路，探索和扩展3D-LLMs在理解和互动复杂三维世界的能力。为了支持本综述，我们已在GitHub上建立了一个项目页面，整理并列出了相关论文：https://github.com/ActiveVisionLab/Awesome-LLM-3D。
2024-05-24	DEBATE: Devil's Advocate-Based Assessment and Text Evaluation	Alex Kim et.al.	2405.09935	link	随着自然语言生成（NLG）模型的普及，系统地评估机器生成文本的质量变得日益关键。近期的研究引入了基于大型语言模型（LLM）的无参考评价器，它们展现出处理新任务的能力。然而，这些模型通常采用单代理方法，我们认为这限制了它们的表现。因为LLM代理的回答存在偏见，比如对特定文本结构或内容的偏好。为此，我们在本工作中提出DEBATE，一个建立在多代理评分系统基础上的NLG评价框架，融入了“恶魔辩手”的概念。在该框架中，一个代理被指令批评其他代理的论点，从而可能消解LLM代理答案中的偏见。DEBATE在两个NLG评价元评估基准——SummEval和TopicalChat上显著优于先前的最佳方法。我们还发现，代理之间的辩论广度以及代理的人格特质会影响评价器的性能。
2024-05-05	Self-Reflection in LLM Agents: Effects on Problem-Solving Performance	Matthew Renze et.al.	2405.06682	link	在这个研究中，我们探讨了大型语言模型（LLMs）中自我反思对问题解决能力的影响。我们让九种流行的LLMs回答一系列选择题，以建立性能基线。对于回答错误的问题，我们指导八种不同类型的自我反思LLM代理反思其错误，并为自己提供改进问题解决的指导。然后，根据这些指导，每个反思型代理重新尝试回答同样的问题。研究结果显示，LLM代理通过自我反思显著提高了问题解决能力（ $p < 0.001$ ）。此外，我们还比较了各种自我反思方式对性能的单独贡献。所有代码和数据已在GitHub上公开：https://github.com/matthewrenze/self-reflection。
2024-05-08	Air Gap: Protecting Privacy-Conscious Conversational Agents	Eugene Bagdasaryan et.al.	2405.05175	null	随着大型语言模型（LLMs）在对话式代理中的广泛应用，处理敏感用户数据时引发了严重的隐私问题。这些代理虽能理解并处理上下文，但也可能被恶意一方利用。为此，我们提出了一种新的威胁模型，即第三方应用通过操控交互上下文，误导LLM代理泄露与其任务无关的私人信息。在基于上下文完整性框架的基础上，我们开发了AirGapAgent，这是一种注重隐私的代理，旨在通过限制代理仅访问完成特定任务所需的数据，防止意外的数据泄漏。实验使用Gemini、GPT和Mistral模型作为代理，结果显示AirGapAgent在抵御基于单个查询的上下文劫持攻击方面表现出色。例如，对于Gemini Ultra代理，这种攻击从94%的保护能力降低到45%，而AirGapAgent可以保持97%的防护效果，使同样的攻击失效。
2024-05-07	Deception in Reinforced Autonomous Agents: The Unconventional Rabbit Hat Trick in Legislation	Atharvan Dogra et.al.	2405.04325	null	近期大型语言模型（LLMs）的进展虽为构建自然语言代理提供了强大基础，但同时也引发了关于它们及其基于它们构建的自主代理的安全性担忧。特别是欺骗能力是一个关键问题，我们关注的是AI代理通过混淆和模棱两可来误导、隐藏真相或推广部分不真实的信念的行为。不同于以往AI安全研究中的撒谎、自私决策或提供虚假信息，我们聚焦于一类特殊的欺骗：类似于魔术师利用障眼法让兔子从帽子里出现，要么通过隐藏的暗门，要么通过转移注意力直接展示。我们的新实验平台在一个有目标的环境中展示了LLM代理在对抗性对话系统中进行自然语言生成时的欺骗固有能力，该系统基于立法任务“游说”议案。在目标驱动的环境中，我们通过强化学习方法构建欺骗能力，结合语言哲学和认知心理学理论。研究发现，游说代理在对抗互动的后续强化试验中其欺骗能力提高了约40%，并且我们的欺骗检测机制能达到高达92%的识别率。这些结果揭示了人机交互中的潜在问题，即代理可能操纵人类以达成预设目标。
2024-05-07	Granite Code Models: A Family of Open Foundation Models for Code Intelligence	Mayank Mishra et.al.	2405.04324	link	大语言模型（LLMs）在代码领域的训练正在革新软件开发流程。如今，这些代码LLMs正逐步融入软件开发环境，以提升人类程序员的效率，并展现出自主处理复杂任务的潜力。要充分利用代码LLMs的全部效能，需要其具备生成代码、修复bug、解释和注释代码、维护仓库等多种功能。本文介绍Granite系列的解码器仅有的代码模型，专为代码生成任务而设计，训练数据涵盖116种编程语言。Granite Code模型家族包括从3亿到340亿参数的模型，适用于从复杂应用现代化到设备内存受限的多种应用场景。通过全面任务评估，Granite Code模型在开源代码LLM中的性能始终处于领先水平。该模型家族针对企业软件开发工作流进行了优化，表现出色于各种编码任务（如代码生成、修复与解释），是一款多用途的全能代码模型。我们以Apache 2.0许可协议发布所有Granite Code模型，供研究和商业使用。
2024-05-07	Iterative Experience Refinement of Software-Developing Agents	Chen Qian et.al.	2405.04219	null	### 概述大型语言模型驱动的自主代理在软件开发等场景中展现出强大的自主性潜力。然而，当前静态经验范式依赖于通过启发式方法获取的固定历史经验集，这限制了代理的适应性和效率提升。为此，本文提出了迭代经验优化框架，允许语言模型在执行任务过程中动态调整和优化经验。我们定义了两种核心模式：顺序模式，根据任务批次内的最近经验进行改进；累计模式，积累所有先前任务批次的经验。通过引入经验淘汰策略，该方法优先选择高质量和常用的经验，有效地管理经验空间，提高效率。实验结果显示，尽管顺序模式可能带来更好的性能，但累计模式在稳定性方面更优。此外，通过淘汰策略，仅使用高质量经验子集的11.54%，就能实现更好的性能。
2024-05-06	Large Language Models as Instruments of Power: New Regimes of Autonomous Manipulation and Control	Yaqub Chaudhary et.al.	2405.03813	null	## 翻译大型语言模型（LLMs）能够模仿各种修辞风格，生成表达广泛情感的文本，这种能力在低成本下迅速普及，带来了潜在的社会危害。本文并未孤立看待这些模型，而是关注它们背后大规模计算基础设施在各领域的应用。我们首先探讨了LLMs如何通过污染和标准化信息环境来影响社会，并指出这些功能可能被用作控制手段。接下来，我们将焦点转向几个新兴研究领域，这些领域增强了LLMs作为权力工具的能力： 1. 通过实时设计对话界面中的选择架构（如“AI角色”），进行说服策略。 2. 利用LLM构建人类行为的计算模型（如“硅质主体”）。 3. 将LLM应用于模拟人类群体行为（如“硅质社会”）。 4. 结合强化学习，创建可控制和导向的战略对话模型。综合以上几点，我们讨论了如何利用这些技术构建基于LLMs的系统，这些系统通过模拟和伪装的“预测”，成为个体、社会和政治控制的强大工具，操控人类的行为、意图和行动。
2024-05-05	Language Evolution for Evading Social Media Regulation via LLM-based Multi-agent Simulation	Jinyu Cai et.al.	2405.02858	link	社交媒体平台如Twitter、Reddit和新浪微博在全球交流中扮演重要角色，但它们在地缘政治敏感区域常常受到严格监管。这促使用户在受限的社交媒体环境中巧妙地调整沟通方式，经常使用编码语言。这种语言模式的变化不仅是为了对抗监管，也是语言演化的生动例证，展示了社会和技术压力下语言如何自然演变。研究受限制社交媒体环境下语言的演变对于保障言论自由、优化内容管理以及推动语言学研究至关重要。本论文提出了一种基于大型语言模型（LLMs）的多代理模拟框架，用于探索在严格监管下的用户语言进化。该框架包含对话监督的LLM驱动代理和参与者代理，它们在互动中发展语言策略，模拟在规避社交媒体规则的环境中交流方式的演变。通过从抽象场景到现实情境的多种情景评估，研究结果显示LLMs能够有效模拟受限环境中的复杂语言动态和交互，随着进化，它们在规避监督和信息准确性方面表现出提升。此外，研究发现LLM代理针对不同的场景采用了不同的策略。
2024-05-02	OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning	Shihao Wang et.al.	2405.01533	link	随着大规模多模态语言模型（MLLMs）的进步，人们对于基于这些模型的自动驾驶系统表现出日益增长的兴趣，期望利用它们强大的推理能力。然而，将MLLMs的强项应用于驾驶任务的规划部分是一个挑战，因为规划需要对三维环境有全面的理解，而不仅仅是二维推理。为此，我们的工作提出了一种框架，旨在实现模型与3D驾驶任务的紧密契合。我们首先设计了一个新颖的3D MLLM架构，它利用稀疏查询技术将视觉表示提升并压缩到三维空间，然后将其输入到语言模型中。这种基于查询的表示方式使得我们可以同时编码动态物体和静态地图元素（如道路），为感知和行动的对齐提供一个简化的三维世界模型。此外，我们还创建了OmniDrive-nuScenes，这是一个新的视觉问答数据集，它通过全面的视觉问答任务（如场景描述、交通规则理解、三维定位、反事实推理、决策制定和规划）来考验模型在复杂三维场景中的真正情境意识。大量的实验结果表明，我们的提出的架构有效，并强调了在复杂三维环境中进行推理和规划时，视觉问答任务的重要性。
2024-05-02	CACTUS: Chemistry Agent Connecting Tool-Usage to Science	Andrew D. McNaughton et.al.	2405.00972	link	这篇论文介绍了一种名为CACTUS的大型语言模型，它结合了化学信息学工具，旨在提升在化学和分子发现领域的高级推理与问题解决能力。研究者们使用包括Gemma-7b、Falcon-7b、MPT-7b、Llama2-7b和Mistral-7b在内的多款开源大语言模型，对CACTUS进行了广泛的性能评估，通过数千个化学问题的基准测试。结果显示，CACTUS明显优于基础模型，其中Gemma-7b和Mistral-7b无论采用何种提示策略，表现最为出色。论文还探讨了领域特定提示和硬件配置对模型性能的影响，强调了提示工程的重要性，并指出在消费级硬件上部署较小模型可能不会显著牺牲准确性。 CACTUS通过融合开源大语言模型的认知功能与专业工具，能够协助研究人员进行分子性质预测、相似性搜索和药物适用性评估等任务。作为化学信息学领域的重大突破，CACTUS为化学家和分子探索者提供了一个灵活的工具，有望加速科学研究，推动新型有效、安全药物、催化剂和材料的发现。此外，CACTUS与自动化实验平台的集成以及实时数据驱动决策的能力，为自主发现开辟了新的可能。
2024-04-29	Towards Generalizable Agents in Text-Based Educational Environments: A Study of Integrating RL with LLMs	Bahar Radmehr et.al.	2404.18978	null	随着教育环境中对学习者模型日益增长的兴趣，研究重点逐渐转向如何通过强化学习（RL）与大型语言模型（LLMs）相结合，提升在开放性文本学习环境中的通用能力。本文探讨了三种类型的代理：（1）基于RL的代理，使用自然语言表示状态和行动策略以寻找最佳互动方式；（2）基于LLM的代理，利用模型的广泛知识和推理能力通过提示进行操作；（3）混合LLM辅助RL的代理，旨在提高性能和泛化能力。为了支持这些代理的发展和评估，我们提出了PharmaSimText，这是一个源自PharmaSim虚拟药店环境的新基准，专注于诊断对话实践。实验结果显示，RL基础的代理在任务完成方面表现优秀，但在提问质量上有所欠缺；而LLM基础的代理在提问能力上较强，但任务完成度不高。最后，混合LLM辅助RL的代理展示了克服这些局限性的潜力，证实了RL与LLMs结合用于开发开放性学习环境高表现代理的可能性。
2024-04-27	CRISPR-GPT: An LLM Agent for Automated Design of Gene-Editing Experiments	Kaixuan Huang et.al.	2404.18021	null	随着基因组工程技术的兴起，精确修改遗传信息已成为可能，但高效基因编辑系统的构建需要深入理解CRISPR技术及其复杂实验背景。大型语言模型（LLMs）在诸多任务中展现出潜力，但在生物设计问题上往往缺乏特定知识。本文介绍CRISPR-GPT，一个增强型LLM代理，它结合了领域知识和外部工具，以自动化并提升基于CRISPR的基因编辑实验设计过程。CRISPR-GPT利用LLMs的推理能力，协助选择CRISPR系统、设计引导RNA、推荐细胞递送方法、起草协议以及设计验证实验以确认编辑结果。我们展示了CRISPR-GPT如何帮助非专家研究人员从头开始进行基因编辑实验，并通过实际案例验证其有效性。同时，我们探讨了自动化基因编辑设计的伦理和监管问题，强调了负责任和透明使用此类工具的重要性。我们的工作目标是弥合初级生物研究者与CRISPR基因组工程技术之间的鸿沟，展示LLM代理在促进复杂生物发现任务中的潜力。
2024-04-27	Testing and Understanding Erroneous Planning in LLM Agents through Synthesized User Inputs	Zhenlan Ji et.al.	2404.17833	null	随着大型语言模型（LLMs）驱动的代理在各种商业应用中，特别是在心理健康支持、化学合成和软件开发等领域展现效用，人们发现这些代理在处理复杂任务和长期规划时容易产生错误。为此，本文提出了一种新颖的自动化方法——PDoctor，旨在检测和理解LLM代理的错误规划。PDoctor首先定义了一个领域特定的语言（DSL），用于用户查询，并借助Z3约束求解器生成各种输入，这些输入是描述一系列任务完成需求的自然语言段落。然后，PDoctor从这些需求中提取约束，形成一个测试基准。我们使用三个主流的代理框架和两个强大的LLMs（GPT-3.5和GPT-4）对PDoctor进行了评估，结果显示它能有效识别代理规划中的各种错误，并为开发者和用户提供了有价值的见解和错误特性。最后，我们讨论了可能的替代设计和扩展PDoctor的方向。
2024-04-26	PLAYER: Enhancing LLM-based Multi-Agent Communication and Interaction in Murder Mystery Games*	Qinglin Zhu et.al.	2404.17662	link	随着大型语言模型（LLMs）的最新进展，增强了代理间的通信和社会交互能力。然而，在涉及竞争与合作的动态环境中，利用这些模型进行复杂推理的构建仍然面临挑战，尤其是因为基于信息图的搜索方法存在局限性。为此，我们提出PLAYER，这是一个基于任意采样式规划器的新框架，它结合了传感器和剪枝技术，构建了一个完全依赖于问题驱动的搜索框架，适用于高难度的推理任务。我们还引入了一种可量化的评估方法，通过多项选择题来测试，并创建了WellPlay数据集，包含1,482个问答对。实验结果表明，PLAYER在复杂动态环境中的效率和性能优于现有方法，并提供了可量化的对比结果。
2024-04-24	Autonomous LLM-driven research from data to human-verifiable research papers	Tal Ifargan et.al.	2404.17605	link	随着人工智能推动科学发现的步伐加快，人们还不清楚完全由AI驱动的研究是否可行，以及它能否遵循关键的科学价值观，如透明度、可追溯性和可验证性。为了模拟人类的科学研究实践，我们构建了“数据到论文”（data-to-paper），这是一个自动化平台，引导相互协作的人工智能代理通过完整的分步骤研究流程，同时程序化追踪信息流，并允许人类监督和互动。在自动模式下，仅提供标注数据，该平台就能提出假设，设计研究计划，编写和调试分析代码，生成和解读结果，甚至创建完整且信息可追溯的科研论文。尽管研究新颖性有限，但这一过程展示了AI自主从数据中生成原创定量洞察的能力。对于简单的研究目标，全自动流程能创作出大约80-90%无需重大错误的稿件，然而随着目标复杂性的增加，人类的共同参与对于保证准确性至关重要。此外，生成的论文本身也具有内在的可验证性，因为信息追踪使得结果、方法和数据的链接可以程序化进行。因此，我们的工作表明，AI驱动的科研可以加速科学发现，同时增强而非威胁透明度、可追溯性和可验证性。
2024-04-11	The Future of Scientific Publishing: Automated Article Generation	Jeremy R. Harper et.al.	2404.17586	null	这项研究介绍了一种创新的软件工具，它利用大型语言模型（LLM）提示，实现了从Python代码自动生成学术文章，这对于生物医学信息学和计算机科学领域具有重要意义。选择Python作为基础示例，因其广泛使用和强大的数据分析能力。该方法和框架的灵活性使得其适用于多种GitHub仓库，表明了工具的广泛应用潜力（Harper，2024年）。通过简化传统上耗时的学术写作过程，特别是在整合复杂数据集和代码输出方面，这一突破性进展推动了科研成果的快速传播。开发过程中并未依赖高级语言模型，确保了自动化生成内容的连贯性和完整性。此次探索不仅验证了软件的成功应用和效率，还预示了未来可能集成更先进的LLM，将进一步增强其功能，引领一个科研发现发布更加迅速和易获取的时代。
2024-05-09	Large Language Model Agent as a Mechanical Designer	Yayati Jadhav et.al.	2404.17525	null	传统的机械设计方法依赖于专家通过经验引导的修改和有限元分析（FEA）来满足特定需求，但这个过程耗时且高度依赖个人知识。尽管已经开发了许多机器学习模型来简化繁琐的专家驱动迭代过程，但它们通常需要大量训练数据和计算资源。深度学习方法往往局限于其训练领域和任务，限制了跨任务应用。这在自动化效率与资源需求之间形成了权衡。本研究提出了一种新颖的方法，即将预训练的语言模型（LLMs）与有限元模块结合。有限元模块评估每个设计并提供关键反馈，引导LLMs不断学习、规划、生成和优化设计，无需针对特定领域进行专门训练。我们通过在桁架结构的迭代优化中展示这种框架的有效性，证明它能够根据结构化的反馈和标准调整设计。结果显示，基于LLM的代理成功生成符合自然语言描述的桁架结构设计，成功率高达90%，这取决于所施加的约束条件。通过提示式优化技术，我们展示了LLM代理在接收到解-得分对后，能够根据其内在推理能力迭代优化设计以满足规格要求。 LLM代理能够产生可行的设计并根据其固有的推理能力进行优化，这表明它们有潜力自主发展和实施有效的设计策略。
2024-04-26	Ruffle&Riley: Insights from Designing and Evaluating a Large Language Model-Based Conversational Tutoring System	Robin Schmucker et.al.	2404.17460	null	本文讨论并评估了一种新型的对话式辅导系统（Conversational Tutoring Systems，CTS），该系统利用大型语言模型（Large Language Models，LLMs）的最新进展。首先，系统通过自动从课程文本中生成易于编辑的教学脚本，实现AI辅助的内容创作。其次，系统通过两个基于LLM的代理（Ruffle和Riley）以学习教学模式运行，分别扮演学生和教授角色，进行自由形式的对话，遵循典型的人工智能辅导系统的内环和外环结构。我们在两个在线用户研究（N=200）中对比了该系统与简单的问答聊天机器人和阅读活动在支持生物学课程的效果。研究分析了系统使用模式、预后测试成绩以及用户体验调查，结果显示用户对Ruffle&Riley的参与度高，理解力强，并认为提供的支持有帮助。尽管Ruffle&Riley用户的完成时间较长，但在短期学习成效上并未发现显著差异，优于阅读活动。我们的系统架构和用户研究为未来CTS设计者提供了有价值的信息。此外，我们开源我们的系统，以促进基于LLM的学习技术有效教学设计的研究。
2024-04-26	A Unified Debugging Approach via LLM-Based Multi-Agent Synergy	Cheryl Lee et.al.	2404.17153	null	在软件调试这个耗时的过程中，人们一直在努力实现自动化，包括故障定位和修复生成。近年来，大型语言模型（LLMs）在自动化调试方面展现出巨大潜力。然而，我们发现了传统和基于LLM的调试工具面临三大挑战：1）上游的故障定位不准确会波及下游的修复；2）处理复杂逻辑错误的能力不足；3）忽视程序上下文。针对这些问题，我们提出了首个自动化的、统一的调试框架——FixAgent，通过LLM代理协同。FixAgent能执行端到端的故障定位、修复和分析。我们的关键洞察是，LLMs能够从人类开发者认可的通用软件工程原则中获益，比如“橡皮鸭调试”，这有助于更好地理解程序功能和逻辑错误。为此，我们设计了三个灵感来源于“橡皮鸭”的解决方案：代理专业化与协同、关键变量跟踪和程序上下文理解，促使LLMs提供明确的解释，并聚焦于关键的程序逻辑信息。在广泛使用的QuixBugs数据集上，FixAgent成功修复了80个bug中的79个，其中9个是之前未解决的。它还在CodeFlaws上合理地修复了1.9倍于最佳修复工具的缺陷，而且无需位置信息，采样率低于0.6%。平均而言，与使用不同LLM的基线模型相比，FixAgent提高了约20%的合理修复和正确修复率，显示出我们设计的有效性。此外，FixAgent的正确率高达97.26%，表明它有可能克服现有方法的过拟合问题。总结来说，FixAgent是一个有前景的自动化调试框架，旨在提升软件调试的效率和准确性。
2024-04-25	Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents	Giorgio Piatti et.al.	2404.16698	link	在快速发展的人工智能领域，确保大型语言模型（LLMs）的决策安全是一项重大挑战。本文提出了一种名为“Governance of the Commons Simulation”（GovSim）的模拟平台，旨在研究LLMs中的战略互动和合作决策。通过这个环境，我们探讨了AI代理之间资源分享的动态，强调了伦理考量、战略规划和谈判技巧的重要性。GovSim具有灵活性，支持文本型代理，包括LLMs。利用生成式代理框架，我们创建了一个通用代理，便于整合不同的LLMs。我们的研究发现，在GovSim中，只有15个测试模型中的2个能够实现可持续结果，这表明模型在管理共享资源的能力上存在显著差距。进一步的研究显示，如果移除代理之间的通信能力，它们会过度使用共享资源，突出了合作中沟通的关键性。有趣的是，大多数LLMs缺乏普遍化的假设能力，揭示了它们推理技能的一个重要弱点。我们开源了所有研究结果，包括模拟环境、代理提示以及全面的网络界面，以供进一步研究和讨论。
2024-04-24	Online Personalizing White-box LLMs Generation with Neural Bandits	Zekai Chen et.al.	2404.16115	null	随着大型语言模型（LLMs）开始生成个性化的文本内容，如何在不为每位用户创建独特模型的资源消耗下实现高效个性化成了新挑战。本文提出了一种创新的在线方法，利用神经_bandit算法动态优化软指令嵌入，根据用户反馈调整内容，从而提升白盒LLMs开放性文本生成的个性化水平。通过在多个任务上的严谨实验，我们证明了这种方法相对于基础策略有显著性能提升。特别是针对个性化新闻标题生成，NeuralTS带来了高达62.9%的最佳ROUGE分数提升以及2.76%的LLM代理评估分数增长，这表明其效果显著。
2024-04-04	Elicitron: An LLM Agent-Based Simulation Framework for Design Requirements Elicitation	Mohammadmehdi Ataei et.al.	2404.16045	null	## 翻译在产品开发的关键阶段——需求获取，往往难以全面捕捉用户需求，导致最终产品可能无法满足期望。为此，本文提出了一种新颖的框架，它利用大型语言模型（LLMs）来自动化和增强这一过程。通过生成大量模拟用户（LLM代理），我们可以探索更广泛的用户需求和未预见的使用场景。这些代理通过描述他们的行为、观察和挑战，参与产品体验情景。随后的代理访谈和分析揭示了宝贵的用户需求，包括潜在需求。我们通过三个实验验证了我们的框架：首先，我们探讨了不同方法生成多样化的代理，分析其优缺点，并证明了具有上下文意识的代理生成能带来更大的需求多样性。其次，我们展示了该框架如何有效地模拟富有同情心的领先用户访谈，识别出比传统人类访谈更多的潜在需求。最后，我们展示了如何使用LLMs分析访谈，提取需求并将其分类为潜在或非潜在。我们的研究工作强调了利用LLM代理加速早期产品研发、降低成本和促进创新的潜力。
2024-04-24	A Human-Computer Collaborative Tool for Training a Single Large Language Model Agent into a Network through Few Examples	Lihang Pan et.al.	2404.15974	null	## 翻译单个大型语言模型（LLM）在解决复杂任务方面的能力有限。然而，通过连接多个LLM代理构建的网络可以显著提升整体性能。本文介绍了一种人机协作工具——EasyLAN，旨在帮助开发者轻松构建LLM代理网络（LAN）。EasyLAN首先根据任务描述自动生成仅包含一个代理的初始网络。接着，它利用少量训练示例来调整网络。对于每个示例，EasyLAN分析输出与真实结果之间的差距，并找出错误的原因。EasyLAN会采用精心设计的策略来修正这些问题。用户可以介入EasyLAN的工作流程或直接修改LAN。最终，LAN从单个代理发展成多代理的网络。实验结果显示，EasyLAN能够帮助开发者快速构建性能良好的LAN。
2024-04-03	Concept-Guided LLM Agents for Human-AI Safety Codesign	Florian Geissler et.al.	2404.15317	null	随着生成人工智能在软件工程，特别是安全工程中的重要性提升，对它的质量要求也随之提高。单纯依赖大型语言模型（LLMs）已不足以满足这些需求。因此，我们提出了一种高效且融合的策略，旨在利用LLMs进行安全分析和人机协同设计，以确保软件系统的安全性。我们开发了一个定制化的LLM代理，结合提示工程、启发式推理和检索增强生成，专注于解决与预定义安全概念相关的任务，并与系统模型图进行交互。决策流程通过一系列微决策进行引导，有助于保持结构化信息。此外，我们还提出了图的口头表述作为系统模型的中间表示，以促进LLM与图的交互。我们通过一个简化自动驾驶系统的示例，展示了选择的提示-响应对，以说明我们的方法如何应用于安全分析。
2024-04-23	Aligning LLM Agents by Learning Latent Preference from User Edits	Ge Gao et.al.	2404.15269	link	我们研究基于用户对语言模型编辑的互动学习语言代理。在诸如写作助手的常见场景中，用户与语言代理交互，根据上下文生成响应，并可能选择性地编辑代理的响应以反映他们的潜在偏好，同时提高准确性。这种编辑反馈是自然产生的，适合用于提升代理与用户偏好的契合度，降低后续用户的编辑成本。为此，我们提出PRELUDE框架，它根据历史编辑数据推断用户的潜在偏好，并据此设计一个提示策略，引导未来的响应生成，避免了昂贵且难以扩展的微调过程，还能保持在其他任务上的性能。此外，学习描述性的偏好有助于增强可解释性，用户可以查看和调整学习到的偏好。然而，用户偏好可能复杂多变，受情境影响，因此学习起来具有挑战性。为解决这一问题，我们提出CIPHER算法，它利用大型语言模型（LLM）根据用户编辑推断给定情境下的用户偏好。未来，CIPHER会从历史中的k个最接近的上下文中检索推断出的偏好，综合生成响应。我们在总结和电子邮件写作两个互动环境中使用GPT-4模拟用户进行评估，与直接使用用户编辑但不学习描述性偏好的算法，以及学习全局无上下文偏好的算法进行了比较。在两项任务中，CIPHER都实现了最低的编辑距离成本，并且学习到的偏好与真实偏好显示出显著的相似性。
2024-04-22	A Survey on Self-Evolution of Large Language Models	Zhengwei Tao et.al.	2404.14387	link	## 概述大型语言模型（LLMs）在众多领域和智能代理应用中取得了显著进步。然而，依赖人类或外部模型监督的现有LLMs在处理复杂任务和多样性增加时可能会遇到成本高昂和性能瓶颈的问题。为此，自我进化方法应运而生，这种策略允许LLMs自主获取、精炼并从自身生成的经验中学习，借鉴人类经验学习过程，有望推动LLMs向超级智能发展。本文全面综述了LLMs中的自我进化方法。首先，我们提出一个概念框架，将进化过程划分为迭代循环的四个阶段：经验获取、经验细化、更新和评估。其次，我们分类探讨LLMs和基于LLM的代理的进化目标，并对相关文献进行总结，提供每个模块的分类和见解。最后，我们指出了当前的挑战，并提出了未来研究方向，为加速自演进LLMs的发展提供关键洞见。
2024-04-21	A Survey on the Memory Mechanism of Large Language Model based Agents	Zeyu Zhang et.al.	2404.13501	link	随着大型语言模型（LLMs）在科研和工业界的广泛关注，基于LLMs的智能代理因其自我进化能力而备受瞩目，这对于解决需要长期复杂交互的现实问题至关重要。支持agent-environment交互的关键要素是代理的记忆机制。尽管已有众多有前景的记忆设计被提出，但这些研究分散在多篇论文中，缺乏全面的综述来系统性地总结和比较，未能提炼出通用且有效的设计模式以启发后续研究。为此，本论文旨在填补这一空白，我们提出一份关于LLM基代理记忆机制的全面调查。首先，我们将探讨记忆在LLM代理中的“是什么”以及“为什么需要”。然后，我们系统回顾了关于记忆模块的设计和评估方法的研究。此外，我们还会展示记忆模块在各种应用中扮演的重要角色。最后，我们会分析现有工作的局限，并指出重要的未来研究方向。为了跟踪该领域最新进展，我们创建了一个GitHub仓库：\url{https://github.com/nuster1128/LLM_Agent_Memory_Survey}。
2024-04-18	From Language Models to Practical Self-Improving Computer Agents	Alex Sheng et.al.	2404.11964	null	我们提出了一种简单直接的方法，用于创建能够执行各种计算机任务的人工智能代理，并通过自我改进来发展工具和增强功能，以解决日益复杂的任务。鉴于大型语言模型（LLMs）已显示出从非参数增强中获益，近期的研究大量集中在开发软件，以赋予LLMs各种能力。我们建议，通过适当的提示工程，一个LLM代理可以系统地生成软件来增强自身，而不是依赖人类工程的静态软件开发。我们通过一些案例研究展示了这一点：仅通过终端访问，我们引导LLM代理添加了检索、互联网搜索、网页导航和文本编辑功能。该代理有效地利用这些工具解决了问题，例如自动化软件开发和基于网络的任务。这种方法表明，通过连续提问和巧妙的提示设计，LLM能够自主扩展其功能，执行实际的计算机任务。
2024-04-25	Automated Social Science: Language Models as Scientist and Subjects	Benjamin S. Manning et.al.	2404.11794	null	我们提出了一种方法，利用大型语言模型（LLM）的最新进展，自动构建和测试社会科学假设。这种方法的关键在于使用结构因果模型。结构因果模型提供了一个陈述假设的语言、构建LLM基础代理的蓝图、实验设计以及数据分析计划。拟合后的结构因果模型可供预测或规划后续实验。我们通过几个场景进行了演示：谈判、保释听证会、求职面试和拍卖。在这些情况下，系统既提出了因果关系，也进行了检验，发现了一些证据，而有些则没有。我们证明，从这些社会互动模拟中获取的洞察并非仅通过直接询问LLM就能获得。当给定每个场景的建议结构因果模型时，LLM在预测估计效应的符号方面表现良好，但无法可靠地预测效应的大小。在拍卖实验中，模拟结果与拍卖理论的预测紧密吻合，但LLM直接提取的清算价格预测不准确。然而，如果模型能基于拟合的结构因果模型进行条件化，LLM的预测会大幅改进。简而言之，LLM知道的比它能立即表达的要多。
2024-04-17	AgentKit: Flow Engineering with Graphs, not Coding	Yue Wu et.al.	2404.11483	link	我们提出了一种直观的大型语言模型提示框架（AgentKit），旨在为多功能代理提供统一的方法。AgentKit通过简单的自然语言提示构建复杂的“思维过程”。其基本单元是节点，包含特定子任务的自然语言指令。用户可以像拼接乐高积木一样连接这些节点，从而明确设计出自然结构化的“思考流程”。例如，在撰写论文时，可能的步骤包括：1）确定核心信息，2）识别研究空白等。AgentKit的模块化特性使得高级功能如即兴的层次化规划、反思和从互动中学习变得可能。由于其直观且模拟人类思考过程的设计，即使没有编程经验的人也能创建和调整基础代理。定量实验显示，使用AgentKit设计的代理在WebShop和Crafter任务上实现了最先进的性能。这些成果表明AgentKit有潜力使LLM代理在更广泛的场景下高效且易于使用。相关代码已开源在GitHub：https://github.com/holmeswww/AgentKit。
2024-04-15	Memory Sharing for Large Language Model based Agents	Hang Gao et.al.	2404.09982	link	在人工智能领域，大型语言模型（LLMs）通过自然语言提示执行任务的能力是一个重大突破，它减少了对固定答案任务（如常识问题和是非查询）的重新训练或微调需求。然而，在处理开放性挑战如诗歌创作时，基于上下文学习的方法显示出局限，主要源于提供的示例全面性以及模型理解问题内容的能力不足，导致输出往往与预期结果大相径庭。针对这一差距，我们的研究提出了Memory-Sharing（MS）框架，这是一种针对LLM多代理的实时记忆存储和检索系统，旨在增强基于上下文的学习过程。每个“记忆”单元记录了提出的查询及其来自LLM代理的即时响应，从多个类似代理中聚合这些记忆，形成所有代理共享的丰富记忆池。MS框架不仅帮助代理找到特定任务的相关示例，还评估其记忆的潜在利用价值，供其他代理未来应用。在三个不同领域的实证验证显示，MS框架显著提高了代理处理开放性问题的表现。此外，我们还讨论了哪种记忆池和检索策略能更好地支持代理，为MS的未来发展提供了方向。代码和数据可在：https://github.com/GHupppp/MemorySharingLLM 获取。
2024-05-10	Confidence Calibration and Rationalization for LLMs via Multi-Agent Deliberation	Ruixin Yang et.al.	2404.09127	link	### 背景当前的大规模语言模型（LLMs）在不确定性估计方面面临挑战，它们通常校准不良且过度自信，特别是在基于人类反馈的强化学习（RLHF）中。人类的决策和信心不仅源于内在信念，还能通过日常观察进行调整，而现有LLM的校准方法主要关注单个模型的信心估计，未能充分利用“集体智慧”：多个LLM之间的协作表达能力，这可以集体提高准确性和校准。本研究中，我们提出了一种无训练后处理的校准策略——协作校准（Collaborative Calibration），它利用多代理工具增强的LLMs在模拟的群体讨论过程中，共同提升校准能力和推理合理性。 ### 任务我们在生成式问答任务上展示了协作校准的有效性，覆盖了多个领域，证明了它在整合集体校准后的信心评估和提升模型预测可靠性方面的潜力。
2024-04-13	CuriousLLM: Elevating Multi-Document QA with Reasoning-Infused Knowledge Graph Prompting	Zukang Yang et.al.	2404.09077	link	在问答（QA）领域，大型语言模型（LLMs）与外部数据库的融合取得了显著成效。然而，这些方法在处理复杂推理任务时往往力有不逮。为此，我们对一种名为知识图谱提示（KGP）的创新方法进行了优化，该方法结合知识图谱和基于LLM的代理以提升推理和搜索精度。然而，原始的KGP框架需要昂贵的大规模数据微调，并且仍存在LLM的错误推断问题。因此，我们提出了一种融入推理能力的LLM代理，它模仿人类的好奇心，通过提问来更有效地导航搜索过程。这个简单的改进显著提高了LLM在QA任务中的性能，同时避免了初始KGP框架的高成本和延迟。我们的目标是进一步发展这种方法，最终实现更精确、更快捷且成本效益更高的QA解决方案。
2024-04-13	Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation	Jia Gu et.al.	2404.09043	null	随着大型语言模型（LLMs）的飞速发展及其在处理复杂语言任务中的出色表现，越来越多的研究尝试利用LLMs模拟人类的行为决策过程，通常这些过程被表示为马尔可夫决策过程（MDPs）。在这个框架中，动作遵循特定的概率分布，并需要迭代采样。这促使我们探究LLM代理理解概率分布的能力，以通过概率采样指导行为决策并生成行为序列。我们将问题分为两个主要方面：一是已知精确概率分布的模拟，二是模糊概率分布的序列生成。在已知概率分布的情况下，代理需要根据问题描述提供概率分布的类型和参数，然后给出采样序列。然而，我们的研究显示，LLM代理在这方面的性能不佳，但通过编程工具可以一定程度上提高采样成功率。而在实际情境中，概率分布往往不明确。因此，我们在第二部分让代理调整在线社交网络中的活跃度，并分析行动频率。结果表明，即使借助编程工具，LLM代理依然无法有效地采样概率分布。这意味着在直接将LLM作为模拟人类行为的代理应用之前，还需要谨慎对待。
2024-04-12	Strategic Interactions between Large Language Models-based Agents in Beauty Contests	Siting Lu et.al.	2404.08492	null	随着大型语言模型（LLMs）的广泛应用，它们在博弈论框架下的游戏行为理解潜力日益显现。本研究聚焦于通过模拟分析不同类型LLM驱动的代理在经典 Beauty Contest 游戏中的策略互动。借鉴人类实验，我们对LLM代理的策略层次进行类似的评估，发现它们展现出从零级到一级的不同程度推理能力，并在重复游戏中表现出行动趋同。此外，我还探讨了不同类型的代理群体构成如何影响战略行为：高比例的固定策略对手能促进LLM代理的收敛，而混合环境中不同相对策略水平的代理共存会加速所有代理的收敛。更智能的代理可能获得更高的平均收益，但这是以较低智能代理的牺牲为代价的。这些结果不仅揭示了在特定情景下模拟代理的结局，还为理解算法之间的战略互动提供了重要启示。
2024-04-17	LLM Agents can Autonomously Exploit One-day Vulnerabilities	Richard Fang et.al.	2404.08144	null	随着大语言模型（LLMs）的威力日益增强，其在良性和恶意用途上的应用也日益广泛。研究人员开始关注它们利用网络安全漏洞的能力。近期的研究探讨了LLMs自主破解网站的可能性，但这些研究主要集中在简单的漏洞上。本工作揭示，LLMs能够自主利用现实世界系统中的单日漏洞。我们收集了一组包含15个被CVE描述为“关键严重性”的一天期漏洞数据。当提供CVE描述时，GPT-4模型能成功利用87%的漏洞，相比之下，其他测试模型（如GPT-3.5、开源LLMs和开源漏洞扫描器ZAP和Metasploit）的表现均为0%。然而，我们的GPT-4模型在没有描述的情况下效率大减，仅能利用7%的漏洞。这些发现对大规模部署高能力LLMs提出了质疑。
2024-04-11	WESE: Weak Exploration to Strong Exploitation for LLM Agents	Xu Huang et.al.	2404.07456	null	近期，大型语言模型（LLMs）显示出作为智能代理的强大潜力。然而，现有的研究主要集中在通过精心设计的提示工程或任务特定的微调来提升模型的推理或决策能力，忽视了探索与利用的过程。在处理开放世界交互环境中的复杂任务时，这些方法存在局限性。首先，由于缺乏对环境的全局信息，模型倾向于做出贪婪决策，导致解决方案不理想。另一方面，从环境中获取的无关信息不仅引入噪声，还增加了额外的成本。为此，本文提出了一种新颖的方法——弱探索强化强利用（Weak Exploration to Strong Exploitation，WESE），旨在增强LLM在解决开放世界交互任务中的表现。具体来说，WESE将探索和利用过程解耦，使用成本效益高的“弱”代理执行探索任务，以获取全局知识。随后，我们引入基于知识图谱的策略来存储这些知识，并提取与任务相关的关键信息，从而提升“强”代理在成功率和效率上的性能。我们的方法适用于各种任务，并在四个互动基准测试中显著提高了成功率和效率。
2024-04-10	GoEX: Perspectives and Designs Towards a Runtime for Autonomous LLM Applications	Shishir G. Patil et.al.	2404.06921	link	随着大型语言模型（LLMs）的发展，它们不再仅仅是对话系统中的信息提供者，而是开始积极参与到与实际应用和服务的互动中。如今，人类在将LLM生成的输出（如代码、函数或操作）投入现实世界执行前，需要验证其正确性和适用性，这带来了挑战，因为代码理解被广泛认为非常困难。本文研究了人类如何能有效与LLMs协作、委派和监督，特别是在未来。我们主张，在许多情况下，对提出的行动进行“事后验证”（在看到输出后确认其正确性）比之前的“事前验证”更为容易。实现这一目标的核心理念是集成直观的撤销功能，并为LLM生成的动作设定损害约束，作为降低相关风险的有效策略。通过这种方式，人类可以撤销LLM输出的影响，或者确信潜在风险是有限的。我们认为这对于实现LLMs与应用和服务在有限的人类监督下交互至关重要。我们描述了开源运行时Gorilla Execution Engine（GoEX）的设计和实现，该运行时用于执行LLM动作，并提出了一些开放的研究问题，旨在推动LLMs与应用之间以最小的人工干预进行交互。GoEX的源代码已发布在https://github.com/ShishirPatil/gorilla/。
2024-04-09	AgentQuest: A Modular Benchmark Framework to Measure Progress and Improve LLM Agents	Luca Gioacchini et.al.	2404.06411	link	随着大型语言模型（LLMs）的进展，人们追求能够解决复杂、多步骤推理任务的LLM代理。然而，现有的基准往往局限且只关注整体任务成功率。为了解决这些问题，我们提出了AgentQuest框架，它具有以下特点：（i）benchmark和评估指标模块化且易于扩展，通过文档齐全、易用的API；（ii）我们提供了两种新的评估指标，能够在解决任务时可靠地追踪LLM代理的进步。我们通过两个示例展示了这些指标的实用性，通过识别常见失败点并优化代理架构，显著提高了性能。我们希望与研究界共同扩展AgentQuest，并已将其开源在https://github.com/nec-research/agentquest。
2024-04-15	AutoCodeRover: Autonomous Program Improvement	Yuntong Zhang et.al.	2404.05427	link	在过去几十年里，研究人员在自动化软件开发过程中取得了显著进展，尤其是大型语言模型（LLMs）的应用极大地推动了编程辅助的自动化。然而，软件工程并不仅仅是编码，还包括维护（如修复bug）和演化（如添加功能）等程序改进过程。本文提出了一种自动解决GitHub问题的方法，旨在实现程序自主改进。我们的方法称为AutoCodeRover，它结合了LLMs与高级代码搜索能力，最终生成程序修改或补丁。与AI研究者和从业者近期关注的仅文件级别的软件项目不同，我们的工作侧重于程序表示（抽象语法树），利用类/方法的程序结构来增强LLM对问题根本原因的理解，并通过迭代搜索提供上下文。当测试套件可用时，谱系基线故障定位技术进一步精确了上下文。在SWE-bench-lite，一个包含300个真实GitHub问题的数据集上，AutoCodeRover的解决方案效果提升，解决了约22-23%的问题。对于全量的SWE-bench，包含2294个GitHub问题，AutoCodeRover解决了大约16%的问题，这比最近报道的来自Cognition Labs的AI软件工程师Devin的表现还要高，而且时间消耗与Devin相当。我们相信，我们的工作流程能够推动自主软件工程的发展，未来LLM自动生成的代码可以被自动地进行优化和改进。
2024-04-08	Long-horizon Locomotion and Manipulation on a Quadrupedal Robot with Large Language Models	Yutao Ouyang et.al.	2404.05291	null	我们提出了一种基于大型语言模型（LLM）的系统，旨在提升四足机器人的问题解决能力，使其能够处理超越短期动作的长期任务。对于四足机器人来说，长期任务极具挑战性，因为它们需要对任务的语义有高层理解，并具备广泛的运动和操纵技能以与环境互动。我们的系统构建了一个高层推理层，利用大型语言模型，从任务描述中生成混合离散-连续的计划，作为机器人代码。它包括多个LLM代理：一个用于构思计划的语义规划器、一个参数计算器，用于预测计划中的参数，以及一个代码生成器，将计划转换为可执行的机器人代码。在低层次，我们采用强化学习来训练一套运动规划和控制技能，以增强四足机器人的灵活性，使其能进行丰富环境交互。我们在难以用单一技能完成的长期任务上测试了我们的系统。模拟实验和真实世界实验表明，它成功地制定了多步骤策略，并展现出非平凡的行为，例如制作工具或向人类寻求帮助。
2024-04-06	Autonomous Artificial Intelligence Agents for Clinical Decision Making in Oncology	Dyke Ferber et.al.	2404.04667	null	多模态人工智能系统有望通过解析各类医学数据提升临床决策。然而，这些模型在各医学领域的效能尚不明朗，每个领域都有其独特挑战。本文提出了一种利用大型语言模型（LLMs）作为核心推理引擎的新型多模态医疗AI方法。此引擎自主协调并部署一系列专门的医疗AI工具，如文本解读、放射学和病理图像分析、基因数据处理、网络搜索以及医疗指南文档检索。我们在一系列临床肿瘤学场景中验证了该系统，这些场景模拟了典型的患者护理流程。结果显示，系统在选择恰当工具（97%）、得出正确结论（93.6%）、提供完整（94%）和有益（89.2%）治疗建议，以及根据指令引用相关文献（82.5%）方面表现出高能力。这表明LLMs能够有效地规划和执行领域特定模型，以获取或合成新信息，从而充当个性化临床助手。此外，这种架构简化了监管合规性，因为每个组件工具可以单独验证和审批。我们相信，这项工作为医疗领域的更先进LLM代理提供了概念验证。
2024-04-05	Cleared for Takeoff? Compositional & Conditional Reasoning may be the Achilles Heel to (Flight-Booking) Language Agents	Harsh Kohli et.al.	2404.04237	null	大型语言模型（LLMs）的快速进步使其在标准基准测试中频频超越人类表现，推动了众多下游应用的发展，如基于LLMs的代理。然而，这些模型在看似简单的任务中意外地表现不佳，这强调了对更全面和多样化的评估框架的需求，以衡量它们的实际能力。为此，我们聚焦于组合性和条件推理——人类认知的基石，并提出GroundCocoa，这是一个与航班预订这一现实问题相连接的词汇丰富的基准。我们的任务是将用户的详细偏好与以多选形式提供的可用航班选项进行匹配。结果显示，包括最先进的GPT-4 Turbo在内的当前最佳模型，在经过高级提示后，准确率仍不超过67%，显示出显著的性能差距。
2024-04-02	Self-Organized Agents: A LLM Multi-Agent Framework toward Ultra Large-Scale Code Generation and Optimization	Yoichi Ishibashi et.al.	2404.02183	link	## 背景随着大型语言模型（LLM）代理的最新进展，自动化软件开发的未来正逐渐显现。然而，现有的单代理方法在生成和优化大规模、复杂的代码库时面临上下文长度限制的问题。为解决这一挑战，我们提出了一种新颖的多代理框架——自组织多Agent体系（SoA）。SoA是一个可扩展且高效的多代理系统，它允许独立地生成和修改代码组件，并协同构建整个代码库。SoA的一个关键特性是根据问题复杂性自动增加代理，实现动态可扩展性。这样，整体代码量可以根据代理数量无限增长，而每个代理管理的代码量保持恒定。我们在HumanEval基准上评估了SoA，并发现与单代理系统相比，SoA中的每个代理处理的代码量明显减少，但总体生成的代码量显著增加。此外，SoA在Pass@1准确率方面比强大的单代理基线提高了5%。
2024-04-02	Helmsman of the Masses? Evaluate the Opinion Leadership of Large Language Models in the Werewolf Game	Silin Du et.al.	2404.01602	link	大型语言模型在社交推理游戏中展现出显著的策略行为，但对它们作为意见领袖的重要性关注不足，这对于多Agent和人机交互场景的实际应用至关重要。意见领袖是指在一个社会群体中对他人信念和行为有显著影响的个体。本研究使用“狼人杀”游戏作为模拟平台，探讨语言模型在扮演Sheriff（治安官）角色时的意见领导能力。Sheriff负责总结论点并提出决策建议，因此它代表了意见领袖的一个可信代理。我们构建了一个整合Sheriff角色的框架，并基于意见领袖的关键特性提出了两个评估指标：第一个衡量意见领袖的可靠性，第二个考察其对其他玩家决策的影响。我们进行了大量实验，评估不同规模的语言模型，并创建了“狼人杀”问题回答数据集（WWQA），以测试和提升模型对游戏规则的理解。此外，还包含了人类参与者进行进一步分析。研究结果表明，“狼人杀”游戏是一个有效评估语言模型意见领导力的试验场，但目前仅有少数语言模型具备这种能力。
2024-04-15	CHOPS: CHat with custOmer Profile Systems for Customer Service with LLMs	Jingzhe Shi et.al.	2404.01343	link	随着企业和软件平台越来越多地采用大型语言模型（如GPT-3.5、GPT-4、GLM-3和LLaMa-2）提供聊天辅助或客户服务推理，现有的基于LLM的客户服务模型在与客户资料集成和执行实际操作方面存在局限。它们倾向于强调多样性而非精确性和错误避免，这对于现实世界的客户服务场景并不理想。因此，我们提出了一种名为CHOPS（结合客户资料的聊天助手）的LLM代理，旨在：（1）高效利用现有数据库或系统查询用户信息，或遵循既定指南与系统交互；（2）提供准确合理的响应并执行系统内的必要操作，同时避免有害操作；（3）通过结合小型和大型LLM以实现性能满意且成本合理的推理。我们开发了一个实用的数据集，称为CPHOS-dataset，它包括一个数据库、指导文件以及来自CPHOS平台的模拟物理奥林匹克组织服务的问答对。CPHOS是一个面向高中教师和学生的在线平台。我们通过使用CPHOS-dataset进行了广泛的实验，验证了CHOPS架构的性能，目标是展示LLM如何提升或替代人工客户服务。关于我们的提案架构和数据集的代码可在此处获取：https://github.com/JingzheShi/CHOPS。
2024-03-31	DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model	Lirui Zhao et.al.	2404.01342	link	文本到图像（T2I）生成模型近年来备受瞩目，在学术研究和实际应用中大放异彩。例如，Civitai平台，一个T2I创新的聚集地，目前汇集了74,492种独特的模型，这带来了选择最合适的模型和参数的艰巨任务，通常需要多次试验。借鉴大型语言模型（LLMs）工具使用研究的思路，我们推出了DiffAgent，这是一个通过API调用来快速筛选准确选项的LLM代理。DiffAgent采用了一种新颖的两阶段训练框架，称为SFTA，使其能够根据人类偏好精确地将T2I API的响应与用户输入对齐。为了训练和评估DiffAgent的能力，我们构建了DABench，这是一个全面的数据库，涵盖了社区中的各种T2I API。实验结果显示，DiffAgent不仅在选择适当的T2I API方面表现出色，还验证了SFTA训练框架的有效性。相关代码已可在https://github.com/OpenGVLab/DiffAgent获取。
2024-03-31	Algorithmic Collusion by Large Language Models	Sara Fish et.al.	2404.00806	null	随着算法定价的兴起，人们担忧算法间的合谋问题。我们通过实验使用基于大型语言模型（LLMs）的定价代理，特别是GPT-4，进行了探究。研究发现：(1) LLM驱动的定价机制在定价任务上表现出色；(2) 在寡头竞争环境中，LLM定价代理会自发地进行合谋，从而损害消费者利益；(3) 对LLM指令（“提示”）看似微小的变化可能加剧这种合作行为。这些结果同样适用于拍卖场景。我们的研究结果强调了对算法定价进行反垄断监管的必要性，并揭示了针对LLM定价代理特有的监管挑战。
2024-03-31	"My agent understands me better": Integrating Dynamic Human-like Memory Recall and Consolidation in LLM-Based Agents	Yuki Hou et.al.	2404.00573	link	在这个研究中，我们提出了一种创新的人类记忆架构，旨在提升基于大型语言模型的对话代理的认知能力。我们的设计使得这些代理能自主检索生成响应所需的必要记忆，从而解决LLMs在时间认知上的局限。我们借鉴了人类的记忆线索召回机制作为触发点，以实现精确且高效的回忆。此外，我们开发了一个数学模型，动态量化记忆巩固过程，考虑了诸如上下文相关性、时间流逝和回忆频率等因素。代理会从用户的交互历史中存储记忆，这些记忆被封装在数据库中，每个记忆都包含了内容和时间关联的语境。这样，通过类似人类识别和回忆过往经历的方式，系统能够战略性地存储记忆，并理解它们对用户在时间线上的重要性。

(back to top)

llm

Publish Date	Title	Authors	PDF	Code	abstract
2024-09-20	Gender Representation and Bias in Indian Civil Service Mock Interviews	Somonnoy Banerjee et.al.	2409.12194	null	本文提出了三项关键贡献。首先，通过收集自888个印度公务员候选人模拟面试的YouTube视频中的51,278个面试问题，我们展示了对男性和女性候选人的提问在广泛性质上的显著性别偏见。第二，我们的实验表明，在性别推断任务上，大型语言模型在解释中存在强烈的性别偏见。最后，我们提供了一个包含51,278个面试问题的新型数据集，可以为未来的社会科学研究提供信息。
2024-09-18	To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning	Zayne Sprague et.al.	2409.12183	null	为了分析链式思考（CoT）在大型语言模型（LLM）任务中的实际应用效果，我们进行了一项定量元分析，覆盖了超过100篇使用CoT的论文，并对20个数据集进行了14款模型的自评测试。我们的结果显示，CoT在数学或逻辑任务上表现出显著的性能优势，而在其他类型的任务上则获得较小的收益。在MMLU评估中，直接生成答案而无需CoT的方法在准确性上几乎与CoT相同，除非问题或模型的回答中包含等号，这表明涉及符号运算和推理的情况。基于这一发现，我们通过分离规划和执行过程并对比工具增强的LLM，分析了CoT在解决这类问题时的行为表现。CoT的主要收益来自于改进的符号执行，但相较于使用符号求解器，其性能表现较差。研究结果表明，CoT的应用应有所选择，以保持性能的同时减少推理成本。此外，它们还指出需要超越基于提示的CoT策略，转向能够充分利用整个LLM应用范围内的跨层计算的新方法。
2024-09-18	Finetuning Language Models to Emit Linguistic Expressions of Uncertainty	Arslan Chaudhry et.al.	2409.12180	null	大型语言模型（LLMs）在信息搜索和决策制定任务中越来越受欢迎。尽管它们具有广泛的实用性，但LLMs倾向于生成与现实世界事实相冲突的信息，并以说服性的风格呈现，使得这些不准确性看起来自信且有说服力。因此，最终用户在一致地将LLMs表达的信心与其预测的准确性对齐方面遇到困难，这可能导致盲目信任所有输出或完全忽视它们的可靠性。在这项工作中，我们探索了基于不确定性增强预测的监督微调方法，以开发能够产生不确定性语言表达的模型。具体来说，我们测量预训练模型的校准度，并对语言模型进行微调，以生成与预测相关联的校准不确定性语言表达。通过在多个问答数据集上的实验，我们证明了LLMs在评估其预测时是校准的，并基于模型自身的信心进行的监督微调导致了针对单个声明答案的良好的不确定性表达校准，特别是在处理问答任务时。
2024-09-18	Decoding Style: Efficient Fine-Tuning of LLMs for Image-Guided Outfit Recommendation with Preference	Najmeh Forouzandehmehr et.al.	2409.12150	null	本文提出了一种新颖的框架，利用大型语言模型（LLM）的强大表达能力来解决个性化服装推荐这一复杂挑战，同时通过微调和直接反馈整合来缓解其“黑盒”和静态性质。我们通过采用多模态大型语言模型（MLLM）进行图像描述，来弥合物品描述中的视觉-文本差距。这使得LLM能够从由人类整理的时尚图片中提取风格和颜色特征，从而形成个性化推荐的基础。对开放源代码Polyvore数据集中的整理时尚图片进行高效微调，优化了LLM推荐时尚搭配的能力。采用直接偏好机制并使用负面示例来增强LLM的决策过程。这创建了一个自我增强的AI反馈循环，持续地根据季节性时尚趋势精炼推荐。该框架在Polyvore数据集上进行了评估，针对两个关键任务：补全空白、以及检索互补物品。这些评估结果凸显了框架生成时尚、与流行趋势相符的服装建议的能力，并通过直接反馈不断改进。评估结果显示，所提出的框架显著优于基于基本LLM的服装生成，创造出更加协调的服装。这些任务的改进性能证明了该框架增强购物体验、提供准确建议的潜力，证明了它相对于基于基本LLM的服装生成方法的有效性。
2024-09-18	MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning	Justin Chih-Yao Chen et.al.	2409.12147	link	大型语言模型（LLM）在推理过程中可以利用测试时的聚合策略进行改进，即生成多个样本并投票决定结果。虽然这些方法能提升性能，但往往达到一个饱和点。改进策略引入了三个关键挑战：（1）过度细化：对所有实例进行均匀细化可能导致过度修正，从而降低整体性能；（2）难以定位和纠正错误：LLM在自我校正方面能力有限，很难识别并修正自己的错误；（3）细化不足：决定需要多少轮细化迭代并不容易，过早停止可能使错误未被解决。为了应对这些问题，我们提出了一种名为MAgICoRe的方法。它通过将问题难度分为简单和困难，并采用粗粒度聚合解决简单问题，而对复杂问题则采用细粒度、多轮迭代的多代理细化来避免过度细化。为了提高错误定位能力，我们引入了基于步骤奖励模型（RM）得分的外部评分系统。此外，我们采用了由三个代理组成的多代理循环：求解者、审查员（根据步骤RM得分生成针对性反馈）以及细化者（整合反馈），以确保有效细化。为了保证细化充分性，我们重新评估更新后的解决方案，并在必要时启动进一步的细化迭代。我们使用Llama-3-8B和GPT-3.5在5个数学数据集上评估了MAgICoRe，证明其在多方面表现出色。与自我一致性、最佳k次和自我细化相比，仅一轮MAgICoRe就分别提升了3.4%、3.2%和4.0%，并且使用了不到一半的样本量。不同于基线方法的迭代细化，MAgICoRe在更多的迭代中持续改进。最后，我们的拆分实验强调了MAgICoRe中RM和多代理通信的重要性。
2024-09-18	MoRAG -- Multi-Fusion Retrieval Augmented Generation for Human Motion	Kalakonda Sai Shashank et.al.	2409.12140	null	我们提出了一种名为MoRAG的新型多部分融合基于检索增强生成策略，用于文本驱动的人体动作生成。该方法通过利用改进的运动检索过程获得的额外知识，增强了运动扩散模型。通过有效地提示大型语言模型（LLMs），我们解决了运动检索中的拼写错误和重述问题。我们的方法使用多部分检索策略来提高语言空间内运动检索的一般性。我们通过空间组合检索到的动作来生成多样化的样本。此外，通过利用低级、部分特定的动作信息，我们可以构建未见过文本描述的动作样本。我们的实验表明，我们的框架可以作为一个即插即用模块，提高运动扩散模型的性能。代码、预训练模型和样例视频将在以下网址提供：https://motion-rag.github.io/
2024-09-18	Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models	EverestAI et.al.	2409.12139	null	随着大数据和大型语言模型时代的到来，零样本个性化快速定制已成为一个重要趋势。本报告介绍了Takin AudioLLM系列技术与模型，主要包含Takin TTS、Takin VC和Takin Morphing，专为有声读物生产设计。这些模型具备零样本语音生成能力，能产生几乎难以区分于真人语音的高质量语音，使个人能够根据自身需求定制语音内容。具体而言，我们首先介绍Takin TTS，基于增强型神经语音编解码器和多任务训练框架的神经编码语言模型，能够在零样本方式下生成高保真自然语音。对于Takin VC，我们提倡内容与音色联合建模的有效方法以提高说话者相似性，并倡导条件流匹配解码器进一步提升其自然度和表现力。最后，我们提出了Takin Morphing系统，采用高度解耦且先进的音色和韵律建模方法，使个人能够精确可控地根据偏好定制语音生成。广泛实验验证了Takin AudioLLM系列模型的有效性和鲁棒性。如需详细演示，请参见https://takinaudiollm.github.io。
2024-09-18	Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement	An Yang et.al.	2409.12122	null	在这份报告中，我们展示了几个专注于数学的大型语言模型：Qwen2.5-Math以及Qwen2.5-Math-Instruct-1.5B/7B/72B。Qwen2.5系列的核心创新在于在整个管道中融入了自我提升的理念，包括预训练、后处理和推理阶段：（1）在预训练阶段，使用Qwen2-Math-Instruct生成大规模高质量的数学数据。（2）在后处理阶段，我们通过从Qwen2-Math-Instruct进行大量采样来开发奖励模型（RM）。然后将这个RM应用于监督微调（SFT）的迭代进化中。通过更强的SFT模型，有可能进行迭代训练并更新RM，从而引导下一轮SFT数据迭代。在最终的SFT模型上，我们采用终极RM进行强化学习，由此产生了Qwen2.5-Math-Instruct。此外，在推理阶段，RM被用于指导采样，以优化模型性能。 Qwen2.5-Math-Instruct支持中文和英文，具备高级数学推理能力，包括链式思维（CoT）和工具集成推理（TIR）。我们在这两种语言的10个数学数据集上评估了我们的模型，涵盖了从小学水平到数学竞赛问题的广泛难度，如GSM8K、MATH、GaoKao、AMC23和AIME24等。
2024-09-18	Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference	Edresson Casanova et.al.	2409.12117	null	大型语言模型（LLM）通过将音频转换为离散令牌的音频编解码器显著推进了音频处理领域，这使得可以将语言建模技术应用于音频数据。然而，音频编解码器通常在高帧率下运行，导致自回归模型的训练和推理速度缓慢。为了解决这一挑战，我们提出了一种神经音频编解码器——低帧率语音编解码器（LFSC）：它利用有限标量量化和大型语音语言模型的对抗训练，以1.89 kbps的比特率和每秒21.5帧实现了高质量的音频压缩。我们证明，我们的新型编解码器可以使基于语言模型的文本到语音模型的推理速度加快约三倍，同时提高可懂度并产生与以往模型相当的质量。
2024-09-18	Measuring Human and AI Values based on Generative Psychometrics with Large Language Models	Haoran Ye et.al.	2409.12106	link	人类价值观及其衡量是跨学科研究的长期课题。近期人工智能的发展激发了这一领域的兴趣，大型语言模型（LLMs）在作为工具和价值衡量对象方面崭露头角。本工作引入了一种基于LLM的、数据驱动的价值衡量范式——生成心理测量法（GPV），理论基础是文本揭示的选择性感知。我们首先对LLM进行微调，以实现精确的感知层面价值衡量，并验证LLM解析文本形成感知的能力，这是GPV管道的核心。接着，我们将GPV应用于人类撰写的博客，展示了其稳定性和有效性，并证明了其优于先前的心理学工具。进一步地，我们扩展了GPV到LLM价值衡量领域，推进了当前的技术边界：1）提出了一种基于LLM可扩展和自由形式输出的量化方法，使价值衡量能够针对特定情境；2）对比分析了不同测量方法的特性，揭示了先前方法的反应偏差；3）尝试将LLM价值与安全性联系起来，发现了不同价值体系的预测能力以及各种价值观对LLM安全性的影响。通过跨学科合作，我们旨在利用AI推动下一代心理测量学的发展，并用心理测量学促进价值导向的AI。通过这一系列研究，我们旨在利用人工智能技术来改进心理测量学方法，并通过心理测量学的视角来理解和指导人工智能系统的道德设计和安全评估。
2024-09-17	AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs	Basel Mousi et.al.	2409.11404	null	阿拉伯语，以其丰富的方言多样性，仍然在大型语言模型中显著被低估，尤其是在方言变体方面。我们通过使用机器翻译结合人工后编辑创建的七个人工合成数据集来填补这一空白，这些数据集涵盖了现代标准阿拉伯语（MSA）以及阿拉伯各地区的方言。我们提出了AraDiCE基准，用于评估阿拉伯方言和文化理解与生成能力。我们的研究侧重于低资源阿拉伯方言，并对其进行了评价。此外，我们首次引入了一个细粒度基准，专门用于评估阿拉伯半岛、埃及和黎凡特地区之间的文化意识，为LLM评估提供了新的维度。我们的发现表明，尽管针对特定阿拉伯语模型如Jais和AceGPT在方言任务上优于多语言模型，但在方言识别、生成和翻译方面仍存在重大挑战。这项工作贡献了约4.5万个经过人工后编辑的样本、一个文化基准，并强调了根据特定训练来改善大型语言模型捕捉不同阿拉伯方言和文化背景细微差异的重要性。我们将发布在本研究中构建的方言翻译模型和基准。
2024-09-17	NVLM: Open Frontier-Class Multimodal LLMs	Wenliang Dai et.al.	2409.11402	null	我们引入了NVLM 1.0，这是一个在视觉语言任务上达到前沿水平的多模态大型语言模型家族，其性能与顶级专有模型（如GPT-4o）和开源模型（如Llama 3-V 405B和InternVL 2）相匹敌。令人惊讶的是，NVLM 1.0在多模态训练后，在仅文本任务上的表现甚至超过了其背后的语言模型基础架构。在模型设计方面，我们对解码器型多模态语言模型（如LLaVA）和交叉注意力型模型（如Flamingo）进行了全面比较。基于这两种方法的优势和劣势，我们提出了一种新型架构，以提高训练效率和多模态推理能力。此外，我们引入了一种用于动态高分辨率图像的1-D瓷砖标记设计，这显著提高了多模态推理和OCR相关任务的性能。关于训练数据，我们精心收集并提供了所有架构的预训练和监督微调数据集的详细信息。我们的发现表明，在预训练阶段，数据质量和任务多样性比规模更为重要。值得注意的是，我们为NVLM-1.0模型开发了生产级多模态功能，使它们在视觉语言任务中不仅保持甚至超越了基础语言模型的性能。为了实现这一目标，我们在多模态训练中巧妙地整合了一个高质量的纯文本数据集，以及大量的多模态数学和推理数据，从而在所有模态下提高了数学和编码能力。为了推动领域研究，我们将发布模型权重并开源代码供社区使用：https://nvlm-project.github.io/。
2024-09-17	Says Who? Effective Zero-Shot Annotation of Focalization	Rebecca M. M. Hicke et.al.	2409.11390	null	在这篇论文中，我们通过实验测试了当前大型语言模型（LLMs）在为文学文本标注焦点模式时的表现。尽管任务具有挑战性，但我们的实验结果表明，LLMs在这一任务上的表现与受过训练的人类注释者相当。我们以斯蒂芬·金的小说为例进行案例研究，展示了这种方法在计算文学研究中的实用性，说明了如何大规模地研究焦点模式。
2024-09-17	Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement	Simon Yu et.al.	2409.11378	link	细调大规模语言模型在指令数据上的能力对于增强预训练知识和提升指令遵循能力至关重要。随着指令数据集的不断增多，选择有效的数据进行有效训练变得越来越重要。本文探讨了如何确定有效训练的最佳数据子集。现有研究往往侧重于实例质量等局部标准进行子集选择，但我们认为全局视角关注数据多样性更为关键。我们采用k均值聚类方法确保所选子集充分代表整个数据集。我们提出了一种启发自主动学习技术的迭代优化方法，用于从各个聚类中重新采样实例，并在每一次训练迭代中重新评估每个聚类的重要性和采样权重。这种方法能够降低异常值的影响并自动筛选出包含低质量数据的聚类。通过在自然语言推理、一般世界知识、代码和数学推理任务上进行广泛评估，并对各种模型家族进行微调，我们观察到一致性改进，相比于随机选择提高了7%，相较于最先进的采样方法提高了3.8%。我们的工作强调了在微调大型语言模型以增强广泛的评估任务性能时，优先考虑多样性的采样方法的重要性。我们的代码已开源在https://github.com/for-ai/iterative-data-selection。
2024-09-17	Towards Time Series Reasoning with LLMs	Winnie Chow et.al.	2409.11376	null	多模态大型语言模型（MLLMs）在视觉等领域的理解和推理方面取得了重大进展，但时间序列领域尚未看到这种广泛的成功。尽管先前的时间序列MLLM研究在时间序列预测中显示出有希望的表现，但很少有工作展示了如何使用大语言模型进行自然语言的时间序列推理。我们提出了一种新颖的多模态时间序列LLM方法，该方法能够跨各种领域学习通用信息，并具有强大的零样本性能。首先，我们在LLM顶部训练一个轻量级时间序列编码器，直接提取时间序列信息。然后，我们通过增强的时间序列任务对模型进行微调，以鼓励模型生成推理路径。我们的研究表明，模型学习到的潜在表示反映了特定的时间序列特征（例如斜率、频率），并且在多种领域的一系列零样本推理任务上均优于GPT-4o。
2024-09-17	Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification	Fatema-E- Jannat et.al.	2409.11375	null	在医疗领域中，获取大量数据面临着显著的挑战，主要是由于隐私问题。然而，为了训练用于视网膜疾病诊断的深度学习模型，需要大量的数据集。在较小数据集上有效泛化的能力仍然是一个持续的挑战。数据稀缺性构成了实施可扩展医疗AI解决方案的实际障碍。为了解决这个问题，我们结合了多种数据源，以提高性能并增强对新数据的泛化能力，通过赋予模型从多模态数据集中更深入理解数据表示的能力。我们基于大型语言模型（LLMs）和SwinV2框架开发了一个自监督框架，以增强模型对多模态数据集表示的理解，从而提高使用光学相干断层成像（OCT）图像检测眼病的能力。我们采用了两阶段训练方法，即自监督预训练和下游监督分类器的微调。针对三种不同数据集进行的消融研究，在未融合数据、数据量有限设置和无自监督预训练场景下采用不同的编码器架构，强调了我们方法的稳健性。我们的发现表明，即使在这些多样化的条件下，也表现出一致的性能，并且与基线模型ResNet-50相比，具有更强的泛化能力。
2024-09-17	CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration	Jiahui Gao et.al.	2409.11365	null	本文探讨了多模态大型语言模型（MLLM）在面对恶意视觉输入时的安全意识问题。MLLM通常基于大型语言模型构建，并配以图像编码器将图像转换为与人类价值观相一致的文本数据集中的令牌嵌入空间。然而，这种视觉模态的整合引入了一种独特的脆弱性：MLLM对恶意图像输入变得敏感，并倾向于生成可能引发安全或有害响应的输出。研究发现，通过在MLLM的输入中加入一个原则，以明确定义安全性要求，其安全意识得到了增强。这证实了MLLM在处理图像输入时具有一定的安全意识，但这一能力受到模态差距的影响而减弱。为此，本文提出了一种简单而有效的技术——CoCA（Calibration of Conditional Awareness），旨在通过调整输出分布来增强MLLM的安全意识。该策略有助于模型恢复其原始的安全意识，同时不牺牲其原有能力。通过在多模态安全性和理解基准上验证了这种方法的有效性。
2024-09-17	AI Suggestions Homogenize Writing Toward Western Styles and Diminish Cultural Nuances	Dhruv Agarwal et.al.	2409.11360	null	本文探讨了当西方导向的AI模型向来自不同文化背景的用户提供写作建议时会发生什么情况。我们进行了一个跨文化的受控实验，共有来自印度和美国的118名参与者完成了具有文化基础的写作任务，并在有无AI建议的情况下完成。我们的分析显示，AI为美国人提供了更高的效率增益，相比之下，印度参与者则在采用西方写作风格方面受到影响，不仅改变了所写的内容，也改变了其写作风格。这些发现表明，以西方为中心的AI模型会将写作方式同质化，使之趋向于西方规范，从而削弱了能够体现文化差异的细微之处。
2024-09-17	THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models	Mengfei Liang et.al.	2409.11353	null	本文介绍了一种名为THaMES（工具用于幻觉缓解与评估）的集成框架和库，旨在解决大型语言模型（LLMs）中存在的幻觉生成这一日益增长的挑战。现有的检测和缓解方法往往孤立且无法满足特定领域的需要，缺乏标准化流程。THaMES提供了一个端到端解决方案，涵盖评估和缓解LLMs中幻觉问题的各个环节，包括自动化测试集生成、多维度基准测试以及灵活的缓解策略。它通过批量处理、加权抽样和反事实验证等技术自动创建高质量、多样性和成本效益高的测试集。THaMES评估了模型在文本生成和二分类任务中的幻觉检测与减少能力，并应用了最佳缓解策略，如上下文学习（ICL）、检索增强生成（RAG）和参数高效微调（PEFT）。使用学术论文、政治新闻和维基百科的知识库对前沿LLMs进行评估发现，商业模型如GPT-4o在受益于RAG方面比ICL更多，而开源模型如Llama-3.1-8B-Instruct和Mistral-Nemo则从ICL中获得更大益处。此外，PEFT显著提高了Llama-3.1-8B-Instruct在评估任务中的性能。
2024-09-17	Leveraging Distillation Techniques for Document Understanding: A Case Study with FLAN-T5	Marcel Lamott et.al.	2409.11282	null	随着各类数字文档格式的激增，尤其是那些非标准化的文档如商业报告和环境评估报告，文档理解变得愈发重要。大型语言模型（LLMs）在多种自然语言处理任务上展现出强大的能力，但在文档理解领域的直接应用仍面临挑战。以往的研究表明LLMs在这一领域具有潜力，然而它们巨大的计算需求使其难以有效地部署。此外，专有的“黑盒”LLMs往往优于开源版本，这构成了广泛可访问性的障碍。本文深入探讨了文档理解的领域，利用了从LLM ChatGPT到FLAN-T5的提炼方法来平衡大模型的强大功能与计算限制。我们提出了一种创新的方法，通过整合标记和课程学习机制来促进知识的有效转移。这项工作对文档理解方法的进展做出了贡献，提供了一个可扩展的解决方案，以弥合资源密集型LLMs与实际应用之间的差距。我们的发现强调了提炼技术在使复杂语言模型在现实世界场景中得到广泛应用的潜力，从而推动自然语言处理和文档理解领域的发展。
2024-09-16	RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval	Di Liu et.al.	2409.10516	link	基于转换器的大型语言模型（LLMs）在各个领域变得越来越重要。然而，注意力操作的二次时间复杂度对扩展到更长上下文带来了重大挑战，导致了极高的推理延迟和GPU内存消耗以缓存键值（KV）向量。本文提出了一种无需训练的方法——检索注意力（RetrievalAttention），以加速注意力计算。通过利用注意力操作的动态稀疏特性，RetrievalAttention在CPU内存上构建了近似最近邻搜索（ANNS）索引，并在生成过程中通过向量搜索检索最相关的部分。由于查询向量与键向量之间的分布外（OOD）问题，现成的ANNS索引仍需要扫描O(N)（通常为所有键的30%）的数据进行精确检索，这无法充分利用高稀疏性。RetrievalAttention首先识别了ANNS基注意力中的OOD挑战，并通过一个适应查询的注意力感知向量搜索算法来解决这一问题，该算法仅访问1-3%的数据，从而实现了亚线性时间复杂度。 RetrievalAttention大幅降低了长上下文LLMs的推理成本，同时显著减少了GPU内存需求，而保持了模型准确性。尤其值得注意的是，RetrievalAttention仅需要16GB的GPU内存即可为具有8B参数的LLM提供服务，支持处理128K个令牌，能够在单个NVIDIA RTX4090（24GB）上生成一个令牌耗时0.188秒。
2024-09-16	Context-aware Code Segmentation for C-to-Rust Translation using Large Language Models	Momoko Shiraishi et.al.	2409.10506	null	由于现有C程序中的内存安全性漏洞持续威胁以及Rust语言作为C语言替代品所受到的广泛关注，将C代码转换为Rust代码存在强烈的动机。大型语言模型（LLM）在通过生成比基于规则方法更自然、更安全的代码来自动化这一翻译过程方面显示出潜力。然而，先前的研究表明，LLM生成的Rust代码往往无法编译，即使是相对较小的C程序，这主要归因于两种语言之间的显著差异和上下文窗口限制。我们提出了一种基于LLM的翻译方案，以提高大规模C代码成功转化为可编译的Rust代码的概率。我们的方法包括三个关键技术：（1）预处理C代码，使其结构和表达式更好地与Rust对齐；（2）将代码分割为最佳大小的翻译单元，以避免超出LLM的上下文窗口限制；（3）通过使用上下文补充提示，迭代编译并修复错误，同时保持不同翻译单元之间的一致性。成功编译是实现功能等效性的首要步骤，因为只有可编译的代码才能进一步进行测试。在20个基准C程序的实验中，包括那些超过4千行代码的程序，我们成功地将所有程序转化为可编译的Rust代码，没有丢失原始代码的对应部分。
2024-09-16	DILA: Dictionary Label Attention for Mechanistic Interpretability in High-dimensional Multi-label Medical Coding Prediction	John Wu et.al.	2409.10504	null	在医学编码等高维或多标签预测任务中，既需要预测的准确性也需要解释的可读性。现有研究往往依赖于局部解释方法，无法提供整个多标签集内每个标签预测背后的全面机制解释。我们提出了一种名为DIctionary Label Attention（简称\method）的模块化解释方法，用于将不可解释的密集嵌入分解到稀疏嵌入空间中。在该空间中，非零元素（字典特征）代表了全局学习的医疗概念。通过人工评估，我们发现我们的稀疏嵌入比其密集对应物在人类理解上至少提高了50%。我们的自动字典特征识别管道，利用大型语言模型（LLMs），通过检查并总结每个字典特征激活的最高级词汇，揭示了数千个学习到的医疗概念。我们通过一个稀疏的可解释矩阵表示字典特征与医疗代码之间的关系，这不仅增强了模型预测的机制性和全局理解能力，而且在不需要大量人工注释的情况下，保持了竞争力和可扩展性。
2024-09-16	Causal Language Modeling Can Elicit Search and Reasoning Capabilities on Logic Puzzles	Kulin Shah et.al.	2409.10502	null	近年来，基于Transformer架构的因果语言建模在大型语言模型（LLMs）方面取得了显著的进步。然而，这些模型是否真正发展出了基本的搜索和推理能力，仍是一个持续讨论的话题。本研究旨在探讨因果语言建模能否学会解决复杂的数独谜题这一任务。解决数独谜题需要模型首先在所有空白单元格中进行搜索以决定填充哪个单元格，然后应用适当的策略来填充选定的单元格。有时，策略的应用仅导致单元格可能值的减少，而非确定确切值。在这种情况下，需要对单个单元格应用多个策略。我们发现，经过逻辑步骤序列训练的Transformer模型确实能够学会解决数独谜题（我们的模型正确解决了94.21%的谜题）。我们还对Zebra谜题（又称爱因斯坦谜题）进行了扩展分析，并证明模型能够正确解决92.04%的谜题。此外，我们还研究了训练后的Transformer内部表示，并通过线性探查发现，可以从它们中解码出给定单元格的所有可能值信息，这表明Transformer权重中隐含着强大的推理引擎。
2024-09-16	Code Vulnerability Detection: A Comparative Analysis of Emerging Large Language Models	Shaznin Sultana et.al.	2409.10490	null	近年来，软件开发领域对开源项目依赖的增加导致了漏洞问题的显著增长，这一现象引起了广泛关注。本文旨在探讨大型语言模型（LLMs）在识别代码库中的漏洞方面的能力与效果，特别关注了新兴LLM技术的最新进展。通过对比分析，我们评估了包括Llama、CodeLlama、Gemma和CodeGemma在内的最近加入的大型语言模型，以及BERT、RoBERTa和GPT-3等现有最先进的模型在检测软件安全漏洞方面的性能。我们的研究目标是揭示LLM在漏洞检测领域的能力，从而促进不同开源仓库的安全实践提升。结果显示，CodeGemma在检测软件安全漏洞方面取得了最高的F1分数（58%）和召回率（87%）。
2024-09-16	XLM for Autonomous Driving Systems: A Comprehensive Review	Sonda Fourati et.al.	2409.10484	null	大型语言模型（LLMs）在各种信息处理任务中展现出了惊人的能力。这些任务涵盖了从数据提取和文献总结到内容生成、预测建模、决策制定以及系统控制等多个方面。此外，视觉大型模型（VLMs）和多模态大型语言模型（MLLMs），即XLMs，能够结合多种数据模态，并利用语言理解的强大力量，从而推动了诸如自动驾驶系统（ADS）等基于信息系统的进步。通过将语言通信与多模式感官输入（如全景图像和激光雷达或雷达数据）相结合，可以采取准确的驾驶行动。在此背景下，本文综述了XLMs在实现自动驾驶方面的潜力。具体而言，我们回顾了ADS和XLMs的相关文献，包括它们的架构、工具和框架。然后，我们详细阐述了部署XLMs以实现自动驾驶解决方案的方法。最后，我们指出了XLM部署在ADS中的相关挑战，并提出了未来研究方向，旨在促进XLM在未来ADS框架中的应用。
2024-09-17	Schrodinger's Memory: Large Language Models	Wei Wang et.al.	2409.10482	null	记忆是人类活动的基础；没有记忆，几乎不可能执行日常生活中的任何任务。随着大型语言模型（LLMs）的发展，它们的语言能力正变得越来越接近人类。但LLMs有记忆吗？根据当前的表现，LLMs确实显示出具有记忆的迹象。那么，这种记忆机制背后是什么原理呢？目前的研究缺乏对LLMs记忆能力和底层理论的深入探讨。在本文中，我们利用泛逼近定理（UAT）来解释LLMs的记忆机制。我们还进行了实验来验证各种LLMs的记忆能力，并提出了一种基于这些记忆能力的新方法来评估它们的能力。我们认为，LLMs的记忆工作方式类似于薛定谔的记忆，即只有在查询特定记忆时才会显现出来。我们只能通过响应查询的输出来确定模型是否保留了记忆；否则，它仍然是不确定的。最后，我们扩展了这一概念，通过比较人脑和LLMs的记忆能力，强调了它们在操作机制上的相似性和差异性。
2024-09-16	LLM as BT-Planner: Leveraging LLMs for Behavior Tree Generation in Robot Task Planning	Jicong Ao et.al.	2409.10444	null	本文提出了一种名为“LLM作为行为树规划器”的新框架，旨在利用大型语言模型（LLMs）在机器人装配任务规划与执行中的行为树（BT）生成。我们引入了四种基于上下文学习的方法，利用LLMs的自然语言处理和推理能力，以BT格式产生任务计划，从而减少人工努力并确保其稳健性和可理解性。此外，我们还评估了对同一任务进行微调的参数较少的LLMs的表现。在模拟和实际世界设置下的实验结果表明，我们的框架提高了LLMs在BT生成方面的性能，通过基于上下文的学习和监督微调，在BT生成方面显著提高了成功率。
2024-09-16	A Large-Scale Privacy Assessment of Android Third-Party SDKs	Mark Huasong Meng et.al.	2409.10411	null	本文研究对Android平台上的第三方软件开发工具包（SDK）进行了针对性分析，旨在填补Android软件供应链中的关键空白，关注于用户隐私保护问题。研究主要从两个关键的SDK发布平台，官方平台与大型替代平台，对广泛使用的158个SDK进行了调查。在隐私泄露方面，我们发现了338个实例，表明这些SDK在未经授权的情况下，非法传输了用户的敏感信息。这可能被用于非法目的，如用户追踪或牟利。在隐私合规性方面，我们的研究表明，超过30%的被检查SDK并未提供隐私政策，以披露其数据处理实践。对于那些提供了隐私政策的SDK，有37%过度收集了用户数据，而88%则错误地声称拥有访问敏感数据的权利。我们在一年后重新审视了SDK的最新版本，结果显示，这些令人担忧的趋势并没有得到改善。基于我们的发现，我们提出了三项行动建议，旨在降低隐私泄露风险并增强Android用户的隐私保护。这项研究不仅对行业提出了紧迫的关注呼吁，也为未来的监管干预提供了关键见解。
2024-09-17	Learnings from a Large-Scale Deployment of an LLM-Powered Expert-in-the-Loop Healthcare Chatbot	Bhuvan Sachdeva et.al.	2409.10354	null	本文探讨了大型语言模型（LLMs）在医疗保健领域的应用及其面临的挑战，如幻觉、信息不完整和偏见，这影响了它们的可靠性。为了克服这些问题，研究者发布了一个名为“构建你自己的专家机器人”（BYOeB）的平台，允许开发人员创建集成专家验证的LLM驱动的聊天机器人。CataractBot是该平台的第一个实现，它专注于提供有关白内障手术的专家验证回答。初步评估显示了其潜力，但该研究样本量较小且主要为定性分析。本工作中，我们对CataractBot进行了为期24周的大规模部署，涉及318名患者及其陪同人员发送的1992条消息，其中91.71%的回答经过了七位专家的验证。通过分析交互日志，我们发现医疗问题远多于物流问题，幻觉现象可以忽略不计，并且专家评定84.52%的医疗回答准确无误。随着知识库通过专家更正不断扩展，系统的性能得到了19.02%的提升，减少了专家的工作负担。这些发现指导未来LLM驱动的聊天机器人设计的发展方向。
2024-09-13	Agents in Software Engineering: Survey, Landscape, and Vision	Yanxian Huang et.al.	2409.09030	link	近年来，大型语言模型（LLMs）在各种下游任务中取得了显著成功，尤其是在软件工程（SE）领域中的任务。我们注意到，许多将LLMs与SE结合的研究工作明确或隐含地采用了代理的概念。然而，缺乏对现有工作发展背景的深入综述、分析它们如何结合基于LLM的代理技术优化各种任务以及澄清SE中基于LLM的代理框架。本文旨在进行首次关于结合LLMs与SE的研究综述，并提出SE中基于LLM的代理框架，包括三个关键模块：感知、记忆和行动。同时，我们总结了这两个领域结合时面临的当前挑战，并针对这些挑战提出了未来的机遇。我们维护了一个相关的论文GitHub仓库，地址为：https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE。
2024-09-13	Contri(e)ve: Context + Retrieve for Scholarly Question Answering	Kanchan Shivashankar et.al.	2409.09010	null	### 摘要翻译学者交流是一个快速发展的领域，蕴含着丰富的知识。然而，由于其非结构化的文档格式，传统的文档检索方法难以从中提取有用信息。学者知识图谱通过构建一个语义网络来解决这一问题，提供了隐藏的洞察、摘要和易于通过查询获取的访问性。自然地，对学者图谱进行问答扩展了更广泛受众的可访问性。但在这一领域的某些知识仍然以非结构化文本形式呈现，因此需要结合解决方案来为问答系统提供支持。本文提出了一种两步解决方案，使用开源大型语言模型（LLM）：Llama3.1对学者-QALD数据集进行处理。首先，我们从不同的结构化和非结构化数据源中提取与问题相关的内容：DBLP、SemOpenAlex知识图谱以及维基百科文本。其次，我们实施了提示工程，以提高大型语言模型的信息检索性能。我们的方法在F1分数上取得了40%的成绩，并观察到一些来自LLM的异常响应，这些响应在论文的最后部分进行了讨论。
2024-09-13	Safeguarding Decentralized Social Media: LLM Agents for Automating Community Rule Compliance	Lucio La Cava et.al.	2409.08963	null	确保内容符合社区准则对于维护健康的在线社交环境至关重要。然而，传统的基于人类的合规性检查在处理用户生成内容的不断增长量和有限的管理员数量时面临着扩展难题。大型语言模型在自然语言理解方面的新进展，为自动化内容合规性验证开辟了新的可能性。本文评估了六个人工智能代理，这些代理基于Open-LLMs，在去中心化社交网络中对规则合规性进行自动验证，这是一个具有挑战性的环境，因为社区的范围和规则各不相同。通过对来自数百个Mastodon服务器的超过50,000条帖子的分析，我们发现人工智能代理能够有效地检测非合规内容、掌握语言上的细微差别，并适应不同的社区上下文。大多数代理还显示出高的一致性和一致性，在评分解释和合规建议上与人工评价者相匹配。通过领域专家的人工评估，确认了代理的可靠性和实用性，这表明它们是半自动化或人机协作内容管理系统的有前景的工具。
2024-09-13	Emerging Reliance Behaviors in Human-AI Text Generation: Hallucinations, Data Quality Assessment, and Cognitive Forcing Functions	Zahra Ashktorab et.al.	2409.08937	null	本文研究了在人类与人工智能合作进行文本生成任务时，幻觉和认知驱动因素的影响，特别是利用大型语言模型（LLMs）协助生成高质量对话数据。对于这些模型而言，需要数据进行微调，这是提升其性能的关键步骤。在客户服务对话上下文中，数据以人与客服代理之间的对话形式存在，并可借助AI助手生成。在我们的研究中，共招募了11位用户，每位用户完成8项任务，总共完成了88项任务。结果发现，幻觉的存在对数据质量产生了负面影响。我们还发现，尽管认知驱动因素并非总能抵消幻觉对数据质量的不利影响，但幻觉和认知驱动因素共同作用于数据质量，并影响用户如何利用呈现给他们的AI响应。通过分析用户行为，我们揭示了对AI生成响应依赖的明显模式，这强调了在对话AI情境下管理幻觉在AI生成内容中的重要性。
2024-09-13	SynSUM -- Synthetic Benchmark with Structured and Unstructured Medical Records	Paloma Rabaey et.al.	2409.08936	link	我们提出了SynSUM基准数据集，这是一个合成数据集，将非结构化的临床记录与结构化背景变量联系起来。该数据集由10,000个虚构的患者记录组成，包含表格变量（如症状、诊断和基础条件）以及与之相关的描述虚构患者就诊情况的临床笔记，领域为呼吸疾病。表格部分的数据通过贝叶斯网络生成，其中因果结构和条件概率由专家基于领域知识提出。然后，我们使用大型语言模型（GPT-4o）生成与患者就诊相关的临床笔记，描述患者的症状和额外的上下文信息。 SynSUM数据集主要旨在促进在存在表格背景变量的情况下对临床信息提取的研究，可以通过领域知识将这些变量链接到从文本中提取的概念兴趣点——在SynSUM的情况下是症状。次要用途包括研究表格数据和文本的自动化临床推理、在存在表格和/或文本混杂因素情况下的因果效应估计以及多模态合成数据生成。该数据集可以从以下链接下载：https://github.com/prabaey/SynSUM
2024-09-13	LLM-based Weak Supervision Framework for Query Intent Classification in Video Search	Farnoosh Javadi et.al.	2409.08931	null	流媒体服务已经彻底改变了我们发现和参与数字娱乐的方式。尽管如此，有效理解用户搜索查询的广泛范围仍然面临重大挑战。构建一个能够处理代表不同用户意图的各种实体的准确查询理解系统对于提供增强的用户体验至关重要。通过训练自然语言理解（NLU）模型可以实现这一目标，然而，在这个专门领域的高质量标注数据获取是一个巨大的障碍。手动注释成本高昂且在捕捉用户词汇变异性方面不切实际。为了解决这个问题，我们提出了一种新颖的方法，通过弱监督利用大型语言模型（LLM）自动标注大量用户搜索查询。通过使用提示工程和多样化的LLM角色，我们生成了与人工注释者期望相匹配的训练数据。通过引入领域知识，利用链式思考和上下文学习，我们的方法利用标记数据训练优化用于实时推理的低延迟模型。广泛的评估显示，我们的方法在召回率上优于基线平均提高了113%。此外，我们提出的新型提示工程框架产生用于弱监督的高质量LLM生成数据；与人类注释的F1得分加权分布相比，我们观察到预测和人类注解之间的一致性提高了47.60%。我们的角色选择路由机制进一步增加了3.67%的加权F1得分，这是在新型提示工程框架基础上的额外收益。
2024-09-13	AnyBipe: An End-to-End Framework for Training and Deploying Bipedal Robots Guided by Large Language Models	Yifei Yao et.al.	2409.08904	link	本文提出了一种端到端的框架，用于训练和部署机器人强化学习（RL）策略，该框架利用大型语言模型（LLM）进行引导。该框架由三个相互连接的模块组成：一个通过LLM设计奖励函数的模块、一个利用现有工作的RL训练模块以及一个模拟到现实（sim-to-real）同态评估模块。这种方法显著减少了对人工干预的需求，仅需要基本的模拟和部署平台，并且提供了人工工程策略和历史数据的整合选项。我们详细介绍了这些模块的构建、它们相对于传统方法的优势，以及展示该框架在双足机器人步态控制自主开发和改进能力的实例，证明其在不需要人类干预的情况下操作的可能性。
2024-09-13	A Market for Lemons? Strategic Directions for a Vigilant Application of Artificial Intelligence in Entrepreneurship Research	Martin Obschonka et.al.	2409.08890	null	在人工智能（AI）采用的迅速增长以及大数据可用性的背景下，创业学领域可能迎来有史以来最重大的转变。本文通过强调AI革命期间创业研究中潜在的无成效知识交流风险，做出了紧迫的元贡献。它提供了缓解这一风险的策略，并为未来基于AI的研究提供了指导，以增强其集体影响力和相关性。借鉴Akerlof著名的“劣质商品市场”概念，我们识别了由于领域演进到当前环境而可能出现的重大知识不对称性，如构造有效性、理论构建和研究相关性方面的复杂性。这些不对称性特别深植于所谓的双重黑箱困境中，即AI方法的广泛认可的黑箱性质与由内在不确定性驱动的创业现象的黑箱性质的交汇点。结果，这些不对称可能导致不可检测的次优研究产品增加，从而形成一个损害领域福祉、声誉和影响力的劣质商品市场。然而，重要的是，如果能够缓解这些风险，AI革命有可能预示着创业研究的新黄金时代。我们讨论了提升领域至更高水平的AI韧性所需采取的行动，同时坚定地保持其基础原则和核心价值观。
2024-09-13	Exploring Graph Structure Comprehension Ability of Multimodal Large Language Models: Case Studies	Zhiqiang Zhong et.al.	2409.08864	null	大型语言模型（LLM）在处理各种数据结构时展现了惊人的能力，包括图。尽管先前的研究集中在开发用于图表示的文本编码方法上，但多模态LLM的出现为理解图提供了一个新的前沿。这些先进的模型能够同时处理文本和图像，通过结合视觉表示与传统的文本数据，可能在提高对图结构的理解方面带来改进。这项研究探讨了可视化图在不同级别（节点、边和图级别）上对LLM性能的影响。我们的实验对比了多模态方法与纯文本图表示的有效性。结果提供了关于利用视觉图模态增强LLM对图结构理解能力的潜力和限制的宝贵见解。
2024-09-13	FP-VEC: Fingerprinting Large Language Models via Efficient Vector Addition	Zhenhua Xu et.al.	2409.08846	null	训练大型语言模型（LLMs）需要巨大的计算能力和大量的数据。因此，通过指纹保护这些模型的知识产权对于所有权认证至关重要。尽管尝试通过微调向LLMs添加指纹，但这仍成本高昂且难以扩展。为此，我们提出了FP-VEC，一种使用指纹向量作为高效LLM指纹方法的试点研究。我们的方法生成一个代表嵌入在模型中的保密签名的指纹向量，允许通过向量相加无缝地将相同的指纹整合到无限数量的LLMs中。在多个LLMs上的结果表明，FP-VEC轻量级，可以在仅使用CPU的设备上运行以进行指纹识别；可扩展，只需要一次训练即可实现无限次的指纹生成过程，并且能够保持模型的正常行为。项目页面位于https://fingerprintvector.github.io 。
2024-09-12	Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale	Rogerio Bonatti et.al.	2409.08264	link	大型语言模型（LLM）展现出在需要规划和推理的多模态任务中作为计算机代理的强大潜力，能显著提升人类生产力和软件可访问性。然而，衡量这些代理在真实环境中的性能仍存在挑战：（i）大多数基准测试仅限于特定模态或领域（例如纯文本、网页导航、问题回答、编程），（ii）完整基准评估耗时长（通常需数天时间），因为任务具有多步骤的序列性质。为解决这些挑战，我们引入了“Windows Agent Arena”：一个可复现的通用环境，专注于Windows操作系统，允许代理自由操作并使用与人类用户在解决任务时相同的广泛应用程序、工具和网络浏览器。我们根据OSWorld框架（Xie等人，2024年）创建了150多个跨代表领域的多样化Windows任务，这些任务涵盖了规划、屏幕理解及工具使用的代理能力要求。我们的基准具有可扩展性，并能够无缝地在Azure上并行化，从而在短短20分钟内完成全面基准评估。为了展示Windows Agent Arena的能力，我们还引入了一个新的多模态代理Navi。Navi在Windows领域内的成功率达到了19.5%，相比之下，未经辅助的人类表现则为74.5%。此外，Navi在另一个流行的基于网络的基准测试Mind2Web中也表现出色。我们提供了对Navi性能的详细定量和定性分析，并提供了利用Windows Agent Arena进行未来研究的代理开发和数据生成机会的见解。网页：https://microsoft.github.io/WindowsAgentArena 代码：https://github.com/microsoft/WindowsAgentArena
2024-09-12	OmniQuery: Contextually Augmenting Captured Multimodal Memory to Enable Personal Question Answering	Jiahao Nick Li et.al.	2409.08250	null	人们常通过照片、屏幕截图和视频来捕捉记忆。现有的基于AI的工具能够使用自然语言检索这些数据，但主要局限于检索像照片中的特定物体这样的单一信息，难以处理涉及理解相互关联记忆（如事件序列）的更复杂查询。我们进行了一项为期一个月的日志研究，收集了现实用户查询，并生成了一个集成与捕获记忆相关必要上下文信息的分类体系。随后，我们引入了OmniQuery，这是一种能够回答需要提取和推断多层上下文信息以整合相互关联记忆的复杂个人记忆相关问题的新型系统。OmniQuery通过从多个相互关联的记忆中集成分散的上下文信息来增强单个捕获的记忆，检索相关记忆，并利用大型语言模型（LLM）提供全面的答案。在人类评估中，我们展示了OmniQuery的有效性，准确率达到71.5%，并且它在74.5%的时间里超越了传统的RAG系统，在某些任务上甚至取得了胜利或并列第一的成绩。
2024-09-12	Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources	Alisia Lupidi et.al.	2409.08239	null	在面对依赖结构化数据、复杂推理或工具使用的挑战性场景时，大型语言模型仍然存在困难。为此，我们提出了一种名为Source2Synth的新方法，它无需昂贵的人类标注即可用于教授LLMs新技能。Source2Synth接受自定义数据源作为输入，并生成具有基于现实世界来源的中间推理步骤的合成数据点。该方法通过根据其可回答性丢弃低质量生成来提高数据集质量。我们通过在两个具有挑战性的领域中应用此方法来展示其通用性：在多跳问题回答（MHQA）中测试推理能力，在表格型问题回答（TQA）中测试工具使用。与经过微调的基本模型相比，我们的方法在WikiSQL上的TQA上提高了25.51%，在HotPotQA上的MHQA上提高了22.57%的性能。
2024-09-12	LLM Honeypot: Leveraging Large Language Models as Advanced Interactive Honeypot Systems	Hakan T. Otal et.al.	2409.08234	link	本文介绍了一种创新方法，使用大型语言模型（LLMs）构建真实且互动的蜜罐系统。通过在包含攻击者生成命令和响应的多样化数据集上对开源预训练语言模型进行微调，我们开发出一种能够与攻击者进行高级交互的蜜罐。我们的方法涉及关键步骤：数据收集与处理、提示工程、模型选择以及监督式微调，以优化模型性能。通过相似性指标评估与现场部署，结果显示我们的方法能够生成准确且信息丰富的响应。研究结果强调了LLMs在重塑蜜罐技术方面的潜力，为网络安全专业人员提供了一个强大的工具来检测和分析恶意活动，从而增强整体安全架构。
2024-09-12	What Makes a Maze Look Like a Maze?	Joy Hsu et.al.	2409.08202	null	人类视觉理解的独特之处在于能够灵活地解释抽象概念的能力：获取提升规则来解释它们所象征的含义，在熟悉和不熟悉的上下文中锚定它们，并对它们进行预测或推理。尽管现成的视觉语言模型在识别图像中的具体对象类别（如树枝）方面表现出色，但它们仍然难以理解这样的视觉抽象（例如，一组树枝如何形成迷宫的墙壁）。为了应对这一挑战，我们引入了深度架构接地（DSG），这是一个利用明确的结构化表示法来锚定和推理视觉抽象的框架。DSG的核心是架构——分解抽象概念的依赖图形描述，将其分解为更基本的符号。DSG使用大型语言模型提取架构，然后通过视觉语言模型分层地将架构中的具体到抽象组件锚定到图像上。锚定后的架构用于增强对视觉抽象的理解。我们系统地评估了DSG及其不同的方法在我们新创建的视觉抽象数据集上的推理性能，该数据集由人类标注的真实世界图像和相应的问答对组成。我们展示了DSG显著提高了视觉语言模型在抽象视觉推理方面的表现，并朝着与人类一致的视觉抽象理解迈进了一步。
2024-09-12	Fine-tuning Large Language Models for Entity Matching	Aaron Steiner et.al.	2409.08185	link	本文探讨了利用大型语言模型（LLM）进行实体匹配的潜力，特别是通过微调。已有研究主要集中在提示工程和基于上下文的学习上。本文从两个维度分析了微调的可行性：1）训练示例的表示方式，实验涉及在训练集中添加不同类型的LLM生成解释；2）使用LLM选择和生成训练示例。我们不仅关注源数据集上的匹配性能，还研究了微调对模型在同域数据集以及跨领域数据集上的泛化能力的影响。实验结果显示，微调显著提升了小型模型的性能，而大型模型的表现则参差不齐。微调在提升同域数据集的泛化能力的同时，也影响了跨域迁移的能力。我们发现，向训练集添加结构化的解释对四种LLM中的三种有正面影响，而提出的示例选择和生成方法仅提升了Llama 3.1 8B的性能，同时降低了GPT-4o Mini的性能。
2024-09-12	Faster Speech-LLaMA Inference with Multi-token Prediction	Desh Raj et.al.	2409.08148	null	大型语言模型（LLMs）在解决各种任务上变得极为熟练，包括涉及多模态输入的任务。具体来说，通过使用语音编码器实例化LLM（例如LLaMA）并利用配对数据对其进行训练，可以赋予只解码的模型语音识别（ASR）能力，因此称之为Speech-LLaMA。然而，由于自回归推理的顺序性质以及相对较大的解码器，Speech-LLaMA模型的推理时间相对较高。本工作中，我们提出通过在同一解码步骤中预测多个令牌来加速Speech-LLaMA的推理。我们探索了几个能够实现这一目标的模型架构，并通过阈值推理和验证推理策略来评估它们的性能。此外，我们还提出了一个基于前缀的束搜索解码方法，允许此类模型进行高效的最小词错误率（MWER）训练。我们在多种公共基准上评估了我们的模型，结果显示它们将解码调用的数量减少了约3.2倍，同时保持或提高了WER性能。
2024-09-12	LLM-POTUS Score: A Framework of Analyzing Presidential Debates with Large Language Models	Zhengliang Liu et.al.	2409.08147	null	本文提出了一种利用大型语言模型（LLM）来评估总统辩论表现的新方法，旨在解决长期存在的客观评估辩论结果的挑战。我们构建了一个框架，从“政策、个性与视角”（3P）和“兴趣、意识形态与身份认同”（3I）的角度分析四位关键受众群体：选民、企业、捐赠者及政客对候选人的共鸣。该方法通过生成“LLM-POTUS评分”，即基于3P与3I之间一致性度量的量化指标，来评价辩论表现。我们应用此框架对近期美国总统辩论的文本进行分析，揭示了不同辩论策略的有效性及其对不同受众群体的影响。研究不仅提供了一个新的政治分析工具，还探索了在复杂社会背景下使用LLM作为公正评判者的潜力与局限性。此外，该框架为个人公民提供了一个独立的工具，用于评估总统辩论的表现，从而增强民主参与度，减少对可能偏见的媒体解读和机构影响力的依赖，进而加强知情公民参与的基础。
2024-09-12	The CLC-UKET Dataset: Benchmarking Case Outcome Prediction for the UK Employment Tribunal	Huiyuan Xie et.al.	2409.08098	null	本文研究了技术革新与获取公正之间的交汇点，通过在英国就业法庭（UKET）构建预测案例结果的基准。为了应对大量人工注释的挑战，该研究利用大型语言模型（LLM）进行自动注释，从而创建了CLC-UKET数据集。该数据集包含约19,000个UKET案例及其元数据。全面的法律注释涵盖了事实、主张、先例引用、法规引用、案例结果、理由和管辖权代码。借助CLC-UKET数据，我们对UKET的多类案例结果预测任务进行了研究。收集了人类预测以建立模型比较的性能参考。从基础模型的实证结果来看，微调的转换器模型在UKET预测任务上优于零次和少量样本的LLM。零次LLM的性能可以通过整合与任务相关的信息来增强，融入少量样本示例中。我们希望CLC-UKET数据集、人类注释以及实证发现能够作为就业相关纠纷解决的宝贵基准。
2024-09-12	Securing Large Language Models: Addressing Bias, Misinformation, and Prompt Attacks	Benji Peng et.al.	2409.08087	null	本文综述了近年来有关大型语言模型（LLM）安全性的关键问题的研究文献，重点是准确性、偏见、内容检测以及对抗攻击的脆弱性。文章详细讨论了LLM输出可能不准确或误导性的问题，并强调了通过事实核查方法增强响应可靠性的实施策略。文章深入探讨了内嵌于LLM中的固有偏见，通过多样化的评估技术，如控制输入研究和红队演练，对其进行批判性审视。提出了全面的偏见缓解策略分析，包括从预处理干预到训练期间调整和后处理改进的各种方法。此外，文章还探究了区分LLM生成内容与人类创作文本的复杂性，引入了诸如DetectGPT的检测机制以及水印技术，同时指出在复杂情况下基于机器学习的分类器存在局限性。文章还分析了LLM的漏洞，包括逃逸攻击和提示注入攻击，通过案例研究和大规模竞赛HackAPrompt等进行了深入探讨。最后，文章回顾了保护LLM的防御措施，强调了需要对LLM安全性领域进行更深入研究的重要性。
2024-09-11	"My Grade is Wrong!": A Contestable AI Framework for Interactive Feedback in Evaluating Student Essays	Shengxin Hong et.al.	2409.07453	null	交互式反馈在教师与学生之间双向流动，相较于传统的单向反馈更为有效。然而，这种反馈方式往往耗时过多，难以在教育实践中广泛应用。虽然大型语言模型（LLM）具有自动化反馈的潜力，但它们在互动情境下的推理和交互方面存在困难。本文提出了一种名为CAELF（Contestable AI Empowered LLM框架），旨在通过集成多代理系统与计算论辩来自动化交互式反馈。首先，学生的作文由多个教学助理代理（TA代理）进行评估，随后，教师代理通过形式化推理整合这些评价，生成反馈和评分。学生可以进一步与反馈互动，以深化理解。通过对500篇批判性思维作文的案例研究，并结合用户研究，结果表明，CAELF显著提高了交互式反馈的质量，增强了LLM的推理和互动能力。这一方法提供了一个克服影响教育领域广泛应用交互式反馈的时间和资源障碍的有前景解决方案。
2024-09-11	SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories	Ben Bogin et.al.	2409.07440	link	给定大型语言模型（LLM）在编写代码方面取得的重大进展，它们现在是否能够自主重现研究仓库中的结果？这样的能力将对研究社区产生巨大益处，帮助研究人员验证、理解并扩展先前的工作。为了向这一目标迈进，我们引入了SUPER，这是首个旨在评估LLM在从研究仓库设置和执行任务方面的能力的基准。SUPER旨在捕捉研究人员在机器学习（ML）和自然语言处理（NLP）研究仓库工作时所面临的真实挑战。我们的基准由三个不同的问题集组成：45个端到端问题，附有专家解决方案的注释，152个专注于特定挑战（例如配置训练器）的子问题，以及602个用于更大规模开发的自动生成问题。我们引入了各种评估指标来评估任务成功和进度，当有黄金解决方案可用时使用黄金解决方案，否则使用近似值。我们展示了最先进的方法在解决这些问题时遇到了困难，最好的模型（GPT-4o）仅解决了16.3%的端到端集和46.1%的场景。这表明了这项任务的挑战性，并表明SUPER可以作为社区衡量和推动进步的宝贵资源。
2024-09-11	CLNX: Bridging Code and Natural Language for C/C++ Vulnerability-Contributing Commits Identification	Zeqing Qin et.al.	2409.07407	null	大型语言模型（LLM）在漏洞识别领域展现出了巨大的潜力。由于C/C++在过去十年中占据了开源软件（OSS）漏洞的一半，并且主要通过提交进行更新，因此增强LLM在识别C/C++漏洞贡献提交（VCC）方面的能力变得至关重要。然而，当前的研究主要集中在对大规模代码集进一步预训练LLM上，这既耗费资源又存在效率挑战。本文提出了一种轻量级方法来提升基于BERT的LLM识别C/C++ VCC的能力。我们提出了CodeLinguaNexus（CLNX），作为连接C/C++程序与LLM的桥梁。CLNX通过在保留关键细节的同时，以更自然的方式高效地将源代码转换为更适合LLM处理的表示。具体来说，CLNX首先应用结构级自然化来分解复杂的程序，然后应用符号级自然化来解释复杂的符号。我们在包含25,872个C/C++函数及其提交的公开数据集上评估了CLNX。结果表明，CLNX显著提升了LLM识别C/C++ VCC的能力。此外，配备CLNX的CodeBERT达到了新的最优性能，并在真实世界中识别了38个OSS漏洞。
2024-09-11	AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge	Han Wang et.al.	2409.07394	link	在大语言模型（LLM）的上下文与模型参数存储的知识之间存在知识冲突，这会导致使用标准解码技术时性能受损，因为这些技术往往忽视了上下文。现有的测试时间对比方法试图通过比较带有和不带有上下文的LLM输出分布之间的对比，并根据它们之间的对比调整模型来解决这个问题。然而，我们发现这些方法经常错误地判断冲突的程度，并且难以处理不同冲突程度的实例，静态方法在冲突不存在时过度调整。为此，我们提出了一种基于实例的精细粒度方法AdaCAD，它动态地根据Jensen-Shannon散度测量的上下文和参数知识分布之间的冲突程度来推断调整权重。我们在四个模型上对六个多样化的问答（QA）数据集和三个摘要任务进行的实验显示，我们的无需训练的自适应方法始终在问答任务上优于其他解码方法，平均准确率提高了14.21%（绝对值），并且提高了摘要的真实性，AlignScore提高了5.59分。此外，我们的分析表明，与冲突的对比基线相比，当冲突不存在时，解码会损害性能，而AdaCAD能够缓解这些损失，使其更适用于现实世界的数据集，在这些数据集中，有些示例存在冲突，而其他示例则不存在冲突。
2024-09-11	Demo: SGCode: A Flexible Prompt-Optimizing System for Secure Generation of Code	Khiem Ton et.al.	2409.07368	null	本文介绍了一种名为SGCode的灵活提示优化系统，用于通过大型语言模型（LLM）生成安全代码。SGCode将最近的提示优化方法与LLM结合在一个统一的系统中，通过前端和后端API提供服务，使用户能够：1）生成无漏洞的安全代码；2）查看和共享安全性分析；以及3）轻松在不同的提示优化方法之间切换，并提供有关模型和系统性能的见解。我们使用AWS服务器上的PromSec填充SGCode，这是一种方法，通过将LLM、安全工具与轻量级生成对抗图神经网络相结合，来检测并修复生成代码中的安全漏洞，从而优化提示。广泛的实验表明，SGCode作为公共工具，能够揭示模型实用性、安全代码生成和系统成本之间的权衡，具有相对较低的成本。SGCode已上线于：http://3.131.141.63:8501/。
2024-09-11	Think Together and Work Better: Combining Humans' and LLMs' Think-Aloud Outcomes for Effective Text Evaluation	SeongYeub Chu et.al.	2409.07355	link	本文介绍了一种名为“InteractEval”的框架，该框架采用“Think-Aloud”方法结合大型语言模型（LLM）与人类专家意见，以生成基于检查清单的文本评估的属性。通过融合人类的灵活性和推理能力以及LLM的一致性，InteractEval在一致性、流畅性、相关性和连贯性四个维度上均超越了传统的非LLM基线和LLM基线模型。实验还探讨了“Think-Aloud”方法的有效性，表明它能促进人类和LLM的发散思维，从而产生更广泛的相关属性，并提高文本评估性能。比较分析显示，人类在识别与内部质量相关的属性（如连贯性和流畅性）方面表现优异，而LLM在与外部对齐相关的属性（如一致性和相关性）上表现更好。因此，结合人类和LLM共同产生的评估结果最佳。换句话说，本文强调了在自动化基于检查清单的文本评估框架中有效整合人类和LLM的必要性。代码已开源于\textbf{\url{https://github.com/BBeeChu/InteractEval.git}}}。
2024-09-11	Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering	Weixi Weng et.al.	2409.07331	null	多模态大型语言模型（MLLMs）在视觉问答（VQA）任务上展示了出色的零样本性能。然而，在知识基视觉问答（KB-VQA）任务中，MLLMs可能缺乏人类常识或特定领域的专业知识，从而需要从外部知识源获取所需信息以回答此类问题。先前的工作，如检索增强的VQA-v2（RAVQA-v2），侧重于充分利用输入信息，例如图像文本描述和检索的知识，以提高性能，但它们都忽视了一个问题：随着输入令牌数量的增加，推理效率显著降低，这与实际应用的需求相矛盾。为了解决这一问题，我们提出了检索增强的多模态大语言模型（RACC）。RACC学习压缩并聚合检索上下文，并生成紧凑的键值（KV）缓存形式的调节。然后，使用这种调节来适应下游冻结的MLLM，从而实现有效且高效的推理。RACC在OK-VQA上实现了当前最佳的62.9%性能。此外，它将RAVQA-v2的推理延迟显著降低了22.0%-59.7%。大量的实验表明了RACC的广泛适用性。它与各种现成的MLLM兼容，并可以处理包括文本和多模态文档在内的不同知识源。
2024-09-11	MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications	Praveen K Kanithi et.al.	2409.07314	null	大型语言模型（LLM）在医疗健康领域的快速开发引发了对超越如USMLE等常用基准评估的全面评估需求，以更好地反映实际应用表现。虽然现实世界的评估是实用性的重要指标，但它们往往落后于LLM演进的速度，可能导致研究结果在部署时变得过时。这种时间上的脱节需要一种全面的前期评估方法，以指导特定临床应用中的模型选择。我们引入了MEDIC框架，它从五个关键的临床能力维度评估LLM：医学推理、伦理与偏见、数据和语言理解、上下文学习以及临床安全性。MEDIC采用了一种新颖的交叉审查框架，量化了LLM在覆盖范围和幻觉检测等领域的性能，而无需参考输出。我们使用MEDIC对医疗问答、安全、总结、笔记生成以及其他任务进行了评估。我们的结果显示不同模型大小之间、基线模型与医学微调模型之间的性能差异，并对需要特定模型优势的应用（如低幻觉或较低推理成本）的模型选择具有启示意义。MEDIC的多维度评估揭示了理论能力和实际实施之间的性能权衡，弥合了在医疗保健环境中识别和适应最有前景模型的差距，确保了适合多种医疗保健应用的模型得到识别和适应。
2024-09-11	STORE: Streamlining Semantic Tokenization and Generative Recommendation with A Single LLM	Qijiong Liu et.al.	2409.07276	null	传统推荐模型通常依赖于独特的项目标识符（ID）来区分项目，这可能限制了它们利用项目内容信息和推广长尾或冷启动项目的能力。近期，已提出语义分词作为解决这一问题的有希望的方法，旨在将每个项目的语义表示分词为一系列离散的令牌。通过这种方式，它保留了项目在这些令牌内的语义，并确保具有相似语义的项目由相似的令牌表示。这些语义令牌成为训练生成推荐模型的基础。然而，现有的生成推荐方法通常涉及多个子模型进行嵌入、量化和推荐，导致系统过于复杂。在这篇论文中，我们提出了一种统一框架，称为STORE，利用单一大型语言模型（LLM）同时执行这两项任务。具体而言，我们将语义分词表述为文本到令牌的任务，而生成推荐则表述为令牌到令牌的任务，通过补充令牌到文本重构任务和文本到令牌辅助任务，所有这些任务均以生成方式表述并使用单一LLM骨干进行训练。我们进行了大量实验，以验证我们的STORE框架在各种推荐任务和数据集上的有效性。我们将发布源代码和配置，以便进行可复现的研究。
2024-09-11	MiniDrive: More Efficient Vision-Language Models with Multi-Level 2D Features as Text Tokens for Autonomous Driving	Enming Zhang et.al.	2409.07267	link	本文提出了一种名为MiniDrive的新型框架，旨在解决视觉语言模型（VLM）在自动驾驶场景中的应用难题。现有的VLM方法通常依赖于计算密集型的视觉编码器和大型语言模型（LLMs），这使得它们难以在实际世界和实时应用中部署。此外，大多数现有VLM缺乏处理多张图片的能力，这使得它们难以适应自动驾驶中的多摄像头感知需求。为了解决这些问题，我们引入了两个关键模块：特征工程混合专家（FE-MoE）和动态指令适配器（DI-Adapter）。FE-MoE有效地将二维特征映射到视觉令牌嵌入，然后作为输入传递给语言模型。DI-Adapter允许视觉令牌嵌入根据指令文本嵌入动态变化，解决了以往方法中同一图片下静态视觉令牌嵌入的问题。与之前的成果相比，MiniDrive在参数大小、浮点运算量和响应效率方面均达到了最优性能，最小版本仅包含83M参数。
2024-09-10	E2LLM: Encoder Elongated Large Language Models for Long-Context Understanding and Reasoning	Zihan Liao et.al.	2409.06679	null	在大型语言模型（LLMs）领域，处理长文本上下文的能力对于多轮对话、代码生成和文档摘要等任务愈发重要。本文探讨了增强长文本上下文性能、降低计算复杂性以及充分利用预训练模型所面临的挑战——即所谓的“不可能三角”。我们提出了一种名为E2LLM（编码器扩展大型语言模型）的创新方法，旨在有效解决这一悖论。该方法的核心思想是将长文本上下文划分为多个片段，并通过预训练的文本编码器将每个片段压缩为嵌入向量。然后利用适配器将这些表示与解码器型LLM对齐，以促进对软提示的理解。本文提出了两个训练目标：一是重建编码器输出，二是针对长文本指令进行微调，以帮助LLM理解软提示。实验结果表明，E2LLM在长文本上下文场景中取得了显著的性能提升，同时保持了效率、性能和与预训练模型的兼容性。因此，我们的框架代表了领域内的重大进展，为有效的大文本建模做出了贡献。
2024-09-10	LLaMA-Omni: Seamless Speech Interaction with Large Language Models	Qingkai Fang et.al.	2409.06666	link	针对大型语言模型（LLM）通过语音实现实时交互的能力提升，相较于传统的文本交互方式，模型如GPT-4显著增强了用户体验。然而，当前在基于开源LLM构建语音交互模型方面仍缺乏深入探索。为了填补这一空白，我们提出了一种新型模型架构——LLaMA-Omni，旨在实现低延迟与高质量的语音与LLM交互。该架构融合了预训练的语音编码器、语音适配器、LLM和流式语音解码器，无需进行语音转录，即可直接从语音指令生成文本和语音响应，响应速度极快。我们的模型基于最新的Llama-3.1-8B-Instruct模型构建，并针对语音交互场景构建了一个名为InstructS2S-200K的数据集，其中包含了20万条语音指令及其对应的语音回应。实验结果显示，与以往的语音语言模型相比，LLaMA-Omni在内容与风格上提供了更好的响应，响应延迟低至226毫秒。此外，训练LLaMA-Omni仅需不到3天的时间，在4块GPU上即可完成，这为未来高效开发语音语言模型铺平了道路。
2024-09-10	Human Perception of LLM-generated Text Content in Social Media Environments	Kristina Radivojevic et.al.	2409.06653	null	新兴技术，尤其是人工智能（AI）和大型语言模型（LLM），为恶意行为者提供了操纵数字对话的强大工具。LLM有可能影响传统形式的民主参与，例如选民选择、政府调查或与监管机构的在线交流，因为机器人能够生成大量可信文本。为了研究人类对LLM生成内容的感知，我们招募了超过1000名参与者，然后让他们尝试在社交媒体讨论线程中区分机器人与人类帖子。我们发现人类在识别社交媒体上的真实用户帖子方面表现不佳。我们也发现了人类在社交媒体对话中识别LLM生成文本内容的模式。最后，我们观察到了“怪异谷”效应在文本对话中的存在，无论是在感知还是识别过程中。这表明尽管人类在识别过程中的表现不佳，但当阅读LLM生成的内容时，他们仍能感受到不适。
2024-09-10	Optimal Workload Placement on Multi-Instance GPUs	Bekir Turkkan et.al.	2409.06646	null	本文旨在探讨如何优化大型语言模型（LLM）为基础的AI推理工作负载在GPU上的部署。我们首先识别并阐述了实践中遇到的一些需要高效分配或迁移工作负载到其他GPU以腾出空间供新工作负载使用的情况。目标是尽可能减少使用的GPU数量，并进一步降低被利用GPU中的内存和计算浪费。为了实现这一目标，我们提出了两种方法：一种是优化方法，另一种是启发式方法。我们使用两种工作负载调度启发式算法对多种用例进行了基准测试。结果显示，在与基线启发式相比的情况下，我们能够节省高达2.85倍的GPU使用量，以及高达70%的GPU浪费。我们计划让SRE（系统可靠性工程）社区能够在生产环境中利用我们的提议方法。
2024-09-10	MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders	Wenyu Zhang et.al.	2409.06635	null	快速发展的大型语言模型（LLM）显著提高了自然语言处理能力，促进了音频LLM的发展，这些模型能够理解语音和音频输入。现有的音频LLM通常结合预训练的音频编码器与文本预训练的LLM，并在特定的音频任务上进行微调。然而，预训练的音频编码器的容量有限，无法捕获新任务和数据集中的特征。为了应对这一问题，我们提出将“弱”编码器混合（MoWE）融入音频LLM框架。MoWE通过在基本编码器基础上补充一组相对较轻量级的编码器，根据音频输入动态激活以增强特征提取，同时避免显著增加模型大小。我们的实验结果表明，MoWE有效提高了多任务性能，使音频LLM能够应用于更多样化的音频任务。
2024-09-10	A Practice of Post-Training on Llama-3 70B with Optimal Selection of Additional Language Mixture Ratio	Ningyuan Xi et.al.	2409.06624	null	本文研究了大规模语言模型（LLM）在持续预训练（CPT）过程中，如何通过额外语言混合比（ALMR）和学习率（LR）之间的最优相关性，提升模型在中文及其他特定领域的性能。针对8B大小的Llama-3模型，我们进行了深入研究，确定了实验设置中的关键超参数，并通过精细调整，显著提升了模型在中文相关的基准测试以及数学、编程和情绪智能等特定领域的能力。最终，我们将70B大小的LLM部署到实际聊天系统中，并取得了令人满意的效果。
2024-09-10	Alleviating Hallucinations in Large Language Models with Scepticism Modeling	Yetao Wu et.al.	2409.06601	null	大型语言模型（LLM）面临的主要挑战是幻觉现象，这阻碍了其在多个领域的应用。不确定性估计可以被用于缓解幻觉带来的损害。人类的怀疑情绪被认为能增强自我评估的能力。基于这一观察，我们提出了一种名为“质疑建模”（SM）的新方法。这一方法通过结合词元和logits信息来进行自我评估而得到形式化。我们构建了包含怀疑情绪意识的数据集，并进行连续预训练，然后对LLM进行微调，从而提升它们自我评估的能力。实验结果证明了这种方法有效增强了模型估算不确定性的能力，并通过跨领域实验验证了其在其他任务中的泛化能力。
2024-09-10	GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering	Sacha Muller et.al.	2409.06595	link	本文探讨了使用大型语言模型（LLMs）与私有且更新至最新的知识库相结合的检索增强生成（RAG）范式时面临的挑战。我们特别关注评估由RAG系统生成的基于现实的答案时，作为裁判的LLM所遇到的问题。为了评估裁判模型的校准和区分能力，我们识别了7种生成器失败模式，并引入了GroUSE（基于问题解答的元评估基准），这是一个包含144个单元测试的元评估基准。这个基准揭示了现有的自动化RAG评估框架往往忽视了重要失败模式，即使在使用GPT-4作为裁判的情况下也是如此。为了改进当前自动化RAG评估框架的设计，我们提出了一种新的管道，并发现封闭模型在GroUSE上表现良好，而最先进的开源裁判模型在我们的提议标准下并未表现出良好的泛化能力，尽管它们与GPT-4的判断高度相关。我们的研究结果表明，与GPT-4的相关性是一个不完整的代理指标，用于衡量裁判模型的实际性能，并应该通过对参考情况的精确失败模式检测进行补充评估。进一步的研究显示，通过在GPT-4的推理痕迹上对Llama-3进行微调，显著提升了其评估能力，不仅提高了与GPT-4评价的相关性和参考情况的校准度。
2024-09-10	MAPS: Energy-Reliability Tradeoff Management in Autonomous Vehicles Through LLMs Penetrated Science	Mahdieh Aliazam et.al.	2409.06558	null	随着自动驾驶车辆的日益普及，对高度精确和高效的系统的需求也在不断增长，以提升安全性能、操作效率和能源消耗。在管理能源与可靠性之间的权衡时，预测车辆运行期间的各种条件变得尤为重要。近年来，大型语言模型（LLMs）的改进以及知名模型如ChatGPT的出现，为自动驾驶相关预测提供了独特的机会。本文提出了一种名为MAPS的方法，利用LLMs作为地图阅读辅助驾驶员，预测在自动驾驶车辆操作过程中设置的关键参数，以平衡能源与可靠性之间的权衡。MAPS方法在导航精度方面相较于最佳基线方法提高了20%。此外，MAPS还显示了在计算单元上节省了11%的能源，并在机械和计算单元上最高节省了54%。
2024-09-10	Questioning Internal Knowledge Structure of Large Language Models Through the Lens of the Olympic Games	Juhwan Choi et.al.	2409.06518	link	大型语言模型（LLM）在自然语言处理领域已经成为主导性方法，然而它们的内部知识结构仍然未被充分探索。本文通过分析奥林匹克运动会的历史奖牌统计情况，研究了LLM的内部知识结构。我们要求模型提供各队的奖牌数量，并确定哪些队伍获得了特定排名。我们的结果表明，尽管最先进的LLM在报告单个队伍的奖牌数量方面表现得非常出色，但在回答关于特定排名的问题时却遇到显著困难。这暗示了LLM的内部知识结构与人类的根本不同，人类能够轻松地从已知的奖牌数量推断出排名。为了支持进一步的研究，我们公开发布了代码、数据集和模型输出。
2024-09-09	MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct	Run Luo et.al.	2409.05840	null	在多模态大型语言模型（MLLMs）的发展过程中，我们已经取得了显著的进步。然而，在数据量和数据质量方面仍然存在关键瓶颈。手动创建多模态指令数据既耗时又低效，尤其是在生成高复杂性的指令时。此外，从“黑盒”商业模型（例如GPT-4o、GPT-4V）中提取指令数据往往导致生成的指令数据过于简单，这限制了模型性能仅与其自身水平相当。构建多样性和复杂性指令数据的挑战依然巨大。为解决这一问题，我们提出了一种名为MMEvol的新颖多模态指令数据进化框架，该框架结合了精细感知演化、认知推理演化以及互动演化。这一迭代方法突破了数据质量瓶颈，生成了一个复杂且多样化的图像-文本指令数据集，从而增强了MLLMs的能力。我们以初始指令集合SEED-163K为基础，利用MMEvol系统地扩展了指令类型的多样性，融入了增强认知能力的推理步骤，并从图像中提取了详细信息以提高视觉理解和鲁棒性。为了全面评估我们数据的有效性，我们使用进化的数据训练了LLaVA-NeXT，并在13个视觉语言任务上进行了实验。与基于原始数据训练的基线相比，我们的方法平均提高了3.1点准确率，并在9个任务上达到了最先进的性能水平。
2024-09-09	Are Large Language Models a Threat to Programming Platforms? An Exploratory Study	Md Mustakim Billah et.al.	2409.05824	null	本文研究了大型语言模型（LLM）如ChatGPT、Gemini和Meta AI在LeetCode、Codeforces和HackerRank等竞赛编程平台上的问题解决能力。这些平台常被招聘人员用来筛选编程技能。随着LLM能力的提升，对其在不同难度级别、各类别的编程挑战中的表现进行评估变得尤为重要。研究团队从LeetCode选取了98个问题，从Codeforces选取了126个问题，覆盖了15个类别。通过九场在线Codeforces和LeetCode竞赛以及HackerRank的两项认证测试，对LLM的实时性能进行了评估。研究过程中使用了提示和反馈机制来引导LLM，并探索了不同场景之间的相关性。结果显示，ChatGPT等LLM在LeetCode和HackerRank的认证测试中表现出色（成功率为71.43%），但在虚拟竞赛中，特别是在Codeforces的高难度比赛中，它们的表现不尽如人意。尽管在LeetCode档案库中的用户中表现优于部分用户，但LLM在时间效率和内存效率上表现突出，而在更困难的Codeforces竞赛中则处于劣势。尽管当前情况并未立即构成威胁，但LLM在这些平台上的表现令人担忧，未来需要改进以提高其性能。
2024-09-09	Benchmarking Chinese Knowledge Rectification in Large Language Models	Tianhe Lu et.al.	2409.05806	link	大型语言模型（LLM）展现出惊人的生成能力，但它们并非没有缺陷，特别是存在幻觉的问题。当LLM应用于特定语言和领域时，这一问题尤为突出。例如，在处理中国古代诗歌、谚语或成语时，LLM可能会生成毫无意义的信息，这是由于缺乏特定知识造成的。为此，本文提出了一种针对LLM的基准，通过知识编辑来纠正中文知识。具体来说，我们通过从各种来源收集七种类型的知识，包括古典文本、成语以及来自百度贴吧“求诸家”的内容，构建了一个新的中文数据集CKnowEdit，以应对中文语言特有的复调性、反讽性和逻辑结构。通过对这个数据集的分析，我们揭示了当前LLM在掌握中文方面的挑战。此外，我们在该数据集上对现有的知识编辑技术进行评估，发现对中文知识的修正仍存在巨大的提升空间。代码和数据集可访问：https://github.com/zjunlp/EasyEdit。
2024-09-09	Evidence from fMRI Supports a Two-Phase Abstraction Process in Language Models	Emily Cheng et.al.	2409.05771	null	研究已反复证明，从大型语言模型中提取的中间隐藏状态能够预测对自然语言刺激的测量大脑反应。然而，关于使这一高预测性能成为可能的表示特性的了解非常有限。为什么是中间层而不是输出层在这一独特且高度通用的转移任务中最为有效？在这项工作中，我们展示了功能性磁共振成像中的语言编码模型证据支持大型语言模型内存在两个阶段抽象过程的存在。我们使用流形学习方法表明，这种抽象过程自然地在语言模型训练过程中产生，并且随着训练继续进行，这个抽象过程的第一个“组合”阶段被压缩到更少的层中。最后，我们证明了层次编码性能与大型语言模型表示的内在维度之间存在强烈的对应关系。我们初步证据表明，这种对应关系主要来源于大型语言模型的内在组合性，而非其下一个单词预测属性。
2024-09-09	Model Input Verification of Large Scale Simulations	Rumyana Neykova et.al.	2409.05768	null	本文提出了一种用于验证模拟输入数据有效性的方法论，我们将其称为模型输入验证（MIV）。我们通过设计特定于模拟建模需求的数据模式和验证工具在名为FabGuard的工具集中实现了这一方法。本文引入了MIV模式的正式分类，并提供了一个集成到现有模拟工作流程中的简化验证管道。FabGuard在三个不同领域——冲突驱动的人口迁移、灾害疏散以及疾病传播模型——的应用得到了展示。我们还探讨了大型语言模型（LLMs）在自动化约束生成和推理方面的应用。在对一个移民模拟案例的研究中，LLMs不仅正确推断出了23个开发者定义的约束中的22个，而且还发现了现有约束中的错误，并提出了新的有效约束。我们的评估表明，对于大型数据集，MIV是可行的，FabGuard能够在140秒内高效处理12,000个输入文件，并且其性能在不同文件大小下保持一致。
2024-09-09	A Novel Idea Generation Tool using a Structured Conversational AI (CAI) System	B. Sankar et.al.	2409.05747	null	本文提出了一种新型的、基于对话的人工智能激活创新界面，作为创意生成工具，旨在帮助初学者设计者缓解通常存在的初始延迟和创新瓶颈问题。这是一个动态、互动且上下文响应式的解决方案，积极地利用人工智能领域自然语言处理（NLP）中的大型语言模型（LLM），以生成针对不同设计问题的多个潜在想法表述。将此类AI模型与创新过程结合，我们称之为“激活创新”情景，旨在促进基于对话的连续互动、上下文相关的对话以及大量的想法生成。为了验证这一工具的有效性，我们对30名初学者设计师进行了试点研究，让他们使用传统方法和新的基于CAI的界面来为给定问题生成想法。通过专家小组对结果进行的定性比较，我们采用了流畅度、新颖性和多样性作为关键参数。研究发现，所提出的工具能够有效地产生大量、多样且新颖的想法。为了提高界面的可用性，我们引入了结构化的对话模式，为每个创新阶段设计了提示工程化结构，使其更加统一和方便设计师操作。采用这种结构化的CAI界面后，得到的响应更加简洁，并且与随后的设计阶段，即概念化阶段，更加紧密相关。综上所述，本文证明了生成式人工智能（Gen-AI）在创意产品设计过程的早期、结构不明确阶段的应用潜力。
2024-09-09	LLMs Will Always Hallucinate, and We Need to Live With This	Sourav Banerjee et.al.	2409.05746	null	随着大型语言模型在各个领域的广泛应用，深入探讨它们内在局限性变得至关重要。本文提出，语言模型中的幻觉并非偶然错误，而是这些系统固有的特征。我们通过计算理论和哥德尔第一不完全性定理的引用（涉及Halting、Emptiness和Acceptance问题的不可判定性），展示了幻觉源于LLM的基本数学和逻辑结构。因此，通过架构改进、数据集增强或事实核查机制消除幻觉是不可能的。我们的分析表明，从训练数据编译到事实检索、意图分类和文本生成的每个阶段，都存在产生幻觉的非零概率。由此，我们引入了结构性幻觉的概念，作为这些系统的固有特性。通过建立幻觉的数学确定性，本文挑战了幻觉可以完全避免的传统观点。
2024-09-09	A System and Benchmark for LLM-based Q&A on Heterogeneous Data	Achille Fokoue et.al.	2409.05735	null	在许多工业环境中，用户希望以自然语言形式提出问题，并从结构化数据源（如电子表格、数据库、API或它们的组合）中获取答案。通常情况下，用户并不知道如何识别或访问正确的数据源。如果需要组装多个（甚至可能是隔离的）数据源来得出答案，这个问题会变得更加复杂。最近，一些依赖大型语言模型（LLMs）的文本到SQL应用已解决了一些这些问题，通过使用户能够用自然语言提出问题。然而，在现实的工业场景中，这些应用仍然不实用，因为它们无法应对典型环境中数据源的异质性。本文旨在通过引入siwarex平台解决异质性问题，该平台允许无缝地使用自然语言访问数据库和API。为了展示siwarex的有效性，我们扩展了流行的Spider数据集并进行基准测试，通过替换其中的一些表格为数据检索API。我们发现siwarex很好地应对了数据源异质性的问题。我们修改后的Spider基准很快将对研究社区开放。
2024-09-09	Towards Democratizing Multilingual Large Language Models For Medicine Through A Two-Stage Instruction Fine-tuning Approach	Meng Zhou et.al.	2409.05732	null	## 上文背景多语言开源医疗大型语言模型（LLMs）具有服务于不同地区语言多样性的潜力。将通用LLMs适应于医疗领域通常需要持续预训练，但这在计算上成本高昂且有时不可行。仅通过指令微调特定任务可能无法保证最佳性能，因为缺乏广泛领域知识使得模型难以在各种场景下理解和推理。为解决这些挑战，我们引入了两个多语言指令微调数据集：MMed-IFT和MMed-IFT-MC，这两个数据集分别包含了超过20万条高质量的多语种医疗样本，在六种语言中。我们提出了一种两阶段训练范式：第一阶段利用MMed-IFT注入通用医学知识，第二阶段则使用MMed-IFT-MC微调针对特定任务的多项选择题。我们的方法在英语和多语言基准测试中均取得了竞争力的结果，实现了高效性和性能之间的平衡。我们计划在未来将我们的数据集和模型权重公开在\url{https://github.com/SpassMed/Med-Llama3}。 ## 任务请将上述论文摘要翻译为中文，避免输出其他任何无关内容，并确保输出内容中不包含","字符。
2024-09-09	The Influence of Task and Group Disparities over Users' Attitudes Toward Using Large Language Models for Psychotherapy	Qihang He et.al.	2409.05703	null	近年来，心理健康障碍患者的数量持续增长，而大型语言模型（LLM）在不同领域的进步也使得基于LLM的心理治疗引起了越来越多的关注。然而，影响用户对基于LLM心理治疗工具态度的因素鲜有探讨。本文作为首次尝试，旨在研究任务差异和群体差异对用户对基于LLM心理治疗工具的态度的影响。通过运用技术接受模型（TAM）和自动化接受模型（AAM），结合在线问卷调查，我们收集并分析了来自中国大陆222名基于LLM心理治疗工具用户的反馈。研究结果表明，群体差异（即心理健康状况）可以影响用户对LLM工具的态度。进一步地，作为典型任务差异之一的隐私顾虑，并未发现对信任度和使用意图产生显著影响。这些发现可指导未来基于LLM心理治疗服务的设计工作。
2024-09-06	RLPF: Reinforcement Learning from Prediction Feedback for User Summarization with LLMs	Jiaxing Wu et.al.	2409.04421	null	本文引入了一种名为“基于预测反馈的强化学习（Reinforcement Learning from Prediction Feedback，RLPF）”的方法，旨在解决大型语言模型（Large Language Models，LLMs）在个人化系统中应用时面临的问题。具体而言，当LLMs从用户的过往活动预测行为时，它们的有效性往往取决于能否有效地利用大量、长篇的用户历史数据，而这些数据通常含有噪音且长度过长。现有预训练的LLMs可能生成的摘要虽短小精悍，但缺乏对下游任务至关重要的上下文信息，从而限制了其在个人化系统中的应用。为了克服这一挑战，RLPF方法通过微调LLMs来生成精炼、人类可读的用户概要，这些概要能够优化下游任务的表现。通过最大化生成概要的有用性，RLPF能够有效提取大量用户历史数据的关键信息，同时保持对下游任务至关重要的信息。实验结果表明，与基线方法相比，RLPF在下游任务性能上显著提升了22%，在事实性、抽象性和可读性等指标上的表现分别达到了84.59%的胜率，同时实现了74%的上下文长度减少，且在16个未见的任务和/或数据集上均有性能提升，这表明其具有良好的泛化能力。总之，RLPF提供了一种增强LLMs在个人化领域应用的有前景的解决方案，通过将长篇、噪音丰富的用户历史转化为信息丰富、易于理解的表示，从而提高LLMs的个人化能力。
2024-09-06	Question-Answering Dense Video Events	Hangyu Qin et.al.	2409.04388	null	在本文中，我们提出了一项新的任务——针对长视频中的密集事件进行问题回答与定位，这要求模型能够准确理解并推理持续时间较长的多个事件。为了支持这一研究，我们构建了一个名为DeVE-QA的数据集，其中包含关于10600个长视频中26000个事件的78000个问题。现有在单事件问答上表现出色的大型多模态语言模型（MLLMs）在面对DeVE-QA时遇到挑战，这表明它们在处理长时间段内发生的多个事件的理解和推理方面存在局限性。为此，我们提出了一种名为DeVi的新方法，这是一种无需训练即可提升MLLM性能的方法。DeVi通过引入三个关键模块来改进现有的MLLMs：层级描述模块、时间事件记忆模块和自我一致性检查模块。这三个模块分别用于检测、上下文化和记忆长视频中的密集事件，以及定位相关视频片段以进行问题回答。实验结果表明，与现有MLLMs相比，DeVi在回答密集事件问题和定位相关视频片段方面表现更优。具体而言，在DeVE-QA数据集上，DeVi的G(round)QA准确率提高了4.1%，在NExT-GQA数据集上的准确率提高了3.7%。
2024-09-06	Learning vs Retrieval: The Role of In-Context Examples in Regression with LLMs	Aliakbar Nafar et.al.	2409.04318	link	本文提出了一种评估生成大型语言模型（LLMs）内在学习机制的框架。我们声称，这些机制是通过检索内部知识和通过关注回归任务从上下文中的示例进行学习的组合。首先，我们展示了LLMs在真实世界数据集上执行回归的能力，并设计实验来衡量模型在多大程度上通过检索其内部知识而不是从上下文示例中学习来进行内在学习。我们认为这个过程位于这两个极端之间的连续体上。我们深入分析了根据各种因素（如任务的先验知识以及提供给上下文示例的信息类型和丰富度）这些机制被触发的程度。我们使用三种LLMs并利用多个数据集来验证我们的发现的稳健性。我们的结果揭示了如何根据所解决的问题利用上下文示例中的元学习和促进知识检索的方法。
2024-09-06	An optically accelerated extreme learning machine using hot atomic vapors	Pierre Azam et.al.	2409.04312	null	机器学习正逐渐成为一种广泛应用的技术，其增长速度令人印象深刻，原因在于它能够提供解决社会关注问题的实用解决方案的多样性。然而，随着应用和所需资源的增加，当前的硬件技术开始受限。特别是对于大型语言模型或高分辨率图像识别等新型机器学习领域，计算时间与能源成本成为了关键问题。在此背景下，多年来已经设计出了光学平台，旨在开发更高效的机器学习硬件。其中，自由空间传播平台具有多种优势：并行性、低能耗与计算速度。本文介绍了一种结合光束在热原子蒸气中传播的强烈且可调非线性特性的新设计，并与极端学习机模型相结合。通过数值模拟与实验验证，我们展示了在MNIST图像分类任务中使用此类自由空间非线性传播增强训练的效果。此外，我们指出了实验中的多个超参数，这些参数进一步优化后可以提高平台的准确性。
2024-09-06	Using Large Language Models to Generate Authentic Multi-agent Knowledge Work Datasets	Desiree Heim et.al.	2409.04286	null	当前公开的知识工作数据集在多样性、详尽注释以及用户和文档的上下文信息方面存在不足，这阻碍了对知识工作辅助系统进行客观和可比较的数据驱动评估与优化。由于在真实环境中收集此类数据所需的资源巨大，以及数据审查的必要性，因此构建这样的数据集几乎不可能实现。鉴于此，我们提出了一种可配置的多代理知识工作数据集生成器。该系统模拟了由生成大型语言模型的文档并相互协作的代理之间的知识工作，并记录了伴随的数据轨迹。此外，生成器在其配置中捕获或在模拟过程中创建的所有背景信息，并以知识图谱的形式存储。最后，产生的数据集可以用于利用和共享，而无需涉及隐私或机密问题。本文介绍了我们方法的设计愿景，并专注于使用大型语言模型生成真实的知识工作文档。我们的研究中，人类评估者评估了生成文档的53%和真实文档的74%，认为它们具有真实性，这表明了我们方法的潜力。此外，我们分析了参与者评论中提到的真实性标准，并对已识别的常见问题进行了详细说明，提出了改进措施。
2024-09-06	Advancing Automated Knowledge Transfer in Evolutionary Multitasking via Large Language Models	Yuxiao Huang et.al.	2409.04270	null	本文引入了一种基于大型语言模型（LLM）的优化范式，以建立一个自主模型工厂，用于生成适用于不同优化任务的知识转移模型。这一方法旨在通过自动化设计过程，实现高效且有效的知识转移。为了评估所提出方法的性能，我们进行了全面的实验研究，将生成的知识转移模型与现有的最佳知识转移方法进行了比较。结果表明，生成的模型在效率和有效性方面均表现出优于或与手工设计的知识转移模型相当的性能。
2024-09-06	GALLa: Graph Aligned Large Language Models for Improved Source Code Understanding	Ziyin Zhang et.al.	2409.04183	null	在本工作中，我们提出了GALLa - 图形对齐大型语言模型。GALLa 利用图神经网络和跨模态对齐技术，在微调过程中向LLM注入代码的结构信息作为辅助任务。这种框架既无模型依赖性也无任务依赖性，它可以应用于任何代码LLM用于任何代码下游任务，并仅在训练时从与微调数据无关的语料库中获取结构化图形数据，而在推理阶段无需额外成本。通过四种不同基线LLM（参数量从3.5亿到80亿不等）在五个代码任务上的实验验证了GALLa的有效性，即使对于强大的模型如LLaMA3，也证明了其一致性改进。
2024-09-06	Combining LLMs and Knowledge Graphs to Reduce Hallucinations in Question Answering	Larissa Pusch et.al.	2409.04181	null	自然语言处理领域的进步极大地改变了我们与数据库等信息系统的交互方式，使其变得更加便捷。然而，在关键准确性领域，如生物医学领域，仍存在挑战。其中一个重要问题是幻觉问题，即模型生成了数据支持之外的信息，这可能导致危险的错误信息。本文提出了一种新颖的方法，旨在通过结合大型语言模型（LLM）和知识图谱（KG）来改善问答系统的准确性和可靠性，以生物医学KG为例。该方法基于LangChain框架构建，通过引入查询检查器确保LLM生成的查询在语法和语义上的有效性，然后使用这些查询从知识图谱中提取信息，大幅减少了错误如幻觉的发生。我们使用了一个包含50个生物医学问题的新基准数据集对整体性能进行了评估，测试了包括GPT-4 Turbo和llama3:70b在内的几种LLM。结果显示，虽然GPT-4 Turbo在生成准确查询方面表现出色，但开源模型如llama3:70b在适当的问题提示工程下也显示出潜力。为了使这种方法易于访问，我们开发了一个用户友好的Web界面，允许用户输入自然语言查询，查看生成和修正的Cypher查询，并验证结果路径的准确性。总体而言，这种混合方法有效地解决了数据缺口和幻觉等常见问题，提供了一个可靠且直观的解决方案来改进问答系统。生成本文结果和用户界面所需源代码的Git仓库链接如下：https://git.zib.de/lpusch/cyphergenkg-gui
2024-09-06	From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks	Andreas Stephan et.al.	2409.04168	null	为了减少对人工标注的需求，提出了大型语言模型（LLM）作为候选模型质量的评判者。这些LLM评判者通常通过在摘要或机器翻译等生成任务上与人类判断的相关性来评估。相比之下，我们研究了在数学推理任务上的LLM评判者。这类任务需要多步推理，其解答的正确性可以验证，从而提供了一种更客观的评估方式。我们进行了详细的表现分析，并发现使用的评判者大多无法提高任务性能，但能够选择更好的模型。我们的分析揭示了评判表现与候选模型任务表现之间的强相关性。观察到评判者倾向于选择更高质量的模型，即使其答案是错误的。进一步地，我们展示了可以通过统计措施，如候选模型的任务性能，来预测评判表现。在消融实验中，我们交换或屏蔽候选答案，并观察到评判者经常保持原始判断，这提供了证据表明评判者在判断中融入了写作风格。总之，我们发现使用统计指标量化判断中的规律性，并提供了利用它们的各种角度。
2024-09-06	Can OpenSource beat ChatGPT? -- A Comparative Study of Large Language Models for Text-to-Code Generation	Luis Mayer et.al.	2409.04164	null	近年来，大型语言模型（LLMs）作为一种强大的工具，在多个领域展现出潜力，包括软件工程。在本研究中，我们评估了五款最先进的LLM——Bard、BingChat、ChatGPT、Llama2和Code Llama——在文本到代码生成任务上的能力。我们通过向模型提供来自编程网站LeetCode的编码问题描述文本提示，要求它们用Python编写解决方案。随后，我们使用LeetCode的测试功能来评估生成输出的质量。研究结果表明，这些模型在性能上存在显著差异。ChatGPT在处理这类编程挑战方面表现最为有效，甚至超过了专门针对代码的模型，如Code Llama。为了进一步了解情况，我们测量了生成代码的运行时间和内存使用情况，并将其与LeetCode上的其他代码提交进行了比较。详细错误分析包括比较生成代码中的正确缩进和形式差异，以及将未解决的任务归类到特定错误类别，有助于我们更深入地理解结果并找到改进空间。研究结果还显示，当模型面临大量上下文信息时，即较长提示时，生成的代码越来越不准确。
2024-09-05	Attention Heads of Large Language Models: A Survey	Zifan Zheng et.al.	2409.03752	link	自ChatGPT问世以来，大型语言模型在各种任务上表现出色，但它们仍然作为黑盒系统存在。因此，其发展主要依赖于数据驱动的方法，限制了通过改变内部架构和推理路径来提升性能的可能性。许多研究者开始探索大型语言模型的内部机制，旨在识别推理瓶颈的本质，大多数研究集中在注意力头部上。我们的综述旨在通过聚焦于大型语言模型的可解释性和注意力头部的内在机制，揭示其内部推理过程。首先，我们将人类思考过程提炼为四个阶段框架：知识回忆、情境内识别、潜在推理和表达准备。利用这一框架，我们系统地回顾现有研究，识别并分类特定注意力头部的功能。此外，我们总结了发现这些特殊头部所使用的实验方法，分为无模型方法和有模型方法两大类。我们也概述了相关评估方法和基准。最后，我们讨论当前研究的局限性，并提出几个潜在的发展方向。我们的参考文献列表开源于https://github.com/IAAR-Shanghai/Awesome-Attention-Heads。
2024-09-05	LLM-CI: Assessing Contextual Integrity Norms in Language Models	Yan Shvartzshnaider et.al.	2409.03735	null	大型语言模型（LLM）在从互联网上收集的数据中记忆部分训练数据的同时，也可能无意中编码了社会偏好和规范。随着这些模型被整合到社会技术系统中，确保它们编码的规范符合社会期望至关重要。这些规范可能因模型、超参数、优化技术以及数据集的不同而不同。由于提示敏感性的问题——微小的提示变化会导致不同的响应，现有的评估方法变得不可靠。需要一个全面的框架来涵盖各种模型、优化和数据集，并提供可靠的方法来评估编码的规范。我们提出了LLM-CI，这是第一个用于评估LLM中编码隐私规范的开源框架。LLM-CI使用基于上下文完整性因素的情境叙述方法来评估不同上下文中和不同LLM中的编码规范。我们提出了一种多提示评估方法来解决提示敏感性问题，通过仅从导致多个变体一致响应的提示中评估规范，以全面评估使用先前工作中的IoT和COPPA情景数据集的LLM。通过使用LLM-CI和我们提出的这种方法，我们全面地评估了LLM，研究了模型属性（如超参数、容量）和优化策略（如对齐、量化）的影响。
2024-09-05	Safety vs. Performance: How Multi-Objective Learning Reduces Barriers to Market Entry	Meena Jagadeesan et.al.	2409.03734	null	本文从经济和算法两个角度研究大型语言模型等大规模机器学习（ML）模型市场中的集中问题，以及是否存在进入此类市场的不可克服障碍。我们通过正式定义一个多目标高维回归框架来探讨降低进入壁垒的问题，该框架捕捉到了声誉损害的特征，并分析了新公司进入市场所需的样本数量。我们的结果表明，多目标考虑能够从根本上降低进入壁垒——所需样本数量可能远小于现有公司的数据集大小。在证明这些结果的过程中，我们还发展了多目标环境中高维线性回归的缩放定律，展示了当数据集规模较大时，缩放率会变得较慢，这一发现可能具有独立的研究价值。
2024-09-05	Planning In Natural Language Improves LLM Search For Code Generation	Evan Wang et.al.	2409.03733	null	在大规模提升训练计算能力的同时，推理计算的规模扩展并未带来类似的进步。我们假设，这一领域缺乏关键性的突破在于生成模型的输出多样性不足，导致搜索效率低下，因为模型不断产生高度相似但错误的结果。通过实证研究，我们发现提高输出多样性可以有效缓解这一问题。基于这一发现，我们提出了一种名为PLANSEARCH的新颖搜索算法，它在人类评价、MBPP+和LiveCodeBench（一个用于竞争性编程的无污染基准）等任务上表现出色。该算法通过生成关于问题的多样观察，并利用这些观察构建解决策略，来探索比传统方法更广泛的潜在解决方案空间。在使用PLANSEARCH结合Claude 3.5 Sonnet进行优化后，我们实现了LiveCodeBench上77.0%的通过率（pass@200），这不仅超越了不使用搜索方法（pass@1=41.4%）的结果，也优于仅依赖重复采样的方法（pass@200=60.6%）。此外，我们还展示了能够准确预测搜索带来的性能提升，其关键因素是生成想法的多样性。
2024-09-06	RAG based Question-Answering for Contextual Response Prediction System	Sriram Veturi et.al.	2409.03708	null	本文介绍了一种端到端的框架，利用大型语言模型（LLMs）的检索增强生成（RAG）能力，针对实际工业应用中的问题回答场景。给定客户查询，该系统会检索相关知识文档，并结合之前的聊天历史，为零售公司的客服中心提供客户服务代表生成响应建议。通过全面的自动化和人工评估，结果显示，这种解决方案在准确性和相关性上优于当前基于BERT的算法。我们的研究结果表明，基于RAG的LLMs可以作为人类客户服务代表的优秀辅助工具，减轻他们的工作负担。
2024-09-05	TRACE-cs: Trustworthy Reasoning for Contrastive Explanations in Course Scheduling Problems	Stylianos Loukas Vasileiou et.al.	2409.03671	null	我们提出了一种名为TRACE-cs的新型混合系统，它结合了符号推理与大型语言模型（LLM），以解决排程问题中的对比查询。TRACE-cs利用SAT求解技术编码排程约束，并生成用户查询的解释，同时通过大型语言模型将用户的查询转换为逻辑条目，并细化符号求解器生成的解释为自然语言句子。通过整合这些组件，我们的方法展示了将符号方法与LLM相结合，创建具有正确性保证的可解释AI代理的潜力。
2024-09-05	A Fused Large Language Model for Predicting Startup Success	Abdurahman Maarouf et.al.	2409.03668	null	为了帮助投资者做出有效的决策并持续寻找盈利的创业投资机会，需要预测初创公司的成功率。如今，投资者不仅可以利用有关初创公司的各种基本面信息（如公司的成立时间、创始人数量以及所处行业），还可以通过在线风险投资（VC）平台获取关于公司创新和业务模式的文本描述信息，例如Crunchbase。为了支持投资者的决策，我们开发了一种机器学习方法，旨在在VC平台上定位成功的初创公司。具体而言，我们开发、训练并评估了一个专门的融合大型语言模型，用于预测初创公司的成功率。我们的工作旨在评估VC平台上公司的自我描述在多大程度上能够预测其成功性。使用来自Crunchbase的20,172个在线资料档案，我们发现我们的融合大型语言模型可以预测初创公司的成功率，其中文本自我描述对预测能力贡献了显著部分。我们的工作提供了一个决策支持工具，帮助投资者找到盈利的投资机会。
2024-09-05	The representation landscape of few-shot learning and fine-tuning in large language models	Diego Doimo et.al.	2409.03662	link	本文探讨了在特定任务上改进现代大型语言模型（LLM）性能的两种常见策略：上下文学习（ICL）和监督微调（SFT）。尽管这两种方法的本质不同，但它们往往能产生相似的性能提升。然而，我们对它们是否在LLM内部诱导出相似的表示结构知之甚少。我们通过分析这两种情况下隐藏表示的概率景观来解决这个问题。具体来说，我们在相同的问答任务上比较了LLM的表现，发现ICL和SFT产生了非常不同的内部结构，两者都在网络的中间部分经历了一个明显的转变。在模型的前半部分，ICL塑造了分层组织的可解释表示，按照其语义内容进行排序。相比之下，SFT得到的概率景观更加模糊且语义混杂。在网络的后半部分，微调后的表示发展出了更有利于编码答案身份的概率模式，而ICL表示的概率峰则不太明确。我们的方法揭示了LLM在不同条件下解决相同任务时所采用的多样化计算策略，这有助于我们朝着设计出从语言模型中提取信息的最佳方法迈进。
2024-09-06	LLM-based multi-agent poetry generation in non-cooperative environments	Ran Zhang et.al.	2409.03659	link	尽管大型语言模型（LLM）在自动诗歌生成领域取得了显著进展，但生成的诗歌在多样性方面存在不足，且训练过程与人类学习方式大相径庭。基于这样的考虑，我们提出了一种基于社会学习的框架，在此框架下，我们强调非合作互动，以鼓励多样性，同时除了合作互动外还强调非合作互动。我们的实验是首次尝试在非合作环境中使用基于训练的多智能体系统（GPT-2）和基于提示的系统（GPT-3 和 GPT-4）进行诗歌生成。根据对生成的96,000首诗歌的评估，我们的框架对基于训练的智能体的诗歌生成过程产生了积极影响，导致以下结果：1）多样性增加了3.0-3.7个百分点（pp），新颖性增加了5.6-11.3个百分点，根据独特和新颖的n-grams评估。生成的诗歌在词汇、风格和语义方面也表现出群体差异。基于提示的智能体在我们的框架中也从非合作环境中获益，具有非同质智能体的多样化的模型组合有可能进一步提高多样性，实验结果显示多样性增加了7.0-17.5个百分点。然而，基于提示的智能体显示了随着时间推移词汇多样性的下降，并没有展现出旨在在社交网络中实现的群体间分化。本文认为，在诸如自动诗歌生成等创意任务中，需要进行范式转变，引入类似于人类交互的社会学习过程（通过基于LLM的智能体建模），以促进更加多样性和创新的生成。
2024-09-05	From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents	Jifan Yu et.al.	2409.03512	null	自最早的在线教育实例出现，课程被上传至可访问并共享的在线平台以来，这种扩大知识传播范围、触及更广泛受众的形式引发了广泛讨论和普遍采纳。认识到个性化学习仍存在改进空间，人工智能技术不断融入这一学习模式，由此产生了多种教育AI应用，如教育推荐和智能辅导。大型语言模型（LLMs）智能的涌现，使得这些教育增强功能得以基于统一的基础模型构建，实现更深层面的整合。在此背景下，我们提出MAIC（大规模AI赋能课程），这是一种新的在线教育形式，利用LLM驱动的多代理系统构建AI辅助课堂，平衡了规模性和适应性。除了探索概念框架和技术创新外，我们在清华大学——中国顶尖大学之一——进行了初步实验。通过超过10万条学习记录和500多名学生的数据，我们获得了宝贵观察和初步分析。这个项目将持续发展，最终目标是建立一个全面开放的平台，支持和统一研究、技术和应用，在大模型AI时代探索在线教育的可能性。我们设想这个平台是一个合作枢纽，汇集教育者、研究人员和创新者共同探索AI驱动在线教育的未来。
2024-09-04	RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins (early version)	Yao Mu et.al.	2409.02920	null	本篇论文介绍了一种名为RoboTwin的新型基准数据集，它结合了现实世界中的遥控数据与通过数字孪生生成的合成数据。RoboTwin旨在为双臂机器人场景提供支持，特别关注工具使用能力和人机交互能力。我们利用COBOT Magic平台收集了丰富的数据，涵盖工具操作和人机互动的多样性。论文提出了一种创新的方法来创建数字孪生体，利用AI生成的内容将二维图像转换为详细的三维模型。同时，我们借助大型语言模型生成专家级训练数据和面向功能性的任务特定姿态序列。我们的主要贡献包括： 1. RoboTwin基准数据集， 2. 高效的现实到模拟管道，以及 3. 利用语言模型进行自动专家级数据生成。这些进展旨在解决机器人训练数据稀缺的问题，有望加速开发更多功能强大、适应性广泛的机器人系统，应用于广泛的现实世界场景。项目页面可访问：https://robotwin-benchmark.github.io/early-version/
2024-09-05	LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA	Jiajie Zhang et.al.	2409.02897	link	尽管当前的长文本大语言模型在基于大量文本回答用户问题方面表现出令人印象深刻的性能，但它们缺乏引用使得用户难以验证答案的准确性，从而引发了对其可靠性的担忧，因为它们可能产生错误的信息。我们的工作旨在使这些长文本大语言模型能够生成包含精细句级引用的响应，以提高它们的忠实度和可验证性。我们首先引入了LongBench-Cite，一个自动评估当前大语言模型在长文本上下文问题回答中的表现的基准，揭示了在句级引用方面存在巨大的改进空间。为了实现这一目标，我们提出了CoF（粗到细）这一新颖的管道，利用现成的大语言模型自动生成包含精确句级引用的长文本问答实例，并以此管道构建了LongCite-45k，一个用于句级引用问题的大型自监督训练数据集。最后，我们使用LongCite-45k数据集训练了LongCite-8B和LongCite-9B模型，成功地使它们能够在单个输出中生成准确的响应和精细的句级引用。在LongBench-Cite上的评估结果显示，我们的训练模型在引用质量方面达到了最先进的水平，超越了包括GPT-4在内的高级专有模型。
2024-09-04	LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture	Xidong Wang et.al.	2409.02889	link	扩展多模态大语言模型（MLLMs）的长期上下文能力对于视频理解、高分辨率图像理解和多模态代理至关重要。这涉及到一系列系统优化，包括模型架构、数据构造和训练策略，尤其是解决随着更多图像引入而出现的性能下降以及高昂计算成本等问题。本文通过将模型架构调整为Mamba和Transformer块的混合体、采用既能考虑多个图像间时间依赖性又能考虑空间依赖性的数据构造方法，并实施渐进式训练策略，对这些挑战进行了应对。发布的模型“LongLLaVA”（长期语言与视觉助手）是首个混合型MLLM，实现了效率与效果之间的良好平衡。LongLLaVA不仅在各种基准测试中取得了竞争力的结果，而且保持了高吞吐量和低内存消耗的特点。特别地，它能够在单个A100 80GB GPU上处理近一千张图片，展示了广泛任务应用前景的潜力。
2024-09-04	Historical German Text Normalization Using Type- and Token-Based Language Modeling	Anton Ehrmanntraut et.al.	2409.02841	null	本文提出了一种针对1700年至1900年德国文学文本的正词法规范化系统，该系统基于平行语料库训练。所提出的系统利用机器学习方法和Transformer语言模型，结合编码器-解码器模型对单个词汇类型进行规范化，并通过预训练的因果语言模型在上下文中调整这些规范化结果。广泛评估表明，该提出的系统提供了最先进的准确性，与完全端到端的句子级规范化系统相当，该系统是通过对预训练的Transformer大型语言模型进行微调而实现的。然而，由于模型难以泛化以及缺乏大量高质量平行数据，历史文本的规范化仍是一个挑战。
2024-09-04	Exploring Sentiment Dynamics and Predictive Behaviors in Cryptocurrency Discussions by Few-Shot Learning with Large Language Models	Moein Shahiki Tash et.al.	2409.02836	null	本文通过运用高级自然语言处理技术，对加密货币相关讨论中的预测陈述、希望演讲及悔恨检测行为进行分析。我们提出了一种新的分类方法——“预测陈述”，将其细分为预测增加、预测减少、预测中立或非预测类别。利用GPT-4o这一前沿大规模语言模型，我们在五大主流加密货币（Cardano、Binance、Matic、Fantom、Ripple）的讨论中探索了情绪动态。研究发现，Matic在乐观预测方面显示出特别高的倾向性。此外，我们还探讨了希望与悔恨情绪之间的相互作用，揭示了这些情感与预测行为之间复杂的互动模式。尽管面临数据量和资源可用性方面的限制，我们的研究仍揭示了加密货币市场投资者行为和情绪趋势的重要发现，为战略决策和未来研究提供了信息。
2024-09-04	CMM-Math: A Chinese Multimodal Math Dataset To Evaluate and Enhance the Mathematics Reasoning of Large Multimodal Models	Wentao Liu et.al.	2409.02834	null	本文发布了一个名为CMM-Math的中文多模态数学数据集，包含基准和训练部分，旨在评估和增强大型多模态模型（LMM）在数学推理方面的表现。CMM-Math包含了超过28,000个高质量样本，涵盖了从小学到高中的中国12个年级的多种问题类型（例如选择题、填空题等），并提供了详细的解决方案。特别地，问题或观点中可能包含视觉上下文，使得这个数据集更具挑战性。通过全面分析，我们发现当前最先进的LMM在CMM-Math数据集上面临挑战，这强调了在LMM开发方面进一步改进的必要性。为此，我们提出了一种名为Multimodal Mathematical LMM（Math-LMM）的模型来处理混合输入的多个图像和文本段落的问题。我们采用三个阶段进行模型训练：基础预训练、基础微调和数学微调。广泛的实验表明，我们的模型在与三个多模态数学数据集上的SOTA LMM进行比较时，有效地提高了数学推理性能。
2024-09-04	ExpLLM: Towards Chain of Thought for Facial Expression Recognition	Xing Lan et.al.	2409.02828	null	面部表情识别（FER）在多媒体领域至关重要，对各种应用具有重大影响。然而，理解面部表情的原因对于准确识别表情至关重要。目前的方法，如基于面部动作单位（AUs）的方法，通常提供AU名称和强度，但缺乏关于AU之间的互动以及整体表情之间关系的洞察。本文提出了一种名为ExpLLM的新方法，利用大型语言模型生成面部表情识别的准确思维链（CoT）。我们从三个关键视角设计了CoT机制：关键观察、总体情感解释和结论。关键观察描述了AU的名称、强度及其相关情感。总体情感解释基于多个AU及其互动进行分析，确定主导情感及其关系。最后，结论基于前一分析得出最终的表情标签。此外，我们还引入了Exp-CoT引擎，用于构建此表情CoT并生成指令描述数据以训练我们的ExpLLM。在RAF-DB和AffectNet数据集上的大量实验表明，ExpLLM优于当前最先进的面部表情识别方法。在微表情识别方面，ExpLLM也超越了最新的GPT-4o，尤其是在GPT-4o经常失败的情况下。
2024-09-04	Design Contradictions: Help or Hindrance?	Aron E. Owen et.al.	2409.02823	null	在数据可视化领域，创新思维的迫切需求促使我们探索新的创意方法。通过组合两个或更多具有对立性质的创造性词汇，能够激发新型想法与设计，对创意过程产生积极影响。随着人工智能驱动设计的发展，一个关键问题浮出水面：这些设计矛盾是否能与AI工具协同工作？目前答案是否定的。AI系统，尤其是大型语言模型（LLMs），依赖于产生相似性的算法，而创造力往往需要差异性和新颖性。这份海报开启了关于如何引导AI系统变得更具创造性和生成新想法的对话。这项研究邀请我们重新考虑传统设计方法，并探索AI驱动世界中的新方法。我们能否应用传统的设计方法，如双钻石模型，或者是否需要新的设计工程方法？如何利用生成式AI快速设计可视化并构思新想法？这篇论文旨在开启这一重要对话，并提供有关AI在推动数据可视化创意方面的潜力的实用见解。
2024-09-04	Language Understanding as a Constraint on Consensus Size in LLM Societies	Giordano De Marzo et.al.	2409.02822	null	在大型语言模型（LLM）的应用朝着协作任务发展的情况下，多个代理相互作用，如同一个LLM社会。在这种背景下，大量的LLM能够通过自我组织方式达成关于任意规范的共识，这些规范在信息支持某一选项优于另一选项的情况下不存在。为了理解LLM是否与人类社会一样，在没有机构的情况下能够达到共识，我们应用了复杂科学的方法和行为科学的原则，开创了一种AI人类学的新方法。研究发现，LLM能够在群体中达成共识，并且LLM的意见动态可以用一个由多数力量系数参数化的函数来理解，该系数决定了共识是否可能。对于具有更高语言理解能力的模型而言，这种多数力量更强，而对于较大的群体而言则会减弱，导致存在一个临界群体大小，超过这个大小，对于给定的LLM，达成共识变得不可能。这一临界群体大小随着模型的语言理解能力的增长呈指数级增长，对于最先进的模型而言，其可以达到远超非正式人类群体典型规模的数量级。
2024-09-04	Towards a Unified View of Preference Learning for Large Language Models: A Survey	Bofei Gao et.al.	2409.02795	link	大型语言模型（LLM）展现了惊人的能力。实现成功的关键因素之一是使LLM的输出与人类偏好保持一致。这一过程通常需要少量数据就能高效提升LLM的表现。尽管有效，但在这一领域的研究覆盖了多个领域，相关方法相对复杂难以理解。不同方法之间的关系尚未得到充分探索，限制了偏好调整策略的发展。鉴于此，我们分解了现有流行调整策略的四个组成部分，并提供了一个统一框架来研究当前的调整策略，以此建立它们之间的联系。在本文综述中，我们将所有偏好学习策略分解为四个部分：模型、数据、反馈和算法。这种统一视角为现有调整算法提供了深入理解，并且也开启了整合不同策略优势的可能性。此外，我们详细介绍了现有主流算法的工作示例，以帮助读者全面了解。最后，基于我们的统一视角，我们探讨了调整大型语言模型与人类偏好之间的挑战以及未来研究方向。
2024-08-30	SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists	Raoyuan Zhao et.al.	2408.17437	link	在自然语言处理（NLP）领域，传统的基准测试通常使用静态预留测试集。然而，这种方法往往会导致性能过估计，并缺乏提供全面、可解释和动态评估NLP模型的能力。近期，如DynaBench（Kiela等，2021年）和CheckList（Ribeiro等，2020年）等作品通过多步骤人工注释管道生成测试类型来解决这些问题，以对NLP模型进行行为测试。不幸的是，手动创建各种测试类型需要大量的人力劳动，成本高昂。本研究提出了一种名为SYNTHEVAL的混合行为测试框架，利用大型语言模型（LLMs）生成大量测试类型，为NLP模型进行全面评估。SYNTHEVAL首先通过LLMs进行受控生成生成句子，然后通过比较LLMs与特定任务的NLP模型的预测结果来识别挑战性示例。最后阶段，由人类专家调查这些挑战性示例，手动设计模板，并确定特定任务模型一致表现的失败类型。我们将SYNTHEVAL应用于情感分析和有毒语言检测两个分类任务上，并展示了我们的框架在识别这些任务中强大模型的弱点方面的有效性。我们分享了代码于https://github.com/Loreley99/SynthEval_CheckList。
2024-08-30	Advancing Multi-talker ASR Performance with Large Language Models	Mohan Shi et.al.	2408.17431	null	在自动语音识别（ASR）领域，识别对话场景中的重叠语音是极具挑战性的问题。传统的处理方法通过序列输出训练（SOT），即将多个说话者的声音排放时间按照其发言顺序进行拼接，来解决多说话者ASR问题。然而，这种从对话中拼接相关话语的转录依赖于构建长上下文的能力。相比之下，基于大型语言模型（LLM）的新方法可能更适合处理这类复杂且具有挑战性的场景，因为它利用了预训练解码器的强大能力。本文提出了一种基于LLM的SOT方法用于多说话者ASR，该方法利用预训练的语音编码器和LLM，并通过适当的策略对多说话者数据集进行微调。实验结果表明，我们的方法在模拟数据集LibriMix上优于传统的方法，并在真实世界数据集AMI的评估集上达到了最先进的性能，显著超越了之前使用1000倍更多监督数据训练的AED模型。
2024-08-30	Getting Inspiration for Feature Elicitation: App Store- vs. LLM-based Approach	Jialiang Wei et.al.	2408.17404	null	在过去十年中，借鉴应用商店（AppStore）的规范获取方法被证明非常有益。开发者经常研究竞争对手的应用程序以收集新功能的灵感。随着生成式人工智能的进步，最近的研究表明大型语言模型（LLM）启发的规范获取具有潜力。LLMs可以在这一过程中提供新功能想法的灵感。尽管这两种方法在实践中越来越受欢迎，但它们之间的差异缺乏深入理解。我们进行了一项比较研究，对比了应用商店和LLM启发的方法在细化功能为子功能时的表现。通过手动分析从两种方法推荐的1200个子功能，我们识别出了它们的优点、挑战以及关键差异。尽管两种方法都推荐了高度相关且描述清晰的子功能，但LLMs在特别涉及未见应用范围的新颖性方面似乎更为强大。此外，一些推荐的功能是虚构的，其可行性不明确，这强调了人类分析师在获取过程中的重要性。
2024-08-30	NDP: Next Distribution Prediction as a More Broad Target	Junhao Ruan et.al.	2408.17377	null	大型语言模型（LLM）通过下一个词预测（NTP）范式进行训练，展示了强大的能力。然而，现有的NTP范式存在几个限制，特别是在计划任务复杂性和推理阶段的错误传播方面。我们的工作扩展了对NTP的批评，指出其限制还源于训练目标狭窄：预测一个次优的一热分布。为了支持这一批评，我们进行了一项预实验，将强大的LLM的输出分布视为高效的世界数据压缩。通过评估n-gram分布与LLM输出分布之间的相似性，我们发现n-gram分布与LLM输出分布更为一致。基于这一洞察，我们引入了下一个分布预测（NDP），使用n-gram分布来替换一热目标，从而增强学习过程而无需额外的在线训练时间。我们在翻译、通用任务、语言迁移和医疗领域适应等四个领域进行了实验。与NTP相比，NDP在翻译任务上可达到+2.97 COMET改进，在通用任务上平均改善+0.61，在医疗领域上平均改善+10.75。这表明解决目标狭窄问题的具体益处，并指出了未来改进NTP的一个新方向。
2024-08-30	Assessing Generative Language Models in Classification Tasks: Performance and Self-Evaluation Capabilities in the Environmental and Climate Change Domain	Francesca Grasso et.al.	2408.17362	link	本文探讨了两种大型语言模型（LLMs）GPT3.5和Llama2以及一种小型语言模型（SLM）Gemma在气候变化（CC）和环境领域内的三种不同分类任务中的性能。通过使用基于BERT的模型作为基准，我们将这些转换器基模型与它们进行比较。此外，我们还评估了模型的自我评估能力，通过分析这些文本分类任务中的口头信心分数的校准情况。我们的发现表明，尽管基于BERT的模型通常在所有模型中表现最佳，但大生成模型的性能仍然值得注意。进一步地，我们的校准分析显示，Gemma在初期任务中表现出良好的校准性，随后产生不一致的结果；Llama具有合理的校准性，而GPT始终表现出强大的校准性。通过这项研究，我们旨在为讨论大型生成型LM在解决地球最紧迫问题方面的适用性和有效性做出贡献，特别是在生态学和CC背景下突出其优势和限制。
2024-08-30	Forget to Flourish: Leveraging Machine-Unlearning on Pretrained Language Models for Privacy Leakage	Md Rafi Ur Rashid et.al.	2408.17354	null	针对私有数据进行下游应用的大型语言模型微调存在重大隐私风险，可能泄露敏感信息。当前社区平台提供了方便的大规模预训练模型分发，任何人都可以发布而无需严格的验证。这种情境下，隐私威胁显著增加，因为预训练模型可能被故意篡改以在微调过程中泄露私人数据。本研究引入了一种新颖的中毒技术，使用模型卸载作为攻击工具。这种方法通过调整预训练语言模型来提高微调过程中的私人数据泄露程度。我们的方法在保持模型实用性的同时，增强了成员归属性和数据提取攻击的效果。实验结果在不同模型、数据集和微调设置下显示，我们的攻击显著超越了基准性能。这项工作向下载未经过严格验证来源预训练模型的用户发出了警告，突显了潜在的风险。
2024-08-30	Bridging Domain Knowledge and Process Discovery Using Large Language Models	Ali Norouzifar et.al.	2408.17316	link	发现优质流程模型对于执行不同的流程分析任务至关重要，如一致性检查和流程改进。自动化流程发现方法往往忽视了有价值的专业领域知识。这些知识，包括来自专业领域专家的见解和详细流程文档，通常在流程发现过程中未得到充分利用。本文通过利用大型语言模型（LLMs）直接将此类知识整合到流程发现中来解决这一问题。我们使用从LLMs中提取的规则来指导模型构建过程，确保其与领域知识和实际流程执行保持一致。通过整合LLMs，我们建立了一座连接以自然语言表达的流程知识与发现稳健流程模型之间的桥梁，显著推进了流程发现方法论。为了展示我们框架的实用性，我们进行了一个案例研究，对象是UWV员工保险公司，这证明了其实际优势和有效性。
2024-08-30	Flexible and Effective Mixing of Large Language Models into a Mixture of Domain Experts	Rhui Dih Lee et.al.	2408.17280	null	我们提出了一种工具包，用于从已训练的模型创建低成本的领域专家混合（MOE）。该工具包可以用于从模型或适配器创建混合。我们进行了广泛的测试，并提供了关于使用工具包定义结果MOE架构的指导。公开了一个可用的存储库。
2024-08-30	Joint Estimation and Prediction of City-wide Delivery Demand: A Large Language Model Empowered Graph-based Learning Approach	Tong Nie et.al.	2408.17258	null	电子商务和城市化的蓬勃发展，极大地增强了城市区域的配送活动，导致了需求量的增加与复杂性的提升。为了应对这些挑战，数据驱动的预测方法，特别是基于机器学习的技术，开始在城市配送需求管理问题中发挥关键作用。然而，一个尚未得到充分研究的问题是全城范围内的配送需求联合估计与预测。针对这一问题，我们将其建模为一个基于图的时空学习任务。首先，我们定义了一个消息传递神经网络模型来捕捉相关区域之间需求模式的交互。其次，通过利用大型语言模型的最新进展，我们从未结构化的地理位置数据中提取通用的地理空间知识编码，并将其整合到需求预测器中。最后，为了促进模型在不同城市的迁移能力，我们设计了一种端到端的归纳训练方案。我们在两个真实的配送数据集上进行了广泛的实验验证，包括中国的八个城市和美国的城市，结果表明我们的模型在这些具有挑战性的任务中显著优于现有的基准方法。
2024-08-30	VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters	Mouxiang Chen et.al.	2408.17253	link	本文探讨了从丰富且高质量的自然图像出发构建时间序列预测（TSF）基础模型的新路径。现有的方法要么通过微调大型语言模型（LLM），要么建立大规模时间序列数据集来开发TSF基础模型，但这些方法面临跨域差距或领域内异质性的严峻挑战。我们基于图像与时间序列之间内在相似性，探索了一种新的TSF任务表示，将其重新表述为图像重建任务，并利用在ImageNet数据集上进行自我监督预训练的视觉掩码自动编码器（MAE）进行处理。令人惊讶的是，在无需进一步在时间序列领域进行适应的情况下，所提出的VisionTS就能实现优于现有TSF基础模型的零样本预测性能。通过最小程度的微调，VisionTS能够进一步提升预测性能，并在大多数情况下达到最先进的水平。这些发现表明，视觉模型可能为TSF提供免费午餐，并强调了计算机视觉与TSF领域未来交叉研究的潜力。我们的代码已公开在https://github.com/Keytoyze/VisionTS上。
2024-08-29	How Far Can Cantonese NLP Go? Benchmarking Cantonese Capabilities of Large Language Models	Jiyue Jiang et.al.	2408.16756	null	快速发展的大型语言模型（LLMs）已经改变了自然语言处理（NLP）的竞赛环境，特别是在英语和其他数据丰富的语言中。然而，在诸如粤语这样的代表性不足的语言领域，开发差距仍然显著存在，这尤其令人担忧，考虑到广深港澳大湾区的经济重要性，以及在新加坡和北美地区大量粤语使用者的情况。尽管粤语广泛使用，但在NLP研究中对粤语的代表却少之又少，尤其是与其他同样发达地区的语言相比。为了填补这些空白，我们概述了当前的粤语NLP方法，并引入了旨在评估LLM在事实生成、数学逻辑、复杂推理和粤语中的通用知识等方面的性能的新基准，旨在推动开源粤语LLM技术的发展。我们也提出了未来的研究方向和推荐的模型，以增强粤语LLM的开发。
2024-08-29	Reinforcement Learning without Human Feedback for Last Mile Fine-Tuning of Large Language Models	Alec Solway et.al.	2408.16753	null	强化学习在预训练模型后，通过最大化似然性来预测大型文本语料库中的下一个文本令牌，用于将语言模型与人类偏好信号对齐。在部署到特定领域之前，通常会对模型进行进一步的微调以适应任务相关的数据。由于人类偏好信号在最后阶段往往不可用，因此通常使用最大化似然性进行微调，这是默认方法。然而，强化学习除了能够促进与人类定义奖励函数的对齐之外，还有其他优势。相比于最大化似然性，即模仿学习模型在理想条件下应执行的操作，强化学习不限于仅展示达到最优状态时的操作，而是在探索策略空间的过程中训练模型在各种情况下的操作。此外，它还训练模型避免执行竞争但效果不佳的操作。本文开发了一种使用强化学习进行最后一阶段微调的框架，并测试了该方法是否能带来性能提升。实验集中在抽象概括上，但框架具有普遍适用性。采用该流程产生的结果显著优于仅使用最大似然性输出的结果。对于特定的数据集，通过后处理最大似然输出可以缩小性能差距。然而，该框架提供了一种优化模型的新途径，在后处理可能不那么直接有效或有效的场景中尤为有用，并且它可以扩展以包括更多类别的需要惩罚并训练反对的不适当输出，如幻觉。
2024-08-29	Assessing Large Language Models for Online Extremism Research: Identification, Explanation, and New Knowledge	Beidi Dong et.al.	2408.16749	null	本文探讨了在检测和限制网络上极端主义思想传播方面，自动工具的重要性。研究比较了双向编码表示的Transformer（BERT）和生成预训练Transformer（GPT）模型，在“右翼”和“左翼”意识形态关键词的社交媒体帖子中进行检测与分类的能力。我们收集了含有上述关键词的帖子，并人工标记为极端主义或非极端主义。进一步地，我们将极端主义帖子分为五个构成要素之一，基于工作定义框架。 BERT模型的性能评估基于训练数据规模和类别间的知识转移。此外，我们对比了使用不同提示的GPT 3.5和GPT 4模型的性能：原始提示、一般定义、角色扮演和专业定义。结果表明，最佳表现的GPT模型优于最佳表现的BERT模型，更详细的提示通常能带来更好的结果。然而，过于复杂的提示可能会影响性能。不同的GPT版本对被认定为极端主义的敏感度各不相同。GPT 3.5在识别左翼极端主义帖子方面表现更好，而GPT 4则在识别右翼极端主义帖子方面表现更好。大型语言模型（GPT模型）在在线极端主义分类任务中展现出显著潜力，超越了传统的BERT模型，在零样本设置下表现出色。未来研究应探索人类与计算机交互在优化GPT模型以进行极端主义检测与分类任务中的作用，以开发更高效（例如，更快捷、更少努力）且更有效的识别极端主义内容方法。
2024-08-29	Theoretical and Methodological Framework for Studying Texts Produced by Large Language Models	Jiří Milička et.al.	2408.16740	null	本文从定量语言学的角度探讨了研究大型语言模型（LLM）及其生成文本所面临的概念、方法论和技术挑战。本文基于一个理论框架，该框架区分了作为载体的LLM与模拟的实体。本文倡导对模型采取严格非拟人化的方法，同时谨慎地应用用于研究人类语言行为的方法来分析模拟实体。虽然自然语言处理研究者关注模型本身、其架构、评估以及提高性能的方法，作为定量语言学家，我们的目标是构建关于LLM生成文本特性的理论体系，它们与人类生成的文本有何不同，以及模拟实体的属性。此外，我们还应探索LLM作为研究人类文化工具的可能性，而语言是这一文化不可或缺的一部分。
2024-08-29	GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models	Moreno D'Incà et.al.	2408.16700	link	近期在文本到图像（T2I）生成模型领域取得的进展使得高质量图像生成成为可能。随着性能和可访问性的提高，这些模型正受到越来越多的关注和欢迎，确保它们的公平性和安全性是防止偏见传播和延续的关键。现有研究主要集中在预定义偏见（如性别、种族）的封闭集合上进行偏见检测。然而，在开放集设置下，即无需预先设定的情况下，检测和量化偏见是一个挑战。本文提出了一种通用框架，用于识别、量化和解释开放集设置下的偏见。该管道利用大型语言模型（LLM）从一组描述中提出偏见。随后，使用目标生成模型生成一系列图像。最后，通过视觉问答（VQA）进行偏见评估。我们展示了两种基于此框架的方法：OpenBias 和 GradBias。OpenBias 能够检测并量化与人、物体和动物相关的已知和新型偏见，并与现有的封闭集偏见检测方法以及人类判断高度一致。GradBias 显示出中性词汇对偏见的影响显著，并且在多项基线中表现最佳，包括最先进的基础模型。代码已在此处提供：https://github.com/Moreno98/GradBias。
2024-08-29	Entropic Distribution Matching in Supervised Fine-tuning of LLMs: Less Overfitting and Better Diversity	Ziniu Li et.al.	2408.16673	null	本文旨在解决大型语言模型在下游任务的精调（Supervised Fine-Tuning，SFT）过程中遇到的过拟合和输出多样性受限的问题。传统上，交叉熵（Cross Entropy，CE）损失函数被广泛用于SFT，然而它可能导致模型对数据分布进行过于激进的更新，从而引发过拟合和降低输出的多样性。为了解决这些问题，本文引入了最大熵原则，该原则倾向于促进模型生成更平滑的概率分布，同时仍能有效捕捉数据特征。具体地，我们提出了一种名为GEM的新方法，它通过解决反向Kullback-Leibler散度最小化问题，并加入熵正则化器，来匹配目标分布。在对Llama-3-8B模型进行SFT时，GEM在多个方面优于CE。首先，在使用UltraFeedback数据集训练以增强模型的指令遵循能力时，GEM表现出较低的过拟合迹象，表现为更低的困惑度和在IFEval基准测试上的更好性能。此外，GEM还提高了输出的多样性，即使在没有特定领域数据的情况下，仅通过最佳n采样，数学推理和代码生成任务的性能也得到了最高7分的提升。进一步地，当使用特定领域的数据集对数学推理和代码生成任务进行微调时，GEM同样表现出较低的过拟合和与CE相比高达10分的性能提升。
2024-08-29	Examination of Code generated by Large Language Models	Robin Beer et.al.	2408.16601	link	大型语言模型（LLM），例如ChatGPT和Copilot，正在通过自动化代码生成彻底改变软件开发，这在一定程度上促进了快速原型设计、教育支持以及生产力的提升。因此，LLM生成的代码正确性和质量应与人工编写的代码相当。为了评估当前LLM在生成Java和Python语言中的简单算法及其对应的单元测试时的正确性和质量（覆盖率）的能力，我们进行了受控实验。实验包括让LLM生成代码并评估其正确性与质量。我们观察到LLM之间、不同编程语言之间、算法与测试代码之间以及时间上的显著差异。本文报告了这些结果及实验方法，以便进行重复和可比的评估，以涵盖更多的算法、语言和LLM随时间的变化情况。
2024-08-29	Enhancing Dialogue Generation in Werewolf Game Through Situation Analysis and Persuasion Strategies	Zhiyang Qi et.al.	2408.16586	null	近期自然语言处理领域的进步，尤其是大型语言模型（LLM）如GPT-4的发展，显著提升了对话系统的性能，使得它们能够生成更为自然流畅的对话。然而，这些系统仍面临着诸如持续对话管理、记忆保留和减少幻觉等挑战。AIWolfDial2024这一项目通过采用“狼人杀”这一不完全信息游戏来测试LLM在复杂互动环境中的能力，以应对上述挑战。该项目引入了一种基于LLM的“狼人杀”游戏AI，其中每个角色都通过情境分析来辅助回应生成。对于“狼人”这一角色，项目采用了包括逻辑吸引力、可信度吸引力和情感吸引力在内的多种说服策略，以有效地引导其他玩家与自己的行动保持一致。
2024-08-29	CNIMA: A Universal Evaluation Framework and Automated Approach for Assessing Second Language Dialogues	Rena Gao et.al.	2408.16518	link	我们开发了CNIMA（一种中文作为第二语言的非母语互动测量与自动化数据集），包含10,000个对话。我们使用了一个评估框架来注释CNIMA，该框架最初用于英语作为第二语言的对话，它评估了微观层面特征（如回话）和宏观层面互动标签（如主题管理）。我们测试了该框架从英语到中文的可移植性。发现该框架在不同语言之间具有鲁棒性，并揭示了普遍性和特定于语言的微观层面和宏观层面特征之间的关系。接下来，我们提出了一种自动化评估的方法，并找到了强大的性能，创建了一个新的自动化第二语言评估工具。我们的系统易于适应其他语言，因为它使用大型语言模型，因此不需要大规模标注训练数据。
2024-08-29	LLMs vs Established Text Augmentation Techniques for Classification: When do the Benefits Outweight the Costs?	Jan Cegin et.al.	2408.16502	null	生成式大型语言模型（LLMs）在数据增强任务中的应用越来越广泛，文本样本通过LLM进行同义替换后用于分类模型的微调。然而，关于LLM数据增强方法相较于现有成熟方法是否具有明显优势的研究证据相对缺乏。为了探讨在何种情况下使用LLM数据增强方法更为有利，本研究在6个数据集、3个分类器和2种微调方法上进行了对比实验。我们还调整了种子数量和收集样本的数量，以便更全面地探索下游模型准确度空间。此外，我们还进行了成本效益分析，结果表明，在使用非常少量种子的情况下，LLM数据增强方法值得部署。在许多情况下，现有方法能够达到或超过类似甚至更好的模型准确度。
2024-08-28	Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders	Min Shi et.al.	2408.15998	link	《大规模语言模型在多模态任务中的视觉理解能力：混合视觉编码器的设计空间探索》一文探讨了准确解析复杂视觉信息对于多模态大型语言模型（MLLMs）的重要性。近期研究显示，增强的视觉感知能显著降低幻觉现象，并在光学字符识别、文档分析等分辨率敏感任务上提升性能。许多先进MLLMs通过集成多种视觉编码器来实现这一目标。然而，当前缺乏对关键方面系统的比较和详细的拆解研究，比如专家选择和多视觉专家融合策略。本文对使用混合视觉编码器的MLLM设计空间进行了广泛探索。研究发现，多个互补视觉编码器的视觉令牌简单拼接即可达到与更复杂的混合架构或策略相当的效果。此外，引入预对齐（Pre-Alignment）机制，以弥合专注于视觉的编码器与语言令牌之间的差距，从而提升模型一致性。由此产生的MLLM家族——Eagle，在主要的MLLM基准测试中超越了其他领先开源模型。相关代码及模型已开源发布：https://github.com/NVlabs/Eagle
2024-08-28	BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi-Agent Systems	Wei Wang et.al.	2408.15971	null	大型语言模型（LLM）正在变得越来越强大，能够处理复杂任务，例如构建单一代理和多代理系统。相较于单一代理，多代理系统对语言模型的协作能力提出了更高的要求。已有的评估基准主要关注于多代理系统的协作能力，但在细粒度评估方面存在不足，并且忽略了多代理系统的协作与竞争场景。为了填补这一空白，我们提出了一种新的基准测试——BattleAgentBench。该基准定义了三个不同难度级别的七个子阶段，旨在从单一代理场景导航能力、配对代理任务执行能力以及多代理合作与竞争能力等多个维度，对语言模型进行细致的评估。我们对四大闭源模型和七大开源模型进行了广泛评估。实验结果表明，基于API的模型在简单任务上表现出色，而开源小型模型在简单任务上则面临挑战。对于需要合作与竞争能力的困难任务，尽管基于API的模型展示了一定的协作能力，但仍有巨大的改进空间。
2024-08-28	More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding	Yuan Tang et.al.	2408.15966	link	在本论文中，我们重新审视了让大型语言模型（LLM）理解三维物理世界这一挑战。由于缺乏大规模的三维点云与文本配对数据集，LLM 在三维理解上的成功尚未实现复制。为此，我们提出了一项新任务：3D 数据高效点云-语言理解。目标是使LLM 能够利用最少的三维点云和文本数据对实现稳健的三维对象理解。为了应对这一任务，我们引入了GreenPLM，通过利用更多的文本数据来弥补缺少的三维数据。首先，借鉴使用CLIP对图像和文本进行对齐的方式，我们利用预训练的点云-文本编码器将三维点云空间映射到文本空间。这一映射使得我们可以无缝地连接文本空间与LLM。一旦建立了点云-文本-LLM的连接，我们进一步通过扩展中间文本空间增强文本-LLM的对齐，从而减少对三维点云数据的依赖。具体而言，我们生成了600万个关于三维物体的自由文本描述，并设计了三阶段训练策略，帮助LLM更好地探索不同模态之间的内在联系。为了实现高效的模态对齐，我们设计了一个零参数交叉注意力模块用于令牌聚合。广泛的实验结果表明，GreenPLM仅需要现有最先进的模型所用3D训练数据的12%，就能达到更优的三维理解性能。令人惊讶的是，GreenPLM仅使用文本数据也能实现竞争力的表现。相关代码和权重可在以下链接获取：https://github.com/TangYuan96/GreenPLM。
2024-08-28	Atari-GPT: Investigating the Capabilities of Multimodal Large Language Models as Low-Level Policies for Atari Games	Nicholas R. Waytowich et.al.	2408.15950	null	近期，大型语言模型（LLMs）的进展使其能力超越了传统的文本任务，扩展到了多模态领域，整合了视觉、听觉和文本数据。虽然在机器人学和游戏等高阶规划领域对多模态LLM的研究已经相当广泛，但在低级控制任务中的应用潜力却鲜有探索。本文探讨了多模态LLM在 Atari 视频游戏领域的应用，引入了 Atari 游戏性能作为评估多模态LLM执行低级控制任务能力的新基准。与传统强化学习（RL）和模仿学习（IL）方法相比，这些LLM无需大量的计算资源和奖励函数定义，而是利用现有的多模态知识直接与游戏环境交互。我们的研究评估了多个多模态LLM的表现，与传统RL代理、人类玩家和随机代理进行了比较，重点关注它们理解复杂视觉场景并制定战略响应的能力。此外，我们还通过引入人类演示的游戏玩法轨迹来研究上下文学习（ICL）的影响，以增强模型的上下文理解能力。通过这一研究，我们旨在确定多模态LLM能否利用其广泛的训练来有效地充当低级控制器，从而重新定义动态和视觉复杂环境中的潜在应用。有关额外结果和视频的更多信息，请访问我们的项目网页：https://sites.google.com/view/atari-gpt/。
2024-08-28	Leveraging Open Knowledge for Advancing Task Expertise in Large Language Models	Yuncheng Yang et.al.	2408.15915	link	在特定领域培养大型语言模型（LLM）以解决任务所需的专长往往需要针对稳定预期输出进行专门调整。避免手动准备指令数据集和训练资源带来的巨大成本，利用开放知识包括低秩适应（LoRA）模型和指令数据集作为起点是合理的选择。然而，现有方法在模型和数据选择上侧重于通用能力的性能，而忽视了在特定领域部署时暴露的知识差距。本研究提出了一种通过引入少量人工标注样本（即K-shot）来弥合此类差距的方法，以促进LLM在开放知识上的任务专长。具体来说，我们开发了一个高效且可扩展的管道，以成本效益方式生成任务专家，其中K-shot数据参与选择最具潜力的专家候选者和任务相关的指令。构建了一个混合专家（MoE）系统，充分利用多个专家之间独特但互补的知识。我们揭示了MoE系统成功的关键因素： 1. 遵循K-shot原则：确保真正具备解决K-shot问题能力的模型被选中，而非盲猜者。 2. 强调多样性：不仅专家本身具有多样性，而且在整个模型和数据选择过程中，细调指令也体现出多样性。广泛的实验结果证实了我们的方法在各种任务上对开放知识利用的优越性。后续将发布代码和模型。
2024-08-28	Decentralized LLM Inference over Edge Networks with Energy Harvesting	Aria Khoshsirat et.al.	2408.15907	null	大型语言模型在自然语言任务上表现出的卓越性能已经极大地改变了多个领域，但在资源受限环境如边缘网络中的部署仍面临挑战。分布式推理技术的出现通过在多台设备间分配模型块来提升灵活性和成本效益，但仍存在能源限制问题，尤其是针对电池供电的边缘设备。我们提出了一种基于互联、使用能量收集的电池供电边缘设备的协作推理可持续模型。通过建立半马尔可夫模型描述设备状态，考虑处理参数和平均绿色能源到达情况，以指导设计旨在减少设备停机时间和最大化网络吞吐量的调度算法。通过实证评估和模拟运行，验证了我们的方法的有效性，为边缘网络上的节能分布式推理铺平了道路。
2024-08-28	LLM-Based Multi-Hop Question Answering with Knowledge Graph Integration in Evolving Environments	Ruirui Chen et.al.	2408.15903	null	快速过时的信息使得大型语言模型（LLMs）在整合新知识方面面临挑战。现有方法在处理需要准确事实识别和序列逻辑推理的多跳问题时仍存在困难，尤其是在面对大量事实更新的情况下。为解决这些问题，本文提出了Graph Memory-based Editing for Large Language Models（GMeLLo），一种简单而有效的方法，它结合了知识图谱（KGs）的明确知识表示与LLMs的语言灵活性。GMeLLo不仅利用LLMs进行问答，还运用这些模型将自然语言转换为结构化查询和事实三元组，从而实现与KGs的无缝交互，用于快速更新和精确的多跳推理。实验结果表明，GMeLLo在多跳问答基准MQuAKE中显著超越当前最先进的知识编辑方法，特别是在涉及大量知识更新的场景中。
2024-08-28	Nexus: Specialization meets Adaptability for Efficiently Training Mixture of Experts	Nikolas Gritsch et.al.	2408.15901	null	当前大型语言模型在效率、专业化和对新数据分布的适应性方面难以同时具备这些优秀品质。混合专家（MoE）架构因其条件计算的内在特性，成为研究的重点领域，旨在提升这些品质。本工作专注于“升级”密集型专家模型至MoE架构，旨在增强专业化的同时，也增加对新任务的灵活适应性。我们引入了Nexus，一种增强的MoE架构，其具有自适应路由机制，允许模型学习将专家嵌入从领域表示进行投影。这种策略使得Nexus能够通过单独训练的密集模型灵活地添加新的专家，无需对未见数据域进行大规模MoE训练。实验结果显示，与基线相比，Nexus在初始升级阶段实现了高达2.1%的相对增益，在使用有限的微调数据扩展MoE时实现了18.8%的相对增益。Nexus的灵活性对于建立一个开源生态系统至关重要，该生态系统允许每个用户根据自己的需求不断组装自己的MoE混合模型。
2024-08-28	Bias in LLMs as Annotators: The Effect of Party Cues on Labelling Decision by Large Language Models	Sebastian Vallejo Vera et.al.	2408.15895	null	人类编码员存在偏见。我们通过复制Ennser-Jedenastik和Meyer（2018）的实验，发现大型语言模型（LLMs）在评估政治声明时使用政治信息，特别是政党线索。LLMs不仅根据政党线索上下文化判断陈述是正面、负面还是中性，还反映出它们在训练过程中生成的人类数据所具有的偏见。我们还发现，与人类不同的是，人类仅在面对极端政党声明时表现出偏见，而LLMs即使在被提示来自中间左翼和中间右翼政党的声明时也显示出显著偏见。最后部分讨论了这些发现的意义。
2024-08-28	Persuasion Games using Large Language Models	Ganesh Prasath Ramani et.al.	2408.15879	null	大型语言模型（LLM）已经发展成为一种强大的工具，能够理解和生成类似人类的文本。本文研究了LLM在塑造人类观点并进而影响他们在特定任务上的决策方面的潜力。这些能力在投资、信用卡和保险等多个领域找到了应用，帮助用户选择合适的保险政策、投资计划、信用卡以及零售产品，甚至在行为改变支持系统（BCSS）中也有应用。我们提出了一种复杂多代理框架，其中一组代理以协作方式操作。主要代理直接与用户进行有说服力的对话，而辅助代理执行诸如信息检索、响应分析、制定说服策略和事实验证等任务。我们的实验证据表明，这种协作方法显著提高了LLM的说服效果。我们持续分析用户的抵抗性，并通过结合规则基于和LLM基于的抵抗-说服映射技术来应对这一挑战。我们使用模拟的人格形象，并在保险、银行和零售领域生成对话，以评估大型语言模型（LLM）在识别、适应和影响不同人格类型方面的熟练程度。同时，我们也检查了LLM模拟人格所采用的抵抗机制。说服效果通过交互前后的可衡量调查、LLM生成的对话评分以及用户决策（购买或不购买）进行量化。
2024-08-27	Generative Verifiers: Reward Modeling as Next-Token Prediction	Lunjun Zhang et.al.	2408.15240	null	验证器或奖励模型常用于增强大型语言模型（LLM）的推理性能。一种常见的方法是Best-of-N策略，其中从LLM生成的N个候选解决方案中由验证器进行排名，选择最佳一个。传统上，验证器是作为判别分类器进行训练以对解决方案打分的，但它们并未充分利用预训练LLM的文本生成能力。为了克服这一限制，我们提议通过在验证和解决方案生成上使用通用的下一个词预测目标联合训练验证器。与标准验证器相比，这样的生成型验证器（GenRM）可以从LLM的几个优势中获益：它们可以无缝地与指令调谐相结合，支持链式思考推理，并且可以通过增加推理时的计算量来利用多数投票，从而进行更好的验证。我们展示了，在算法问题和小学数学推理任务上使用Gemma为基础的验证器时，GenRM优于判别型验证器和LLM作为裁判，表现出16%-64%的问题解决率提升。此外，我们证明了GenRM在数据集规模、模型容量和推理时计算量增加方面具有良好的可扩展性。
2024-08-27	LLM Defenses Are Not Robust to Multi-Turn Human Jailbreaks Yet	Nathaniel Li et.al.	2408.15221	null	近期的大规模语言模型（LLM）防御措施显著提升了模型对有害查询的拒绝能力，即使在遭受有组织攻击的情况下也不例外。然而，这些防御措施主要是在单轮对话中针对自动化攻击进行评估，这种威胁模型不足以反映真实世界中恶意行为的复杂性。我们通过实验展示了多轮对话的人工智能“越狱”（即攻击者利用模型的漏洞来绕过防御机制）能够揭露防御系统中的重大漏洞。在使用HarmBench这一评估平台，对抗那些在单轮对话中仅报告低百分比攻击成功率（ASR）的防御系统时，我们发现多轮对话的人工智能“越狱”的成功率超过了70%。这表明当前的防御机制在面对更复杂的、多步骤的攻击策略时存在不足。此外，多轮对话的人工智能“越狱”还揭示了机器遗忘防御系统的漏洞。攻击者成功地从未被删除的模型中恢复了可用于生物安全双重用途的知识，这进一步证明了现有防御措施在保护敏感信息方面存在的弱点。为了总结和共享这些发现，我们构建了一个名为“多轮对话人工智能越狱”（Multi-Turn Human Jailbreaks，简称MHJ）的数据集，包含了来自537个不同多轮对话场景的2912个触发指令，共计2,912个触发指令涉及2,912个不同的多轮对话“越狱”案例。同时，我们还公开发布了这个数据集以及在多种商业红队测试中发展出的一系列“越狱”策略的综述，旨在为研究更强大的LLM防御系统提供资源和支持。
2024-08-27	Investigating Coverage Criteria in Large Language Models: An In-Depth Study Through Jailbreak Attacks	Shide Zhou et.al.	2408.15207	null	大型语言模型（LLM）的迅速发展极大地改变了人工智能的格局，然而在敏感领域部署时，它们的脆弱性引发了一系列严重关切，尤其是对于恶意利用的风险。这种情况凸显了预部署测试不足的问题，强调了需要更加严格和全面评估方法的紧迫性。本研究通过全面的实证分析，评估了传统覆盖标准在识别这些漏洞方面的有效性，特别关注了关键问题——“越狱”攻击。研究首先对LLM中的隐藏状态进行了聚类分析，结果显示这些状态的内在特性能够明显区分不同类型的查询。随后，我们从三个关键维度——标准级别、层级别和词级别——评估了这些标准的性能。我们的发现揭示了正常查询与“越狱”查询在神经元激活模式上的显著差异，从而验证了聚类结果。基于这些发现，我们提出了一种创新的方法，用于实时检测“越狱”攻击，利用神经激活特征。我们的分类器表现出了极高的准确率，平均达到96.33%，成功识别出包括可能导致对抗性攻击的“越狱”查询。这项研究的重要性在于其对LLM安全性测试复杂挑战的全面应对。通过使系统能够在生成第一个词时立即检测到攻击，我们的方法为集成LLM的未来系统提供了强大的实时检测能力。这一研究深化了我们对LLM安全性的理解，并为开发更稳健的人工智能系统奠定了基础。
2024-08-27	Leveraging Hallucinations to Reduce Manual Prompt Dependency in Promptable Segmentation	Jian Hu et.al.	2408.15205	link	本文提出了一种任务通用的提示可分割方法，旨在减少对每种所需对象的实例特定手动提示的需求。通过使用单个任务通用提示来指导同一任务下不同对象的不同图像的分割，引入了任务通用提示分割。当前的方法利用多模态大型语言模型（MLLMs）从通用提示推理出详细的实例特定提示，以提高分割准确性。这种方法的有效性在很大程度上取决于生成提示的精确度。然而，MLLMs在推理过程中经常出现幻觉，导致提示不准确。现有方法专注于消除幻觉以提高模型性能，本文认为MLLM幻觉在正确利用时可以揭示有价值的任务相关信息，因为它们代表了超越单张图像的预训练大规模知识。因此，本文利用幻觉从图像中挖掘任务相关信息，并验证其准确性以增强生成提示的精确度。具体而言，我们引入了一个迭代的提示-掩码循环生成框架（ProMaC），该框架包括一个提示生成器和一个掩码生成器。提示生成器使用多尺度链式思考提示，最初探索幻觉以提取测试图像上的扩展上下文知识。然后，将这些幻觉降低到形成精确的实例特定提示，从而引导掩码生成器通过掩码语义对齐产生与任务语义一致的掩码。生成的掩码通过迭代引导提示生成器更关注任务相关的图像区域并减少无关的幻觉，最终共同提高了提示和掩码的质量。实验结果在5个基准数据集上证明了ProMaC的有效性。详细代码见https://lwpyh.github.io/ProMaC/。
2024-08-27	Can Unconfident LLM Annotations Be Used for Confident Conclusions?	Kristina Gligorić et.al.	2408.15204	link	大型语言模型（LLM）在各种任务中与人类评估者高度一致，显示出减轻人类数据收集挑战的潜力。在计算社会科学（CSS）领域，研究人员越来越多地利用LLM注释来补充缓慢且昂贵的人类注释。然而，对于如何收集和使用LLM注释而不损害下游结论的有效性，仍缺乏明确的指南。我们引入了“置信驱动推理”方法，该方法结合了LLM注释和LLM置信度指示器，以战略方式选择应收集哪些人类注释，旨在生产准确的统计估计和可验证的置信区间，同时减少所需的人类注释数量。我们的方法具有防止LLM注释质量差的保障措施，确保得出的结论既有效又不比仅依赖人类注释更不准确。我们在三个CSS场景——礼貌文本、立场和偏见——中的统计估计任务中，通过与基线比较，证明了置信驱动推理的有效性，每种场景下所需的人类注释数量减少了超过25%。尽管我们使用CSS场景进行演示，但置信驱动推理可以用于广泛NLP问题中的大多数标准量估计。
2024-08-27	Unlocking Potential in Pre-Trained Music Language Models for Versatile Multi-Track Music Arrangement	Longshen Ou et.al.	2408.15176	null	大型语言模型在多个领域展示了显著的能力，包括符号音乐生成。然而，利用这些预训练的模型进行可控音乐编排任务的挑战仍然新颖，每个任务都需要不同的音乐信息作为控制。本文提出了一种统一的序列到序列框架，它允许对符号音乐语言模型进行微调，以执行四个不同的多轨编排任务：乐队编排、钢琴缩减、鼓编排和声音分离。我们的实验结果表明，所提出的策略在所有四个任务上均实现了更高音乐质量的结果，与专门针对特定任务的基线相比。此外，通过额外的探查分析实验，我们展示了预训练阶段赋予模型理解音乐条件的基本知识，这在仅通过特定任务的微调难以获得的情况下尤为重要。
2024-08-27	X-Reflect: Cross-Reflection Prompting for Multimodal Recommendation	Hanjia Lyu et.al.	2408.15172	null	大型语言模型（LLM）和大型多模态模型（LMM）已被证明能显著提升丰富项目描述的效果，进而增强推荐系统的准确性。然而，现有方法往往仅依赖于纯文本提示，或者采用基本的多模态策略，未能充分利用文本与视觉模态之间互补的信息。本文提出了一种名为Cross-Reflection Prompting（X-Reflect）的新框架，旨在通过引导LMM明确识别并调和文本与图像之间的支持性与冲突信息来解决这些问题。通过捕捉两种模态的细微洞察，此方法生成了更为全面且语境丰富的项目表示。在两个广泛使用的基准上进行的大量实验表明，我们的方法在下游推荐准确度上优于现有的提示基线。此外，我们评估了框架在不同LMM架构下的泛化能力以及提示策略的鲁棒性，提供了优化的见解。这项工作强调了整合多模态信息的重要性，并提出了改善多模态推荐系统中项目理解的新型解决方案。
2024-08-27	Measuring text summarization factuality using atomic facts entailment metrics in the context of retrieval augmented generation	N. E. Kriman et.al.	2408.15171	null	自2022年ChatGPT的发布以来，大型语言模型（LLMs）的应用范围显著扩大，显示出其在各种场景中的价值。然而，对于企业级和商业应用而言，LLMs生成不准确信息的趋势，即所谓的“幻觉”现象，成为了一个主要挑战。本项目提出了一种方法，用于在与原始文本进行比较时评估LLM生成概要的准确性。我们的方法利用朴素贝叶斯分类来判断生成内容的真实性。通过这种方法，我们可以估计生成文本与实际信息之间的匹配度，从而提高LLM应用的质量和可靠性。这不仅有助于识别可能存在的错误或不准确之处，还能增强用户对LLM生成内容的信任，促进其在更广泛领域的有效使用。此外，该方法还能为LLM的持续改进提供有价值的反馈，推动技术进步，最终实现更高质量、更可靠的人工智能辅助内容生成。
2024-08-27	BaichuanSEED: Sharing the Potential of ExtensivE Data Collection and Deduplication by Introducing a Competitive Large Language Model Baseline	Guosheng Dong et.al.	2408.15079	null	大型语言模型（LLM）的核心能力高度依赖于广泛预训练数据集的组成和选择，这些数据集被多个机构视为商业秘密。为了缓解这一问题，我们开源了一个通用适用的数据处理管道，并通过引入一个竞争性的LLM基线来验证其有效性和潜力。具体来说，数据处理管道包括广域收集以扩大规模和重新加权以提高质量。然后，我们使用我们的管道对3万亿个令牌进行预训练，而无需任何明确的下游任务优化，接着进行一个简单但有效的监督微调阶段。BaichuanSEED在整个训练过程中表现出一致性与预测性，并在综合基准测试中与几个先进的商业大型语言模型，如Qwen1.5和Llama3，实现了可比性能。我们还进行了几个启发式实验，讨论了在数学和编程等下游任务进一步优化的可能性。
2024-08-27	Constraining Participation: Affordances of Feedback Features in Interfaces to Large Language Models	Ned Cooper et.al.	2408.15066	null	本文探讨了交互反馈功能在ChatGPT界面中的可用性，分析了这些功能如何塑造用户输入以及大型语言模型迭代过程中的参与度。通过调研ChatGPT用户并应用了可操作性框架，我们展示了这类功能鼓励简单、频繁且侧重于性能的反馈，同时限制了集体输入和用户间的讨论。我们主张，这种反馈格式极大地限制了用户的参与，强化了用户、公众与开发大型语言模型的公司之间的权力不平等。我们的分析为现有参与式人工智能文献提供了新的视角，着重于现有反馈流程的局限性，并提出了重新设计的方向。为了使公众在人工智能发展中能够更具有意义地参与，我们提倡转向关注模型输出与特定用户偏好的一致性的过程。相反，我们强调需要促进公司与不同“公众”之间关于大型语言模型的目的和应用进行对话的过程。这一方法要求对持续的社会基础设施建设的关注，即创建和维持解决AI开发和部署影响群体关切所需的社会、技术和机构结构。
2024-08-27	Step-by-Step Unmasking for Parameter-Efficient Fine-tuning of Large Language Models	Aradhye Agarwal et.al.	2408.14470	link	细调大型语言模型（LLMs）在下游任务上需要大量计算资源。参数高效细调（PEFT）类方法旨在通过仅微调模型参数的小部分来缓解这些计算挑战。虽然从计算效率方面考虑，这些技术通常无法与完全微调的模型性能相匹敌，主要原因是参数选择过程中固有的偏见。传统的选择性PEFT技术基于预先定义的预算（也称为去遮罩）使用固定参数集，未能动态捕捉参数的重要性，并经常超出预算。我们引入了 $\text{ID}^3$，这是一种新颖的选择性PEFT方法，它连续计算参数的重要性，并通过平衡参数选择过程中的探索与利用来动态地去遮罩参数。我们在15个任务上进行的实验覆盖了自然语言理解与生成任务，显示了与基于固定去遮罩的PEFT技术相比，我们的方法的有效性。我们通过理论分析证明，$\text{ID}^3$将梯度更新的数量减少了一倍，从而提高了计算效率。$\text{ID}^3$ 对神经元的随机初始化具有鲁棒性，因此可以无缝集成到现有添加式和重新参数化基PEFT模块，如适配器和LoRA中，用于动态稀疏化。
2024-08-26	Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos	Qirui Chen et.al.	2408.14469	null	本文探讨了长形式第一人称视角视频中的多跳视频问答（Multi-Hop Video Question Answering，MH-VidQA）问题。这项任务不仅需要回答视觉问题，还需要在视频中定位多个相关的时间段作为视觉证据。我们开发了一个自动化流程来创建带有关联时间证据的多跳问题解答配对，从而构建了一个用于指令调整的大规模数据集。为了监测这一新任务的进展，我们进一步整理了一个高质量的基准——MultiHop-EgoQA，通过仔细的手动验证和细化进行构建。实验结果揭示了现有跨模态系统在多跳定位和推理能力方面存在不足，导致性能不佳。随后，我们提出了一种名为“Grounding Scattered Evidence with Large Language Model”（GeLM）的新架构，该架构通过引入一个地理解码模块增强了大型语言模型（Large Language Models，LLMs），该模块使用灵活的地理解码令牌从视频中检索时间证据。在我们的视觉指令数据上进行训练后，GeLM展示了增强的多跳定位和推理能力，为这一具有挑战性的任务设定了新的基准。此外，当在第三人称视角视频上进行训练时，相同的架构在单跳视频问答基准（ActivityNet-RTL）上也达到了最先进的性能，证明了其有效性。
2024-08-26	Explicit Inductive Inference using Large Language Models	Tianyang Liu et.al.	2408.14467	null	在本论文中，我们提出了一种管道方法，利用大型语言模型（LLM）的这一偏差进行明确的归纳推理。该管道使用LLM将前提转换为一组已验证的替代方案，并通过聚合衍生的新蕴含询问的答案来支持原始推理预测。在方向性谓词蕴含基准测试上，我们展示了通过应用此简单管道，可以提高LLM在推理上的整体性能，并显著减轻它们的证实偏差影响。
2024-08-26	Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study	Liuchang Xu Shuo Zhao et.al.	2408.14438	null	随着大型语言模型如ChatGPT、Gemini等的问世，评估它们在自然语言理解、代码生成等多方面能力的重要性日益凸显。然而，这些模型在空间任务方面的表现并未得到全面评估。本研究填补了这一空白，通过引入一个新颖的多任务空间评价数据集，系统性地探索和比较几种先进模型在空间任务上的性能。该数据集涵盖了十二种不同的任务类型，包括空间理解和路径规划，并且每项任务都有经过验证的准确答案。我们采用双阶段测试方法对多个模型进行了评估，包括OpenAI的gpt-3.5-turbo、gpt-4o以及ZhipuAI的glm-4。首先进行零样本测试，随后根据难度对数据集进行分类，并执行了提示调优测试。结果显示，在第一阶段的测试中，gpt-4o的整体准确性最高，平均达到了71.3%。尽管moonshot-v1-8k在总体上略逊一筹，但在地名识别任务上却超越了gpt-4o。研究还揭示了特定任务中提示策略对模型性能的影响。例如，链式思考（COT）策略使gpt-4o在路径规划任务上的准确率从12.4%提升至87.5%，而一次射击策略则使moonshot-v1-8k在地图绘制任务上的准确率从10.1%提高到76.3%。
2024-08-26	CHARTOM: A Visual Theory-of-Mind Benchmark for Multimodal Large Language Models	Shubham Bharti et.al.	2408.14419	null	我们提出了一种名为CHARTOM的视觉理论理解基准，针对多模态大型语言模型。CHARTOM由专门设计的数据可视化图表组成。给定一个图表，语言模型不仅需要正确理解图表（事实问题），还需要判断该图表是否会让人类读者产生误导（思维问题）。这两个问题都具有重要的社会价值。我们将详细介绍构建CHARTOM基准的过程，包括其对人类表现的校准。
2024-08-26	MEDSAGE: Enhancing Robustness of Medical Dialogue Summarization to ASR Errors with LLM-generated Synthetic Dialogues	Kuluhan Binici et.al.	2408.14418	null	自动语音识别(ASR)系统在将语音转换为文本方面至关重要，然而，它们引入的错误会严重降低下游任务如摘要生成的表现。这个问题在临床对话摘要领域尤为突出，这是一个数据资源有限的领域，用于微调的监督数据稀缺，因此需要将ASR模型作为黑盒解决方案使用。传统的数据增强方法也不适用于提高摘要模型对噪音的鲁棒性，原因是缺乏足够的医疗对话音频记录及其对应的ASR转录文本。为了应对这一挑战，我们提出了一种名为MEDSAGE的方法，用于通过大型语言模型(LLMs)生成合成样本进行数据增强。具体来说，我们利用LLMs的上下文学习能力，并指导它们基于少量可用的医疗对话示例和音频记录，生成类似ASR的错误。实验结果表明，LLMs能够有效地建模ASR噪音，将这种含噪数据融入训练过程显著提高了医疗对话摘要系统的鲁棒性和准确性。这种方法解决了关键应用中ASR输出噪音的问题，提供了一个增强临床对话摘要可靠性的稳健解决方案。
2024-08-26	Language-specific Calibration for Pruning Multilingual Language Models	Simon Kurz et.al.	2408.14398	null	近期在大型语言模型（LLM）的剪枝领域取得的进展，在无需重新训练的情况下实现了卓越的压缩效果，并保持了高预测性能。然而，这类研究主要关注于使用英语文本进行剪枝校准，而忽略了现代LLM的多语言性质及其在非英语语言中的广泛应用。本文旨在探索用于剪枝多语言模型的有效策略。我们进行了首个全面的实证研究，对比了不同校准语言在多语言任务、模型和最先进的剪枝技术下对剪枝的影响。我们的结果提供了实用的建议，例如，在目标语言上进行校准可以有效地降低困惑度，但不一定能促进下游任务的性能提升。进一步的分析实验揭示，目标语言上的校准主要贡献在于保留与流畅性和连贯性相关的语言特定特性，但可能无法捕捉到与理解能力和推理能力等语言通用特性的关联。最后，我们为未来的实践者提供了实际的建议。
2024-08-26	Reprogramming Foundational Large Language Models(LLMs) for Enterprise Adoption for Spatio-Temporal Forecasting Applications: Unveiling a New Era in Copilot-Guided Cross-Modal Time Series Representation Learning	Sakhinana Sagar Srinivas et.al.	2408.14387	null	空间时间预测在交通系统、物流和供应链管理等多个领域发挥着关键作用。然而，现有方法受限于处理大规模复杂数据的能力。为了克服这一限制，我们提出了一种结合开源大型和小型语言模型（LLMs 和 LMs）与传统预测方法的混合策略。通过引入动态提示和分组查询、多头注意力机制，该策略能够更有效地捕捉演变非线性时间序列数据中的内部系列和跨系列依赖关系。此外，我们利用低秩适配与激活记忆减少技术（LoRA-AMR），在消费级硬件上对开源小型 LM 进行定制化微调，以分析时间序列趋势，同时保留推理延迟并降低计算开销和激活存储内存需求。我们将语言模型处理与传统时间序列表示学习方法相结合，实现跨模态集成，从而获得稳健且准确的预测结果。通过在多个实际世界数据集上的广泛实验，该框架的效能得到了充分验证，其预测准确性显著优于现有方法。
2024-08-26	Probing Causality Manipulation of Large Language Models	Chenyang Zhang et.al.	2408.14380	link	大型语言模型（LLM）在自然语言处理任务上展现了多种能力，包括因果关系问题。预训练的模型通常基于统计关联工作，而非专注于句子中的因果与影响。因此，探索LLM内部对因果性的操纵是必要的。本文提出了一种新颖的方法，通过提供不同的捷径并观察模型行为来探查因果性操纵的层级。我们利用检索增强生成（RAG）和上下文学习（ICL）技术，针对设计的因果分类任务，对主流LLM进行实验，包括GPT-4以及一些较小的和特定领域的模型。我们的实验结果表明，LLM能够识别与因果性相关的实体，并认识到直接的因果关系。然而，LLM缺乏专门的因果认知能力，只是将因果性视为句子整体语义的一部分。
2024-08-26	SWE-bench-java: A GitHub Issue Resolving Benchmark for Java	Daoguang Zan et.al.	2408.14354	link	GitHub问题解决是软件工程中的关键任务，近期在行业和学术界都受到了广泛关注。在这个领域内，SWE-bench已经发布，旨在评估大型语言模型（LLMs）的问题解决能力，但目前仅关注Python版本。然而，支持更多编程语言同样至关重要，因为工业界对此有强烈需求。作为迈向多语言支持的第一步，我们开发了Java版的SWE-bench，称为SWE-bench-java。我们已公开发布了数据集，并提供了基于Docker的评估环境和排行榜，这些都将持续维护和更新。为了验证SWE-bench-java的可靠性，我们实现了经典方法SWE-agent，并在其中测试了几种强大的LLMs。众所周知，构建高质量的多语言基准既耗时又费力，因此我们欢迎通过拉取请求或合作来加速其迭代和改进，为完全自动化的编程铺平道路。
2024-08-23	MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?	Yi-Fan Zhang et.al.	2408.13257	null	近期，全面评估多模态大型语言模型（MLLMs）在研究社区中引发了广泛关注。然而，我们注意到现有基准测试存在一些普遍的障碍，使得衡量模型面临的实际世界挑战变得困难，包括：1）数据规模较小导致性能波动大；2）依赖模型生成注释造成数据质量受限；3）任务难度不足，尤其是由于图像分辨率有限。为了克服这些问题，我们引入了MME-RealWorld。具体而言，我们从公共数据集和互联网收集了超过30万张图片，并筛选出13,366张高质量图片进行标注。这一过程中，我们动用了25名专业注释员和7名MLLM领域的专家，共贡献了29,429个问题-答案对，涵盖了5种真实世界场景下的43个子任务，这些任务甚至对人类来说也极具挑战性。据我们所知，MME-RealWorld是迄今为止最大的人工标注基准，其特征为最高分辨率以及专注于真实世界应用的目标导向。我们进一步对28个领先的MLLM进行了详尽的评估，如GPT-4o、Gemini 1.5 Pro和Claude 3.5 Sonnet。我们的结果显示，即使是最先进的模型也无法应对我们的基准测试，其中没有一个模型达到60%的准确率。感知高分辨率图像和理解复杂的真实世界场景仍然是亟待解决的关键问题。相关的数据和评估代码已发布在https://mme-realworld.github.io/ 。
2024-08-23	Domain-specific long text classification from sparse relevant information	Célia D'Cruz et.al.	2408.13253	null	大型语言模型无疑在自然语言处理领域实现了重大革新，当前的趋势是推动单一模型解决所有任务（如情感分析、翻译等）。然而，在处理稀疏信息或弱信号时，这些模型的统计机制难以有效利用关键信息。例如，在长篇特定领域文档的分类中，相关性往往依赖于一个或几个关键术语。医疗领域中，确定某个报告是否包含了关于患者状况的关键信息至关重要。这些关键信息通常基于一两个特定的孤立术语。本文提出了一种层次化模型，该模型利用一个潜在目标术语列表来检索候选句子，并将这些句子表示为包含它们的目标术语的上下文嵌入。对目标术语（或术语）的嵌入进行聚合导致文档表示被用于分类。我们分别在英语和法语的公开医疗文档基准数据集以及私有医疗数据集上评估了我们的模型。结果显示，我们的窄层级模型在特定领域背景下检索相关长文档方面优于大型语言模型。
2024-08-23	Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time	Yingyu Liang et.al.	2408.13233	null	本文提出了一种新型的快速计算方法，用于多层变换器模型中的梯度计算。该方法在几乎线性时间内 $n^{1+o(1)}$计算整个多层变换器模型的梯度，其中$n$ 是输入序列长度。这一突破极大地降低了传统二次时间复杂度相关的计算瓶颈。我们的理论适用于任何损失函数，并在全模型上保持可控制的近似误差。此外，我们的分析还考虑了多层变换器模型包含许多实用子模块的情况，如残差连接、因果掩码和多头注意力。通过提高大型语言模型中梯度计算的效率，我们期望通过基于我们的理论结果改进长上下文语言模型的训练和部署，使这些模型更加有效。
2024-08-23	EUR-USD Exchange Rate Forecasting Based on Information Fusion with Large Language Models and Deep Learning Methods	Hongcheng Ding et.al.	2408.13214	null	准确预测EUR/USD汇率对投资者、企业和政策制定者至关重要。本文提出了一种创新框架IUS，该框架结合了新闻和分析的非结构化文本数据与汇率和金融指标的结构化数据，以增强汇率预测能力。IUS框架利用大型语言模型进行文本情感极性评分和汇率变动分类。这些文本特征与定量特征相结合，并输入到因果驱动特征生成器中。然后使用Optuna优化的Bi-LSTM模型预测EUR/USD汇率。实验结果表明，所提出的模型在减少平均绝对误差（MAE）10.69%和根均方误差（RMSE）9.56%方面优于基准模型。结果显示，通过融合非结构化和结构化数据，准确性比仅使用结构化数据更高。此外，使用顶级12个重要定量特征和文本特征相结合进行特征选择证明是最有效的。提出的IUS框架和Optuna-Bi-LSTM模型提供了一种强大的新方法，用于多源数据集成的汇率预测。
2024-08-23	DOMAINEVAL: An Auto-Constructed Benchmark for Multi-Domain Code Generation	Qiming Zhu et.al.	2408.13204	null	代码基准，如HumanEval，广泛用于评估大型语言模型（LLMs）的能力，提供了它们优势与不足的洞察。然而，当前的基准主要集中在通用编码任务上（例如：冒泡排序、最大公约数），对领域特定编码任务（如计算、系统、加密）的探索则较少。为了填补这一空白，我们提出了一种多领域代码基准DOMAINEVAL，旨在全面评估LLMs的编码能力。我们的流程以全自动方式工作，允许从代码仓库中构建格式化的研究主题进行底部推动式构建。通过使用12个代表性LLM在DOMAINEVAL上的评估，我们观察到了一些有趣的结果。我们注意到，LLMs在计算任务上表现良好，但在加密和系统编码任务上却有所欠缺。某些LLM在这些领域的性能差距可能高达68.94%（80.94%-12.0%）。我们也发现生成更多样本可以提高LLMs的整体性能，但领域偏见甚至可能增加。本研究的贡献包括一个代码生成基准数据集DOMAINEVAL，涵盖六个流行领域，以及一个完全自动化的管道用于构建代码基准，并基于在DOMAINEVAL上的性能识别了LLMs在代码生成任务上的局限性，提供了未来研究改进的方向。领导者板可在https://domaineval.github.io/查看。
2024-08-23	Can LLM be a Good Path Planner based on Prompt Engineering? Mitigating the Hallucination for Path Planning	Hourui Deng et.al.	2408.13184	null	在大型语言模型（LLM）领域，空间推理是实现感知智能的基础。然而，在简单的迷宫环境中，LLM在长期路径规划方面仍面临挑战，主要受到其空间幻觉和长期推理导致的上下文不一致幻觉的影响。为了应对这一挑战，本研究提出了一种创新模型——空间到关系转换与递进Q学习（S2RCQL）。为解决LLM的空间幻觉问题，我们提出了“空间到关系”的方法，将空间提示转化为实体关系和表示实体关系链的路径，充分挖掘了LLM在序列思考方面的潜力。在此基础上，我们设计了一种基于Q学习的路径规划算法，以缓解上下文不一致幻觉，增强LLM的推理能力。通过将状态动作的Q值作为提示的辅助信息，我们纠正了LLM的幻觉，引导LLM学习最优路径。最后，我们提出了一种基于LLM的反向课程学习技术，进一步缓解了上下文不一致幻觉。该技术通过降低任务难度并利用成功经验，帮助LLM快速积累，并以此来应对更复杂任务。我们在百度自主研发的LLM：ERNIE-Bot 4.0上进行了全面实验。结果显示，我们的S2RCQL在成功率和最优性方面分别提高了23%至40%，相较于先进的提示工程方法取得了显著进步。
2024-08-23	IntelliCare: Improving Healthcare Analysis with Variance-Controlled Patient-Level Knowledge from Large Language Models	Zhihao Yu et.al.	2408.13073	link	在电子健康记录（EHR）数据的深度学习方法取得巨大进步的同时，它们在处理有限数据中的多样化的医学代码时往往难以全面捕捉其语义。引入大型语言模型（LLM）的知识整合为提升医疗保健预测提供了有前景的途径。然而，LLM分析可能会因歧义问题和不一致性导致显著的波动，这阻碍了其有效利用。为解决这些挑战，我们提出了一种名为IntelliCare的新型框架，旨在通过利用LLM提供高质量的患者级外部知识并增强现有的EHR模型来改善医疗保健预测。具体来说，IntelliCare通过识别患者群体，并利用与任务相关的统计信息来增强LLM的理解和生成能力，有效地解决了歧义问题。此外，它通过结合EHR模型和困惑度量来细化从LLM获取的知识，采用混合方法生成多个分析结果并进行校准。在三个临床预测任务上对两个大规模EHR数据集的实验评估表明，IntelliCare能够显著提高现有方法的表现，凸显了其在推进个性化医疗保健预测和决策支持系统方面的潜力。
2024-08-23	Guiding IoT-Based Healthcare Alert Systems with Large Language Models	Yulan Gao et.al.	2408.13071	null	在医疗健康警报系统（HAS）领域，随着人工智能（AI）、物联网（IoT）技术的快速发展以及公众健康意识的提高，HAS正经历着快速的变革。尽管取得了显著的进步，但存在一个核心挑战：如何在资源有限的环境中，在个性化健康警报的准确性与严格隐私保护之间找到平衡点。为了解决这一问题，我们提出了一种统一框架——LLM-HAS（大型语言模型医疗健康警报系统）。该框架将大型语言模型（LLM）融入到HAS中，以显著提升警报的准确性、确保用户隐私，并增强个性化医疗服务，同时改善用户体验的质量（QoE）。我们的创新框架采用混合专家（MoE）方法，结合LLM，通过分析用户的个性化偏好和潜在健康风险来处理额外的文本工作描述。这种分析指导了专门的深度强化学习（DDPG）专家的选择，他们负责提供精确的健康警报。此外，LLM-HAS能够处理对话式用户反馈，不仅允许对DDPG进行微调，还能加深用户参与度，从而提高健康管理策略的准确性和个性化程度。模拟结果验证了LLM-HAS框架的有效性，表明其作为利用生成型人工智能（GAI）提供高度准确可靠警报的突破性方法的潜力。
2024-08-23	VFM-Det: Towards High-Performance Vehicle Detection via Large Foundation Models	Wentao Wu et.al.	2408.13031	link	现有车辆检测器通常通过在基于预训练主干（如ResNet、ViT）的预训练典型检测器（例如YOLO、RCNN、DETR系列）上进行车辆图像训练获得。一些研究者还利用并增强大型基础模型来提升检测性能。然而，我们认为这些检测器可能仅获得次优结果，因为它们使用的大型模型并非专门为车辆设计。此外，他们的结果高度依赖于视觉特征，并且很少考虑车辆语义信息与视觉表示之间的对齐。在此工作中，我们提出了一种基于预训练的车辆模型（VehicleMAE）和大型语言模型（T5）的新车辆检测范式，称为VFM-Det。它遵循区域建议框检测框架，每个提议的特征可以通过VehicleMAE增强。更重要的是，我们提出了一种新的VAtt2Vec模块，用于预测这些提议的车辆语义属性并将它们转换为特征向量，通过对比学习增强视觉特征。对三个车辆检测基准数据集的广泛实验充分证明了我们的车辆检测器的有效性。具体而言，我们的模型分别在Cityscapes数据集上的 $AP_{0.5}$、$AP_{0.75}$指标上，相较于基线方法提高了$+5.1%$、$+6.2%$ 。此工作的源代码将在https://github.com/Event-AHU/VFM-Det发布。
2024-08-23	In-Context Learning with Reinforcement Learning for Incomplete Utterance Rewriting	Haowei Du et.al.	2408.13028	null	在当前的学术界，对基于指令增强的少量实例的大规模语言模型（Large Language Models, LLM）进行上下文学习（In-context Learning, ICL）引起了越来越多的关注。现有的用于ICL的示例选择方法利用稀疏或密集检索器，并且能够产生有效性能。然而，这些方法并未充分利用LLM对反馈信息的利用来训练检索器，所选的示例可能无法显著提升LLM的类比能力。为了克服这一问题，我们提出了基于强化学习的策略框架（Policy-based Reinforcement Learning Framework, RLS）用于示例选择。该框架由语言模型（Language Model, LM）选择器和LLM生成器组成。语言模型选择器将候选示例编码为密集表示，并从中选择top-k个示例作为LLM的示范。通过采用LLM的输出来计算奖励和策略梯度，优化语言模型选择器。我们在不同数据集上进行了实验，显著优于现有的示例选择方法。此外，我们的方法在少量样本设置下相较于监督微调（Supervised Fine-tuning, SFT）模型显示出优势。进一步的实验结果表明，示例的数量丰富性和与测试案例的相似性对于ICL中的LLM性能至关重要。
2024-08-22	Controllable Text Generation for Large Language Models: A Survey	Xun Liang et.al.	2408.12599	link	在自然语言处理（NLP）领域，大型语言模型（LLMs）展现了卓越的文本生成质量。然而，在实际应用中，LLMs需要满足日益复杂的需求。除了避免误导性或不适当的内容，LLMs还被期望根据特定用户需求进行调整，如模仿特定的写作风格或生成富有诗意的文本。这些多样的需求推动了可控文本生成（CTG）技术的发展，旨在确保输出内容符合预设的控制条件，如安全性、情感倾向、主题一致性以及语言风格，同时保持高质量的有用性、流畅性和多样性。本文系统地回顾了CTG在LLMs领域的最新进展，详细定义了其核心概念，并明确了控制条件和文本质量的要求。我们将CTG任务分为两大类：内容控制和属性控制，并对每种类型的方法进行了讨论，包括模型重训练、微调、强化学习、提示工程、潜在空间操纵和解码时干预。我们分析了每种方法的特点、优势和局限性，提供了实现生成控制的深入见解。此外，我们回顾了CTG评估方法、总结了其跨领域的应用，并指出了当前研究的关键挑战，如流畅度和实用性的降低。我们还提出了若干呼吁，强调未来研究应更注重实际应用。本文旨在为该领域的研究人员和开发者提供有价值的指导。我们的参考文献列表和中文版本已开源在https://github.com/IAAR-Shanghai/CTGSurvey。
2024-08-22	RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment	Xiaohan Wang et.al.	2408.12579	null	大型语言模型（LLM）如GPT-4、MedPaLM-2和Med-Gemini在各类医疗评估指标上表现出与医学专家竞争的性能。然而，它们在与医生相媲美的专业诊断方面仍面临挑战，特别是在高效收集患者信息以及推理最终诊断的过程中。为此，我们提出了一种名为RuleAlign的框架，旨在使LLM与特定诊断规则保持一致。我们构建了一个包含基于规则的医患对话数据集，并设计了一种通过偏好学习进行对齐的学习方法。实验结果证明了所提出方法的有效性。我们期望我们的工作能够启发探索LLM作为AI医师的潜力。
2024-08-22	Jamba-1.5: Hybrid Transformer-Mamba Models at Scale	Jamba Team et.al.	2408.12570	null	我们推出了Jamba-1.5，基于我们Jamba架构的新型指令优化大型语言模型。Jamba是一种混合Transformer-Mamba专家混合架构，它在上下文长度范围内提供了高吞吐量和低内存使用，同时保持与Transformer模型相同或更好的质量。我们发布了两种模型大小：Jamba-1.5-Large，具有94B个活跃参数；以及Jamba-1.5-Mini，具有12B个活跃参数。这两种模型均针对多种对话和指令遵循能力进行了微调，并且具有256K令牌的最大有效上下文长度，在开放权重模型中最大。为了支持成本效益的推理，我们引入了ExpertsInt8，这是一种新颖的量化技术，允许在处理256K令牌上下文时将Jamba-1.5-Large模型放入具有8个80GB GPU的机器上而不会损失质量。当在一系列学术和聊天机器人基准上进行评估时，Jamba-1.5模型取得了出色的结果，同时提供了高吞吐量并优于其他开放权重模型在长上下文基准上的性能。两种大小的模型的权重都根据Jamba开放模型许可公开提供，并且我们发布了ExpertsInt8作为开源软件。
2024-08-22	ssProp: Energy-Efficient Training for Convolutional Neural Networks with Scheduled Sparse Back Propagation	Lujia Zhong et.al.	2408.12561	link	近期，深度学习取得了显著进展，尤其是在生成模型领域，如大型语言模型和概率性扩散模型。然而，训练这些模型往往需要大量的计算资源，消耗数十亿的浮点运算（petaFLOPs），导致巨大的能源消耗和碳足迹，引发了对环境的重大担忧。在训练深度学习模型的过程中，反向传播（Back-propagation, BP）是主要的计算负担来源。为了推动能源效率的提高，并允许在任何机器和设备上实现稀疏学习，我们提出了一种通用、能源高效的卷积模块，它能够无缝集成到任何深度学习架构中。具体来说，我们引入了通道级稀疏性，并基于假设BP通常密集且低效，这可能导致过拟合和高计算消耗，提出了额外的梯度选择调度器，在反向传播阶段进行选择。实验结果表明，我们的方法可以减少40%的计算量，同时有可能提升模型性能，在图像分类和生成任务上得到验证。这种减少可以带来显著的能源节省和较低的碳足迹，尤其是在大型AI系统的研究与开发阶段。此外，我们的方法以不同于Dropout的方式缓解了过拟合问题，允许它与Dropout结合使用，进一步提高模型性能并降低计算资源消耗。广泛实验表明，我们的方法适用于各种数据集和任务，并与多种深度学习架构和模块兼容。相关代码已公开发布在https://github.com/lujiazho/ssProp。
2024-08-22	Towards Evaluating and Building Versatile Large Language Models for Medicine	Chaoyi Wu et.al.	2408.12547	link	在这项研究中，我们提出了一种全面的基准测试——MedS-Bench，旨在评估大型语言模型（LLMs）在临床场景中的性能。与现有侧重于多项选择问题回答的基准不同，MedS-Bench覆盖了11个高级别临床任务，包括临床报告摘要、治疗建议、诊断、实体识别和医学概念解释等。我们使用少量提示对六款领先的LLM进行了评估，如MEDITRON、Mistral、InternLM 2、Llama 3、GPT-4和Claude-3.5，发现即使是最高级的模型在这些复杂任务上也存在挑战。为了应对这些局限性，我们开发了MedS-Ins，一个面向医学领域的大型指令调优数据集。MedS-Ins包含了58个医学相关的语言语料库，总计1350万样本，涵盖了122个任务。通过展示该数据集的用途，我们在一个轻量级、开源的医疗语言模型上进行了指令调优实验，结果得到了名为MMedIns-Llama 3的新模型，它在几乎所有临床任务上的表现都超过了现有模型。为了促进对LLMs应用于临床挑战的进一步发展，我们已将MedS-Ins数据集完全公开，并邀请研究社区参与其扩展。此外，我们启动了一个动态排行榜，计划定期更新测试集，以跟踪进展并增强通用LLM在医学领域中的适应能力。排行榜：https://henrychur.github.io/MedS-Bench/。Github：https://github.com/MAGIC-AI4Med/MedS-Ins。
2024-08-22	MEDCO: Medical Education Copilots Based on A Multi-Agent Framework	Hao Wei et.al.	2408.12496	null	大型语言模型（LLMs）在医学和健康领域等多个研究领域产生了重大影响，然而LLMs作为医疗教育中的助手潜力尚未得到充分探索。当前的AI辅助教育工具受限于单一学习方法以及无法模拟实际医疗培训的多学科性和互动性。为了克服这些局限性，我们提出了一种名为MEDCO（Medical EDucation COpilots）的新型多代理助手系统，专门用于模拟真实世界医疗培训环境。MEDCO整合了三个核心代理：一个自主患者、一位专家医生和一位放射科医师，从而构建了一个多模态和互动的学习环境。我们的框架着重于教授高效提问技巧、跨学科协作以及学生之间的同伴讨论。实验结果显示，经过MEDCO训练的虚拟学生不仅实现了与高级模型相媲美的显著性能提升，还展现出类似人类的学习行为和进步，并且学习样本数量增加。这项工作对医疗教育领域做出了贡献，通过引入一种互动和协作的学习方法。此外，它还提供了关于集成AI的训练模式有效性的宝贵见解。
2024-08-22	GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models	Kunsheng Tang et.al.	2408.12494	link	大型语言模型（LLM）在自然语言生成方面展现了惊人的能力，但也被观察到放大了社会偏见，尤其是与性别相关的偏见。针对这一问题，已经提出了若干基准测试来评估LLM中的性别偏见。然而，这些基准测试往往缺乏实际的灵活性或无意中引入了偏见。为了应对这些问题，我们引入了GenderCARE框架，这是一个全面的框架，包括创新的准则、评估、减少技术以及评价指标，旨在量化和减轻LLM中的性别偏见。首先，我们确立了开创性的性别平等基准准则，覆盖了包容性、多样性、可解释性、客观性、稳健性和现实性等多个维度。根据这些准则，我们构建了GenderPair，一个新颖的配对基准，旨在全面评估LLM中的性别偏见。我们的基准提供了标准化且现实的评估，包括以前被忽视的性别群体，如跨性别者和非二元个体。此外，我们开发了有效的去偏技术，包括反事实数据增强和专门的微调策略，以在不损害LLM整体性能的前提下减少性别偏见。广泛的实验表明，在17个不同的LLM上，各种性别偏见基准的显著减少，最高可达超过90%，平均值超过35%。重要的是，这些减少带来的主流语言任务方面的变异性保持在2%以下。通过提供真实性的评估和针对性别偏见的定制减少，我们希望GenderCARE能够代表在LLM中实现公平和公正的一个重要步骤。更多细节请参阅https://github.com/kstanghere/GenderCARE-ccs24。
2024-08-23	Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese	Khang T. Doan et.al.	2408.12480	null	在这份报告中，我们引入了Vintern-1B，这是一个针对越南语任务的可靠的一百亿参数多模态大型语言模型（MLLM）。通过整合Qwen2-0.5B-Instruct语言模型与InternViT-300M-448px视觉模型，Vintern-1B优化了在光学字符识别（OCR）、文档提取和越南语上下文中的通用问题回答等应用。该模型在超过三百万张图像-问题-答案对的数据集上进行了微调，实现了在多个越南语基准测试如OpenViVQA和ViTextVQA上的稳健性能和可靠结果。Vintern-1B足够小，可以轻松地集成到各种离线应用中。此外，我们还开源了几组用于文本和图表的越南语视觉问答（VQA）数据集，使用的是Gemini 1.5 Flash创建的。我们的模型可以在以下链接获取：https://huggingface.co/5CD-AI/Vintern-1B-v2。
2024-08-22	Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action Recognition	Bozheng Li et.al.	2408.12475	null	本文提出了一种新颖的时序序列感知模型（TSAM）以进行少量样本动作识别（FSAR），该模型在预训练框架中引入了序列感知器适配器，旨在整合空间信息和序列时间动态到特征嵌入中。与现有通过探索所有帧之间关系来捕获时间信息的细调方法不同，我们的基于感知器的适配器能够沿时间线递归地捕捉序列动态，并感知顺序变化。为了获取每个类别的判别性表示，我们扩展了从大型语言模型（LLMs）导出的文本库，对视觉原型进行了丰富，通过整合上下文语义信息。此外，我们引入了一种不平衡最优传输策略来进行特征匹配，以减轻与类别无关特征的影响，从而促进更有效的决策。在五个FSAR数据集上的实验结果表明，我们的方法创下了新的基准，与第二好的竞争对手相比取得了显著的优势。
2024-08-22	DLCRec: A Novel Approach for Managing Diversity in LLM-Based Recommender Systems	Jiaju Chen et.al.	2408.12470	null	大型语言模型（LLM）在推荐系统中的集成显著提升了性能，但往往伴随着推荐多样性下降的问题，这可能损害用户体验。为了克服这一挑战，可控推荐系统应运而生，它允许用户指定偏好并获得满足其多样化需求的推荐。尽管具有潜力，现有的可控推荐系统通常依赖于简单机制，如单一提示，来调节多样性，这种做法未能充分捕捉用户偏好的复杂性。针对这些局限性，我们提出了一种名为DLCRec的新框架，旨在实现基于LLM的推荐系统的精细粒度多样性控制。与传统方法不同，DLCRec采用精细任务分解策略，将推荐过程拆分为三个依次进行的子任务：体裁预测、体裁填充和项目预测。这些子任务独立训练并在用户定义的控制数指导下依次推理，确保了对多样性的更精确控制。此外，稀缺且分布不均的多样性相关用户行为数据的缺乏构成了对微调的严峻挑战。为解决这些问题，我们引入了两种数据增强技术，以增强模型对噪声和离群数据的鲁棒性。这些技术使模型接触到更广泛的模式，从而提高其生成不同多样性的推荐的适应性。我们的全面实验结果表明，DLCRec不仅提供了对多样性的精确控制，而且在多个推荐场景中都优于最先进的基线方法。
2024-08-21	SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs	Yuanyang Yin et.al.	2408.11813	null	近期，多模态大型语言模型（MLLMs）在感知和推理能力方面展现出了惊人的表现，它们通常由视觉编码器、适配器和大型语言模型（LLM）组成。适配器作为视觉与语言组件之间的关键桥梁。然而，通过图像级监督训练适配器往往会导致显著的对齐偏差，这会削弱LLM的能力并限制多模态LLM的潜力。为了解决这一问题，我们引入了监督嵌入对齐（SEA），这是一种基于视觉语言预训练模型（如CLIP）的分词级对齐方法，通过对比学习来调整视觉分词与LLM嵌入空间的一致性。这种方法确保了视觉和语言表示之间更协调的整合，从而增强多模态LLM的性能和可解释性，同时保留其固有特性。广泛实验表明，SEA有效地提高了MLLMs，特别是对于较小的模型，无需额外的数据或推理计算。此外，SEA也为开发更通用和适应性强的解决方案以增强多模态系统奠定了基础。
2024-08-21	Story3D-Agent: Exploring 3D Storytelling Visualization with Large Language Models	Yuzhou Huang et.al.	2408.11801	null	传统视觉叙事复杂，需要专业知识和大量资源，但往往受限于人类的创造力与创作精度。尽管大型语言模型（LLMs）增强了视觉叙事能力，现有方法往往局限于二维视觉效果或通过动作合成和行为模拟简化故事，未能生成全面、多维的叙事。为此，我们提出Story3D-Agent，一种创新的方法，利用LLM的能力将提供的叙事转化为三维渲染可视化。通过集成程序建模，我们的方法能够精确控制多角色的动作和动态，以及各种装饰元素，确保长期和动态的三维表现。此外，我们的方法支持通过逻辑推理进行叙事扩展，确保生成的内容与现有条件保持一致。我们对Story3D-Agent进行了详尽的评估，以验证其有效性，并提供了基本框架来推动三维故事表示的发展。
2024-08-21	PermitQA: A Benchmark for Retrieval Augmented Generation in Wind Siting and Permitting domain	Rounak Meyur et.al.	2408.11800	null	在自然语言处理（NLP）和文本生成领域快速发展的背景下，检索增强生成（RAG）的兴起为通过利用用户指定数据库中的信息来提高生成文本的质量和可靠性提供了有前景的途径。基准测试对于评估和比较不同RAG配置在检索器和生成器方面的性能至关重要，提供了这些配置的有效性、可扩展性和特定领域和应用的适用性的洞察。本文提出了一种全面框架，用于生成与特定领域相关的RAG基准。该框架基于自动问题答案生成与人类（领域专家）-人工智能大型语言模型（LLM）协作的自动化过程。以案例研究的形式，我们通过引入PermitQA作为风场选址和许可领域的首个基准进行了框架展示，该基准包含了与风能项目环境影响相关的多篇科学文档/报告。我们的框架系统地使用多种指标和不同复杂度级别的问题类型来评估RAG性能。我们还展示了不同模型在我们的基准上的表现。
2024-08-21	EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model	Feipeng Ma et.al.	2408.11795	null	在多模态研究领域，众多研究利用大量的图像-文本对进行模态对齐学习，将大型语言模型（Large Language Models, LLMs）转化为多模态LLMs，并在各种视觉语言任务上表现出色。目前主要的实现方法分为两类：自注意力基和交叉注意力基方法。自注意力基方法因其简单的多层感知机（MLP）架构而具有较高的数据效率，但在计算效率方面却相对较低，原因在于其需要将视觉和文本令牌作为输入进行连接。而交叉注意力基方法虽然在额外的学习参数方面不如自注意力基方法高效，但由于避免了为LLM提供过长序列输入，因此在计算效率方面表现更高。为了平衡这些权衡，我们提出了数据高效且计算高效的多模态大型语言模型（EE-MLLM）。EE-MLLM在不引入额外模块或可学习参数的情况下，实现了数据和计算效率的提升。具体来说，我们对多模态LLM中的原始自注意力机制进行了改进，引入了一种复合注意力机制。该机制有两个关键特性：1）消除视觉令牌内部的自注意力计算，以实现计算效率；2）重用LLM每一层的权重，以促进视觉与语言之间的有效模态对齐，从而实现数据效率。实验结果表明，EE-MLLM在包括MMBench、SeedBench等通用性数据集以及TextVQA、DocVQA等精细粒度任务在内的多种基准测试中都展现出显著的有效性。
2024-08-21	Leveraging Chemistry Foundation Models to Facilitate Structure Focused Retrieval Augmented Generation in Multi-Agent Workflows for Catalyst and Materials Design	Nathaniel H. Park et.al.	2408.11793	null	分子属性预测和通过深度学习模型进行生成设计是研究的热点领域，这主要归因于它在加速新材料开发方面的潜力。随着大型语言模型（LLMs）和由LLM驱动的代理系统的出现，这些工作流程得到了显著增强，这些系统利用预训练模型在更复杂的研究任务背景下进行预测。尽管有效，但在材料设计任务中的信息检索方面，代理系统仍有改进空间。此外，对预测深度学习模型的替代应用，如利用它们的潜在表示来促进跨模态检索增强生成，在由LLM驱动的代理系统中实现任务特定的材料设计，这一领域尚未得到探索。在此，我们证明了大规模、预训练的化学基础模型可以作为使化学信息检索语义化的基础，适用于小分子、复杂聚合物材料和反应。此外，我们展示了化学基础模型与图像模型（如OpenCLIP）相结合，能够实现跨多个表征数据域的前所未有的查询和信息检索。最后，我们展示了这些系统在多代理系统中的集成，以支持结构和拓扑为基础的自然语言查询和信息检索，从而促进复杂研究任务的执行。
2024-08-21	Critique-out-Loud Reward Models	Zachary Ankner et.al.	2408.11791	link	传统的奖励模型在从人类反馈进行强化学习（RLHF）时，仅用于直接预测偏好分数，而不利用底层大型语言模型（LLM）的生成能力。这限制了奖励模型的能力，因为它们必须通过单一前向传递来隐式地推理响应的质量，即，必须在偏好建模过程中完成推理。为了使奖励模型能够显式地推理响应的质量，我们引入了“口头批评”（CLoud）奖励模型。CLoud奖励模型首先生成对助手响应的自然语言批评，然后使用这些批评来预测响应质量的标量奖励。我们证明了对于Llama-3-8B和70B基础模型，CLoud奖励模型的成功：与经典奖励模型相比，CLoud奖励模型分别在RewardBench上提高了8B和70B基础模型的二元偏好分类准确率4.65和5.84个百分点。此外，当作为Best-of-N评分模型使用时，CLoud奖励模型在ArenaHard上的胜率也实现了帕累托改进。最后，我们探索了如何利用CLoud奖励模型的动态推理计算能力，通过自我一致性解码来进行奖励预测。以上是关于“口头批评”（CLoud）奖励模型的摘要翻译，它展示了这种新型奖励模型在提升强化学习系统性能方面的潜力。
2024-08-21	DreamFactory: Pioneering Multi-Scene Long Video Generation with a Multi-Agent Framework	Zhifei Xie et.al.	2408.11788	null	我们提出了一种名为“DreamFactory”的LLM基框架，它能解决当前视频生成模型在创建长视频时遇到的挑战。DreamFactory通过多智能体协作原则和关键帧迭代设计方法，确保了长视频的一致性和风格统一。它利用链式思维（Chain of Thought，COT）来处理大型语言模型固有的不确定性。DreamFactory能够生成长、风格一致且复杂的视频。对于这些长形式视频的评估提出了挑战。为此，我们提出了新的评估指标，如跨场景面部距离分数和跨场景风格一致性分数。为了促进这一领域的进一步研究，我们贡献了一个包含超过150个由人类评分的多场景视频的多场景视频数据集。
2024-08-21	Personality Alignment of Large Language Models	Minjun Zhu et.al.	2408.11779	link	为了弥补现有大语言模型（LLM）对齐方法在反映人类普遍价值观和行为时的不足，忽视了个体用户独特特征和偏好的问题，我们提出了个性对齐的概念。该方法旨在根据个体用户或紧密关联群体的具体偏好调整LLM的响应与决策。受心理测量学的启发，我们构建了Personality Alignment with Personality Inventories (PAPI) 数据集，包含了30万真实主体的数据，每个主体基于五大人格因素提供行为偏好信息。这一数据集使我们能够定量评估LLM在多大程度上能够与每个主体的行为模式相匹配。鉴于个性对齐面临的挑战：如个人数据有限、偏好多样以及可扩展性需求，我们开发了一种激活干预优化方法。这种方法利用最少的数据和计算资源提高了LLM高效对齐个体行为偏好的能力。我们的方法PAS不仅在性能上超越了DPO，而且优化时间仅为后者的五分之一，具有实际价值，推动了个性化的AI系统决策与推理的发展，增强了与每位用户的交互相关性和意义，促进了以人为本的人工智能的进步。相关代码已发布在https://github.com/zhu-minjun/PAlign。
2024-08-21	Leveraging Fine-Tuned Retrieval-Augmented Generation with Long-Context Support: For 3GPP Standards	Omar Erak et.al.	2408.11775	link	近期的研究揭示了大型语言模型（LLMs）在电信标准方面的技术规范挑战。本文提出了一种基于Phi-2小型语言模型（SLM）的微调检索增强生成（RAG）系统，旨在作为通信网络的权威答案来源。我们开发的系统利用前瞻性的语义分块来动态确定解析断点，依据嵌入相似度进行调整，从而有效处理多种文档格式。针对技术标准中可能出现的多个相似上下文问题，我们采用了重新排名算法以优先考虑最相关的提取片段。考虑到Phi-2的小语境窗口限制，我们引入了一种名为SelfExtend的最新技术，在推理过程中扩展语境窗口，不仅提升了性能，还能适应客户到专业技术人员的各种查询和设计需求。为了微调，我们使用了低秩适配（LoRA）技术，在训练时提高计算效率，并在小数据集上实现有效的微调。我们的全面实验表明，在电信领域对现有问答方法的显著改进，性能超过GPT-4（大约是其规模的880倍）。这项工作展示了利用SLM在通信网络中的新方法，提供了高效性和性能之间的平衡，可作为构建智能语言模型的基础。
2024-08-21	Against All Odds: Overcoming Typology, Script, and Language Confusion in Multilingual Embedding Inversion Attacks	Yiyi Chen et.al.	2408.11749	link	大型语言模型（LLM）面临着来自网络攻击者的恶意影响，如对抗性、后门和嵌入反转攻击。对此，新兴的LLM安全领域致力于研究并防御此类威胁。迄今为止，该领域的大多数工作�

Name		Name	Last commit message	Last commit date
Latest commit History 2,074 Commits
.github/workflows		.github/workflows
assets		assets
docs		docs
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
config.yaml		config.yaml
daily_arxiv.py		daily_arxiv.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Updated on 2024.09.24

agent

llm

About

Releases

Packages

Languages

License

limafang/agent-arxiv-daily

Folders and files

Latest commit

History

Repository files navigation

Updated on 2024.09.24

agent

llm

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages