Papotti 和团队尝试使用 QATCH:查询辅助 TRL 检查表来应对这一挑战。给定专有数据和任务(例如语义解析),目标是创建一组测试来衡量 LLM 在他们自己的数据上的质量。唯一需要输入的是输入数据,如下图所示:
输入数据
SQL 可以解决吗?
在上图的第二步中,组织如何生成“良好”的测试?Papotti 和团队直接从他们的表格中创建了自然语言问题和基本事实数据的对,他们专注于查询复杂性和简单文本(即没有歧义、简单的英语)。
在计算指标和评估输出数据时,Papotti 和团队专注于对多个任务进行基准测试(问题答案输出是数据),并且通过语义解析,组织需要非常小心地比较 SQL 脚本(即,SQL 脚本可能有很大差异但具有相同的语义)。数据比较可以为语义解析提供准确的指标,执行正确的 SQL 并在数据上生成 SQL 以比较数据输出。
想要查看团队看到的 ChatGPT 问答结果 塞浦路斯电报数据 以及其他测试的结果吗?婚礼誓言实现了吗?请务必在完整视频中查看有关结合使用 SQL 和 LLM 的全面详细信息:
学硕士简介
获得提供 LLM 基础理解的综合指南,特别关注 Dataiku 的实际商业应用。生成式人工智能是民主化的推动者
2024 年 2 月 19 日
用例和项目,扩展人工智能
道格·布莱恩 |