AI Agent; Can Large Language Model Agents Simulate Human Trust Behavior?
in Llm
Can Large Language Model Agents Simulate Human Trust Behavior?
abstract
LLM이 인간과 유사한 인지 능력을 갖추었다는 가정 하에 여러 연구가 진행되지만, 그 가정은 충분히 검증되지 않았다.
- LLM 에이전트가 실제로 인간의 행동을 시뮬레이션할 수 있는가?
- 이 논문에서는 인간 상호작용에서 중요한 요소인 신뢰에 초점
- LLM 에이전트가 일반적으로 신뢰행동(agent trust)을 보인다는 사실 발견
- GPT-4 에이전트가 신뢰 행동 측면에서 인간과 높은 행동적 일치를 보임
- LLM 에이전트의 신뢰 편향과 다른 LLM 에이전트 및 인간을 향한 신뢰의 차이
- 외부적 조작/고급 추론 전략과 같은 조건에서 LLM 에이전트 신뢰의 내재적 특성 조사
- LLM과 인간 간의 근본적인 유사성에 대한 새로운 통찰력 제공
BDI(Believe-Desire-Intention) 프레임워크
Trust Game
- Dictator Game
- Trust Game과 동일하지만, 신뢰받는 사람이 돈을 돌려줄 수 없다는 것이 유일한 차이점이다. 즉, 보상 기대 효과가 존재하지 않는 게임이다.
Does Agent Trust Align with Human Test?
신뢰 행동이란
- 타인에 대한 긍정적인 기대를 기반으로 자신의 이익을 위험에 처하게 하는 의도를 포함한다.
- 주요 요소로는 보상 기대, 위험 인식, 이타적 성향 등이 있다.
- BDI 프레임워크를 활용하여 LLM 에이전트의 추론 과정을 해석
결과
- GPT-4 에이전트는 인간과 높은 행동적 일치도를 보임
- 파라미터가 적은 LLM 에이전트는 상대적으로 낮은 일치도
1) 보상기대
인간
- Trust Game 평균 $6
- Dictator Game 평균 $3.6
- p-value 0.01, 즉, 보상 기대가 인간의 신뢰 행동을 증가시킨다
GPT-4
- Trust Game 평균 $6.9
- Dictator Game 평균 $6.3
- p-value 0.05, 즉, 보상 기대가 지피티의 신뢰 행동을 증가시킨다 (인간과 동일)
- 독재 게임에서는 인간보다 보내는 금액의 평균이 높다. 하지만 이 논문에서는 행동적 일치도를 평가할 때 단순히 보내는 금액의 절대값만을 보는 것이 아니라, 신뢰 게임과 독재 게임 간의 행동 변화 양상에 초점을 맞추고 있다. 즉 상대적으로 적은 쪽으로 변화했으니 ㅇㅋ!!
- 지피티는 게임의 맥락에 맞는 합리적인 추론 과정을 통해 행동하고 있다.
- 파라미터가 적은 LLM (ex. Llama2-13b)은 Trust Game, Dictator Game에서 차이를 보이지 않았다. 즉, 보상 기대를 인식하지 못한다는걸 의미한다. => GPT-4: 인간과 행동적 일치도 => 모델의 복잡성이 신뢰 행동의 표현에 영향을 미친다.
2) 위험 인식
gpt4: 역시 행동적 일치, 인간의 그래프와 가장 유사
BDI를 분석하여 추론 과정에서 위험을 인식할 수 있는지 탐구한 결과, 높은 위험/낮은 위험 상황에서 위험 변화를 인식하고 있음이 드러남
파라미터가 적은 llm은 x
3) 이타적 성향 인간
- 다른 사람을 신뢰 54%
- 순수 확률을 신뢰 29%
gpt-4
- 다른 사람을 신뢰 72%
- 순수 확률을 신뢰 21%
Vicuna-13b는 이타적 성향을 보이지 않음
Probing Intrinsic Properties of Agent Trust
네 가지 시나리오에서 에이전트 신뢰의 내재적 특성을 탐구
- 상대방의 인구 통계 정보가 에이전트 신뢰에 미치는 영향
여성에게 더 높은 신뢰를 보임 (편향)
- 상대방이 다른 LLM 에이전트일 때와 인간일 때의 신뢰 차이 다른 LLM 에이전트보다 인간을 더 신뢰하는 경향
- “상대방을 신뢰해야 한다”, “신뢰하면 안 된다”와 같은 명시적 지시를 통한 신뢰 조작 에이전트의 신뢰는 강화하기보다는 약화시키기 더 쉽다
- LLM 에이전트의 추론 전략을 직접적 추론에서 제로샷 연쇄사고(Zero-shot CoT)로 변경 고급 추론 전략에 따라 신뢰 행동이 영향을 받는다, 하지만 추가 연구 필요 일부 LLM 에이전트는 보내는 금액에 큰 변화를 보였지만 GPT-4와 같은 고급 모델은 제한적인 변화(0.02)만 보였기 때문