[Note Title]

Research Goal

발표자의 발화 내용과 발표 맥락에 적절하게 반응하는 AI 청중의 백채널을 생성하기 위해, 비언어 반응의 반응 채널과 시간적 형식, sustained state와 transient state, episode-based unit, 그리고 control 및 recovery rule을 위한 작업적 생성 기준을 정교화한다.

Research Question

RQ1. 발표 상황에서 청중의 비언어 반응은 AI 청중 백채널 생성을 위해 어떤 반응 채널과 시간적 형식으로 조직될 수 있는가?
RQ2. 이러한 청중 반응은 어떤 sustained state와 transient state로 작업적으로 구성될 수 있는가?
RQ3. 복합적 단서를 포함한 청중 반응을 생성 가능한 단위로 다루기 위해 어떤 selection rule, gaze coordination rule, recovery rule, 그리고 boundary rule이 필요한가?

Current Ambiguity

현재 설계한 청중 반응 unit의 작업적 구성 체계는 실질적인 구현과 제어를 위해 구성되었으나, 아직 충분한 문헌적 근거 위에서 체계적으로 정당화되었다고 보기는 어렵다. 특히 실제 발표 맥락에서 청중의 어떤 비언어적 반응이 관찰되는지, 각 반응이 실제 발표 상황에서 발표자에게 어떤 평가적 신호로 해석되는지, 그리고 이러한 행동 단위를 가상 청중에게 적용했을 때 사용자에게 어떤 사회적 태도나 인상으로 지각되는지를 직접적으로 다룬 문헌은 제한적이다. 따라서 현재의 작업적 체계를 보다 근거 있게 정교화하기 위해, 청중 행동에 대한 관찰 기반 연구와 발표 상황에서의 사회적 해석, 가상 에이전트 및 가상 청중의 비언어 행동 지각에 관한 인접 문헌을 함께 검토하여 그 근거를 보강할 필요가 있다.

Backchannel Design Framework for AI Audience Agents

본 노트에서는 AI 청중 에이전트의 백채널 생성과 제어를 위해 청중의 비언어 반응을 두 기준에서 조직한다.
첫째, 반응이 나타나는 주요 채널에 따라 body posture, head movement, facial expression, gaze의 네 채널로 정리한다. 이는 발표 청중 관찰 연구와 가상 청중 지각 연구에서 posture, facial expression, gaze, head movement가 주요 비언어 단서로 반복적으로 다루어진다는 점에 근거한다 (Poeschl & Döring, 2012; Chollet & Scherer, 2017; Etienne et al., 2023). 또한 nonverbal communication 연구는 bodily activity, facial expression and orientation, posture, gaze direction과 같은 여러 측면을 상호작용 속 communicational functioning의 관점에서 다루어 왔으며, 비언어행동이 단일한 현상이라기보다 여러 하위 차원으로 조직될 수 있음을 보여준다 (Kendon, 1981).
둘째, 각 반응은 유지형 배치로 운용되는 sustained state인지, 짧게 발생했다가 종료되는 transient action인지에 따라 시간적 형식으로 구분한다. 이 두 번째 구분은 선행연구의 직접 범주를 그대로 따르기보다, 청중 반응을 생성 가능한 시간 단위로 조직하기 위해 본 연구에서 설정한 작업적 구분이다.

Working Criteria

Channel-based units

Channel Categories

Channel Categories는 청중 반응을 어떤 비언어 채널을 중심으로 생성하고 제어할지를 정리하기 위한 채널 수준의 작업적 구성 체계이다.

Category	Operational Definition	Parameters	Generation Principle
Body posture	몸통·상체·팔의 상대적 배치와 정렬을 통해 드러나는 반응.	trunk alignment, lean direction, body orientation, arm placement	반응의 핵심 의미가 torso와 arm placement를 중심으로 한 자세 구성에 있을 때, 해당 반응은 body posture 중심으로 생성한다.
Head movement	머리의 짧고 국소적인 운동 또는 orientation 변화로 드러나는 반응.	nod pattern, shake pattern, tilt / dip pattern, turn / orientation shift	반응의 핵심이 머리의 짧은 국소 운동이나 orientation 변화에 있을 때, 해당 반응은 head movement 중심으로 생성한다.
Facial expression	얼굴의 상안면·하안면 구성 변화로 실현되는 반응.	brow configuration, periocular configuration, mouth configuration, jaw configuration	반응의 핵심이 얼굴의 형태적 변화에 있을 때, 해당 반응은 facial expression 중심으로 생성한다.
Gaze	행위 수행 자체가 아니라 시선의 대상과 유지 시간, 그리고 대상 간 전환 패턴으로 드러나는 반응.	gaze target, dwell duration, alternation pattern	반응의 핵심이 시선의 대상, 유지 시간, 대상 간 전환 패턴에 있을 때, 해당 반응은 gaze 중심으로 생성한다.

Channel Parameters

Channel Parameters는 각 채널 내부에서 실제 state unit 및 action unit을 설계하기 위한 parameter level의 작업적 축이다. 아래 항목은 상호배타적인 최종 state 목록이 아니라, clip을 조합하고 naming rule을 정리하기 위한 구성 요소이다.

Body Posture Parameters

Parameter	Operational Meaning	Typical Value	Notes for Generation
Trunk alignment	몸통의 전반적 세움 정도와 처짐 정도를 나타내는 축.	upright	기본 attentive posture와 안정된 청취 상태에 사용한다.
Trunk alignment	몸통의 전반적 세움 정도와 처짐 정도를 나타내는 축.	slumped	낮은 에너지, 피로, reduced engagement 상태에 사용한다.
Lean direction	몸통이 전후 방향으로 기울어지는 정도를 나타내는 축.	neutral	기본적인 청취 자세를 유지하는 상태에 사용한다.
		forward	집중, 높은 attentiveness, 적극적 내용 추적 상태에 사용한다.
		backward	심리적 거리두기, reduced engagement, reserve 상태에 사용한다.
Body orientation	몸통이 발표자를 정면으로 향하는지, 부분적으로 옆으로 틀어지는지를 나타내는 축.	toward speaker	발표자 중심의 attention을 유지하는 상태에 사용한다.
Body orientation	몸통이 발표자를 정면으로 향하는지, 부분적으로 옆으로 틀어지는지를 나타내는 축.	side-oriented	부분적 social diversion 또는 발표자로부터의 orientation shift를 표현할 때 사용한다.
Arm placement	팔의 기본 위치와 배치를 통해 드러나는 자세 구성.	open	개방적이고 안정된 청취 상태에 사용한다.
Arm placement	팔의 기본 위치와 배치를 통해 드러나는 자세 구성.	crossed	reserve, closure, defensive stance를 표현할 때 사용한다.

Head Movement Parameters

Parameter	Operational Meaning	Typical Value	Notes for Generation
Nod pattern	이해, 동의, 내용 추적과 관련된 상하 운동 패턴.	single nod	짧은 동의나 이해 신호에 사용한다.
Nod pattern	이해, 동의, 내용 추적과 관련된 상하 운동 패턴.	repeated nod	연속적 내용 추적이나 적극적 동의 반응에 사용한다.
Shake pattern	부정, 의문, 비동의와 관련된 좌우 운동 패턴.	brief shake	가벼운 의문이나 불일치 반응에 사용한다.
Tilt pattern	고개를 한쪽으로 기울여 약한 의문이나 판단 유보를 드러내는 패턴.	brief tilt	약한 의문이나 판단 유보 반응에 사용한다.
Tilt pattern	고개를 한쪽으로 기울여 약한 의문이나 판단 유보를 드러내는 패턴.	tilt hold	지속적인 의문이나 판단 유보 상태에 사용한다.
Downward dip	고개를 아래로 짧게 내리는 국소적 움직임.	brief dip	일시적 망설임이나 순간적 처리 부담 반응에 사용한다.
Turn / orientation shift	발표자 또는 정면으로부터 머리 방향이 부분적으로 이동하는 패턴.	brief turn	순간적 attention shift나 짧은 방향 전환 반응에 사용한다.
Turn / orientation shift	발표자 또는 정면으로부터 머리 방향이 부분적으로 이동하는 패턴.	held turn	지속적 orientation shift 또는 부분적 disengagement 상태에 사용한다.

Facial Expression Parameters

Facial expression parameters are not an exhaustive list of mutually exclusive final expressions, but a working set of parameter-level axes for constructing evaluative facial responses in audience agents. Each facial response form is composed through the combination of brow, periocular, mouth, and jaw parameters, and a higher-level state can be realized through the combination of multiple lower-level facial cues.

Parameter	Operational Meaning	Typical Value	Notes for Generation
Brow configuration	눈썹의 상승 또는 찌푸림을 통해 드러나는 상안면 변화.	neutral	중립적 경청이나 기본 attentive state를 유지하는 상태에 사용한다.
		raised	주의 고조, 가벼운 의문, 반응성 증가 반응에 사용한다.
		lowered-furrowed	난이도 지각, 긴장, 부정적 평가 반응에 사용한다.
Periocular configuration	눈둘레의 열림 또는 긴장을 통해 드러나는 변화.	neutral	기본 경청과 attentive state에 사용한다.
		widened	주의 환기, 순간적 놀람, 반응성 증가 반응에 사용한다.
		tightened	긴장, 노력, 불편, 비판적 주의 반응에 사용한다.
Mouth configuration	입 주변의 상승 또는 하강을 통해 드러나는 하안면 변화.	neutral	기본 경청과 정서적 중립 상태에 사용한다.
		raised	긍정적 수용, 호의, 동조 반응에 사용한다.
		lowered	부정적 반응, 실망, 불만족 반응에 사용한다.
Jaw configuration	턱의 닫힘과 하강 정도를 통해 드러나는 하안면 변화.	closed	기본적이고 안정된 상태에 사용한다.
		slightly open	머뭇거림, 약한 놀람, 낮은 수준의 불편 반응에 사용한다.
		dropped	강한 놀람, 당혹, 반응 중단 상태에 사용한다.

Gaze Parameters

Parameter	Operational Meaning	Typical Value	Notes for Generation
Gaze target	시선이 향하는 주 대상을 나타내는 축.	speaker	발표자 중심의 attention 상태에 사용한다.
		slides/display	시각 자료 추적 상태에 사용한다.
		elsewhere	발표 관련 대상에서 이탈한 상태에 사용한다.
Dwell duration	특정 target에 시선이 머무는 지속 시간을 나타내는 축.	brief	짧은 attention shift나 brief aversion 반응에 사용한다.
Dwell duration	특정 target에 시선이 머무는 지속 시간을 나타내는 축.	sustained	유지형 attention 상태 또는 sustained looking-away 상태에 사용한다.
Alternation pattern	둘 이상의 target 사이를 번갈아 보는 패턴.	speaker ↔ slides/display	발표자와 시각 자료를 함께 추적하는 일반 청취 상태에 사용한다.
Alternation pattern	둘 이상의 target 사이를 번갈아 보는 패턴.	irregular scan	안정된 추적보다 분산된 시선 이동이 필요한 상태에 사용한다.

Literature Basis

Body posture. Pöschl & Döring (2012)은 발표를 듣는 청중의 비언어 행동 중 posture를 독립 차원으로 다루며 sitting upright, leaning forward, leaning back with folded arms, turning the upper part of the body sideways와 같은 자세를 제시하였다. Kang (2016)은 이를 더 세분화하여 torso upright, torso forward, torso backward, torso back in the chair, torso bent forward와 같은 torso 정렬 변화와, arms crossed, chin/cheek touch, supporting head, neck touch와 같은 arm/hand-related posture cue를 구분해 코딩하였다. 본 연구는 이러한 근거를 바탕으로 body posture를 trunk alignment, lean direction, body orientation, arm placement의 parameter level로 재구성하였다. 이때 arm placement는 팔의 기본 배치와 자세 구성을 구분해 다루기 위한 작업적 축으로 설정하였다.
Head movement. Kang (2016)은 발표 상황의 청중 posture coding에서 head를 body와 분리된 부위로 다루며 head up, head turn, head down, head tilt, head nod, head shake를 독립적으로 코딩하였다. 또한 de Kok and Heylen (2012)과 Ondáš et al. (2023)은 listener response 및 backchannel에서 nod와 shake를 대표적인 비언어 신호로 제시하였다. 이에 따라 본 연구는 head movement를 body posture와 구분되는 독립 채널로 두고, nod pattern, shake pattern, tilt pattern, downward dip, turn / orientation shift를 parameter level에서 정리한다. 이때 nod와 shake는 짧은 반응성 운동 패턴으로, tilt와 turn은 짧은 움직임과 유지형 orientation 변화 모두를 포함하는 head cue로 다룬다.
Facial expression. Facial expression은 비언어 커뮤니케이션의 한 채널로, 감정 표현과 대인적 태도 전달에 중요한 역할을 한다. 특히 사회적 상호작용에서 얼굴은 back-channel signal의 일부로 기능한다 (Argyle, 1988). FACS 계열 연구는 facial expression을 관찰 가능한 facial action과 그 조합을 중심으로 기술하며, brow, lid/eye region, mouth, jaw와 관련된 appearance change와 movement를 세분화해 다룬다 (Rosenberg & Ekman, 2020). 이에 따라 본 연구는 이러한 facial action 기술을 바탕으로, 발표를 듣는 청중 백채널 생성에 필요한 작업적 parameter level에서 facial expression을 재조직한다. brow configuration, periocular configuration, mouth configuration, jaw configuration을 중심으로 구성하며, 이러한 형태 단위는 발표 맥락 속 평가적 의미와 연결되는 생성 단위로 사용한다.
Gaze. Bavelas et al. (2002)는 listener responses를 협력적 과정으로 보며 gaze의 역할을 강조하였고, Degutyte and Astell (2021)은 eye gaze가 speech monitoring, backchannel, turn management와 관련됨을 정리하였다. 또한 발표 상황 및 virtual audience 연구에서는 청중의 gaze direction이 발표자 및 시각 자료에 대한 attention과 engagement를 드러내는 주요 단서로 다루어진다 (Kang, 2016; Ristorcelli et al., 2024). 이에 따라 본 연구는 gaze를 speaker, slides/display, elsewhere를 중심으로 한 gaze target, dwell duration, alternation pattern의 parameter level에서 정리한다. 다만 note taking, typing, device checking과 같이 시선이 명시적 과업 수행에 종속되는 경우에는 독립 gaze보다 action episode의 일부로 우선 처리한다.

Episode-based units

Episode Categories

Episode Categories는 단일 channel parameter로 충분히 표현되지 않는 복합 transient action을 독립적인 생성 단위로 다루기 위한 episode 기반의 작업적 구성 체계이다. 이 범주에서는 시선, 머리, 손, 자세 변화가 결합될 수 있으나, 분류와 생성의 기준은 표면적 움직임 자체가 아니라 해당 행동이 수행하는 주된 목적과 기능에 있다.

Episode Type	Operational Definition	Typical Example	Generation Rule
Task-driven episode	특정 과업 수행이나 기록 목적이 중심이 되는 짧은 행동 episode. 동반되는 gaze, hand movement, posture shift가 있더라도 핵심 정보는 note taking, typing, device use, recording behavior에 있다.	ACT_noteTaking	발표 내용을 기록하거나 후속 참조를 위해 남기려는 목적이 우세할 때 생성한다.
		ACT_typing	디지털 기기를 통해 내용을 기록하거나 정리하려는 목적이 우세할 때 생성한다.
		ACT_deviceChecking	발표 흐름에서 주의가 이탈하여 개인 기기 확인으로 전환된 상태를 표현해야 할 때 생성한다.
		ACT_photographingSlides	슬라이드 내용을 보존하거나 이후 확인하려는 기록 목적이 우세할 때 생성한다.
Object-handling episode	발표 청취와 직접 관련되지 않은 물건 조작이나 주변 사물 정리를 중심으로 나타나는 짧은 행동 episode.	ACT_objectHandling	주의 분산, 안절부절, 또는 주변 사물 조작이 핵심 기능으로 나타날 때 생성한다.
Social side-action episode	발표자 이외의 대상과의 짧은 상호작용이나 측면적 사회 행동으로 나타나는 episode.	ACT_sideConversation	옆 사람과의 짧은 사회적 교환이 발표 청취보다 우세한 상황을 표현할 때 생성한다.
Social side-action episode	발표자 이외의 대상과의 짧은 상호작용이나 측면적 사회 행동으로 나타나는 episode.	ACT_whispering	국소적이고 은밀한 측면 상호작용이 발생한 상황을 표현할 때 생성한다.
Physiological interruption episode	생리적 필요나 신체 상태 변화에서 비롯되는 짧은 interruption episode.	ACT_yawn	피로 또는 각성 저하로 인해 청취가 일시적으로 중단되는 상태를 표현할 때 생성한다.
Physiological interruption episode	생리적 필요나 신체 상태 변화에서 비롯되는 짧은 interruption episode.	ACT_cough	생리적 interruption으로 인해 청취 흐름이 잠시 끊기는 상태를 표현할 때 생성한다.
Self-regulatory adjustment episode	자세를 재조정하거나 불편을 완화하기 위해 발생하는 짧은 자기조절 행동 episode.	ACT_fidgeting	긴장, 불편, 안절부절과 같은 자기조절 필요가 우세할 때 생성한다.
		ACT_briefSelfTouch	짧은 자기접촉을 통한 긴장 완화 또는 자기안정화가 필요할 때 생성한다.
		ACT_seatAdjustment	착석 자세의 불편을 줄이거나 청취 자세를 재정렬하려는 목적이 우세할 때 생성한다.

Literature Basis

Episode types. 관찰 기반 발표 청중 연구는 note taking, electronic device use, talking to a neighbor, moving objects around, fidgeting과 같은 복합 행동이 attention / inattention 패턴을 구성함을 보여준다 (Tudor et al., 2013). 또한 Pöschl & Döring (2012)은 발표를 듣는 청중의 행동으로 turning to the neighbor and start talking, taking notes for a long time와 같은 복합 행동 패턴을 보고하였다. 본 연구는 이러한 행동이 단일 channel parameter보다 여러 비언어 요소가 결합된 episode로 실현된다고 보고, 이를 별도의 action episode 단위로 조직한다. 이에 따라 note taking, device use, side conversation과 같이 행위 자체가 지배적인 경우에는 episode category로 다루고, nod, shake, smile, gaze aversion처럼 특정 채널의 signal로 직접 실현되는 경우에는 channel-based response form으로 다룬다.

Implementation Principle for Runtime Composition

본 시스템은 청중 반응을 매 순간 무에서 새로 생성하는 fully generative motion synthesis를 직접 구현하기보다, 사전 제작된 body, head, and facial basis unit과 runtime gaze control, transient overlay rule을 조합하는 semi-generative composition 구조를 채택한다.

여기서 runtime generation은 완전히 새로운 motion을 매 순간 합성한다는 뜻이 아니라, appraisal 결과와 발표 맥락에 따라 basis unit의 selection, weighting, transition, and overlay를 실시간으로 제어한다는 뜻이다. 이를 통해 구현 안정성과 제어 가능성을 유지하면서도, 단순한 fixed clip playback보다 더 유연하고 맥락 반응적인 청중 행동 생성을 지향한다.

Response Forms

Response Forms는 실제 생성에 사용하는 response unit을 정리한 표이다. Sustained state는 일정 시간 유지되는 청취 상태를 나타내며, transient action은 짧게 발생했다가 종료되는 반응성 움직임 또는 interruption unit을 포함한다. Episode column은 각 unit이 속하는 상위 행동 범주를 나타낸다.

Sustained Response Forms

Sustained Response Forms는 몸 자세, 머리 방향, 얼굴 표정이 비교적 안정적으로 유지되는 기본 청중 상태를 나타낸다. 다만 각 sustained state는 하나의 고정된 전신 표현이라기보다, 여러 비언어 요소의 조합을 통해 실현되는 상위 상태 단위이다.

Unit ID	Body	Head	Facial	Temporal Profile	Generation Rule
STATE_upright_neutral	upright + neutral + toward speaker + open	neutral	brow neutral + periocular neutral + mouth neutral + jaw closed	hold	기본 attentive baseline이 필요할 때 생성한다.
STATE_forwardLean_neutral	upright + forward + toward speaker + open	neutral	brow neutral + periocular neutral + mouth neutral + jaw closed	hold	집중도와 attentiveness가 높은 청취 상태를 표현할 때 생성한다.
STATE_upright_positive	upright + neutral + toward speaker + open	neutral	brow neutral + periocular neutral + mouth raised + jaw closed	hold	호의적 수용이나 긍정적 평가가 약하게 지속되는 상태를 표현할 때 생성한다.
STATE_forwardLean_positive	upright + forward + toward speaker + open	neutral	brow neutral + periocular widened + mouth raised + jaw closed	hold	높은 관심과 긍정적 수용이 함께 나타나는 상태를 표현할 때 생성한다.
STATE_upright_questioning	upright + neutral + toward speaker + open	tilt hold	brow raised + periocular neutral + mouth neutral + jaw slightly open	hold	약한 의문이나 판단 유보가 지속되는 상태를 표현할 때 생성한다.
STATE_forwardLean_questioning	upright + forward + toward speaker + open	tilt hold	brow raised + periocular tightened + mouth neutral + jaw slightly open	hold	내용을 적극적으로 따라가지만 완전히 납득하지는 못한 상태를 표현할 때 생성한다.
STATE_upright_strained	upright + neutral + toward speaker + open	neutral	brow lowered-furrowed + periocular tightened + mouth neutral + jaw closed	hold	인지적 부담이나 긴장이 지속되는 상태를 표현할 때 생성한다.
STATE_forwardLean_strained	upright + forward + toward speaker + open	neutral	brow lowered-furrowed + periocular tightened + mouth neutral + jaw slightly open	hold	내용을 따라가려 노력하지만 부담이 느껴지는 상태를 표현할 때 생성한다.
STATE_backward_reserved	upright + backward + toward speaker + crossed	neutral	brow neutral + periocular tightened + mouth lowered + jaw closed	hold	수용보다는 거리두기와 reserve가 우세한 상태를 표현할 때 생성한다.
STATE_sideOriented_disengaged	upright + neutral + side-oriented + open	held turn	brow neutral + periocular neutral + mouth neutral + jaw closed	hold	발표자로부터 attention이 부분적으로 이탈한 상태를 표현할 때 생성한다.
STATE_slumped_fatigued	slumped + backward + toward speaker + open	neutral	brow neutral + periocular neutral/tightened + mouth neutral + jaw slightly open	hold	피로와 reduced engagement가 지속되는 상태를 표현할 때 생성한다.

Gaze Modes for Sustained States

Gaze mode는 sustained state와 함께 운용되는 시선 규칙이다. gaze는 별도의 상태 항목으로 고정하기보다, 동일한 sustained state 위에서 서로 다른 target rule을 적용하는 방식으로 다룬다.

Gaze Mode ID	Operational Definition	Typical Use
GAZE_atSpeaker	발표자를 주 시선 대상으로 유지한다.	발표자의 말과 비언어 표현에 attention이 집중될 때 사용한다.
GAZE_atSlides	슬라이드/디스플레이를 주 시선 대상으로 유지한다.	시각 자료의 정보 확인과 내용 추적이 우세할 때 사용한다.
GAZE_alternatingSpeakerSlides	발표자와 슬라이드를 번갈아 본다. 한 대상을 오래 고정하지 않고 발표자 → 슬라이드 → 발표자 식으로 천천히 왕복한다.	일반적 청취 상태나 발표자와 시각 자료를 함께 추적하는 상태에 사용한다.
GAZE_away	발표자와 슬라이드 모두에서 시선이 이탈한 상태를 유지한다.	attention disengagement, fatigue, social diversion 상태에 사용한다.

Gaze Coordination Rules

동일한 sustained state에 있는 에이전트라도 gaze target은 동일한 시점에 동일하게 바뀌지 않도록 분산 제어한다. 이를 통해 청중 전체가 동시에 같은 대상을 바라보는 부자연스러운 동시성을 피한다.

Rule	Operational Definition	Implementation Note
Target ratio	현재 순간에 청중 중 몇 %가 발표자, 슬라이드, 혹은 away를 볼지를 비율로 정한다.	예: baseline에서는 speaker / slides / alternating / away 비율을 다르게 설정한다.
Reaction delay	모든 agent가 동시에 gaze target을 바꾸지 않도록 각 agent마다 서로 다른 전환 지연값을 둔다.	동일 이벤트가 들어와도 agent별로 0.2초, 0.8초, 1.4초처럼 다른 시점에 반응하게 한다.
Minimum hold time	한 번 선택된 gaze target은 최소 시간 동안 유지되도록 한다.	지나치게 잦은 target switching을 막고 안정된 청중 시선 리듬을 만든다.
Agent variation	agent마다 speaker preference, slides preference, alternation speed, attention stability를 다르게 둔다.	같은 state 안에서도 서로 다른 시선 패턴이 나오도록 만든다.

Transient Response Forms

Transient Response Forms는 짧게 발생했다가 종료되는 반응 단위를 정리한 표이다. 여기에는 단일 channel parameter의 조합으로 구성된 transient state와, 복합적 행위 episode를 기반으로 한 transient state를 모두 포함한다. 이때 일부 transient는 기존 sustained state 위에 짧게 덧입혀지는 overlay signal로 작동하며, 다른 일부는 독립적인 episode 단위로 발생한 뒤 종료된다.

Unit ID	Body	Head	Gaze	Facial	Episode	Temporal Profile	Generation Rule
STATE_singleNod_neutral	maintained listening posture	single nod	atSpeaker or alternatingSpeakerSlides	neutral	-	brief burst	짧은 이해, 수용, 내용 추적 신호가 필요할 때 생성한다.
STATE_repeatedNod_positive	maintained listening posture	repeated nod	atSpeaker	mouth slightly raised	-	brief repeated burst	적극적 동의나 강한 내용 추적 반응이 필요할 때 생성한다.
STATE_briefShake_negative	maintained listening posture	brief shake	atSpeaker	mouth neutral or slightly lowered	-	brief burst	가벼운 불일치, 부정적 판단, 납득 어려움을 표현할 때 생성한다.
STATE_briefTilt_questioning	maintained listening posture	brief tilt	atSpeaker or atSlides	brow raised + mouth neutral	-	brief burst	약한 의문이나 판단 유보가 순간적으로 나타날 때 생성한다.
STATE_briefDip_strained	maintained listening posture	brief downward dip	momentary downward shift	brow lowered-furrowed or neutral	-	brief burst	순간적 처리 부담이나 인지적 중단이 필요할 때 생성한다.
STATE_briefTurnAway_neutral	maintained listening posture	brief turn	away	neutral	-	brief burst	순간적 attention shift나 짧은 방향 전환이 필요할 때 생성한다.
STATE_noteTaking	writing-related posture	brief downward dip or slight downward tilt	downward / note-focused	neutral or mildly concentrated	ACT_noteTaking	task episode	발표 내용을 기록하거나 후속 참조를 위해 남기려는 목적이 우세할 때 생성한다.
STATE_typing	device-use posture	slight downward orientation	device-focused	neutral	ACT_typing	task episode	디지털 기기를 통해 내용을 기록하거나 정리하려는 목적이 우세할 때 생성한다.
STATE_deviceChecking	brief device-check posture	brief turn or downward dip	device-focused	neutral	ACT_deviceChecking	brief episode	발표 흐름에서 주의가 이탈하여 개인 기기 확인으로 전환된 상태를 표현할 때 생성한다.
STATE_photographingSlides	slide-recording posture	forward or slightly upward orientation	atSlides	neutral	ACT_photographingSlides	brief recording episode	슬라이드 내용을 보존하거나 이후 확인하려는 기록 목적이 우세할 때 생성한다.
STATE_objectHandling	object-manipulation posture	variable	object-focused	neutral	ACT_objectHandling	brief manipulation episode	주의 분산, 안절부절, 또는 주변 사물 조작이 핵심 기능으로 나타날 때 생성한다.
STATE_sideConversation	side-oriented interaction posture	brief turn toward neighbor	neighbor-focused	neutral or mildly expressive	ACT_sideConversation	short social episode	옆 사람과의 짧은 사회적 교환이 발표 청취보다 우세한 상황을 표현할 때 생성한다.
STATE_whispering	low-amplitude side-interaction posture	brief turn toward neighbor	neighbor-focused	low-intensity mouth movement	ACT_whispering	brief low-amplitude social episode	국소적이고 은밀한 측면 상호작용이 발생한 상황을 표현할 때 생성한다.
STATE_yawn	fatigue-linked interruption posture	head tilt back or jaw-led opening pattern	temporarily unfocused	jaw dropped / mouth opened	ACT_yawn	brief physiological interruption	피로 또는 각성 저하로 인해 청취가 일시적으로 중단되는 상태를 표현할 때 생성한다.
STATE_cough	brief contracted interruption posture	brief downward dip	momentary aversion or downward	mouth compressed then opened briefly	ACT_cough	brief physiological interruption	생리적 interruption으로 인해 청취 흐름이 잠시 끊기는 상태를 표현할 때 생성한다.
STATE_fidgeting	micro-adjusting posture	neutral or variable micro-movement	variable	neutral or mildly tense	ACT_fidgeting	repeated short burst	긴장, 불편, 안절부절과 같은 자기조절 필요가 우세할 때 생성한다.
STATE_briefSelfTouch	brief self-soothing posture	slight downward dip or stillness	briefly downward or unfocused	neutral or mildly tense	ACT_briefSelfTouch	brief self-regulatory episode	짧은 자기접촉을 통한 긴장 완화 또는 자기안정화가 필요할 때 생성한다.
STATE_seatAdjustment	seat-repositioning posture	neutral	variable	neutral	ACT_seatAdjustment	brief re-positioning episode	착석 자세의 불편을 줄이거나 청취 자세를 재정렬하려는 목적이 우세할 때 생성한다.

Transient Unit Rules

Transient response는 독립 transient와 파생 transient로 구분한다. 독립 transient는 episode 자체가 반응의 중심 의미를 이루는 경우이며, 파생 transient는 기존 sustained state를 대체하지 않고 그 위에 짧게 덧입혀지는 overlay signal이다.

Transient Type	Definition	Typical Forms	Operational Rule
Independent transient	행위 자체가 반응의 핵심 의미를 구성하는 transient.	STATE_noteTaking, STATE_typing, STATE_deviceChecking, STATE_photographingSlides, STATE_objectHandling, STATE_sideConversation, STATE_whispering, STATE_yawn, STATE_cough, STATE_fidgeting, STATE_briefSelfTouch, STATE_seatAdjustment	독립적인 clip unit으로 다루며, onset, duration, recovery rule을 별도로 가진다.
Derived transient	기존 sustained state 위에 짧게 덧입혀지는 overlay-type transient.	STATE_singleNod_neutral, STATE_repeatedNod_positive, STATE_briefShake_negative, STATE_briefTilt_questioning, STATE_briefDip_strained, STATE_briefTurnAway_neutral	기본 sustained state를 대체하지 않고, 상위 state의 짧은 modulation 또는 overlay로 처리한다.

Sustained State Boundary Rules

sustained state는 단순히 자세 차이만으로 분리하지 않고, engagement direction, evaluative stance, and bodily organization이 함께 달라질 때만 별도 state로 유지한다.

State Pair	Boundary Criterion	Interpretive Difference
STATE_upright_strained vs STATE_forwardLean_strained	lean direction이 다르고, engagement intensity가 다를 때 분리한다.	upright_strained는 부담은 있으나 기본 자세를 유지하는 상태이고, forwardLean_strained는 이해하려는 관여가 더 강한 상태이다.
STATE_forwardLean_strained vs STATE_backward_reserved	인지적 관여의 방향이 다를 때 분리한다.	forwardLean_strained는 따라가려는 긴장이고, backward_reserved는 거리두며 판단을 보류하는 상태이다.
STATE_backward_reserved vs STATE_sideOriented_disengaged	attention target과 body orientation이 다를 때 분리한다.	backward_reserved는 발표를 계속 의식하지만 거리두는 상태이고, sideOriented_disengaged는 attention이 부분적으로 다른 방향으로 이탈한 상태이다.
STATE_sideOriented_disengaged vs STATE_slumped_fatigued	orientation shift와 fatigue cue의 중심성이 다를 때 분리한다.	sideOriented_disengaged는 사회적/주의적 이탈이 중심이고, slumped_fatigued는 에너지 저하와 피로가 중심이다.

Default Gaze Priors by Sustained State

각 sustained state는 기본적인 gaze distribution prior를 가진다. 이는 개별 agent의 gaze mode를 샘플링할 때 초기 확률로 사용되며, 실제 runtime에서는 coordination rule에 따라 agent별로 분산 적용된다.

Sustained State	Speaker	Slides	Alternating	Away	Interpretive Bias
STATE_upright_neutral	0.25	0.20	0.45	0.10	일반적 청취 baseline
STATE_forwardLean_neutral	0.35	0.20	0.40	0.05	높은 attentiveness
STATE_upright_positive	0.50	0.10	0.30	0.10	발표자 수용적 태도
STATE_forwardLean_positive	0.55	0.10	0.30	0.05	높은 관심과 수용
STATE_upright_questioning	0.40	0.20	0.30	0.10	발표자 중심의 약한 의문
STATE_forwardLean_questioning	0.20	0.40	0.30	0.10	슬라이드 검토 중심의 의문
STATE_upright_strained	0.35	0.25	0.25	0.15	인지적 부담
STATE_forwardLean_strained	0.25	0.35	0.25	0.15	따라가려는 긴장
STATE_backward_reserved	0.20	0.10	0.20	0.50	거리두기와 보류
STATE_sideOriented_disengaged	0.10	0.10	0.15	0.65	부분적 attention 이탈
STATE_slumped_fatigued	0.10	0.20	0.15	0.55	피로 중심 disengagement

Recovery and Return-to-Base Rules

transient response가 종료된 뒤에는 직전 sustained state 또는 규칙에 의해 지정된 후속 sustained state로 복귀한다. recovery rule은 transient의 유형에 따라 다르게 적용된다.

Transient Type	Recovery Rule	Typical Example
Derived transient	종료 후 직전 sustained state로 복귀한다.	STATE_briefTilt_questioning → previous sustained state
Independent transient / task	종료 후 직전 sustained state로 복귀하되, task duration이 길 경우 gaze prior를 재샘플링한다.	STATE_noteTaking → previous sustained state
Independent transient / physiological interruption	종료 후 직전 sustained state 또는 fatigue-related sustained state로 복귀한다.	STATE_yawn → STATE_slumped_fatigued or previous sustained state
Independent transient / self-regulatory adjustment	종료 후 직전 sustained state로 복귀하되, 필요시 strained 계열 state를 유지한다.	STATE_briefSelfTouch → STATE_upright_strained
Independent transient / social diversion	종료 후 attention recovery 여부에 따라 previous sustained state 또는 sideOriented_disengaged로 복귀한다.	STATE_sideConversation → STATE_sideOriented_disengaged or previous sustained state

Open Questions

이제 이 반응 체계를 발표 구조 단계와 연결해야 한다. 각 단계에서 어떤 appraisal objective와 기능군이 우세한지, 그에 따라 어떤 sustained state와 transient가 기본적으로 선택되어야 하는지를 정리할 필요가 있다. 또한 발표 구조 단계만으로는 충분하지 않고, 실제 생성 규칙에는 발표 내용 단서와 발화 단서가 함께 들어가야 한다. 즉 발표가 어떤 구조 단계에 있는가뿐 아니라, 제시된 내용이 청중에게 어떻게 평가되는지, 그리고 그 발화가 hesitation, emphasis, pause, disfluency, completion과 같은 어떤 발화 단서를 포함하는지까지 함께 고려해야 한다.

Next Step

다음 단계에서는 발표 구조 단계에 따른 appraisal–backchannel 연결 규칙을 후속 노트에서 정리한다. 발표 구조 단계, 발표 내용 단서, 발화 단서를 함께 고려해 어떤 sustained state와 transient가 선택되고 전환되어야 하는지 연결 규칙을 정리할 필요가 있다.

References

Argyle, M. (1988). Bodily communication (2nd ed.). London: Routledge.
Bavelas, J. B., Coates, L., & Johnson, T. (2002). Listener responses as a collaborative process: The role of gaze. Journal of Communication, 52(3), 566–580. https://doi.org/10.1111/j.1460-2466.2002.tb02562.x
Chollet, M., & Scherer, S. (2017). Perception of virtual audiences. IEEE Computer Graphics and Applications, 37(4), 50–59. https://doi.org/10.1109/MCG.2017.3271465
de Kok, I., & Heylen, D. (2012). Analyzing nonverbal listener responses using parallel recordings of multiple listeners. Cognitive Processing, 13(Suppl 2), 499–506. https://doi.org/10.1007/s10339-012-0434-3
Degutyte, Z., & Astell, A. (2021). The role of eye gaze in regulating turn taking in conversations: A systematized review of methods and findings. Frontiers in Psychology, 12, 616471. https://doi.org/10.3389/fpsyg.2021.616471
Etienne, E., Leclercq, A.-L., Remacle, A., Dessart, L., & Schyns, M. (2023). Perception of avatars nonverbal behaviors in virtual reality. Psychology & Marketing, 40(11), 2464–2481. https://doi.org/10.1002/mar.21871
Kang, N. (2016). Public speaking in virtual reality: Audience design and speaker experiences (Doctoral thesis, Delft University of Technology). https://doi.org/10.4233/uuid:e920dec8-2b71-4377-bc0f-8f9c950fff42
Ondáš, S., Kiktová, E., Pleva, M., & Juhár, J. (2023). Analysis of backchannel inviting cues in dyadic speech communication. Electronics, 12(17), 3705. https://doi.org/10.3390/electronics12173705
Poeschl, S., & Doering, N. (2012). Designing virtual audiences for fear of public speaking training: An observation study on realistic nonverbal behavior. Annual Review of Cybertherapy and Telemedicine, 181, 218–222. https://doi.org/10.3233/978-1-61499-121-2-218
Ristorcelli, M., D’Ambra, A., Pergandi, J.-M., Casanova, R., Ochs, M., Torre, I., Volpe, G., & Conati, C. (2024). Impact of the nonverbal behavior of virtual audience on users’ perception of social attitudes. Proceedings of the International Conference on Advanced Visual Interfaces, AVI 2024, 1–9. https://doi.org/10.1145/3656650.3656687
Rosenberg, E. L., & Ekman, P. (Eds.). (2020). What the face reveals: Basic and applied studies of spontaneous expression using the facial action coding system (FACS) (3rd ed.). New York: Oxford University Press.
Kendon, A. (1981). Introduction: Current issues in the study of “nonverbal communication.” In T. A. Sebeok & J. Umiker-Sebeok (Eds.), Nonverbal communication, interaction, and gesture: Selections from Semiotica (pp. 1–55). The Hague: Mouton.
Tolins, J., & Fox Tree, J. E. (2014). Addressee backchannels steer narrative development. Journal of Pragmatics, 70, 152–164. https://doi.org/10.1016/j.pragma.2014.06.006
Tudor, A.-D., Poeschl, S., & Döring, N. (2013). What do audiences do when they sit and listen? Studies in Health Technology and Informatics, 191, 120. https://doi.org/10.3233/978-1-61499-282-0-120
Zloteanu, M., Krumhuber, E. G., & Richardson, D. C. (2021). Sitting in judgment: How body posture influences deception detection and gazing behavior. Behavioral Sciences, 11(6), 85. https://doi.org/10.3390/bs11060085