Research Goal
발표자의 발화 내용과 발표 맥락에 적절하게 반응하는 AI 청중의 백채널을 생성하기 위해, 비언어 반응의 반응 채널과 시간적 형식, sustained state와 transient state, episode-based unit, 그리고 control 및 recovery rule을 위한 작업적 생성 기준을 정교화한다.
Research Question
RQ1. 발표 상황에서 청중의 비언어 반응은 AI 청중 백채널 생성을 위해
어떤 반응 채널과 시간적 형식으로 조직될 수 있는가?
RQ2. 이러한 청중 반응은 어떤 sustained state와 transient state로 작업적으로 구성될 수 있는가?
RQ3. 복합적 단서를 포함한 청중 반응을 생성 가능한 단위로 다루기 위해
어떤 selection rule, gaze coordination rule, recovery rule, 그리고 boundary rule이 필요한가?
Current Ambiguity
현재 설계한 청중 반응 클립의 작업적 구성 체계는 실질적인 구현과 제어를 위해 구성되었으나, 아직 충분한 문헌적 근거 위에서 체계적으로 정당화되었다고 보기는 어렵다. 특히 실제 발표 맥락에서 청중의 어떤 비언어적 반응이 관찰되는지, 각 반응이 실제 발표 상황에서 발표자에게 어떤 평가적 신호로 해석되는지, 그리고 이러한 행동 단위를 가상 청중에게 적용했을 때 사용자에게 어떤 사회적 태도나 인상으로 지각되는지를 직접적으로 다룬 문헌은 제한적이다. 따라서 현재의 작업적 체계를 보다 근거 있게 정교화하기 위해, 청중 행동에 대한 관찰 기반 연구와 발표 상황에서의 사회적 해석, 가상 에이전트 및 가상 청중의 비언어 행동 지각에 관한 인접 문헌을 함께 검토하여 그 근거를 보강할 필요가 있다.
Backchannel Design Framework for AI Audience Agents
본 노트에서는 AI 청중 에이전트의 백채널 생성과 제어를 위해 청중의 비언어 반응을 두 기준에서 조직한다.
첫째, 반응이 나타나는 주요 채널에 따라 body posture, head movement, facial expression, gaze의 네 채널로 정리한다. 이는 발표 청중 관찰 연구와 가상 청중
지각
연구에서 posture, facial expression, gaze, head movement가 주요 비언어 단서로 반복적으로 다루어진다는 점에 근거한다 (Poeschl & Döring,
2012;
Chollet & Scherer, 2017; Etienne et al., 2023). 또한 nonverbal communication 연구는 bodily activity, facial
expression and orientation, posture, gaze direction과 같은 여러 측면을 상호작용 속 communicational functioning의 관점에서 다루어
왔으며,
비언어행동이 단일한 현상이라기보다 여러 하위 차원으로 조직될 수 있음을 보여준다 (Kendon, 1981).
둘째, 각 반응은 유지형 배치로 운용되는 sustained state인지, 짧게 발생했다가 종료되는 transient action인지에 따라 시간적 형식으로 구분한다. 이 두 번째 구분은 선행연구의
직접
범주를 그대로 따르기보다, 청중 반응을 생성 가능한 시간 단위로 조직하기 위해 본 연구에서 설정한 작업적 구분이다.
Working Criteria
Channel-based units
Channel Categories
Channel Categories는 청중 반응을 어떤 비언어 채널을 중심으로 생성하고 제어할지를 정리하기 위한 채널 수준의 작업적 구성 체계이다.
| Category | Operational Definition | Parameters | Generation Principle |
|---|---|---|---|
| Body posture | 몸통·상체·팔의 상대적 배치와 정렬을 통해 드러나는 반응. |
trunk alignment, lean direction, body orientation, arm placement |
반응의 핵심 의미가 torso와 arm placement를 중심으로 한 자세 구성에 있을 때, 해당 반응은 body posture 중심으로 생성한다. |
| Head movement | 머리의 짧고 국소적인 운동 또는 orientation 변화로 드러나는 반응. |
nod pattern, shake pattern, tilt / dip pattern, turn / orientation shift |
반응의 핵심이 머리의 짧은 국소 운동이나 orientation 변화에 있을 때, 해당 반응은 head movement 중심으로 생성한다. |
| Facial expression | 얼굴의 상안면·하안면 구성 변화로 실현되는 반응. |
brow configuration, periocular configuration, mouth configuration, jaw configuration |
반응의 핵심이 얼굴의 형태적 변화에 있을 때, 해당 반응은 facial expression 중심으로 생성한다. |
| Gaze | 행위 수행 자체가 아니라 시선의 대상과 유지 시간, 그리고 대상 간 전환 패턴으로 드러나는 반응. |
gaze target, dwell duration, alternation pattern |
반응의 핵심이 시선의 대상, 유지 시간, 대상 간 전환 패턴에 있을 때, 해당 반응은 gaze 중심으로 생성한다. |
Channel Parameters
Channel Parameters는 각 채널 내부에서 실제 state clip 및 action clip을 설계하기 위한 parameter level의 작업적 축이다. 아래 항목은 상호배타적인 최종 state 목록이 아니라, clip을 조합하고 naming rule을 정리하기 위한 구성 요소이다.
Body Posture Parameters
| Parameter | Operational Meaning | Typical Value | Notes for Generation |
|---|---|---|---|
| Trunk alignment | 몸통의 전반적 세움 정도와 처짐 정도를 나타내는 축. | upright | 기본 attentive posture와 안정된 청취 상태에 사용한다. |
| slumped | 낮은 에너지, 피로, reduced engagement 상태에 사용한다. | ||
| Lean direction | 몸통이 전후 방향으로 기울어지는 정도를 나타내는 축. | neutral | 기본적인 청취 자세를 유지하는 상태에 사용한다. |
| forward | 집중, 높은 attentiveness, 적극적 내용 추적 상태에 사용한다. | ||
| backward | 심리적 거리두기, reduced engagement, reserve 상태에 사용한다. | ||
| Body orientation | 몸통이 발표자를 정면으로 향하는지, 부분적으로 옆으로 틀어지는지를 나타내는 축. | toward speaker | 발표자 중심의 attention을 유지하는 상태에 사용한다. |
| side-oriented | 부분적 social diversion 또는 발표자로부터의 orientation shift를 표현할 때 사용한다. | ||
| Arm placement | 팔의 기본 위치와 배치를 통해 드러나는 자세 구성. | open | 개방적이고 안정된 청취 상태에 사용한다. |
| crossed | reserve, closure, defensive stance를 표현할 때 사용한다. |
Head Movement Parameters
| Parameter | Operational Meaning | Typical Value | Notes for Generation |
|---|---|---|---|
| Nod pattern | 이해, 동의, 내용 추적과 관련된 상하 운동 패턴. | single nod | 짧은 동의나 이해 신호에 사용한다. |
| repeated nod | 연속적 내용 추적이나 적극적 동의 반응에 사용한다. | ||
| Shake pattern | 부정, 의문, 비동의와 관련된 좌우 운동 패턴. | brief shake | 가벼운 의문이나 불일치 반응에 사용한다. |
| Tilt pattern | 고개를 한쪽으로 기울여 약한 의문이나 판단 유보를 드러내는 패턴. | brief tilt | 약한 의문이나 판단 유보 반응에 사용한다. |
| tilt hold | 지속적인 의문이나 판단 유보 상태에 사용한다. | ||
| Downward dip | 고개를 아래로 짧게 내리는 국소적 움직임. | brief dip | 일시적 망설임이나 순간적 처리 부담 반응에 사용한다. |
| Turn / orientation shift | 발표자 또는 정면으로부터 머리 방향이 부분적으로 이동하는 패턴. | brief turn | 순간적 attention shift나 짧은 방향 전환 반응에 사용한다. |
| held turn | 지속적 orientation shift 또는 부분적 disengagement 상태에 사용한다. |
Facial Expression Parameters
| Parameter | Operational Meaning | Typical Value | Notes for Generation |
|---|---|---|---|
| Brow configuration | 눈썹의 상승 또는 찌푸림을 통해 드러나는 상안면 변화. | neutral | 중립적 경청이나 기본 attentive state를 유지하는 상태에 사용한다. |
| raised | 주의 고조, 가벼운 의문, 반응성 증가 반응에 사용한다. | ||
| lowered-furrowed | 난이도 지각, 긴장, 부정적 평가 반응에 사용한다. | ||
| Periocular configuration | 눈둘레의 열림 또는 긴장을 통해 드러나는 변화. | neutral | 기본 경청과 attentive state에 사용한다. |
| widened | 주의 환기, 순간적 놀람, 반응성 증가 반응에 사용한다. | ||
| tightened | 긴장, 노력, 불편, 비판적 주의 반응에 사용한다. | ||
| Mouth configuration | 입 주변의 상승 또는 하강을 통해 드러나는 하안면 변화. | neutral | 기본 경청과 정서적 중립 상태에 사용한다. |
| raised | 긍정적 수용, 호의, 동조 반응에 사용한다. | ||
| lowered | 부정적 반응, 실망, 불만족 반응에 사용한다. | ||
| Jaw configuration | 턱의 닫힘과 하강 정도를 통해 드러나는 하안면 변화. | closed | 기본적이고 안정된 상태에 사용한다. |
| slightly open | 머뭇거림, 약한 놀람, 낮은 수준의 불편 반응에 사용한다. | ||
| dropped | 강한 놀람, 당혹, 반응 중단 상태에 사용한다. |
Gaze Parameters
| Parameter | Operational Meaning | Typical Value | Notes for Generation |
|---|---|---|---|
| Gaze target | 시선이 향하는 주 대상을 나타내는 축. | speaker | 발표자 중심의 attention 상태에 사용한다. |
| slides/display | 시각 자료 추적 상태에 사용한다. | ||
| elsewhere | 발표 관련 대상에서 이탈한 상태에 사용한다. | ||
| Dwell duration | 특정 target에 시선이 머무는 지속 시간을 나타내는 축. | brief | 짧은 attention shift나 brief aversion 반응에 사용한다. |
| sustained | 유지형 attention 상태 또는 sustained looking-away 상태에 사용한다. | ||
| Alternation pattern | 둘 이상의 target 사이를 번갈아 보는 패턴. | speaker ↔ slides/display | 발표자와 시각 자료를 함께 추적하는 일반 청취 상태에 사용한다. |
| irregular scan | 안정된 추적보다 분산된 시선 이동이 필요한 상태에 사용한다. |
Literature Basis
- Body posture. Pöschl & Döring (2012)은 발표를 듣는 청중의 비언어 행동 중 posture를 독립 차원으로 다루며 sitting upright, leaning forward, leaning back with folded arms, turning the upper part of the body sideways와 같은 자세를 제시하였다. Kang (2016)은 이를 더 세분화하여 torso upright, torso forward, torso backward, torso back in the chair, torso bent forward와 같은 torso 정렬 변화와, arms crossed, chin/cheek touch, supporting head, neck touch와 같은 arm/hand-related posture cue를 구분해 코딩하였다. 본 연구는 이러한 근거를 바탕으로 body posture를 trunk alignment, lean direction, body orientation, arm placement의 parameter level로 재구성하였다. 이때 arm placement는 팔의 기본 배치와 자세 구성을 구분해 다루기 위한 작업적 축으로 설정하였다.
- Head movement. Kang (2016)은 발표 상황의 청중 posture coding에서 head를 body와 분리된 부위로 다루며 head up, head turn, head down, head tilt, head nod, head shake를 독립적으로 코딩하였다. 또한 de Kok and Heylen (2012)과 Ondáš et al. (2023)은 listener response 및 backchannel에서 nod와 shake를 대표적인 비언어 신호로 제시하였다. 이에 따라 본 연구는 head movement를 body posture와 구분되는 독립 채널로 두고, nod pattern, shake pattern, tilt pattern, downward dip, turn / orientation shift를 parameter level에서 정리한다. 이때 nod와 shake는 짧은 반응성 운동 패턴으로, tilt와 turn은 짧은 움직임과 유지형 orientation 변화 모두를 포함하는 head cue로 다룬다.
- Facial expression. Facial expression은 비언어 커뮤니케이션의 한 채널로, 감정 표현과 대인적 태도 전달에 중요한 역할을 한다. 특히 사회적 상호작용에서 얼굴은 back-channel signal의 일부로 기능한다 (Argyle, 1988). FACS 계열 연구는 facial expression을 관찰 가능한 facial action과 그 조합을 중심으로 기술하며, brow, lid/eye region, mouth, jaw와 관련된 appearance change와 movement를 세분화해 다룬다 (Rosenberg & Ekman, 2020). 이에 따라 본 연구는 이러한 facial action 기술을 바탕으로, 발표를 듣는 청중 백채널 생성에 필요한 작업적 parameter level에서 facial expression을 재조직한다. brow configuration, periocular configuration, mouth configuration, jaw configuration을 중심으로 구성하며, 이러한 형태 단위는 발표 맥락 속 평가적 의미와 연결되는 생성 단위로 사용한다.
- Gaze. Bavelas et al. (2002)는 listener responses를 협력적 과정으로 보며 gaze의 역할을 강조하였고, Degutyte and Astell (2021)은 eye gaze가 speech monitoring, backchannel, turn management와 관련됨을 정리하였다. 또한 발표 상황 및 virtual audience 연구에서는 청중의 gaze direction이 발표자 및 시각 자료에 대한 attention과 engagement를 드러내는 주요 단서로 다루어진다 (Kang, 2016; Ristorcelli et al., 2024). 이에 따라 본 연구는 gaze를 speaker, slides/display, elsewhere를 중심으로 한 gaze target, dwell duration, alternation pattern의 parameter level에서 정리한다. 다만 note taking, typing, device checking과 같이 시선이 명시적 과업 수행에 종속되는 경우에는 독립 gaze보다 action episode의 일부로 우선 처리한다.
Episode-based units
Episode Categories
Episode Categories는 단일 channel parameter로 충분히 표현되지 않는 복합 transient action을 독립적인 생성 단위로 다루기 위한 episode 기반의 작업적 구성 체계이다. 이 범주에서는 시선, 머리, 손, 자세 변화가 결합될 수 있으나, 분류와 생성의 기준은 표면적 움직임 자체가 아니라 해당 행동이 수행하는 주된 목적과 기능에 있다.
| Episode Type | Operational Definition | Typical Example | Generation Rule |
|---|---|---|---|
| Task-driven episode | 특정 과업 수행이나 기록 목적이 중심이 되는 짧은 행동 episode. 동반되는 gaze, hand movement, posture shift가 있더라도 핵심 정보는 note taking, typing, device use, recording behavior에 있다. | ACT_noteTaking | 발표 내용을 기록하거나 후속 참조를 위해 남기려는 목적이 우세할 때 생성한다. |
| ACT_typing | 디지털 기기를 통해 내용을 기록하거나 정리하려는 목적이 우세할 때 생성한다. | ||
| ACT_deviceChecking | 발표 흐름에서 주의가 이탈하여 개인 기기 확인으로 전환된 상태를 표현해야 할 때 생성한다. | ||
| ACT_photographingSlides | 슬라이드 내용을 보존하거나 이후 확인하려는 기록 목적이 우세할 때 생성한다. | ||
| Object-handling episode | 발표 청취와 직접 관련되지 않은 물건 조작이나 주변 사물 정리를 중심으로 나타나는 짧은 행동 episode. | ACT_objectHandling | 주의 분산, 안절부절, 또는 주변 사물 조작이 핵심 기능으로 나타날 때 생성한다. |
| Social side-action episode | 발표자 이외의 대상과의 짧은 상호작용이나 측면적 사회 행동으로 나타나는 episode. | ACT_sideConversation | 옆 사람과의 짧은 사회적 교환이 발표 청취보다 우세한 상황을 표현할 때 생성한다. |
| ACT_whispering | 국소적이고 은밀한 측면 상호작용이 발생한 상황을 표현할 때 생성한다. | ||
| Physiological interruption episode | 생리적 필요나 신체 상태 변화에서 비롯되는 짧은 interruption episode. | ACT_yawn | 피로 또는 각성 저하로 인해 청취가 일시적으로 중단되는 상태를 표현할 때 생성한다. |
| ACT_cough | 생리적 interruption으로 인해 청취 흐름이 잠시 끊기는 상태를 표현할 때 생성한다. | ||
| Self-regulatory adjustment episode | 자세를 재조정하거나 불편을 완화하기 위해 발생하는 짧은 자기조절 행동 episode. | ACT_fidgeting | 긴장, 불편, 안절부절과 같은 자기조절 필요가 우세할 때 생성한다. |
| ACT_briefSelfTouch | 짧은 자기접촉을 통한 긴장 완화 또는 자기안정화가 필요할 때 생성한다. | ||
| ACT_seatAdjustment | 착석 자세의 불편을 줄이거나 청취 자세를 재정렬하려는 목적이 우세할 때 생성한다. |
Literature Basis
- Episode types. 관찰 기반 발표 청중 연구는 note taking, electronic device use, talking to a neighbor, moving objects around, fidgeting과 같은 복합 행동이 attention / inattention 패턴을 구성함을 보여준다 (Tudor et al., 2013). 또한 Pöschl & Döring (2012)은 발표를 듣는 청중의 행동으로 turning to the neighbor and start talking, taking notes for a long time와 같은 복합 행동 패턴을 보고하였다. 본 연구는 이러한 행동이 단일 channel parameter보다 여러 비언어 요소가 결합된 episode로 실현된다고 보고, 이를 별도의 action episode 단위로 조직한다. 이에 따라 note taking, device use, side conversation과 같이 행위 자체가 지배적인 경우에는 episode category로 다루고, nod, shake, smile, gaze aversion처럼 특정 채널의 signal로 직접 실현되는 경우에는 channel-based response form으로 다룬다.
Response Forms
Response Forms는 실제 생성에 사용하는 animation clip 단위를 정리한 표이다. Sustained state는 일정 시간 유지되는 청취 상태 및 과업 상태를 포함하며, transient action은 짧게 발생했다가 종료되는 반응성 움직임 또는 interruption clip을 포함한다. Episode column은 각 clip이 속하는 상위 행동 범주를 나타낸다.
Sustained Response Forms
Sustained Response Forms는 몸 자세, 머리 방향, 얼굴 표정이 비교적 안정적으로 유지되는 기본 청중 상태를 나타낸다. 여기서 gaze는 독립적인 clip ID로 baked하지 않고, 별도의 gaze mode와 coordination rule을 통해 runtime에서 분산 제어한다.
| Clip ID | Body | Head | Facial | Temporal Profile | Generation Rule |
|---|---|---|---|---|---|
| STATE_upright_neutral | upright + neutral + toward speaker + open | neutral | brow neutral + periocular neutral + mouth neutral + jaw closed | hold | 기본 attentive baseline이 필요할 때 생성한다. |
| STATE_forwardLean_neutral | upright + forward + toward speaker + open | neutral | brow neutral + periocular neutral + mouth neutral + jaw closed | hold | 집중도와 attentiveness가 높은 청취 상태를 표현할 때 생성한다. |
| STATE_upright_positive | upright + neutral + toward speaker + open | neutral | brow neutral + periocular neutral + mouth raised + jaw closed | hold | 호의적 수용이나 긍정적 평가가 약하게 지속되는 상태를 표현할 때 생성한다. |
| STATE_forwardLean_positive | upright + forward + toward speaker + open | neutral | brow neutral + periocular widened + mouth raised + jaw closed | hold | 높은 관심과 긍정적 수용이 함께 나타나는 상태를 표현할 때 생성한다. |
| STATE_upright_questioning | upright + neutral + toward speaker + open | tilt hold | brow raised + periocular neutral + mouth neutral + jaw slightly open | hold | 약한 의문이나 판단 유보가 지속되는 상태를 표현할 때 생성한다. |
| STATE_forwardLean_questioning | upright + forward + toward speaker + open | tilt hold | brow raised + periocular tightened + mouth neutral + jaw slightly open | hold | 내용을 적극적으로 따라가지만 완전히 납득하지는 못한 상태를 표현할 때 생성한다. |
| STATE_upright_strained | upright + neutral + toward speaker + open | neutral | brow lowered-furrowed + periocular tightened + mouth neutral + jaw closed | hold | 인지적 부담이나 긴장이 지속되는 상태를 표현할 때 생성한다. |
| STATE_forwardLean_strained | upright + forward + toward speaker + open | neutral | brow lowered-furrowed + periocular tightened + mouth neutral + jaw slightly open | hold | 내용을 따라가려 노력하지만 부담이 느껴지는 상태를 표현할 때 생성한다. |
| STATE_backward_reserved | upright + backward + toward speaker + crossed | neutral | brow neutral + periocular tightened + mouth lowered + jaw closed | hold | 수용보다는 거리두기와 reserve가 우세한 상태를 표현할 때 생성한다. |
| STATE_sideOriented_disengaged | upright + neutral + side-oriented + open | held turn | brow neutral + periocular neutral + mouth neutral + jaw closed | hold | 발표자로부터 attention이 부분적으로 이탈한 상태를 표현할 때 생성한다. |
| STATE_slumped_fatigued | slumped + backward + toward speaker + open | neutral | brow neutral + periocular neutral/tightened + mouth neutral + jaw slightly open | hold | 피로와 reduced engagement가 지속되는 상태를 표현할 때 생성한다. |
Gaze Modes for Sustained States
아래 gaze mode는 위의 sustained state 위에 runtime에서 적용되는 시선 운용 규칙이다. gaze는 별도의 baked state clip으로 분리하지 않고, 같은 sustained state 위에 서로 다른 target rule을 적용한다.
| Gaze Mode ID | Operational Definition | Typical Use |
|---|---|---|
| GAZE_atSpeaker | 발표자를 주 시선 대상으로 유지한다. | 발표자의 말과 비언어 표현에 attention이 집중될 때 사용한다. |
| GAZE_atSlides | 슬라이드/디스플레이를 주 시선 대상으로 유지한다. | 시각 자료의 정보 확인과 내용 추적이 우세할 때 사용한다. |
| GAZE_alternatingSpeakerSlides | 발표자와 슬라이드를 번갈아 본다. 한 대상을 오래 고정하지 않고 발표자 → 슬라이드 → 발표자 식으로 천천히 왕복한다. | 일반적 청취 상태나 발표자와 시각 자료를 함께 추적하는 상태에 사용한다. |
| GAZE_away | 발표자와 슬라이드 모두에서 시선이 이탈한 상태를 유지한다. | attention disengagement, fatigue, social diversion 상태에 사용한다. |
Gaze Coordination Rules
동일한 sustained state에 있는 에이전트라도 gaze target은 동일한 시점에 동일하게 바뀌지 않도록 분산 제어한다. 이를 통해 청중 전체가 동시에 같은 대상을 바라보는 부자연스러운 동시성을 피한다.
| Rule | Operational Definition | Implementation Note |
|---|---|---|
| Target ratio | 현재 순간에 청중 중 몇 %가 발표자, 슬라이드, 혹은 away를 볼지를 비율로 정한다. | 예: baseline에서는 speaker / slides / alternating / away 비율을 다르게 설정한다. |
| Reaction delay | 모든 agent가 동시에 gaze target을 바꾸지 않도록 각 agent마다 서로 다른 전환 지연값을 둔다. | 동일 이벤트가 들어와도 agent별로 0.2초, 0.8초, 1.4초처럼 다른 시점에 반응하게 한다. |
| Minimum hold time | 한 번 선택된 gaze target은 최소 시간 동안 유지되도록 한다. | 지나치게 잦은 target switching을 막고 안정된 청중 시선 리듬을 만든다. |
| Agent variation | agent마다 speaker preference, slides preference, alternation speed, attention stability를 다르게 둔다. | 같은 state 안에서도 서로 다른 시선 패턴이 나오도록 만든다. |
Transient Response Forms
Transient Response Forms는 짧게 발생했다가 종료되는 반응 단위를 정리한 표이다. 여기에는 단일 channel parameter의 조합으로 구성된 transient state와, 복합적 행위 episode를 기반으로 한 transient state를 모두 포함한다.
| Clip ID | Body | Head | Gaze | Facial | Episode | Temporal Profile | Generation Rule |
|---|---|---|---|---|---|---|---|
| STATE_singleNod_neutral | maintained listening posture | single nod | atSpeaker or alternatingSpeakerSlides | neutral | - | brief burst | 짧은 이해, 수용, 내용 추적 신호가 필요할 때 생성한다. |
| STATE_repeatedNod_positive | maintained listening posture | repeated nod | atSpeaker | mouth slightly raised | - | brief repeated burst | 적극적 동의나 강한 내용 추적 반응이 필요할 때 생성한다. |
| STATE_briefShake_negative | maintained listening posture | brief shake | atSpeaker | mouth neutral or slightly lowered | - | brief burst | 가벼운 불일치, 부정적 판단, 납득 어려움을 표현할 때 생성한다. |
| STATE_briefTilt_questioning | maintained listening posture | brief tilt | atSpeaker or atSlides | brow raised + mouth neutral | - | brief burst | 약한 의문이나 판단 유보가 순간적으로 나타날 때 생성한다. |
| STATE_briefDip_strained | maintained listening posture | brief downward dip | momentary downward shift | brow lowered-furrowed or neutral | - | brief burst | 순간적 처리 부담이나 인지적 중단이 필요할 때 생성한다. |
| STATE_briefTurnAway_neutral | maintained listening posture | brief turn | away | neutral | - | brief burst | 순간적 attention shift나 짧은 방향 전환이 필요할 때 생성한다. |
| STATE_noteTaking | writing-related posture | brief downward dip or slight downward tilt | downward / note-focused | neutral or mildly concentrated | ACT_noteTaking | task episode | 발표 내용을 기록하거나 후속 참조를 위해 남기려는 목적이 우세할 때 생성한다. |
| STATE_typing | device-use posture | slight downward orientation | device-focused | neutral | ACT_typing | task episode | 디지털 기기를 통해 내용을 기록하거나 정리하려는 목적이 우세할 때 생성한다. |
| STATE_deviceChecking | brief device-check posture | brief turn or downward dip | device-focused | neutral | ACT_deviceChecking | brief episode | 발표 흐름에서 주의가 이탈하여 개인 기기 확인으로 전환된 상태를 표현할 때 생성한다. |
| STATE_photographingSlides | slide-recording posture | forward or slightly upward orientation | atSlides | neutral | ACT_photographingSlides | brief recording episode | 슬라이드 내용을 보존하거나 이후 확인하려는 기록 목적이 우세할 때 생성한다. |
| STATE_objectHandling | object-manipulation posture | variable | object-focused | neutral | ACT_objectHandling | brief manipulation episode | 주의 분산, 안절부절, 또는 주변 사물 조작이 핵심 기능으로 나타날 때 생성한다. |
| STATE_sideConversation | side-oriented interaction posture | brief turn toward neighbor | neighbor-focused | neutral or mildly expressive | ACT_sideConversation | short social episode | 옆 사람과의 짧은 사회적 교환이 발표 청취보다 우세한 상황을 표현할 때 생성한다. |
| STATE_whispering | low-amplitude side-interaction posture | brief turn toward neighbor | neighbor-focused | low-intensity mouth movement | ACT_whispering | brief low-amplitude social episode | 국소적이고 은밀한 측면 상호작용이 발생한 상황을 표현할 때 생성한다. |
| STATE_yawn | fatigue-linked interruption posture | head tilt back or jaw-led opening pattern | temporarily unfocused | jaw dropped / mouth opened | ACT_yawn | brief physiological interruption | 피로 또는 각성 저하로 인해 청취가 일시적으로 중단되는 상태를 표현할 때 생성한다. |
| STATE_cough | brief contracted interruption posture | brief downward dip | momentary aversion or downward | mouth compressed then opened briefly | ACT_cough | brief physiological interruption | 생리적 interruption으로 인해 청취 흐름이 잠시 끊기는 상태를 표현할 때 생성한다. |
| STATE_fidgeting | micro-adjusting posture | neutral or variable micro-movement | variable | neutral or mildly tense | ACT_fidgeting | repeated short burst | 긴장, 불편, 안절부절과 같은 자기조절 필요가 우세할 때 생성한다. |
| STATE_briefSelfTouch | brief self-soothing posture | slight downward dip or stillness | briefly downward or unfocused | neutral or mildly tense | ACT_briefSelfTouch | brief self-regulatory episode | 짧은 자기접촉을 통한 긴장 완화 또는 자기안정화가 필요할 때 생성한다. |
| STATE_seatAdjustment | seat-repositioning posture | neutral | variable | neutral | ACT_seatAdjustment | brief re-positioning episode | 착석 자세의 불편을 줄이거나 청취 자세를 재정렬하려는 목적이 우세할 때 생성한다. |
Transient Unit Rules
Transient response는 독립 transient와 파생 transient로 구분한다. 독립 transient는 episode 자체가 의미의 중심이 되는 경우이며, 파생 transient는 sustained state 위에 짧게 덧입혀지는 반응성 signal이다.
| Transient Type | Definition | Typical Forms | Operational Rule |
|---|---|---|---|
| Independent transient | 행위 자체가 반응의 핵심 의미를 구성하는 transient. | STATE_noteTaking, STATE_typing, STATE_deviceChecking, STATE_photographingSlides, STATE_objectHandling, STATE_sideConversation, STATE_whispering, STATE_yawn, STATE_cough, STATE_fidgeting, STATE_briefSelfTouch, STATE_seatAdjustment | 독립적인 clip unit으로 다루며, onset, duration, recovery rule을 별도로 가진다. |
| Derived transient | 기본 sustained state 위에 짧게 덧입혀지는 channel-combined signal. | STATE_singleNod_neutral, STATE_repeatedNod_positive, STATE_briefShake_negative, STATE_briefTilt_questioning, STATE_briefDip_strained, STATE_briefTurnAway_neutral | 기본 sustained state를 대체하지 않고, 상위 state의 짧은 modulation으로 처리한다. |
Sustained State Boundary Rules
sustained state는 단순히 자세 차이만으로 분리하지 않고, engagement direction, evaluative stance, and bodily organization이 함께 달라질 때만 별도 state로 유지한다.
| State Pair | Boundary Criterion | Interpretive Difference |
|---|---|---|
| STATE_upright_strained vs STATE_forwardLean_strained | lean direction이 다르고, engagement intensity가 다를 때 분리한다. | upright_strained는 부담은 있으나 기본 자세를 유지하는 상태이고, forwardLean_strained는 이해하려는 관여가 더 강한 상태이다. |
| STATE_forwardLean_strained vs STATE_backward_reserved | 인지적 관여의 방향이 다를 때 분리한다. | forwardLean_strained는 따라가려는 긴장이고, backward_reserved는 거리두며 판단을 보류하는 상태이다. |
| STATE_backward_reserved vs STATE_sideOriented_disengaged | attention target과 body orientation이 다를 때 분리한다. | backward_reserved는 발표를 계속 의식하지만 거리두는 상태이고, sideOriented_disengaged는 attention이 부분적으로 다른 방향으로 이탈한 상태이다. |
| STATE_sideOriented_disengaged vs STATE_slumped_fatigued | orientation shift와 fatigue cue의 중심성이 다를 때 분리한다. | sideOriented_disengaged는 사회적/주의적 이탈이 중심이고, slumped_fatigued는 에너지 저하와 피로가 중심이다. |
Default Gaze Priors by Sustained State
각 sustained state는 기본적인 gaze distribution prior를 가진다. 이는 개별 agent의 gaze mode를 샘플링할 때 초기 확률로 사용되며, 실제 runtime에서는 coordination rule에 따라 agent별로 분산 적용된다.
| Sustained State | Speaker | Slides | Alternating | Away | Interpretive Bias |
|---|---|---|---|---|---|
| STATE_upright_neutral | 0.25 | 0.20 | 0.45 | 0.10 | 일반적 청취 baseline |
| STATE_forwardLean_neutral | 0.35 | 0.20 | 0.40 | 0.05 | 높은 attentiveness |
| STATE_upright_positive | 0.50 | 0.10 | 0.30 | 0.10 | 발표자 수용적 태도 |
| STATE_forwardLean_positive | 0.55 | 0.10 | 0.30 | 0.05 | 높은 관심과 수용 |
| STATE_upright_questioning | 0.40 | 0.20 | 0.30 | 0.10 | 발표자 중심의 약한 의문 |
| STATE_forwardLean_questioning | 0.20 | 0.40 | 0.30 | 0.10 | 슬라이드 검토 중심의 의문 |
| STATE_upright_strained | 0.35 | 0.25 | 0.25 | 0.15 | 인지적 부담 |
| STATE_forwardLean_strained | 0.25 | 0.35 | 0.25 | 0.15 | 따라가려는 긴장 |
| STATE_backward_reserved | 0.20 | 0.10 | 0.20 | 0.50 | 거리두기와 보류 |
| STATE_sideOriented_disengaged | 0.10 | 0.10 | 0.15 | 0.65 | 부분적 attention 이탈 |
| STATE_slumped_fatigued | 0.10 | 0.20 | 0.15 | 0.55 | 피로 중심 disengagement |
Recovery and Return-to-Base Rules
transient response가 종료된 뒤에는 직전 sustained state 또는 규칙에 의해 지정된 후속 sustained state로 복귀한다. recovery rule은 transient의 유형에 따라 다르게 적용된다.
| Transient Type | Recovery Rule | Typical Example |
|---|---|---|
| Derived transient | 종료 후 직전 sustained state로 복귀한다. | STATE_briefTilt_questioning → previous sustained state |
| Independent transient / task | 종료 후 직전 sustained state로 복귀하되, task duration이 길 경우 gaze prior를 재샘플링한다. | STATE_noteTaking → previous sustained state |
| Independent transient / physiological interruption | 종료 후 직전 sustained state 또는 fatigue-related sustained state로 복귀한다. | STATE_yawn → STATE_slumped_fatigued or previous sustained state |
| Independent transient / self-regulatory adjustment | 종료 후 직전 sustained state로 복귀하되, 필요시 strained 계열 state를 유지한다. | STATE_briefSelfTouch → STATE_upright_strained |
| Independent transient / social diversion | 종료 후 attention recovery 여부에 따라 previous sustained state 또는 sideOriented_disengaged로 복귀한다. | STATE_sideConversation → STATE_sideOriented_disengaged or previous sustained state |
Open Questions
이제 이 반응 체계를 발표 구조 단계와 연결해야 한다. 각 단계에서 어떤 appraisal objective와 기능군이 우세한지, 그에 따라 어떤 sustained state와 transient가 기본적으로 선택되어야 하는지를 정리할 필요가 있다. 또한 발표 구조 단계만으로는 충분하지 않고, 실제 생성 규칙에는 발표 내용 단서와 발화 단서가 함께 들어가야 한다. 즉 발표가 어떤 구조 단계에 있는가뿐 아니라, 제시된 내용이 청중에게 어떻게 평가되는지, 그리고 그 발화가 hesitation, emphasis, pause, disfluency, completion과 같은 어떤 발화 단서를 포함하는지까지 함께 고려해야 한다.
Next Step
다음 단계에서는 발표 구조 단계에 따른 appraisal–backchannel 연결 규칙을 후속 노트에서 정리한다. 발표 구조 단계, 발표 내용 단서, 발화 단서를 함께 고려해 어떤 sustained state와 transient가 선택되고 전환되어야 하는지 연결 규칙을 정리할 필요가 있다.
References
- Argyle, M. (1988). Bodily communication (2nd ed.). London: Routledge.
- Bavelas, J. B., Coates, L., & Johnson, T. (2002). Listener responses as a collaborative process: The role of gaze. Journal of Communication, 52(3), 566–580. https://doi.org/10.1111/j.1460-2466.2002.tb02562.x
- Chollet, M., & Scherer, S. (2017). Perception of virtual audiences. IEEE Computer Graphics and Applications, 37(4), 50–59. https://doi.org/10.1109/MCG.2017.3271465
- de Kok, I., & Heylen, D. (2012). Analyzing nonverbal listener responses using parallel recordings of multiple listeners. Cognitive Processing, 13(Suppl 2), 499–506. https://doi.org/10.1007/s10339-012-0434-3
- Degutyte, Z., & Astell, A. (2021). The role of eye gaze in regulating turn taking in conversations: A systematized review of methods and findings. Frontiers in Psychology, 12, 616471. https://doi.org/10.3389/fpsyg.2021.616471
- Etienne, E., Leclercq, A.-L., Remacle, A., Dessart, L., & Schyns, M. (2023). Perception of avatars nonverbal behaviors in virtual reality. Psychology & Marketing, 40(11), 2464–2481. https://doi.org/10.1002/mar.21871
- Kang, N. (2016). Public speaking in virtual reality: Audience design and speaker experiences (Doctoral thesis, Delft University of Technology). https://doi.org/10.4233/uuid:e920dec8-2b71-4377-bc0f-8f9c950fff42
- Ondáš, S., Kiktová, E., Pleva, M., & Juhár, J. (2023). Analysis of backchannel inviting cues in dyadic speech communication. Electronics, 12(17), 3705. https://doi.org/10.3390/electronics12173705
- Poeschl, S., & Doering, N. (2012). Designing virtual audiences for fear of public speaking training: An observation study on realistic nonverbal behavior. Annual Review of Cybertherapy and Telemedicine, 181, 218–222. https://doi.org/10.3233/978-1-61499-121-2-218
- Ristorcelli, M., D’Ambra, A., Pergandi, J.-M., Casanova, R., Ochs, M., Torre, I., Volpe, G., & Conati, C. (2024). Impact of the nonverbal behavior of virtual audience on users’ perception of social attitudes. Proceedings of the International Conference on Advanced Visual Interfaces, AVI 2024, 1–9. https://doi.org/10.1145/3656650.3656687
- Rosenberg, E. L., & Ekman, P. (Eds.). (2020). What the face reveals: Basic and applied studies of spontaneous expression using the facial action coding system (FACS) (3rd ed.). New York: Oxford University Press.
- Kendon, A. (1981). Introduction: Current issues in the study of “nonverbal communication.” In T. A. Sebeok & J. Umiker-Sebeok (Eds.), Nonverbal communication, interaction, and gesture: Selections from Semiotica (pp. 1–55). The Hague: Mouton.
- Tolins, J., & Fox Tree, J. E. (2014). Addressee backchannels steer narrative development. Journal of Pragmatics, 70, 152–164. https://doi.org/10.1016/j.pragma.2014.06.006
- Tudor, A.-D., Poeschl, S., & Döring, N. (2013). What do audiences do when they sit and listen? Studies in Health Technology and Informatics, 191, 120. https://doi.org/10.3233/978-1-61499-282-0-120
- Zloteanu, M., Krumhuber, E. G., & Richardson, D. C. (2021). Sitting in judgment: How body posture influences deception detection and gazing behavior. Behavioral Sciences, 11(6), 85. https://doi.org/10.3390/bs11060085