상단영역

본문영역

인공지능이 분류한 소설의 6가지 유형

  • 입력 2016.07.28 12:18
  • 수정 2016.07.28 12:23
  • 기자명 뉴스페퍼민트
이 기사를 공유합니다

미국의 소설가 커트 보니것(Kurt Vonnegut)은 1981년 출판된 본인의 자서전 <팜 선데이(Palm Sunday)>에서 이렇게 서술합니다. “내가 인류에 한 가장 큰 기여는 오래 전 시카고 대학에 제출했다 심사를 통과하지 못한 인류학 석사논문입니다.”

해당 논문이 거절된 이유는 “내용이 너무 단순하고 흥미 위주의 내용처럼 보였기 때문”이라 그는 설명합니다. 그러나 보니것은 그 논문의 기본 아이디어를 계속해서 발전시켰고, 사람들에게 본인의 생각을 공유하는 걸 멈추지 않았습니다. 그 아이디어를 요약하면 다음과 같습니다. “모든 이야기는 컴퓨터를 통해 간단한 모양으로 바꿀 수 있습니다. 아주 아름다운 모양이 됩니다.”

유튜브 강의에서도 이를 확인할 수 있습니다. 보니것은 유명한 이야기들을 간단한 곡선 그래프로 나타내는 방법을 설명합니다. 그래프의 X 축은 이야기 시작부터 끝까지의 시간적 흐름을, Y 축은 주인공이 겪은 행운 혹은 불운을 수치화한 것입니다. 보니것은 “물론, 운이란 건 상대적인 것입니다. 중요한 것은 곡선의 형태입니다”라고 말합니다.

그가 가장 흥미를 느낀 이야기는 <신데렐라>입니다. 그의 이론대로라면 신데렐라는 요정 대모를 만난 뒤로 계단식 상승곡선을 그려 나가다 무도회에서 정점을 찍습니다. 하지만 요정의 마법이 풀린 후 최악의 상태로 떨어집니다. 오래지 않아 신데렐라는 왕자가 가져온 유리구두가 자신의 것임을 증명하고 다시 행운의 정점을 찍습니다. 그리곤 왕자와 함께 오래오래 행복하게 삽니다.

사실 <신데렐라>의 줄거리는 별로 특별하지 않습니다. 아니, 오히려 전형적입니다. 보니것 역시 이와 똑같은 구조의 이야기를 쉽게 발견할 수 있다고 말합니다. “이야기 시작부의 계단식 상승 곡선은 거의 모든 문화권의 창조 신화에서 발견됩니다. 그리고 열두시의 추락은 구약의 창조신화가 가진 독특한 구조와 일치하지요.” 보네거트의 차트를 보면 신데렐라의 통금시간은 아담과 이브가 에덴 정원에서 쫓겨나는 시기와 동일합니다. “마지막 왕자와의 재회는 초기 기독교에서 표현된 부활의 희망과 같습니다. 이 두 이야기는 사실상 같은 구성으로 이뤄집니다.”

보니것은 논문은 35년 이 지나서야 증명됩니다. 수학자와 컴퓨터 과학자로 이루어진 연구팀에서 그의 이론을 실험했기 때문입니다. 지금까지 보니것은 이야기 전개 그래프를 직접 손으로 그려왔지만, 2016년부턴 컴퓨터의 계산, 자연어 처리, 전자화된 문서 등의 기술로 수많은 이야기의 구조를 손쉽게 파악할 수 있게 되었습니다.

바로 이것이 버몬트 대학과 아들레이드 대학의 연구진이 한 일입니다. 그들은 컴퓨터로 2,000여편의 소설의 그래프를 그렸고, 여섯 가지 이야기 전개 양상을 분류해냈습니다.

신분 상승 [상승]

신분 추락 [추락]

곤경에 빠진 남자 [추락-상승]

이카루스 [상승-추락]

신데렐라 [상승-추락-상승]

오이디푸스 [추락-상승-추락]

연구진은 줄거리 대신 주인공의 감정을 추적했습니다. 또한, 작가가 가장 선호하는 구조와 독자가 가장 선호하는 구조를 분석한 후 두 구조가 어떻게 다른지도 비교했습니다. 그들의 논문은 arXiv.org에서 확인할 수 있습니다.

이들은 컴퓨터가 일관된 분석을 할 수 있게 주요 데이터 세 가지를 추렸습니다. 먼저, 프로젝트 구텐베르크(Project Gutenberg)*에서 만 단어에서 이십만 단어 사이의 길이를 가진 1,737 편의 영문소설로 실험 범위를 한정했습니다.

*프로젝트 쿠텐베르크: 인류의 자료를 모아서 전자정보로 저장하고 배포하는 프로젝트로, 1971년 미국인 마이클 하트(Michale Hart)가 시작했다. (출처: 위키백과)

다음으로 각 작품의 감정 흐름을 분석했습니다. “우리는 특정한 구조가 존재한다고 가정하지 않았습니다.” 주저자이자 버몬트 대학 수학과 박사과정 학생인 앤디 레이건은 말했습니다. “우리는 수학 및 기계 학습을 통해 이야기들이 어떤 구조를 가지고 있는지 스스로 판단하도록 했습니다.”

그들은 방대한 데이터를 분석하는 머신 러닝 기술을 활용해 책의 모든 단어를 읽어 들인 후 각 단어가 가진 늬앙스에 따라 각 단락의 평균 행복 지수를 측정했습니다. 이를 위해 먼저 아마존의 메커니컬 터크(Mechanical Turk)로 자주 사용하는 10,000 개 이상 단어 각각의 행복도를 수치화했습니다.

사람들이 평가한 가장 행복한 단어 10개

웃음(laughter), 행복(happiness), 사랑(love), 행복한(happy), 웃었다(laughed), 웃음(laugh), 웃는(laughing), 최고의(excellent), 웃는다(laughs), 즐거운(joy)

사람들이 평가한 가장 불행한 단어 10개

테러리스트(terrorist), 자살(Suicide), 강간(rape), 테러리즘(terrorism), 살인(murder), 죽음(death), 암(cancer), 살해당하다(killed), 죽이다(kill), 죽다(die)

더 많은 단어 확인하기

물론, 이전에도 이야기를 분류하는 여러 이론이 있었습니다. 하지만 그 이론들이 많은 소설을 대변할 순 없었습니다. 이번 연구는 여섯 개의 구조로 이야기를 구분했다는 데 의의가 있습니다. 비록 실제 이야기 플롯이 아니라 감정의 변화를 분석한 결과이지만, 대부분의 이야기는 플롯과 감정의 변화가 일치합니다. 예를 들어, <해리포터와 죽음의 성물>은 복잡한 이야기들이 겹쳐있는 듯하지만, 각 작은 이야기들의 감정 곡선은 분명하게 구분됩니다.

모든 이야기를 통틀어 거지에서 부자로 신분 상승하는 이야기는 전체의 1/5을 차지했습니다. 이는 놀라운 사실이 아닙니다. 옛날 이야기 중 이런 구조를 가진 사례는 매우 많습니다. 논란의 여지는 있지만, 찰스 디킨스(Charles Dickens), 이디스 워튼(Edith Wharton), 제인 오스틴(Jane Austen) 등의 작품들도 여기에 포함됩니다.

“거지에서 부자로의 신분 상승은 미국인들이 꿈꾸고, 모두가 믿고 싶어하는 인기 있는 이야기입니다.” 실험에 참여한 레이건의 말입니다. “희망과 공정함의 이야기이며, 어떤 불운한 상태로 시작했든, 노력을 통해 이를 극복하고 결국 행복한 상태에 이를 수 있다는 것을 말해주지요.”

대표적인 이야기는 루이스 캐롤의 <이상한 나라의 앨리스>입니다. 올리브 슈라이너의 1890년 작품 <드림스(Dreams)>도 여기에 속합니다. 컴퓨터는 이 두 이야기가 전형적인 신분 상승의 감정 곡선과 일치하는 이야기라 분석합니다. 아래 그림은 신분 상승에 속하는 20개 이야기의 감정 곡선입니다.

극적으로 신분 상승하는 전개는 작가들 사이에서는 인기 있을 수 있습니다. 하지만 독자들이 가장 좋아하는 방식은 아닙니다. 그들은 프로젝트 구텐베르크에서 각 소설이 다운로드된 횟수로 인기도를 측정했고, 이를 그룹 별로 구분했습니다. 이 방법에서는 <오이디푸스> 식의 이야기나 곤경에 빠진 남자의 이야기, 그리고 <신데렐라> 류의 이야기가 더 인기 있는 것으로 나타났습니다.

실험에 참여한 레이건은 언젠가 컴퓨터가 스스로 소설을 써낼 때 도움이 될 수 있을 것이라 말했습니다. 물론, 이미 소설 쓰는 로봇에 대한 논의는 존재합니다.

“이 분야는 활발하게 연구되고 있습니다.” 레이건은 말합니다. “하지만 아직 풀어야 할 많은 문제가 많습니다. 훌륭한 소설을 쓰기 위해서는 플롯, 구조, 감정 곡선뿐 아니라 캐릭터를 창조하고, 호소력 있으면서도 의미 있는 인물 간의 대화를 만들 수 있어야 합니다.”

(원문: 애틀랜틱)

저작권자 © 직썰 무단전재 및 재배포 금지

개의 댓글

0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400

내 댓글 모음