cleanUrl: "/paper/word2vec"

<aside> ๐Ÿ“„ ๋…ผ๋ฌธ : Efficient Estimation Of Word Representations In Vector Space (Word2Vec) ์ €์ž : Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean ****

</aside>


๋…ผ๋ฌธ ์„ ์ • ๋ฐฐ๊ฒฝ

๋ณธ ๋…ผ๋ฌธ์€ ์ž์—ฐ์–ด์ฒ˜๋ฆฌ ๋ถ„์•ผ์—์„œ Word2Vec ์ด๋ผ๋Š” ๊ธฐ๋ฒ•์œผ๋กœ ์•Œ๋ ค์ง„ ๋ชจ๋ธ์„ ์ œ์‹œํ•œ ์ €๋ช…ํ•œ ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค. ๊ธฐ๋ฒ•์˜ ์ด๋ฆ„์—์„œ ์œ ์ถ”ํ•  ์ˆ˜ ์žˆ๋“ฏ์ด, ๊ฐ ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ๋ฒกํ„ฐ์— ๋Œ€์‘ํ•˜์—ฌ ์ €์žฅํ•  ์ˆ˜ ์žˆ๊ณ  ๊ฐ ๋ฒกํ„ฐ ์‚ฌ์ด์˜ ๋ง์…ˆ๊ณผ ๋บ„์…ˆ์œผ๋กœ ์˜๋ฏธ์— ๋Œ€ํ•œ ์—ฐ์‚ฐ์ฒ˜๋ฆฌ๋ฅผ ํ†ตํ•ด ์›ํ•˜๋Š” ์˜๋ฏธ์˜ ๋‹จ์–ด๋ฅผ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ด ํฅ๋ฏธ๋กœ์› ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์€ ๊ธฐ์กด์˜ neural network ๋ชจ๋ธ๋“ค๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์–ด๋ ค์› ๋˜ โ€œ๋‹จ์–ด์˜ ์˜๋ฏธโ€๋ฅผ ๊ธฐ๊ณ„์—๊ฒŒ ํ•™์Šต์‹œํ‚ค๊ณ , ๊ธฐ๊ณ„๊ฐ€ ์˜๋ฏธ๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋งŒ๋“ ๋‹ค๋Š” ์ ์—์„œ ํฐ ์˜์˜๊ฐ€ ์žˆ๋‹ค๊ณ  ๋ณด์•˜์Šต๋‹ˆ๋‹ค. ์ด์—, Word2Vec ๊ธฐ๋ฒ•๊ณผ ๊ธฐ๊ณ„์˜ ํ›ˆ๋ จ์„ ์œ„ํ•ด ์ œ์‹œ๋œ ๋‘ ๊ฐ€์ง€ ๋ชจ๋ธ์ธ CBOW, Skip-gram์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ณ ์ž ๋ณธ ๋…ผ๋ฌธ์„ ์„ ํƒํ•˜์˜€์Šต๋‹ˆ๋‹ค.

Introduction

2013๋…„ ์ด์ „์˜ NLP system๊ณผ ๊ธฐ์ˆ ๋“ค์—์„œ๋Š” ํ•™์Šต๋œ ๋‹จ์–ด๋“ค ๊ฐ„์˜ ์—ฐ๊ด€์„ฑ ์—†์ด ๊ฐ๊ฐ์˜ ๋ฐ์ดํ„ฐ๋กœ ์กด์žฌํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฐ ๋‹จ์ˆœํ•œ ๋ชจ๋ธ๋“ค์€ ๋Œ€๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•˜์—ฌ ์œ ์˜๋ฏธํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋งŒ๋“ค์–ด๋‚ผ ์ˆ˜ ์žˆ์œผ๋‚˜, ์‹ค์ œ ํ•™์Šต์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ์˜ ์–‘์ด ์ œํ•œ๋˜์–ด์žˆ์–ด ๊ธฐ์ˆ ์ ์ธ ๋ฐœ์ „์„ ํ•˜๊ธฐ๋Š” ์–ด๋ ค์› ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ์ˆ ์˜ ๋ฐœ์ „์„ ํ†ตํ•ด ๋” ๋ณต์žกํ•œ ๋ชจ๋ธ๋“ค์˜ ์ •ํ™•๋„๋ฅผ ์˜ฌ๋ฆด ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์˜ ๋ชฉํ‘œ๋Š” ์–‘์งˆ์˜ ๋‹จ์–ด ๋ฒกํ„ฐ๋ฅผ ํฐ data set ๋˜๋Š” vocabulary๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋‹จ์–ด๋ฅผ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ์‹์„ ํ†ตํ•ด ์œ ์‚ฌํ•œ ์˜๋ฏธ์˜ ๋‹จ์–ด๊ฐ€ ๊ทผ์ฒ˜์— ์œ„์น˜ํ•  ๋ฟ ์•„๋‹ˆ๋ผ, **multiple degrees of similarity(**syntactic, semantic, phonetic ๋“ฑ์˜ ๋ถ„์•ผ์˜ feature๋ฅผ ๊ณต์œ )๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“ค์–ด์ค๋‹ˆ๋‹ค. vector(โ€œ์„œ์šธโ€) - vector(โ€œ์ˆ˜๋„โ€) + vector(โ€œ์ผ๋ณธโ€) ์˜ ๊ฒฐ๊ณผ๋กœ ์–ป์€ ๋ฒกํ„ฐ์™€ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ๋‹จ์–ด ๋ฒกํ„ฐ๊ฐ€ โ€œ๋„์ฟ„โ€๋ฅผ ๊ฐ€๋ฆฌํ‚ค๋Š” ๋ฐฉ์‹์œผ๋กœ, ๋‹จ์–ด ๋ฒกํ„ฐ์˜ ์—ฐ์‚ฐ์ด ๋‹จ์–ด ์˜๋ฏธ์˜ ์—ฐ์‚ฐ์œผ๋กœ ๊ฐ€๋Šฅํ•˜๋„๋ก ์ƒˆ๋กœ์šด ๋ชจ๋ธ ์•„ํ‚คํ…์ณ๋ฅผ ๊ตฌ์„ฑํ•˜์—ฌ syntactic, semantic ์˜์—ญ์—์„œ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋„๋ก ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด์˜ ๋ชจ๋ธ๋“ค

1. N-gram Language Model

์ผ๋ จ์˜ ๋‹จ์–ด๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ํ•ด๋‹น ๋‹จ์–ด๋“ค ๋’ค์— ๋‚˜์˜ฌ ๋‹จ์–ด๋ฅผ ํ†ต๊ณ„์ ์œผ๋กœ ์ถ”์ธกํ•˜์—ฌ ์ถœ๋ ฅํ•˜๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์•ž์˜ ๋‹จ์–ด ์ค‘ ์ตœ๊ทผ N๊ฐœ์˜ ๋‹จ์–ด๋งŒ์„ ์‚ฌ์šฉํ•˜๋ฉฐ, ์‚ฌ์šฉํ•˜๋Š” ๋‹จ์–ด์˜ ๊ฐœ์ˆ˜์— ๋”ฐ๋ผ unigram, bigram, trigram, 4-gram ๋“ฑ์œผ๋กœ ์ด๋ฆ„์ด ๋ถ™์Šต๋‹ˆ๋‹ค. ํ•™์Šต ์ฝ”ํผ์Šค๋ฅผ ํ†ตํ•ด ๋‹จ์–ด๋“ค ๋’ค์— ๊ฐ ๋‹จ์–ด๊ฐ€ ๋‚˜์˜ฌ ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•˜์—ฌ ํ•™์Šตํ•˜๊ณ , ์ฃผ์–ด์ง„ N๊ฐœ์˜ ๋‹จ์–ด์— ๋Œ€ํ•˜์—ฌ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ๋กœ ๋’ค์— ๋“ฑ์žฅํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๊ฐ€์žฅ ๋†’์€ ๋‹จ์–ด๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ๊ฒฐ๊ณผ๋กœ ์ถœ๋ ฅํ•˜๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

์žฅ์ 

๋‹จ์ 

2. NNLM

Neural Network Language Model ๋˜๋Š” Feedforward Neural Language model์€ ์›Œ๋“œ ์ž„๋ฒ ๋”ฉ์„ ํ†ตํ•ด ๋‹จ์–ด ๊ฐ„์˜ ์œ ์‚ฌ๋„๋ฅผ ๊ธฐ๊ณ„์—๊ฒŒ ํ•™์Šต์‹œ์ผœ, ํ›ˆ๋ จ์— ์—†๋˜ ๋‹จ์–ด์˜ ์ˆœ์„œ์— ๋Œ€ํ•ด ๋ณด๋‹ค ์ •ํ™•ํ•œ ์˜ˆ์ธก์ด ๊ฐ€๋Šฅํ•˜๋„๋ก ํ•œ ๊ฐœ์„ ๋œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. N-gram ์ฒ˜๋Ÿผ N๊ฐœ์˜ ๋‹จ์–ด๋ฅผ ์ด์šฉํ•ด ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ์ฃผ์–ด์ง„ ๋‹จ์–ด์— ๋Œ€ํ•ด ๋งคํ•‘๋œ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ์— ๋Œ€ํ•ด ์—ฐ๊ฒฐ ์—ฐ์‚ฐํ•˜์—ฌ hidden layer๋กœ ์ „๋‹ฌํ•˜๋ฉด hidden layer์—์„œ ๊ฐ€์ค‘์น˜๋ฅผ ๊ณฑํ•ด ์ถœ๋ ฅ์ธต์œผ๋กœ ๋ณด๋‚ด๊ณ , ์ถœ๋ ฅ์ธต์—์„œ ๋˜๋‹ค๋ฅธ ๊ฐ€์ค‘์น˜์™€ ๊ณฑํ•ด์ง„ ๋’ค ๊ฐ€์žฅ ๊ฒฐ๊ณผ์น˜๊ฐ€ ํฐ ๊ฐ’์— ํ•ด๋‹นํ•˜๋Š” ๋‹จ์–ด๋ฅผ ์ถœ๋ ฅํ•˜๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ํ•™์Šต ์ฝ”ํผ์Šค์˜ ์ •๋‹ต๊ณผ ์–ป์–ด๋‚ธ ๊ฒฐ๊ณผ ๊ฐ„์˜ ์ฐจ์ด์— ๋Œ€ํ•ด ์—ญ์ „ํŒŒ๊ฐ€ ์ด๋ฃจ์–ด์ง€๋ฉฐ ์ง€๋‚˜์˜จ ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ๋“ค๊ณผ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ์˜ ๊ฐ’์ด ์กฐ์ •๋˜๋ฉฐ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

Untitled

์žฅ์ 

๋‹จ์ 

3. RNNLM