외국인 한국어 대화 · 작문 말뭉치

로그인

말뭉치 소개

『외국인 한국어 대화/작문 말뭉치』는 국내(한국)에 거주하는 외국인 주민 1,000여 명의 대화와 작문 자료를 수집하여 DB화한 것이다. 한양대학교 한국어문화원에서 한국연구재단의 토대연구지원사업인 “다문화 사회의 외국인 주민 한국어 말뭉치 구축 및 검색 시스템 개발”(2015~2020, 연구책임자: 이필영)을 통해 구축한 말뭉치(Corpus)로서, 원시 말뭉치 200만 어절(구어 150만 어절, 문어 50만 어절)과 오류 주석 말뭉치 100만 어절(문법 오류 주석 50만 어절, 음운 오류 주석 50만 어절)로 구성되었다.

『외국인 한국어 대화/작문 말뭉치』는 교실에서 이루어지는 형식적 제2언어 학습이 아닌 비구조화된 상황에서 가족 또는 동료들과 자연스럽게 상호작용한 결과로 한국어를 학습한 외국인 주민들의 일상대화와 작문 자료를 수집한 것으로, 한국어 교육뿐 아니라 일반언어학, 언어 습득 등 관련 학문 분야와 다문화 관련 정책 수립 등에 폭넓게 활용될 수 있을 것이다.

DB Introduction

『 『The Korean Conversation/Composition Corpus by Non-native Speakers』 is a DB that collects conversation and composition data of 1,000 foreigners living in Korea. This corpus is collected by the Center for Korean Language and Culture at Hanyang University through the project “Construction of an L2 Korean Language Corpus and Development of a Search System for Multi-cultural Society”(2015-2020, Research Director: Phil-young Lee) supported by the National Research Foundation. It consists of the raw corpus of 2 million words(1.5 million words of spoken language and 500,000 words of written language) and the tagged corpus of one million words(500,000 words with comments on grammatical errors, 500,000 words with comments on phonological errors).

『The Korean Conversation/Composition Corpus by Non-native Speakers』 is a collection of daily conversation and writing materials of foreigners shown in natural interaction with family or colleagues in an unstructured environment, not in formal L2 learning environment like a classroom. This DB can be widely used not only in Korean language education, but also in general academic fields such as general linguistics and language acquisition, as well as in establishing policies related to multiculturalism.

말뭉치 구성
말뭉치구성
구분 유형 내용 규모
원시
말뭉치
구어 외국인 주민의 대화를 녹음하여
한글로 전사한 말뭉치
조사 대상자
1000여 명,
150만 어절
문어 외국인 주민의 글쓰기 자료를
수집하여 전자 문서로 입력한
말뭉치
조사 대상자
1000여 명,
50만 어절
주석
말뭉치
문법
오류
원시 말뭉치 자료에 형태 · 어휘 ·
문장 오류에 관한 주석을 부착한
말뭉치
50만 어절
(구어 40만+
문어 10만)
음운
오류
발화 단위로 정렬한 문자-음성
연동 말뭉치로 구축하고, 음운
오류 주석을 부착한 말뭉치
50만 어절
The contents of DB
The contents of DB
Type Category Contents Scale
Raw
Corpus
Spoken
Language
A corpus of transcriptions of conversation in Korean by non-native speakers One thousand participants and 1.5 million words
Written
Language
A corpus of composition in Korean by non-native speakers One thousand participants and half a million words
Tagged
Corpus
Grammatical
errors
Tagged corpus with annotations on morphological, lexical, and sentence errors in raw corpus data Half a millionwords (400,000 spoken + 100,000 written)
Phonological
errors
Tagged corpus with annotations on phonological errors linked with corresponding audio data files Half a millionwords
연구자 소개
연구자소개
연구 책임자 이필영
공동 연구원 임유종(한양대학교 ERICA 산학협력단 연구부교수)
김태경(한양대학교 창의융합교육원 부교수, 한국어문화원 원장)
김영훈(한양대학교 소프트웨어학부 부교수)
백경미(한양대학교 미래인문학융합학부 강사, 한국어 문화원 책임 연구원)
연구 보조원 김건우, 김영화, 김정현, 나익채, 박새미, 박혜민, 심준보,
안유진, 윤승한, 이소연, 이승민, 이한솔, 임성엽
서비스 이용약관 개인정보처리방침

한양대학교 한국어문화원

전화번호 : 031-400-4513