Posted at 2015.07.24 Category : 未分類
ロングマンの話し言葉コーパスについて触れたエントリーを書いたので前のブログ記事を参照用に再掲しました。
(前のブログの再掲)
COCAのコーパスが使いやすくなってきていて便利になっていますね。こういうのを無料で使わせてもらえるなんてありがたいことです。
コーパスを使うときに気をつけなくてはいけないのが、何を基礎データにしているかです。書き言葉のテキストデータ化は今どきコピペが出来そうで問題ない感じですが、話し言葉ってどうしているのでしょうか?
例えば、ロングマンの場合は、テープレコーダーで会話を録音して書き起こして500万語のアメリカ口語コーパスを作ったようです。
THE LONGMAN SPOKEN AMERICAN CORPUS: providing
an in-depth analysis of everyday English
Karen Stern
The Spoken American Corpus is a five million word database gathered from 12 regions across the continental US. Equal numbers of participants were chosen from each region, and a balance was struck between the numbers of participants from rural and city areas within those regions. UCSB sent project workers out to each of the regions to deliver portable tape recorders to the participants who then recorded four hour chunks of their normal daily conversations over periods of at least four days. Records were kept of the situations being recorded, and of the demographic details of everyone involved in the conversations.
The conversations were recorded as unobtrusively as possible, with the tape recorders simply being allowed to run for four hours at a time wherever the conversations were taking place. The tapes were edited to weed out silences and long stretches of garbled material and, finally, transcribed for Pearson Education team of American keyboarders. None of the last names, addresses, or telephone numbers that were talked about on the tapes were transcribed. This combined with the fact that participants were guaranteed anonymity resulted in the natural conversations we required.
会話を録音して文字にするだけでも大変なのに、それ以外にも地域や性別、年齢、人種、学歴などのバランスも考慮して作られたようです。ある作家のコーパスなら単に文字化すればいいだけですが、社会の言葉を代表させるにはいろいろな苦労がありそうですね。
これに対して、残念ながらCOCAのSPOKENに関しては、そのような手間暇はかけずにラジオやテレビのニュースやトーク番組のスクリプトを利用しているようです。下記に、録音したものを作りたかったけれども無理だったと言っています。COCAは年ごと、年代ごとにコーパスを作成していますので、なかなか難しいのかもしれませんね。
SPOKEN TRANSCRIPTS
We wanted to have a fifth of the corpus (80+ million words) be from spoken American English. It would have been impossible, however, to create a corpus that size by tape recording lectures, conversations, etc. The only option was to use transcripts of conversations, which were already in electronic form. Therefore, we obtained transcripts of unscripted conversation on TV and radio programs like All Things Considered (NPR), Newshour (PBS), Good Morning America (ABC), Today Show (NBC), 60 Minutes (CBS), Hannity and Colmes (Fox), Jerry Springer (syndicated), etc.
まあJerry Springerのような下世話な番組も入っていますが、どうしてもお堅い番組が多いような気がしますし、トークがあるといってもニュース番組が多いですよね。サイトの説明の中で、以下のような質問に答えていましたが。。。
1) Do they faithfully represent the actual conversations?
2) Is the conversation really unscripted?
3) How well does it represent "non-media" varieties of Spoken American English?
SPOKENというと日常会話と思ってしまいますが、COCAの場合は、テレビやラジオのスクリプトで、ニュース番組が大半を占めていることを念頭に入れておいた方がいいかもしれません。とりあえず言えるのは、メディアで流れたものなので、放送禁止用語や行儀の悪い言葉はないということですね。映画とかのトランスクリプトじゃ駄目なのですかねえ、なんかイメージと違ってしまう感じが。。。学習コーパスには適していると言えそうですが。。。
その点どんな内容が入っているのか知りませんが、ロングマンが会話を録音して500万語のコーパスを作ったというのは、やっぱり凄いことですね。「宿題やったの、早く寝なさい」とかいう言葉も入っているのでしょうか、入っていたらすごいことですね(笑)
(前のブログの再掲)
COCAのコーパスが使いやすくなってきていて便利になっていますね。こういうのを無料で使わせてもらえるなんてありがたいことです。
コーパスを使うときに気をつけなくてはいけないのが、何を基礎データにしているかです。書き言葉のテキストデータ化は今どきコピペが出来そうで問題ない感じですが、話し言葉ってどうしているのでしょうか?
例えば、ロングマンの場合は、テープレコーダーで会話を録音して書き起こして500万語のアメリカ口語コーパスを作ったようです。
THE LONGMAN SPOKEN AMERICAN CORPUS: providing
an in-depth analysis of everyday English
Karen Stern
The Spoken American Corpus is a five million word database gathered from 12 regions across the continental US. Equal numbers of participants were chosen from each region, and a balance was struck between the numbers of participants from rural and city areas within those regions. UCSB sent project workers out to each of the regions to deliver portable tape recorders to the participants who then recorded four hour chunks of their normal daily conversations over periods of at least four days. Records were kept of the situations being recorded, and of the demographic details of everyone involved in the conversations.
The conversations were recorded as unobtrusively as possible, with the tape recorders simply being allowed to run for four hours at a time wherever the conversations were taking place. The tapes were edited to weed out silences and long stretches of garbled material and, finally, transcribed for Pearson Education team of American keyboarders. None of the last names, addresses, or telephone numbers that were talked about on the tapes were transcribed. This combined with the fact that participants were guaranteed anonymity resulted in the natural conversations we required.
会話を録音して文字にするだけでも大変なのに、それ以外にも地域や性別、年齢、人種、学歴などのバランスも考慮して作られたようです。ある作家のコーパスなら単に文字化すればいいだけですが、社会の言葉を代表させるにはいろいろな苦労がありそうですね。
これに対して、残念ながらCOCAのSPOKENに関しては、そのような手間暇はかけずにラジオやテレビのニュースやトーク番組のスクリプトを利用しているようです。下記に、録音したものを作りたかったけれども無理だったと言っています。COCAは年ごと、年代ごとにコーパスを作成していますので、なかなか難しいのかもしれませんね。
SPOKEN TRANSCRIPTS
We wanted to have a fifth of the corpus (80+ million words) be from spoken American English. It would have been impossible, however, to create a corpus that size by tape recording lectures, conversations, etc. The only option was to use transcripts of conversations, which were already in electronic form. Therefore, we obtained transcripts of unscripted conversation on TV and radio programs like All Things Considered (NPR), Newshour (PBS), Good Morning America (ABC), Today Show (NBC), 60 Minutes (CBS), Hannity and Colmes (Fox), Jerry Springer (syndicated), etc.
まあJerry Springerのような下世話な番組も入っていますが、どうしてもお堅い番組が多いような気がしますし、トークがあるといってもニュース番組が多いですよね。サイトの説明の中で、以下のような質問に答えていましたが。。。
1) Do they faithfully represent the actual conversations?
2) Is the conversation really unscripted?
3) How well does it represent "non-media" varieties of Spoken American English?
SPOKENというと日常会話と思ってしまいますが、COCAの場合は、テレビやラジオのスクリプトで、ニュース番組が大半を占めていることを念頭に入れておいた方がいいかもしれません。とりあえず言えるのは、メディアで流れたものなので、放送禁止用語や行儀の悪い言葉はないということですね。映画とかのトランスクリプトじゃ駄目なのですかねえ、なんかイメージと違ってしまう感じが。。。学習コーパスには適していると言えそうですが。。。
その点どんな内容が入っているのか知りませんが、ロングマンが会話を録音して500万語のコーパスを作ったというのは、やっぱり凄いことですね。「宿題やったの、早く寝なさい」とかいう言葉も入っているのでしょうか、入っていたらすごいことですね(笑)
スポンサーサイト
Tracback
この記事にトラックバックする(FC2ブログユーザー)