Uncharted Territory

自分が読んで興味深く感じた英文記事を中心に取り上げる予定です

RSS     Archives
 

プライバシーの捉え直し

 
AIの問題として個人データの扱いがあります。先ほどのNatureの記事でもPrivacy and consentが懸念事項として挙がっていました。個人データは本人の了承なく収集しないようにすべきだと真っ当な指摘をしていましたが、プライバシーを守りつつ有益な情報を吸い取るFederated learningというGoogleの新しい試みも紹介していました。

Protecting privacy: Federated learning
When technology companies use machine learning to improve their software, they typically gather user information on their servers to analyse how a particular service is being used and then train new algorithms on the aggregated data. Researchers at Google are experimenting with an alternative method of artificial-intelligence training called federated learning. Here, the teaching process happens locally on each user's device without the data being centralized: the lessons aggregated from the data (for instance, the knowledge that the word 'weekly' can be used as an adjective and an adverb) are sent back to Google's servers, but the actual e-mails, texts and so on remain on the user's own phone. Other groups are exploring similar ideas. Thus, information systems with improved designs could be used to enhance users' ownership and privacy over their personal data, while still enabling valuable computations to be performed on those data.


何もプライバシーの問題はAIだけではありませんね。現在の監視テクノロジーのすごさを実感させられたのが今月のNational Geographicのカバーストーリー。自分はFresh Airを聞いていてこの特集を知りました。特集のタイトルはこのようなトピックでおきまりのBig Brother。この記事では監視カメラCCTVの進んだロンドンをメインに、貿易や密猟などで使われる様々な監視カメラの現状を教えてくれ、記事の最後では衛星カメラで地球全域を追いかけられるようになっていることも取り上げています。


Technology and our increasing demand for security have put us all under surveillance. Is privacy becoming just a memory?
 By Robert Draper

In 1949, amid the specter of European authoritarianism, the British novelist George Orwell published his dystopian masterpiece 1984, with its grim admonition: “Big Brother is watching you.” As unsettling as this notion may have been, “watching” was a quaintly circumscribed undertaking back then. That very year, 1949, an American company released the first commercially available CCTV system. Two years later, in 1951, Kodak introduced its Brownie portable movie camera to an awestruck public.

Today more than 2.5 trillion images are shared or stored on the Internet annually—to say nothing of the billions more photographs and videos people keep to themselves. By 2020, one telecommunications company estimates, 6.1 billion people will have phones with picture-taking capabilities. Meanwhile, in a single year an estimated 106 million new surveillance cameras are sold. More than three million ATMs around the planet stare back at their customers. Tens of thousands of cameras known as automatic number plate recognition devices, or ANPRs, hover over roadways—to catch speeding motorists or parking violators but also, in the case of the United Kingdom, to track the comings and goings of suspected criminals. The untallied but growing number of people wearing body cameras now includes not just police but also hospital workers and others who aren’t law enforcement officers. Proliferating as well are personal monitoring devices—dash cams, cyclist helmet cameras to record collisions, doorbells equipped with lenses to catch package thieves—that are fast becoming a part of many a city dweller’s everyday arsenal. Even less quantifiable, but far more vexing, are the billions of images of unsuspecting citizens captured by facial-recognition technology and stored in law enforcement and private-sector databases over which our control is practically nonexistent.




ロンドンで監視カメラ社会を築けたのは英国では政府に対する信頼感があるからで米国では大きな政府に対するアレルギーがあると書いています。

As David Omand, the former director of the Government Communications Headquarters—one of the British intelligence agencies shown by Snowden to be collecting bulk data—put it to me: “On the whole we see our government as efficient and benign. It runs the National Health Service, public education, and social security. And thank God, we haven’t been through the experience of the man in the brown leather trench coat knocking on the door at four in the morning. So when we talk about government surveillance, the resonance is different here.”

That’s not by any means to say that a country like the United States, with its more skeptical view of big government, is wholly immune to surveillance creep. Most of its police departments are now using or considering using body cameras—a development that, thus far at least, has been cheered by civil liberties groups as a means of curbing law enforcement abuses. ANPR cameras are in many major American cities as traffic and parking enforcement tools. In the wake of the September 11 attacks, New York City ramped up its CCTV network and today has roughly 20,000 officially run cameras in Manhattan alone. Meanwhile, Chicago has invested heavily in its network of 32,000 CCTV devices to help combat the murder epidemic in its inner city.

こちらが地球全体の映像をカバーできるようにたくさんの衛星カメラを飛ばしているPlanetという会社のTEDの映像。初めて存在を知りました。



Meanwhile, Planet’s marketing team spends its days gazing at photographs, imagining an interested party somewhere out there. An insurance company wanting to track flood damage to homes in the Midwest. A researcher in Norway seeking evidence of glaciers eroding. But what about … a dictator wishing to hunt down a roving dissident army?

Here is where Planet’s own ethical guidelines would come into play. Not only could it refuse to work with a client having malevolent motives, but it also doesn’t allow customers to stake a sole proprietary claim over the images they buy. The other significant constraint is technological. Planet’s surveillance of the world at a resolution of 10 feet is sufficient to discern the grainy outline of a single truck but not the contours of a human. Resolution-wise, the current state of the art of one foot is supplied by another satellite imaging company, DigitalGlobe. But for now, only Planet, with its formidable satellite deployment, is capable of providing daily imagery of Earth’s entire landmass. “We’ve run the proverbial four-minute mile,” Marshall said. “Simply knowing it’s possible doesn’t make it any easier.”




上記の北朝鮮核開発絡みのトピックでもこのPlanetという会社が取り上げられていましたが、用途は様々で保険会社の調査にも使えるようです。敷地内の施設について申告漏れをしても衛星カメラは騙せません。

I was pondering the implications of this when a young woman showed me what was on her laptop. Her name was Annie Neligh, an Air Force veteran who now leads “customer solutions engineering” at Planet. One of Neligh’s customers needing a solution was a Texas-based insurance company. The company suspected that it was renewing insurance policies for homeowners who weren’t disclosing that they’d installed swimming pools—a 40 percent loss on each policy for the company. So it had asked Planet to provide satellite imagery of homes in Plano, Texas.

Neligh showed me what she’d found. Looking at a neighborhood of 1,500 properties, we could clearly see the shimmering shapes of 520 small bodies of water—a proportion far in excess of what the insurance company’s customers had claimed. Neligh shrugged and offered a thin smile. “People lie, you know,” she said.

Now her client had the truth. What would it do with this information? Conduct a surprise raid on the somnolent hamlets of Plano? Jack up premiums? Order images that might show construction crews installing new Jacuzzis and Spanish tile roofs? The future is here, and in it, truth is more than a kindly educator. It is a weapon—against timber poachers and burglars and mad bombers and acts of God, but also against the lesser angels of our nature. People lie, you know. The age of transparency is upon us.

英語表現的に面白いと思ったのは最後にあるlesser angels of our natureというもの。ピンカー教授はbetter angels of our natureという本を出していましたが、こちらの記事では人間の悪い面を表現しています。


 

人間は分かりやすいけど

 
ワイドショーのコメントがヘイトを煽っていると批判されていますが、人間の発言はある意味分かりやすいです。今回も「またか」という反応がありましたから。でも、これがAIによる判断だとしたら分かりにくいかもしれません。AIの決定過程がわからないブラックボックスの問題もありますが、ここでは偏見の問題を取り上げます。

Brain-computer interfaceは年初のEconomistのTechnology Quarterlyでも取り上げられましたが、昨年のNatureの記事でBrain-computer interfaceについてPrivacy and consent, Agency and identity, Augmentation, Biasという4つの懸念事項をあげています。この懸念はAIにも当てはまるそうです。

Rafael Yuste, Sara Goering, Blaise Agüera y Arcas, Guoqiang Bi, Jose M. Carmena, Adrian Carter, Joseph J. Fins, Phoebe Friesen, Jack Gallant, Jane E. Huggins, Judy Illes, Philipp Kellmeyer, Eran Klein, Adam Marblestone, Christine Mitchell, Erik Parens, Michelle Pham, Alan Rubel, Norihiro Sadato, Laura Specker Sullivan, Mina Teicher, David Wasserman, Anna Wexler, Meredith Whittaker& Jonathan Wolpaw
08 November 2017
Artificial intelligence and brain–computer interfaces must respect and preserve people's privacy, identity, agency and equality, say Rafael Yuste, Sara Goering and colleagues.

Biasの部分をYutaのざっくり訳と一緒に紹介します。

Bias. When scientific or technological decisions are based on a narrow set of systemic, structural or social concepts and norms, the resulting technology can privilege certain groups and harm others. A 2015 study12 found that postings for jobs displayed to female users by Google's advertising algorithm pay less well than those displayed to men. Similarly, a ProPublica investigation revealed last year that algorithms used by US law-enforcement agencies wrongly predict that black defendants are more likely to reoffend than white defendants with a similar criminal record (go.nature.com/29aznyw). Such biases could become embedded in neural devices. Indeed, researchers who have examined these kinds of cases have shown that defining fairness in a mathematically rigorous manner is very difficult (go.nature.com/2ztfjt9).
(偏見。科学や技術に関する決定が狭い範囲のシステムや構造、社会の考えや規範に基づいてなされた場合、その結果として生まれる技術はある集団を優遇して、別の集団を差別する可能性がある。ある2015年の研究が明らかにしたのはGoogleの広告アルゴリズムが女性に表示する求人広告は男性に表示されるものよりもずっと給料が低かったことだ。同様にProPublicaの調査で昨年わかったことは、米国の捜査機関で使用されているアルゴリズムは黒人の被告を同様の犯罪記録のある白人の被告よりも再犯の可能性が一層高いと誤って予測した。このような偏見はニューラル機器の組み込まれる可能性がある。さらに、このような事例を調査した研究者によれば数学的に厳密な方法で公正に定義することは非常に難しいそうだ)

Practical steps to counter bias within technologies are already being discussed in industry and academia. Such ongoing public discussions and debate are necessary to shape definitions of problematic biases and, more generally, of normality.
(テクノロジーに組み込まれた偏見への現実的な対応策はすでに業界や学界にて議論されている。このように一般的に議論・討論していくことは問題のある偏見、または、より広く規範について明らかにするのに必要である)

We advocate that countermeasures to combat bias become the norm for machine learning. We also recommend that probable user groups (especially those who are already marginalized) have input into the design of algorithms and devices as another way to ensure that biases are addressed from the first stages of technology development.
(我々の主張は、偏見への対抗策が機械学習において当然のことになることだ。また、被害を受けやすいユーザーグループ(特にすでに排斥されている集団)がアルゴリズムや機器の設計に提案をすることも推奨する。こうすれば技術開発の第一段階から偏見に対処できるだろう)

ここで紹介されていたProPublicaの黒人差別が反映されてしまっているソフトウエアの読み応えのあるレポートです。

by Julia Angwin, Jeff Larson, Surya Mattu and Lauren Kirchner, ProPublica
May 23, 2016

煽りコメントした人は高学歴なので読解力はあるのでしょうが、それだけでは不十分なのは彼女が明らかにしてくれています。
 

TOEICの銀ブラ問題

 


「銀ブラ」が「銀座でブラジルコーヒー」とする説は誤りとされているみたいですね。詳しい説明はリンク先で紹介されている漫画がオススメです。

雑学訂正漫画その2「銀ブラ」
ビー玉のガセと同じように初出が明確に判明している銀ブラネタ。
わざわざ正しい語源を言う人がいないせいで意外と思われるガセが広まってしまうパターン(下書き漫画でごめんなさい)

単なる笑い話で済ませられないのがSNS時代。このような根拠のない本当らしい話が広まりやすくなっていることは昨年Natureも記事にしていました。

Research on collective recall takes on new importance in a post-fact world.
Laura Spinney
07 March 2017 Corrected: 08 March 2017

Strange things have been happening in the news lately. Already this year, members of US President Donald Trump's administration have alluded to a 'Bowling Green massacre' and terror attacks in Sweden and Atlanta, Georgia, that never happened.

The misinformation was swiftly corrected, but some historical myths have proved difficult to erase. Since at least 2010, for example, an online community has shared the apparently unshakeable recollection of Nelson Mandela dying in prison in the 1980s, despite the fact that he lived until 2013, leaving prison in 1990 and going on to serve as South Africa's first black president.

Memory is notoriously fallible, but some experts worry that a new phenomenon is emerging. “Memories are shared among groups in novel ways through sites such as Facebook and Instagram, blurring the line between individual and collective memories,” says psychologist Daniel Schacter, who studies memory at Harvard University in Cambridge, Massachusetts. “The development of Internet-based misinformation, such as recently well-publicized fake news sites, has the potential to distort individual and collective memories in disturbing ways.”

実はTOEICにも「銀ブラ問題」に近いものがあります。L&R 1のPart2にある以下のやりとりです。

Can we try that Brazilian café tonight?
- I went there last week.
(今夜、あのブラジル料理のカフェに行ってみませんか。
そこへは先週行きました。)

和訳ではブラジル料理レストランとして訳していますが、Brazil coffeeの喫茶店の可能性はないでしょうか。cafezinhoは冒頭の動画でも出ていましたね。



Starbucks Brazil coffee master Vivi Fonseca explains the long-standing Brazilian coffee tradition of cafezinho. It means "little coffee" in Portuguese, but it's actually a moment to connect, chat and relax over coffee.

ニューヨークでブラジル料理のレストランを調べると以下のステーキハウスがたくさん出ました。問題を書いた人はこちらを想像していたかもしれません。



ブラジル料理レストランか、ブラジルコーヒーの喫茶店か、ニューヨークの店を調べてみるとどちらも可能性としてありそうです。



とはいっても、夜にわざわざ喫茶店に行こうと誘うよりも夕食を誘うのが普通ですよね。。しかもTOEICではCaféがレストランであるケースの方が多いですから。和訳のような解釈が自然ではないでしょうか。

Café=レストランについては別のブログで取り上げるつもりです。
 

コンコーダンスの癖

 
今回のはマニア向けの内容になっています。

新井紀子先生のツイートで以下のようなものがありました。

1月22日
が、そこで求められる人材は、AIについてリアルに、つまりどのように設計され、どのように作られ、どのように提供されているかを正しく認識している人材であってほしい、というかそうでなければならない。なぜなら、その人がいなければ大変なことになるから。

AIと比べると原始的なものですが、コーパスを分析するコンコーダンサーでも同じようなことが言えます。ちょっと重箱の隅つつきに感じられるかもしれませんが一例を挙げます。

English Journalの今月号の特集『\たった150語!/TOEICスコアが劇的にアップする 「コスパ最高」の英単語』のコラムで「ランキング上位から見るTOEICの世界」が紹介されていて、TOEICらしい語としてmailが53位になっていました。

なんでもない順位に見えるかもしれませんが、2つ問題をはらんでいます。

(1) mailにはe-mailも集計されている可能性がある

(2) Questions 181-185 refer to the following e-mails.の部分も集計されている可能性がある。

(1) mailにはe-mailも集計されている可能性がある

(補足追加)肝心の点が抜けていました。この特集で使用されているコンコーダンサーはハイフン付きの単語もハイフンなしとみなす場合があるので、mailと集計した時にe-mailもカウントされてしまいます。集計時にその点を考慮して調整した可能性もありますが、調整してe-mailを外してmailだけで集計したらこんなにも高い順位にならないと思います。TOEICではおおよそ7:3もしくは8:2ぐらいでe-mailの方の頻度の方が圧倒的に多いからです。まあこのあたりは現実社会を想定しても納得がいくでしょう。
(補足終わり)

日本語でメールといえば「電子メール」を指すくらいですし、英語でも同じように使われています。

(ロングマン)
mail
3 《U》 (E )メール
• I just want to check my mail.
ちょっとメールをチェックしたいんだ.
• You have mail.
メールが届いています.
同意 email
4 《C》 (E )メール(のメッセージ)
• I got a mail from him this morning.
今朝,彼からメールをもらった.
同意 email

ただTOEICにおいてはe-mail(電子メール)とmail(郵便物)は区別して使われています。もちろん西嶋先生はこのあたりはしっかりと把握されています。

address
e-mail address(メールアドレス)、 mailing address(郵送先住所)などのように、ほぼ「住所」の意味で使われている。

TOEICでのmailの使用例は以下のような感じです。

Please take a moment to fill out the following survey and mail it to us in the enclosed self-addressed, stamped envelope by May 28.
(少々お時間をいただき、下記のアンケートにご記入の上、切手が貼られた同封の返信用封筒にて5月28日までに当社へご郵送ください)

 we can send you a print version in the mail if you prefer
(ご希望に応じて印刷版を送付いたします)

TOEICの方針を反映させてe-mail(電子メール)とmail(郵便物)は区別して集計すべきかは著者の方針に委ねることになりますが、TOEICの語彙分析をしていて、TOEIC自身が分けているのですから分けるのが自然と思ってしまいます。

昨今の状況を反映して頻度もmail(郵便物)よりe-mail(電子メール)の方が圧倒的に多いですから、上位に紹介するのはe-mailの方だと主張することも可能かもしれません。

(2) Questions 181-185 refer to the following e-mails.の部分も集計されている可能性がある。

e-mailの使用頻度が高いといっても、少なくともYutaのテキストデータでは、Questions 181-185 refer to the following e-mails.の部分で使われているからなんですよね。テストの問題指示文の扱いは集計には厄介なところです。例えば今度出る銀フレでは設問に出る単語・表現を別に扱っていますね。この当たりもいい悪いではなく著者の方針に委ねられるところです。

まあ現実ではmailがe-mailの意味でも使われるようになっているようなので、保守的なTOEICに従いe-mail(電子メール)とmail(郵便物)とを区別することが「実用的」と言えるかわかりませんが、TOEIC対策的には押さえておきたいところですね。

 

こんなものかと思わないで

 
English JournalはいつもKindle Unlimitedで読んでいるんですが、3月号の特集が楽しみで今回は単品購入しました。

[3月号のお知らせ]
【特集】\たった150語!/TOEICスコアが劇的にアップする 「コスパ最高」の英単語
今や年間に200万人以上が受験する英語試験の定番、TOEIC L&Rテスト。
多くの受験者を悩ませるものの一つは、「単語」ではないでしょうか。
本特集では日韓で発刊された公式問題集から5200問をコーパス分析し、
「TOEICに頻出かつ特徴的な単語」を150に厳選!
満点ホルダーにして分析のスペシャリスト、
西嶋愉一先生の解説とともにお届けします。

Yutaも同じコンコーダンサーを使っていますし、特集のようなテキスト分析を元にブログ記事を書いているので公平な評者ではありませんが、このような方向性がもっと広まって欲しいです。西嶋愉一先生の解説を読むだけでもとても勉強になりました。

危惧するのが、今回紹介された単語を見てTOEIC学習者が知っている単語だけだから不要だとみなしてしまうことなんです。今回の特集では一般素材のコーパスと比較してTOEICで特徴的に多く使われている語を抽出しているんですが、それでも見慣れたものばかりという印象を抱いてしまわないでしょうか。

それではなぜTOEICスコアが停滞しがちなのか? その原因は特集での西嶋愉一先生のコメントにあるのではないでしょうか。

英単語は、やみくもに大量の語を学習するより、一つ一つの語についての知識を深めよう。

めったに使われない難語よりも、よく使われる語の語法をしっかり把握する方が重要だよ。

例えば見たことあるレベルではなくて、文脈から意味を瞬時に把握できるようになること、そんなことをできるようになる必要があるからでしょう。

西嶋愉一先生には今回の見出し語を倍ぐらいに増やして、各見出し語のコロケーションや語法を充実させた本を書いてもらいたいですね。今回の解説を読ませてもらって、コーパス分析で語法や文法を詳しく見ていく可能性を感じました。

まあといっても、なかなか習熟度をあげるための学習教材作りは大変なんでしょうね。Yutaも基本語の運用力を高める必要性を痛感したのはTOEIC990や英検1級を取得した後ですので。。。

プロフィール

Yuta

Author:Yuta
FC2ブログへようこそ!




最新トラックバック



FC2カウンター

検索フォーム



ブロとも申請フォーム

QRコード
QR