2018-05-03

大学中退→10月入社で得た三つのもの：金と時間と健康

随筆

「働き方」にまつわる＃わたしの転機の一つは、東大を退学して2017年10月に新卒入社したことです。GWのまとまった休みで気持ちの整理をしたいという考えから、入社から7カ月を経ての思いの丈を備忘録にまとめておきます。

upura.hatenablog.com

存在した三つの選択肢

転機となった2017年10月、僕には三つの選択肢がありました。

そのまま大学に在籍し続ける
半年間在籍or休学して翌4月に入社する
即座に中退して入社する

最終的には三つ目の選択肢を採用しましたが、そのおかげで得られたものは多かったと思っています。
（もちろん学位など失ったものも多くありますが・・・）

10月入社で得た三つのもの

この決断で得たものは、大きく分けて金・時間・健康の三つです。

金

これは一番分かりやすいですね。大学に在籍していれば年間56万程度の学費を払っていたのが、入社したことで逆に安定した収入が入ってくるようになりました。僕の場合は大学時代と入社後で（プログラミングという視点などでは）やっていることに大差がないと捉えているので、この違いは大きいと思っています。

気軽に技術書をAmazonでポチれる、後輩に躊躇せずカッコつけて飯を奢れる、といったレベルでしかお金を基本使わないのですが、精神的な余裕ができたのは良いことかなと。

時間

これは個人差が大きい話かと思いますが、僕は大学時代性格上、常に研究のことを考えてしまう節がありました。入社したことで、良くも悪くも「勤務時間」という概念が発生したのは、オン・オフを切り替えるという面で非常に効果的に働いていると感じています。

例えば大学時代はGWも常に研究のことばかりを考えて、何なら毎日研究室にいることもありました。しかし今は業務端末を会社に置いてあるので物理的に仕事ができず、まとまった時間で家事をしたり趣味的な勉強をしたりといったことが可能になった気がしています。ブログの更新数も、中退して入社すると決めた頃から格段に増えています。

健康

これは「時間」に密接に関係している話ですが、比較的時間に余裕ができたので、意識的にウォーキング・ジョギングや筋トレをするようになりました。「社会人になったし、一念発起して頑張ろう」という強い思いから実現している面もあると思います。立派なエンジニアになるため、良い筋肉を身に付けたいです。

おわりに

徒然なるままに書き連ねた通り、現状は思い切った決断をした自分を褒めてあげたいなと思っています。そして改めて、学費を払ってもらっている立場の癖に、突然「中退して就職する」とか勝手なことを言う息子を受け入れてくれた両親にも感謝せねばなぁと。

人生はA/Bテストできないので、この決断が良かったかどうかは永遠に分かり得ませんが、将来振り返った時に自信を持って「成功だった」と言えるよう、邁進していく所存です。

【論文メモ】Data2Vis: Automatic Generation of Data Visualizations Using Sequence to Sequence Recurrent Neural Networks

自然言語処理論文メモ

Data2Vis: Automatic Generation of Data Visualizations Using Sequence to Sequence Recurrent Neural Networks

Victor Dibia, Çağatay Demiralp
[1804.03126] Data2Vis: Automatic Generation of Data Visualizations Using Sequence to Sequence Recurrent Neural Networks

どんなもの？

与えられたデータセットから「データ・ビジュアライゼーション」を自動的に生成するためのニューラル翻訳モデル「Data2Vis」を提案
「データ・ビジュアライゼーション」の生成を、sequence to sequence 変換問題として定式化
LSTM（long-term-memory）ユニットを有する多層アテンションベースのリカレントニューラルネットワーク（RNN）を学習させた
- ビジュアライゼーション仕様のコーパスを使用

先行研究と比べてどこがすごい？

先行研究
- Bertin[7]は、データ・ビジュアライゼーションを"a language for the eye"として体系化した
- Mackinlay[43]は、データ・ビジュアライゼーションをグラフィカルな言語の文章と見なし、「表現性」と「有効性」の基準に基づいてモデルを定式化し、「形式言語」から概念を借用した
- その後の研究では、さまざまな「文法」も導入された
本研究
- 本研究では、これらの知見を拡張して、「データ・ビジュアライゼーション」の生成を、sequence to sequence 変換問題として定式化した

技術や手法のキモはどこ？

f:id:upura:20180428131703p:plain

どうやって有効だと検証した？

(生成モデルの定量的検証は一般に難しい)
"R dataset repository"を利用した定性的検証
- Json形式
- 統計ソフトウェア環境Rとアドオン・パッケージの一部と共に最初に配布された1147個のデータセット
検証を通じて、モデルが以下を学習することが示された
- モデルが有効なビジュアライゼーション仕様
- 適切な変換（カウント、ビン、平均）
- 一般的なデータ選択パターンの使い方

f:id:upura:20180428133119p:plain

議論はある？

学習データを増やしたい
現状は一つのインプットに対して一つのアウトプットしか生成しないが、あり得る複数のアウトプットを生成するモデルに拡張したい
"ggplot2"など他のビジュアライゼーション仕様に対応するモデルも検討したい
インプットにデータセットだけでなく自然言語も加えられるようにしたいし、自動キャプション生成の可能性も検討したい

次に読むべき論文は？

[7] Jacques Bertin. 1983. Semiology of Graphics. University of Wisconsin Press.
[43] Jock Mackinlay. 1986. Automating the design of graphical presentations of relational information. ACM Trans. Graphics 5, 2 (1986), 110–141.

[追記: 20180607]

筆者が実装を公開
github.com

2018-04-28

【TEDメモ】統計を好きになるべき理由 (アラン・スミス | TEDxExeter)

随筆その他

www.ted.com

概要

フィナンシャル・タイムズのアラン・スミスさんのTEDトーク。
”人が初歩的な数学を理解できるのは「当たり前」と考えがちだけど、実際はそうではない。しかし統計は本来「私たち自身に関する科学」であり、数学の得手不得手に関係なく数字に関心を持ってほしい”

所感

メッセージそのものは単純なもの
そのメッセージをユーモラスに、かつ具体例を豊富に伝えているのが素晴らしい
本筋とは外れるがWebAppを作る際の工夫の部分も非常に参考になる

2018-04-24

【書評】『前処理大全』はNot Awesomeな局所解に気付かせてくれる本

R python 書籍メモ

前処理大全［データ分析のためのSQL/R/Python実践テクニック］

本橋智光　著，株式会社ホクソエム　監修
定価（本体3,000円＋税）
技術評論社

gihyo.jp

どんな本？

データサイエンスの現場で遭遇する様々なトピック（抽出・集約・結合など）を題材に、R・Python・SQLを用いた実装方法を紹介。「Not Awesome」な不適切なコードを理由とともに提示した後、「Awesome」な可読性の高く処理量の少ないコードを掲載している。

所感

実例を通じて、「Not Awesome」なコードを書いてしまっていた自分に気付ける本。

例えばPython/Pandasでの条件付き抽出に関して、インターネットで調べると以下のようなコードが多く出てくる。

Not Awesome

import pandas as pd
df = pd.read_csv("data.csv")

df = df[df["id"]=="hogehoge"]

しかし、このコードは下記の点などでAwesomeとは言えない。

dfが入れ子になっていて可読性が低い
dfの名前が変わった際には3箇所も変更する必要がある

Awesomeなコードとしては、下記のようなものが提示されている。

Awesome

df.query('id=="hogehoge"', inplace=True)

.queryを使うことで、可読性を高めている
inplace=Trueを与えることで、dfの回数も1回のみにしている

このような実例を通じて「動いているから良いや」で済ましていた事案を知ることができ、局所解からの脱却を促してくれる本になっている。寝られない時にザッと読み通したが分量は多いので、サラッと読んでおいて辞書的に使うのも良いかもしれない。

2018-04-23

【論文メモ】新聞記事における政治家の発言の引用記述と議会会議録との対応関係の調査 ―フェイクニュース検出に向けて―

論文メモ自然言語処理