日本の人気曲で一番使われている英語のフレーズはアレだった!

Pocket

ついにフリー素材をアイキャッチ画像に使ってしまいました。

まあ味気ない画像よりもね、華やかな女性の画像の方が誰にとっても嬉しいんじゃないかって思うわけですよ。

てな感じで今日は!

日本の人気曲で一番使われている英語のフレーズを調べてみようと思います!

 

方法

Pythonを使って、スクレイピングします。
スクレイピングっていうのはwebの情報をうまいこと拾ってくる技法のことです。

歌詞から情報を抜き出そうとしているので、とりあえず歌詞サイトを色々とみて、

J-Lyric.net

君に決めた!

歌詞サイトは他にもいくつかあったのだけど、肝心の歌詞の部分が画像として貼られていて、文章を抜き出せなさそうだったので、このサイトにした。

画像として保存するために歌詞を画像にしているのか、それとも歌詞を抜き出せないようにするために画像にしているのかはわからない。

コードは解説しないけど、こんな感じ。

BeautifulSoupっていうライブラリを使ってスクレイピングした。
ASCII文字だけを抜き出すためにord関数を使って評価しているところや、正規表現を使ってある長さの歌詞を配列に格納していくのがポイント。

 

ルール

  • J-Lyrics.netの歌詞検索の人気ランキングの1位から2000位の曲で、基本的には改行単位を一つのセリフとみなし、その中から英語の文字を抽出する。
  • 6文字以下のセリフは無視する。(空白も文字にカウントする)
  • 一つの曲につき、同じセリフは一つまでしかカウントしない。

独断で、こういうルールで実施することにした。

 

結果

よし、準備はできた。

python3 lyrics.pyを実行だ!

コードを実行してから20分後

完全に眠りに落ちかけたその時!

結果が出た!

圧倒的に一位の奴がいる!

それは…

I Love you

だっ!

やっぱりそうなのかー。

歌は、愛を歌うためにあるのか?!!

ベスト5は、

I miss you
la la la
oh yeah
wow wow

と続く。

ラララ…とか、オーイエーとか、ウォウウォウとか、なんて稚拙な英語なんだ!

まあこいつらがランキング上位に来るのは仕方がないか。

以下にTOP50をそのまま載せておく。かっこの中は登場した回数である。
また上から50個抜き出したので、登場回数が3回のセリフはもっと沢山あると思われる。

i love you (24)
i miss you (9)
la la la (9)
oh yeah (9)
wow wow (9)
love song (8)
oh baby (8)
my life (7)
oh oh oh (7)
yeah yeah yeah (7)
let’s go (7)
show time (6)
for you (6)
memories (6)
everyday (5)
i believe (5)
alright (5)
yeah yeah (5)
don’t worry (5)
happy birthday (4)
tell me why (4)
wow wow wow (4)
best friend (4)
happy birthday to you (4)
hey hey hey (4)
tonight (4)
my love (4)
love story (4)
one time (3)
your love (3)
baby baby (3)
don’t stop (3)
baby boy (3)
my heart (3)
with you (3)
don’t cry (3)
only you (3)
ah ah ah ah (3)
one love (3)
i’m sorry (3)
stay with me (3)
i’ll be there (3)
goodbye (3)
change my life (3)
and you don’t stop (3)
<> (3)
lalalala (3)
now and forever (3)
remember (3)
everyday everynight (3)

下から5番目はちょっとミスってしまっている。目を瞑ろう。

 

最後に

スクレイピングの練習をしようと思ってやってみたけど、楽しい!

もっとスクレイピングがしたい!

ちなみに僕が今読んでいる本はこちら。

Pocket