天鵞絨絨毯の珈琲染

天鵞絨とかいうバカの暇つぶしでござんす

非字幕勢向けの自称分かりやすい自動字幕解説(日本語)

みなさんYoutube自動字幕というのはご存じでしょうか。Twitterの画像リプとかbotでたまに見る人もいるかもしれません、有名なのは「ヒカキン自動字幕」などですかね?

 

「国民の基本的な権利を停止」など面白くて汎用性の高いワードで元動画はどこにあるんだろう?と思った方も少なからずいるでしょう、しかし元となった画像の字幕はもう現存していません。なぜならあれらは「旧字幕」と呼ばれてアップデートにより消滅した字幕だからです。

 

過去に旧字幕はじわじわアップデートが行われながらもかなり残っていましたが、2019年6月19日の大型アップデートによりほとんど消えてしまいました。消えた旧字幕の代わりに現れたのが「新字幕」です。

 

ここで旧字幕と新字幕の違いを紹介。

まず旧字幕は10文字で強制改行が入ります。(半角英数は0.5文字扱い、10.5文字になった場合は0.5を端数とする)たとえそれが単語の途中でもです。非常に読みづらい

あと株や野球に関するワードが異常に多い。4打数8安打とかアンサイクロペディアイチローみたいな事を平気で言ってきます。

 

これは学習対象がスポナビ共同通信などのネットニュースにあてられていたからです。例えば

株でも野球でもないですがおそらくこれなどがそうだと思われます。

ちなみに数はとてつもなく少ないですが旧字幕と同じ内容ながら画面中心に字幕が自動的に寄って不自然な空白が入る「プロトタイプ字幕」というものもあります。

 

対して新字幕。

新字幕は10文字で改行が入りません。画面いっぱいに出ることもあります。

単語は「ブーブー」「ni」など旧字幕とは違った意味で非常に支離滅裂でカオスになりました。発音を優先的に認識するようになった結果このようになったのかもしれません。

また定型文の学習対象が野球や株から離れました。サイト名や下ネタがかなり多いです(「おっ pai」など若干検閲のような物は入っていますが)

 

新字幕と旧字幕を見分けるやり方は上で書いた事に照らし合わせれば分かると思います。

ちなみに旧字幕はごく一部の例外を除いて現在2011年5月以前の動画にしか存在していません。それも低確率。探していて見つけた時は謎の達成感がありますよ。

 

なんだ、あの有名な字幕もうないのか...と落胆するのはまだ早いです。Wayback Machineというサイトを使って旧字幕時代の該当する動画のページを開けばソース内に字幕データが残っていることが確認されています。

...それでも独自UIのせいで字幕と動画を一緒に再生するのは現段階では不可能です。誰かがツール作ってくれることを祈りましょう

 

さて、ここまで有名な字幕の出典とか旧字幕のあれこれとか話してきましたが、なんと「旧字幕でも新字幕でもなくどこにも存在しないが画像だけある」という字幕画像があります。それは「捏造字幕」です。

 

 

最も有名なのはこの画像ではないでしょうか。これらは自作の画像であって正規で存在したものではありません。

知識がないと結構間違いやすいですがあまり使うのは好ましくないと思われます。(個人的に) 日本語字幕であまりにも直球な暴言やガバガバなフォントがあればそれは少し怪しいかも...?(実は英語自動翻訳では結構暴言は出る)

 

以上がだいたいの自動字幕についての解説です。語彙力がないのとブログ初めてなので若干不自然なところもあったかもしれません。

本文では旧字幕推しって感じで書いてましたが新字幕も新字幕で発音に忠実な分わりと汎用性の高いものが見つかります。みなさんも収集を一度やってみてはいかがでしょうか?あと捏造ダメ絶対!