Colab ~ 文章を自動で整形してgoogle翻訳の精度を向上させる方法 ~ プログラミング入門

6 min
広告_零号機

こんなお困りごと無いですか?

大学生

大学生

プログラミングを学んで何が得するのかが解らない。

大学院生

大学院生

レポート提出を求められているけど、英語が苦手で論文を読むのに時間がかかってしまう 。

若手社会人

若手社会人

プログラミングを始めたいけど、何から始めて良いのか解らなくていつも挫折してしまう。

解決方法は?

あるよ。

忠犬SE

忠犬SE

Googleアカウントさえあれば、Google Colaboratoryというサービスを使って初期セットアップ不要でpythonというプログラミングが使えるんだよ。

忠犬SE

忠犬SE

プログラミングを上手く使えば、煩わしい作業が効率化できるよ。

例えば、↓みたいに、google翻訳活用のために英文をピリオドで改行したりする作業などはプログラミングが得意なことだよ。

忠犬SE

忠犬SE

1:Data collection is a major bottleneck in machine learning and an active research topic in multiple communities.
2:There are largely two reasons data collection has recently become a critical issue.
3:First, as machine learning is becoming more widely-used, we are seeing new applications that do not necessarily have enough labeled data.
4:Second, unlike traditional machine learning, deep learning techniques automatically generate features, which saves feature engineering costs, but in return may require larger amounts of labeled data.
5:Interestingly, recent research in data collection comes not only from the machine learning, natural language, and computer vision communities, but also from the data management community due to the importance of handling large amounts of data.
6:In this survey, we perform a comprehensive study of data collection from a data management point of view.
7:Data collection largely consists of data acquisition, data labeling, and improvement of existing data or models.
8:We provide a research landscape of these operations, provide guidelines on which technique to use when, and identify interesting research challenges.
9:The integration of machine learning and data management for data collection is part of a larger trend of Big data and Artificial Intelligence (AI) integration and opens many opportunities for new research.

Google Colaboratoryを使って英文をピリオドで改行し行番号を付与する

本コードはリンク先のブログを参考に、 Google Colaboratory でも使用できるように一部修正しました。

自己学習のために英語論文を読もうと思っても英語の壁に阻まれている方が多いかと思います。(かくいう私もそうです。)
Google翻訳を活用しようと思っても改行が正しくされていないと中々上手く翻訳されません。
正規表現を使って置換しようとしても結構面倒くさいです。
また、翻訳の精度が上がってきたとはいえ、時々怪ししい日本語訳があります。
この場合、多くの方は英文と見比べているかと思いますが、長い文章の場合、英文と日本語訳の対応付けに時間がかかります。
そこで、英文をピリオドで改行し行番号を付与するツールを作成してみました。

https://qiita.com/kewton/items/c49fcf3f8697b7b1a4e5
  1. STEP

    Google Colaboratoryを始める

    下記記事などを参考に、Google Colaboratory(略称:Colab)で新しいノートブックを作成します。

    もしくは、githubにソースを公開しておりますので下記リンクをクリックしてください。

    githubで開く

  2. STEP

    コードをコピーする

    下記リンクをクリックして Colab を起動し、直接実行するかもしくはセルをコピーします。

    Open In Colab
  3. STEP

    STEP2でコピーしたコードをGoogle Colaboratoryで実行する

    STEP2でコピーしたコードをGoogle Colaboratoryのノートブックのセルにコピーします。(下記図参考)

    左上の▶をクリックしてセルに記述したコードを実行します。
    セルの下部に「ファイル選択」ボタンが表示されます。(下記図参考)


    「ファイル選択」をクリックしてファイル選択ダイアログより英文が記述されたテキストファイルを選択します。※今回は、A Survey on Data Collection for Machine Learning: a Big Data – AI Integration PerspectiveのAbstractを「aaa.txt」という名前のテキストファイルで保存したものを使用しました。

    実行例は下記の通りです。

  4. STEP

    Google翻訳で英文を日本語訳する

    STEP3で出力したファイルをGoogle翻訳のドキュメントに指定します。

    加工前の英文と加工後英文のGoogle翻訳結果(上段:加工前、下段:加工後)です。

    加工後テキストの方が日本語として解りやすいかと思います。

    データ収集は、機械学習の主要なボトルネックであり、複数のコミュニティで活発な研究トピックです。がある
    データ収集が最近重大な問題になっている主な2つの理由。まず、機械学習がより広く使用されるようになるにつれて、私たちは
    必ずしも十分なラベル付きデータがない新しいアプリケーションが見られます。第二に、従来の機械学習とは異なり、深い
    学習手法は自動的に機能を生成し、機能エンジニアリングのコストを節約しますが、その見返りとして、より多くの金額が必要になる場合があります
    ラベル付けされたデータの。興味深いことに、データ収集に関する最近の研究は、機械学習、自然言語、および
    コンピュータビジョンコミュニティだけでなく、大量のデータを処理することの重要性のためにデータ管理コミュニティからも。
    この調査では、データ管理の観点からデータ収集の包括的な調査を行います。主にデータ収集
    データの取得、データのラベル付け、および既存のデータまたはモデルの改善で構成されます。これらの研究風景を提供します
    運用、いつ使用する手法に関するガイドラインを提供し、興味深い研究課題を特定します。の統合
    データ収集のための機械学習とデータ管理は、ビッグデータと人工知能(AI)統合のより大きなトレンドの一部です
    そして新しい研究のための多くの機会を開きます。
    1:データ収集は、機械学習の主要なボトルネックであり、複数のコミュニティで活発な研究トピックです。
    2:データ収集が最近重大な問題になっている主な理由は2つあります。
    3:まず、機械学習がより広く使用されるようになるにつれて、必ずしも十分なラベル付きデータがない新しいアプリケーションが見られます。
    4:第2に、従来の機械学習とは異なり、深層学習手法は自動的に特徴を生成し、特徴エンジニアリングのコストを節約しますが、その見返りとして、大量のラベル付きデータが必要になる場合があります。
    5:興味深いことに、データ収集に関する最近の研究は、機械学習、自然言語、コンピュータービジョンのコミュニティだけでなく、大量のデータを処理することの重要性から、データ管理のコミュニティからも得られています。
    6:本調査では、データ管理の観点からデータ収集の総合的な調査を行います。
    7:データ収集は、主にデータの取得、データのラベル付け、および既存のデータまたはモデルの改善で構成されます。
    8:これらの操作の調査状況を提供し、いつどの手法を使用するかについてのガイドラインを提供し、興味深い調査の課題を特定します。
    9:データ収集のための機械学習とデータ管理の統合は、ビッグデータと人工知能(AI)統合のより大きなトレンドの一部であり、新しい研究の多くの機会を開きます。 

最後に

本日は、Google Colaboratory を使用してpythonプログラミングを実行してみました。 Google Colaboratory を使用することで直ぐにプログラミングに取り組めたと思います。

プログラミング初学者の場合、従来はここまでたどり着くのに平気で1~2日はかかっていと思います。多くの人は実際にコードを書いて実行する前に挫折していたと思います。世に出ている便利なサービスを使わない手はありません。

 忠犬SE

忠犬SE

また、プログラミングの力を活用することで、Google翻訳を使用した英訳が一気に効率化できたと思います。

今回は「英文をピリオドで改行し行番号を付与する」というすごく単純なことですが、このような同じことの繰り返しはプログラミングで自動化(しかもより速く正確)出来ることを意味しています。

 忠犬SE

忠犬SE

皆さんも同じことを繰り返しているなと感じたら「自動化出来ないか?」と考えてみてください。

すると、同じことの繰り返しが急にクリエイティブな作業に変わります。

忠犬SE

忠犬SE

【付録】ITスキルを身に付けたい方へ

  • ITスキル全般を網羅的に学ぶには資格取得が一番です。基本情報については下記の参考書がおすすめです。
    図解が多用されておりビジュアル的で解りやすくITについての知識があまり無い方にお勧めします。

令和03年 イメージ&クレバー方式でよくわかる 栢木先生の基本情報技術者教室 [ 栢木厚 ]

価格:1,848円
(2021/9/6 20:00時点)
感想(3件)

  • 応用情報レベルになると問題集をたくさん解くことが重要になりますが、下記の問題集がおすすめです。

ご参考

ちなみに今回は下記 Chromebook を使用しました。
14.0型フルHD × Core i3 × メモリ8GB を満たす数少ない端末です。
軽くて持ち運びしやすく開発に耐えうるスペックなのでおすすめです。

富士通|FUJITSU ノートパソコン FMV Chromebook 14F(タッチパネル) ダーククロム FCB143FB [14.0型 /Chrome OS /intel Core i3 /メモリ:8GB /SSD:128GB /タッチパネル対応 /2021年12月モデル]【point_rb】

価格:70,510円
(2022/2/23 18:35時点)
感想(1件)

Chromebook でプログラミングを始める方法については下記記事をご参考下さい。

広告_零号機-エリア2
kewton

kewton

大学院卒業後、某大手SIerで10年以上SEとして従事。
社会人3年目までに基本情報・応用情報技術者、データベーススペシャリスト、簿記3級・2級を取得。
基幹系システム・IoTシステム開発のプロジェクト経験多数。AI活用システムの企画・プロト開発経験あり。
強みは、プロマネだけでなく自身で開発も実施してきたこと。
【扱える言語】
C#、java、python、javascript、Excel VBA
【扱えるDB】
oracle、sql server、postgreSQL、mongoDB

FOLLOW

関連記事

コメントを残す

メールアドレスが公開されることはありません。

CAPTCHA