論文
『決定木ベースの機械学習モデル，大規模言語モデル
及び正規表現を活用した不適切な変数の自動検出』
の実験で使用したデータセット

論文タイトル:	決定木ベースの機械学習モデル，大規模言語モデル及び正規表現を活用した不適切な変数の自動検出
投稿先:	コンピュータソフトウェア
状態:	査読中

データセット	データ	ファイル	説明
RMiner （元データへのリンク）	名前変更リファクタリングデータ (CSV 形式)	rename_refactoring.csv (110KB) refactoring_before.csv (6,611KB) refactoring_after.csv (6,541KB) 上の 3 つをまとめたもの（refactoring.zip）	rename_refactoring.csv：名前変更リファクタリングの基本的なデータをまとめている．（ID，プロジェクトID，リポジトリURL，コミットハッシュ，URL，修正前の名前，修正前の型，修正後の名前，修正後の型，修正後のメソッド名，修正後のメソッドの引数，クラス） refactoring_before.csv： ID と修正前のファイルのソースコードを格納している． refactoring_after.csv： ID と修正後のファイルのソースコードを格納している．
RMiner （元データへのリンク）	評価データセット (CSV 形式)	random_forest_test_data.csv (69KB) code_t5_test_data.csv (1,034KB) regular_expression_test_data.csv (107KB) 上の 3 つをまとめたもの（test_dataset.zip）	random_forest_test_data.csv：ランダムフォレストで使用したメトリクスデータ及び予測結果をまとめている．（ID，実際の変更，変数名，メトリクスデータ（26種類），予測結果） code_t5_test_data.csv： CodeT5 で使用したデータ及び予測結果をまとめている．（ID，実際の変更，変数名，マスキングデータ，予測トークン，コサイン類似度，最小編集距離，Jaccard 係数，決定木なしの予測，決定木ありの予測） regular_expression_test_data.csv：正規表現で使用した関連コード要素及び予測結果をまとめている．（ID，実際の変更，変数名，代入式，関連コード要素（7種類），正規表現の一致結果，型名要素との類似度（コサイン類似度，最小編集距離，Jaccard 係数），代入式要素との類似度（コサイン類似度，最小編集距離，Jaccard 係数），決定木なしの予測，決定木ありの予測）
OpenJDK （リポジトリへのリンク）	CodeT5 のファインチューニングデータ (CSV 形式)	finetuning_train_data.csv (130,720KB) finetuning_valid_data.csv (32,740KB) 上の 3 つをまとめたもの（finetuning.zip）	finetuning_train_data.csv：ファインチューニングの学習用データをまとめている．（変数名，マスキング済みデータ，正解データ） finetuning_test_data.csv：ファインチューニングの検証用データをまとめている．（変数名，マスキング済みデータ，正解データ）
CRs （元データへのリンク）	名前変更リファクタリングデータ (CSV 形式)	CRs.csv (92KB) CRs_before.csv (4,051KB) CRs_after.csv (4,227KB) 上の 3 つをまとめたもの（CRs.zip）	CRs.csv：使用した CRs の基本的なデータをまとめている．（ID，プロジェクトID，リポジトリURL，コミットハッシュ，修正後の名前，修正後のメソッド，クラス） CRs_before.csv： ID と修正前のファイルのソースコードを格納している． CRs_after.csv： ID と修正後のファイルのソースコードを格納している．
CRs （元データへのリンク）	ランダムフォレスト及び決定木の構築データ (CSV 形式)	random_forest_train_data.csv (37KB) code_t5_decision_tree_tain_data.csv (382KB) regular_expression_decision_tree_train_data.csv (69KB) 上の 3 つをまとめたもの（train_dataset.zip）	random_forest_train_data.csv：ランダムフォレストで使用したメトリクスデータ及び予測結果をまとめている．（ID，実際の変更，変数名，メトリクスデータ（26種類）） code_t5_decision_tree_train_data.csv： CodeT5 で使用したデータ及び予測結果をまとめている．（ID，実際の変更，変数名，マスキングデータ，予測トークン，コサイン類似度，最小編集距離，Jaccard 係数，決定木なしの予測） regular_expression_decision_tree_train_data.csv： ID とメトリクスを格納している．（ID，実際の変更，変数名，代入式，関連コード要素（7種類），型名要素との類似度（コサイン類似度，最小編集距離，Jaccard 係数），代入式要素との類似度（コサイン類似度，最小編集距離，Jaccard 係数），決定木なしの予測）

論文『決定木ベースの機械学習モデル，大規模言語モデル及び正規表現を活用した不適切な変数の自動検出』の実験で使用したデータセット

論文
『決定木ベースの機械学習モデル，大規模言語モデル
及び正規表現を活用した不適切な変数の自動検出』
の実験で使用したデータセット