データセット
|
データ
|
ファイル
|
説明
|
RMiner
(元データへのリンク)
|
名前変更リファクタリングデータ
(CSV 形式)
|
上の 3 つをまとめたもの(refactoring.zip)
|
-
rename_refactoring.csv:
名前変更リファクタリングの基本的なデータをまとめている.
(ID,プロジェクトID,リポジトリURL,コミットハッシュ,URL,修正前の名前,修正前の型,修正後の名前,修正後の型,修正後のメソッド名,修正後のメソッドの引数,クラス)
-
refactoring_before.csv:
ID と修正前のファイルのソースコードを格納している.
-
refactoring_after.csv:
ID と修正後のファイルのソースコードを格納している.
|
評価データセット
(CSV 形式)
|
上の 3 つをまとめたもの(test_dataset.zip)
|
-
random_forest_test_data.csv:
ランダムフォレストで使用したメトリクスデータ及び予測結果をまとめている.
(ID,実際の変更,変数名,メトリクスデータ(26種類),予測結果)
-
code_t5_test_data.csv:
CodeT5 で使用したデータ及び予測結果をまとめている.
(ID,実際の変更,変数名,マスキングデータ,予測トークン,コサイン類似度,最小編集距離,Jaccard 係数,決定木なしの予測,決定木ありの予測)
-
regular_expression_test_data.csv:
正規表現で使用した関連コード要素及び予測結果をまとめている.
(ID,実際の変更,変数名,代入式,関連コード要素(7種類),正規表現の一致結果,型名要素との類似度(コサイン類似度,最小編集距離,Jaccard 係数),代入式要素との類似度(コサイン類似度,最小編集距離,Jaccard 係数),決定木なしの予測,決定木ありの予測)
|
OpenJDK
(リポジトリへのリンク)
|
CodeT5 のファインチューニングデータ
(CSV 形式)
|
上の 3 つをまとめたもの(finetuning.zip)
|
-
finetuning_train_data.csv:
ファインチューニングの学習用データをまとめている.
(変数名,マスキング済みデータ,正解データ)
-
finetuning_test_data.csv:
ファインチューニングの検証用データをまとめている.
(変数名,マスキング済みデータ,正解データ)
|
CRs
(元データへのリンク)
|
名前変更リファクタリングデータ
(CSV 形式)
|
上の 3 つをまとめたもの(CRs.zip)
|
-
CRs.csv:
使用した CRs の基本的なデータをまとめている.
(ID,プロジェクトID,リポジトリURL,コミットハッシュ,修正後の名前,修正後のメソッド,クラス)
-
CRs_before.csv:
ID と修正前のファイルのソースコードを格納している.
-
CRs_after.csv:
ID と修正後のファイルのソースコードを格納している.
|
ランダムフォレスト及び決定木の構築データ
(CSV 形式)
|
上の 3 つをまとめたもの(train_dataset.zip)
|
-
random_forest_train_data.csv:
ランダムフォレストで使用したメトリクスデータ及び予測結果をまとめている.
(ID,実際の変更,変数名,メトリクスデータ(26種類))
-
code_t5_decision_tree_train_data.csv:
CodeT5 で使用したデータ及び予測結果をまとめている.
(ID,実際の変更,変数名,マスキングデータ,予測トークン,コサイン類似度,最小編集距離,Jaccard 係数,決定木なしの予測)
-
regular_expression_decision_tree_train_data.csv:
ID とメトリクスを格納している.
(ID,実際の変更,変数名,代入式,関連コード要素(7種類),型名要素との類似度(コサイン類似度,最小編集距離,Jaccard 係数),代入式要素との類似度(コサイン類似度,最小編集距離,Jaccard 係数),決定木なしの予測)
|
(C) 2024-2025 Hirohisa Aman <aman (at) ehime-u.ac.jp>
and
Yahiro Mori